评估词汇|newbb电子平台-newbb电子平台

核心评估与评价术语

国家教育测量委员会(NCME)术语

(所选术语及其定义如下. 完整术语表)

能力/参数- 项目反应理论(IRT), a theoretical value indicating the level of a test taker on the ability or trait measured by the test; analogous to the concept of 真实的分数 in classical test theory.
〇能力测试 使用测试来评估一个人在某些特定认知领域的当前表现, 精神运动, 或者生理功能.
访问/可访问性- 测试中的项目或任务使尽可能多的考生能够证明他们在目标构念上的立场，而不受与被测构念无关的项目特征的阻碍的程度.
成就测验—— 一种测试，用来衡量考生在接受指导的内容领域中所获得的知识或技能的程度.
评估- 从试验和其他来源获得信息的任何系统方法, 用来推断人的特点, 对象, or 项目; a process designed to systematically measure or evaluate the characteristics or performance of individuals, 项目, 或者其他实体, for purposes of drawing inferences; sometimes used synonymously with test.
评估能力 关于考试的知识，支持对考试成绩的有效解释，以达到预期的目的, 比如关于测试开发实践的知识, 考试成绩解释, 对有效分数解释的威胁, 评分的可靠性和精度, 测试管理, 和使用.
〇真实评估 一种评估，包含被判断为衡量在现实环境中newbb电子和使用知识的能力的项目.
成就水平/熟练程度- 对考生在某一特定知识或技能领域的能力水平的描述, 通常定义为连续统上的有序范畴, 通常被标记为从“基本”到“高级”,或者从“新手”到“专家”,“这构成了对表现进行分类的广泛范围.
基准评估- 在课程安排的特定时间在教育环境中进行的评估, 根据一套明确的长期学习目标，评估学生的知识和技能. 看到 中期评估
偏差- 1. 在测试公平性方面, 构建不充分表征或构建不相关的测试分数成分，这些成分会对不同组的考生的表现产生不同的影响，从而影响对测试分数的解释和使用的可靠性/精度和有效性. 2. 在统计学或测量学中，考试分数中的系统误差. 看到 预测偏差，构建代表性不足，构建无关性，公平性.
认证, 一个过程，通过这个过程，个人被认可(或认证)为在某一领域展示了某种程度的知识和技能. 看到 执照,证书.
〇经典测试理论 一种心理测量学理论，其基础是个体在测试中观察到的分数是被测试者的真实分数分量和独立随机误差分量的总和.
构造- 设计测试要测量的概念或特征.
构建无关方差 由于外来因素扭曲了分数的含义而导致的考生分数的差异, ,从而, 降低所建议的解释的有效性.
趋同证据—— 基于考试成绩和其他相同或相关结构的测量之间的关系的证据.
的认证, 授予某人, 根据某些权威, 一个证书, 比如证书, 许可证, 或文凭, 这表示在某些知识或活动领域的表现达到了可接受的水平.
标准参照分数解释- 考试成绩对个人的意义或对特定群体的平均分数的意义, 表明个人或群体的表现水平与某些已定义的标准领域的关系. 标准参考解释的例子包括对分数的比较, 基于期望表的解释, 和领域参考分数解释(与 标准参照分数解释.)
〇扣分 分数:分数表上的一个特定点, 分数达到或高于该点的, 解释, 或者与低于这个分数的人有不同的行为.
衍生分数—— 一种分数量表，将原始分数转换成该量表以增强其解释能力. 例如百分位排名、标准分数和年级等效分数.
〇经验证据 证据:基于某种形式的数据的证据，而不是基于逻辑或理论的证据.
测量误差 差值:观察到的分数与相应的真实分数之间的差值. 看到 测量标准误差、系统误差、随机误差 和 真实的分数.
评价- - - - - - 收集信息以对某些节目或表演的质量或价值作出判断的过程. 这个词也用来指判断本身，如“我对他的工作的评价是。 . . . .”
无关方差—— 由于个体之间的差异而产生的测验成绩的变化，这些差异与测验的目的无关. 例如, 要求数学技能和阅读能力超出其内容范围的科学测试将有两个外来方差的来源. 在这种情况下, 学生的科学成绩可能会有所不同, 不仅仅是因为他们在科学成就上的差异, 但也因为他们(无关的)数学和阅读能力的差异. (参见构造无关性.)
形成性评估—— 教师和学生在教学过程中使用的一种评估过程，它提供反馈，以调整正在进行的教学和学习，目的是提高学生达到预期的教学成果.
〇获得分数 在测试中, 差:同一考生在同一考试中取得的两次分数或在不同场合进行的两次相等考试的分数之差, 通常是在治疗前后.
概括性理论 评估可靠性/精度的方法框架，其中通过newbb电子方差分析的统计技术估计各种来源的误差方差. 分析表明，分数的普遍性超出了具体的项目样本, 人, 以及研究的观测条件.
〇高风险考试 一种用于提供具有重要意义的结果的测试, 对个人的直接影响, 项目, 或参与测试的机构. 与 可能发生失事的测试.
内部协议/一致性- 两个或两个以上的评委对考生的工作或表现的一致程度. 看到 两分的可靠性. 评级者之间的信度:评级者之间等级排序的一致性. 看到 两分的协议.
内部可靠性- 同一评分者在给考生的回答打分时的重复程度. 评分过程中的不一致是由评分者内部的影响而不是考生表现的真实差异造成的，这导致了评分者内部的低可靠性.
〇低风险测试 一种用于提供对个体只有轻微或间接影响的结果的测试, 项目, 或参与测试的机构. 与 高风险测试.
精通/精通测试 一种测试，旨在表明考生在某一领域是否达到了规定的能力水平. 看到 扣分，计算机基础精通测试.
调节变量—— 影响其他两个变量之间关系的方向或强度的变量.
标准参照分数解释- 将考生的成绩与特定参考人群的成绩分布进行比较而得出的成绩解释. 对比 标准参照分数解释.
〇客观检验 一种不需要评分者个人解释(主观)就能评分的考试. 包含多项选择、真假和匹配项的测试就是例子.
工作表现评估- 通过完成需要这些技能的任务，考生实际展示了考试所要衡量的技能.
服务标准 内容标准中包含的知识和技能获取水平的描述, 通过性能水平标签(e.g., “基本”, “精通”, “高级”), 陈述不同水平的考生知道和能做什么, 并在区分表现水平的评估量表上削减分数或分数范围. 看到 Cut scores, performance level, performance level descriptor.
〇随机误差 A non-systematic error; a component of test scores that appears to have no relationship to other variables.
〇原始分数 分数:考试中的分数，通常通过计算正确答案的数量来计算, 但更普遍的是项目得分的总和或其他组合.
可靠性/精密- 一组考生的考试成绩在一种测量方法的重复newbb电子中保持一致的程度，因此被推断为可靠的, 和 consistent for an individual test taker; the degree to which scores are free of r和om errors of measurement for a given group. 看到 广义理论，经典测试理论，测量精度.
可靠性系数- 一种无单位指标，反映分数不存在随机测量误差的程度. 看到 普遍性理论.
反应偏差—— 应试者倾向于以一种特定的方式或风格对考试题目做出反应.g., 默许, 选择社会期望的选项 , 在真假测试中选择“真”，产生系统的, 考试成绩中与结构无关的错误.
评分标准- 既定标准, 包括规则, 原则, 和插图, 用于对单个任务和任务群的构造反应进行评分
测量标准误差- 在相同的条件下，一个人从重复的测试(或测试的平行形式)中观察到的分数的标准偏差. 因为这些数据通常是无法收集到的, 测量的标准误差通常由组数据估计. 看到 测量误差.
〇标准制定 这个过程, 通常基础, 使用一个结构化的过程来设定分数，这个过程旨在确定分数，这些分数定义了由性能级别和性能级别描述符指定的不同性能级别.
标准化- 1. 在考试管理中, 维护一致的测试环境，并根据详细的规则和规范进行测试, 这样所有考生在同一场合和不同场合的测试条件都是一样的. 2. 在测试开发中, 建立规范的基础上，从一个具有代表性的样本的个人的测试表现，其中的测试是打算使用.
总结性评估- 对考生的知识和技能的评估，通常在学习计划完成时进行, 比如一个教学单元的结尾.
〇真实得分 在经典测试理论中, 一个人在同一考试的无限份严格平行的表格中所得到的平均分数.
验证- - - - - - 通过对考试分数的预期用途的解释的有效性进行调查的过程.
有效性- 在一定程度上积累的证据和理论支持对考试成绩的特定解释. 如果一个考试成绩有多种不同用途的解释, 每种解释都需要有效性证据.
加权分数/计分- 一种对测试进行评分的方法，对正确的(或诊断相关的)回答给予一定的分数. 在某些情况下, 评分公式对一个项目的一个回应比另一个回应奖励更多的分数.

信息:

登录

位置

连接

信息:

登录

位置

连接

评估术语表

核心评估与评价术语

国家教育测量委员会(NCME)术语