Websoft

суббота, декабря 06, 2008

Проходной балл для теста - как его определить

Общался с клиентами на прошлой неделе и в очередной раз столкнулся с вопросом определения проходного балла (критерия успешности прохождения) для тестов. Меня спросили как это делать с помощью WebTutor. Я сказал пару слов про "Тест-Эксперт", но был вынужден признать что более 90% наших клиентов делают это "на глаз".

Общечеловеческая мудрость, наблюдаемая мной на регулярной основе, состоит в том, чтобы устанавливать проходной балл равным 80% (видимо что-то от законе Паретто). На вопрос "Почему?" обычным ответом является "Почему бы и нет". Мне кажется что почти никогда не используются ни методы экспертной оценки вроде метода Ангоффа ни статистические методы с пилотными группами. При этом на основе проходного балла многими делаются серьезные выводы, особенно в ходе аттестации. Теперь еще увольнять людей активнее начнут по итогам аттестации. Не придется ли аргументировать итоги тестирования в суде?

Коллеги, поделитесь - кто какие методы использует и каков ваш опыт??

12 комментариев:

Каллиников Павел комментирует...

К сожалению, да - используем те же 75-80% для сертификационных тестов. 55-60% для тестов, где надо померить знания на уровне не хуже "тройки".
Иногда используем рейтинг, в котором вклад теста пропорционален числу набранных баллов.
Но все это получается "на глазок", потому что неоткуда взять критерий сложности самих вопросов.
Правда от разработчикам тестов требуется, чтобы они соблюдали некоторые простые тестологические правила, которые должны (по идее) исключать совсем уж вопиющие результаты.

Анонимный комментирует...

А можно задачу уточнить?
Процент чего определяем? Если вопрос в том, чтобы уволить к примеру 15 %, то оставляя за рамками обсуждения законность этого, можно утвержать, что ответ на поверхности. Отсекаем нижние 15 %.
Э.Б.

Алексей Корольков комментирует...

Если нужно найти 10% самых умных или глупых проходной балл вообще не нужен. Я же говорил о тестах, цель которых определить обладает или нет человек необходимыми знаниями для выполнения определенной работы, продаж или эксплуатации продукта, понимания законодательства и процедур и т.п.

Алексей Корольков комментирует...

Павлу: и как? Жадоб от тестируемых не было?

Анонимный комментирует...

Если речь идет о прогностичной валидности теста, то вопрос о проходном балле не может стоять. Главный мтод здесь один: дисперсионный анализ.
Его методология описана и Крыштановским (Социологический анализ данных с помощью SPSS).
И кста в оценке результатов ЕГЭ эти методики описаны. В том числе методэкспертной оценки. При последнем опять же устанавливается необходимый уровень знания экспертной оценкой
Э.Б.

Алексей Корольков комментирует...

Эдуард,
кто бы спорил, просто для задач вроде ЕГЭ, SAT, Toefl где есть статистика о тысячах тестируемых, такие методы применимы. В случае с создание корпоративного теста с помощью которого пройдут тестирование 1000 человек и пилотная группа может состоять из 50 нужны другие решения.

Каллиников Павел комментирует...

Алексею.
Жалобы, иногда, бывают. Но, не столько к методике тестирования, сколько к правильности конкретных вопросов.

Наша основная аудитория - студенты. Для них тест (даже итоговый) по какой-то дисциплине, конечно, важен, но не настолько, чтобы обсуждать методику. В общем, как-то именно в этой области они не сильно на нас наседают. Верят, если не в объективность теста, то в его адекватность. В то, что он что-то измеряет, и, в основном, ему можно доверять.
Во многом их благодушие исходит из того, что тест в рейтинге занимает не более 50%. Я так думаю.

Все это, конечно, не больно научно, но в нашем случае особо выбирать не приходится. При наличии сотни (в перспективе 200-300) авторов слабо представляющих правила тестирования и слабо заинтересованных материально, нам приходится идти по пути разумной достаточности :)

Алексей Корольков комментирует...

Павел,
я мало понимаю специфику ВУЗа - объясните мне как происходит (если происходит) обоснование связи итогов теста и оценок в зачетке. Есть норматив по изучению дисциплины - набор знаний и навыков которыми должен овладеть студент и оценки по этой дисциплине (которые не в % от максимума теста). Преподаватель разрабатывает тест и говорит - пятерка (полное освоение в рамках требований) это 90%, четверка - 70% и т.п. Как Вы это доказываете проверяющим из минобра? Или в этом нет необходимости?

Анонимный комментирует...

Алексей, ну Крыштановский собственно и обсуждает вопрос, можно ли переносить результаты с небольшой выборки на генеральную совокупность. Это область статистики. Можно и с группы в 50 человек переносить на 1000. Вопрос скорее в том, что этим практически никто не занимается.
Я в Возрождении для операционистов создал тест из 40 вопросов. В котором были три уровня сложности. Формировал его на выборке в 20-25 человек (2 филиала).
1 уровень - уровень новичков
2 - средний или переходной
3 -экспертов.
Экспертов определяли рук-ли филиалов. Первичный тест - 120 вопросов.
Четко определились вопросы, на которые только эксперты и могли ответить. Ну и т.д...
В сбере я подобным образом тесты формировал на выборке в 50-55 человек
Мне валидность теста понятна. На основе ее и проводили сертификацию.

Каллиников Павел комментирует...

Алексей, на самом деле мы, как я уже писал, не полагаемся на результаты теста на все 100%. Выставление итоговой оценки за семестр происходит на основе рейтинга, в котором тест - только часть. В конечном итоге, субъективное мнение преподавателя (как и при очном обучении) играет не меньшую роль.
У нас хранится вся переписка студента и тьютора (как форумная, так и в виде писем), так что в каждом конкретном случае можно посмотреть обоснованность оценок.
Проверяющие, как правило, так глубоко не копают, и вопросы тестологии интересуют их в последнюю очередь.

Анонимный комментирует...

А у нас в компании принят именно этот традиционный стандарт соотвествия по большинству тестов: 80%. Точнее 100-80%. Логика что-то вроде того, что работодателю нужен сотрудник 100%-но соотвествующий требованиям, и если это не так в пределах 20%, работодатель простит, но все что хуже - неприемлимо. Собственно никаких "четверок", "троек" и "двоек".

Elena Lokteva комментирует...

Когда я работала в вузе, у меня на курсах компьютерной графики вес тестов в общей оценке был всего 25%. Были еще задания, где надо было просто по инструкции что-то аккуратно проделать - тоже 25%. И 50% - за творческие задания. На курсе было порядка 15 контрольных точек, примерно поровну каждого вида.
Из перечисленных выше видов заданий только тесты проверяются автоматически. Все остальное - вопрос с открытым ответом, к которому можно аттачить файлики с выполненным заданием, т.е. требует проверки преподавателем. Это, конечно, очень утомительно, и я много раз слышала фразы типа "Буду я еще время тратить! Пусть зубрят!". Но я на это шла сознательно, и других подбивала. Многие преподы ворчали, но проверяли. :)

К концу курса можно было ставить автоматом: итоговая взвешенная оценка не обманывала ни меня, ни слушателей. Все комментарии по всем заданиям можно было в любой момент посмотреть, форум по курсу со всеми вопросами - тоже пожалста. На нем же, кстати, и галерея лучших работ вывешивалась, можно было их обсуждать и все такое.
Тесты были в основном для самопроверки, чтоб понять, где остались дырки, и почитать еще, что мои слушатели и делали. Однажды даже предложила группе, мол, могу вообще убрать их из курса - попросили оставить!
В крайне редких случаях получались спорные итоговые оценки, и я предлагала пересдать любое задание на выбор.
Конечно, я понимаю, что курсы по компьютерной графике достаточно специфичны, и что могут быть курсы, в которых творчества от слушателей не требуется. Но знаю, где можно поучиться на "курсах" по графическому дизайну, в которых судьбу слушателя решает итоговый тест после того, как он почитал лекции.

К чему я все это. Да к тому, что чаще всего тесты создаются только потому, что кажется, что так проще, и что "так все нормальные делают". Стоит ли говорить здесь о каких-то методиках? :)
Я сама, если честно, не вникала специально ни в какие методики по разработке тестов. Методом тыка пробовала, чем не статистический метод? ;) Следила за статистикой в отчетах по тестированию. Много отловила ляпов, исправила, и дальше все работало как часы.