О размере выборки (замечание к кейсу оценки эффективности очного и дистанционного обучения)
Одним из главных контраргументов против моих кейсов является тезис "размер выборки мал".
Решил я ответить на этот тезис. Раз и навсегда.
Но не обижайтесь, если кому то покажется, что "папа, ты сейчас с кем говорил?".
Напомню, в Кейс по оценке эффективности очного и дистанционного обучения была группа очников - 13 человек и группа дистанционников - 24 человека.
T критерий Стьюдента показывает значимость различий. Вроде бы этого достаточно, но мне возражают: группы маленькие, нужно побольше.
Ок, давайте посчитаем мощность теста при заданных параметрах.
В нашем случае размер группы можно определить исходя из следующих параметров:
d - Effect size Cohen's d - думаю, вы сможете сами в excel высчитать величину 0,9.
уровнем значимости - он у нас по умолчанию - 0, 05
После чего мы заходим в любимую программу аналитиков Rstudio и считаем мощность теста.
library(pwr)
pwr.t2n.test(n1 = 13, n2 = 24, d=.9, sig.level=.05)
t test power calculation
n1 = 13
n2 = 24
d = 0.9
sig.level = 0.05
power = 0.7194678
alternative = two.sided
Мощность теста 0, 72. Только очень придирчивый аналитик скажет, что мы не дотягиваем до уровня мощности в 0, 8. Но я тогда скажу, что нам направленность гипотезы известна, и мы можем применить односторонний тест, тогда все условия будут соблюдены.
А кто то скажет: а вообще имеет смысл использовать Post hoc анализ? А именно: мы должны были изначально определить потребный уровень effect cize, а исходя из него танцевать. А для этого нужно понимать глубоко тест.
И кто нибудь еще задастся вопросом: а мы вообще правомочны T критерий Стьюдента использовать?
И тогда в данном случае все становится проще
Коллеги, будут возникать задачки по размеру выборки - обращайтесь)))
Решил я ответить на этот тезис. Раз и навсегда.
Но не обижайтесь, если кому то покажется, что "папа, ты сейчас с кем говорил?".
Напомню, в Кейс по оценке эффективности очного и дистанционного обучения была группа очников - 13 человек и группа дистанционников - 24 человека.
T критерий Стьюдента показывает значимость различий. Вроде бы этого достаточно, но мне возражают: группы маленькие, нужно побольше.
Ок, давайте посчитаем мощность теста при заданных параметрах.
В нашем случае размер группы можно определить исходя из следующих параметров:
d - Effect size Cohen's d - думаю, вы сможете сами в excel высчитать величину 0,9.
После чего мы заходим в любимую программу аналитиков Rstudio и считаем мощность теста.
library(pwr)
pwr.t2n.test(n1 = 13, n2 = 24, d=.9, sig.level=.05)
Результат
Two-sample t test power calculationt test power calculation
n1 = 13
n2 = 24
d = 0.9
sig.level = 0.05
power = 0.7194678
alternative = two.sided
Мощность теста 0, 72. Только очень придирчивый аналитик скажет, что мы не дотягиваем до уровня мощности в 0, 8. Но я тогда скажу, что нам направленность гипотезы известна, и мы можем применить односторонний тест, тогда все условия будут соблюдены.
А кто то скажет: а вообще имеет смысл использовать Post hoc анализ? А именно: мы должны были изначально определить потребный уровень effect cize, а исходя из него танцевать. А для этого нужно понимать глубоко тест.
И кто нибудь еще задастся вопросом: а мы вообще правомочны T критерий Стьюдента использовать?
И тогда в данном случае все становится проще
ПыСы.
Подробнее про размер выборки здесь Эмпирические правила статистики, или Что нужно помнить о размерах выборкиКоллеги, будут возникать задачки по размеру выборки - обращайтесь)))
Комментарии
Именно здесь и кроется ответ в выборке из 30 и более испытуемых (в свое время с результатами исследований Cohen я познакомился на другом ресурсе). Эдуард, все верно про мощность теста, который практически равен 0,8. Формально все замечательно. Но фактически основная переменная (уровень подготовки специалистов по данной теме) перекошена из-за игнорирования важнейших факторов: уровня начальной подготовки и качества дистанционного курса. Смотрим на приведенном Вам ресурсе предупреждение: БОЛЬШИЕ ВЫБОРКИ НУЖНЫ, КОГДА ЗАВИСИМАЯ ПЕРЕМЕННАЯ ПЕРЕКОШЕНА. Это и есть мой основной аргумент в отстаивании большой выборки или изменении условий тестирования (замер начального уровня подготовки).
30 - это костыли для тех, кто не особо понимает механику.
Повторюсь, что в нашем случае мы должны и можем говорить про размер выборки только в том случае, если понимаем, каков должен быть размер эффекта.
Т.е. по сути мы должны понимать, что мы можем ожидать от очников и дистанционников.
в нашем случае наши данные вполне себе устраивают нас, поскольку мы имеем практически всю выборку в 37 человек.
не знаю, где вы там про перекос прочитали, но перекос не требует бОльшего размера выборки, перекос требует понимания формы распределения)
Эдуард, ссылаясь на достигнутую мощность теста, при этом игнорируя важнейшие факторы в оценке обучения, Вы фактически подгоняете статистику под нужные выводы. Чем-то напоминает результаты проводимых социологических опросов (( При этом, когда я упоминаю эти факторы, в своих ответах Вы вообще их игнорите, как будто бы их не существует вовсе. Всё бы ничего, если бы такие выводы не приносили вреда, но дело в том, что формальное применение статистического анализа приводит к неверным выводам, а соответственно и к НЕПРАВИЛЬНЫМ УПРАВЛЕНЧЕСКИМ РЕШЕНИЯМ.
Вы говорили про критерий Стьюдента, а теперь ссылаетесь на раздел о регрессии.
Извините, что приходится вам говорить такое, но: регрессия и критерий Стьюденат это не одно и тоже
И дальше: вы заговорили о перекошенности.
Так что такое перекошенность зависимой переменной?