Клайн Пол

Доступно сайт Wodolei.ru

Следовательно, имеет смысл подвергать корреляции между за-
даниями факторному анализу и выбирать те задания, которые насы-
щают факторы. Процедуры и логические основания для факторного
анализа заданий при конструировании тестов уже полностью обсуж-
далось, поэтому здесь будут только кратко указаны необходимые
шаги.
(1) Как для анализа заданий.
(2) Как для анализа заданий.
(3) Как для анализа заданий.
(4) Вычислите корреляционную матрицу для всех заданий (по
формуле произведения моментов Пирсона).
(5) Подвергните корреляционную матрицу факторному анализу
с вращением.
(б) Отберите задания, нагруженные генеральным фактором или
другими факторами (см. пункт "Замечания" ниже).
(7) Проведите тестирование с отобранными заданиями и проверь-
те результаты.
(8) Валидизируйтетесттакже, каквшаге 12анализазаданий (см.
выше).
ЗАМЕЧАНИЯ
Для факторного анализа желательна настолько большая выборка,
насколько возможно. Если размер выборки не больше утроенного
162
числа заданий теста, то обязательно необходимы повторные испыта-
ния.
В шкалах аттитюдов может присутствовать генеральный фактор:
в нашем примере это аттитюд к евреям. Однако, можно возразить,
что этот аттитюд сам зависит от таких факторов, как догматизм
(Rokeach, 1960), авторитарные черты личности (АсЗогпоидр., 1950),
или от личностных факторов, таких как фактор Кэттелла L - подо-
зрительность. Если это так, тогда факторная структура шкалы атти-
тюдов не будет явно выраженной, и любой генеральный фактор мог
бы проявляться только в факторах второго или даже более высокого
порядка. По этой причине факторный анализ как метод конструиро-
вания тестов должен использоваться только тогда, когда есть веские
основания a priori предположить наличие явно выраженного гене-
рального фактора или другой подобной структуры.
Краткий обзор и заключение
(1) Определены объективные тесты и указаны их преимущества.
(2) Предложена таксономия тестов, основывающаяся на двух па-
раметрах: стимульно-инструктивной ситуации и особенностях оце-
нивания ответов. Это позволяет разработчику тестов конструировать
разнообразные формы заданий.
(3) Проведено различие между объективными тестами способно-
стей, темперамента и динамики.
(4) Сформулированы некоторые практические советы по констру-
ированию объективных тестов, прежде всего тестов личности и моти-
вов.
(5) Обсуждены пути преодоления трудностей при разработке тес-
тов.
(6) Обсуждены специфические проблемы объективных тестов ди-
намики.
(7) Приведен список основных принципов конструирования тес-
тов мотивов, основывающийся на психологических публикациях.
(8) Обсуждены различия между тестированием силы мотивов и
целей.
(9) Описано конструирование проективных тестов, после доказа-
тельства значимости разработки таких тестов.
(10) Кратко обсуждено конструирование других тестов мотивов.
(II) Описано конструирование шкал настроений.
(12) Обсуждено конструирование тестов Лайкерта.
Глава 5. Вычисление надежности тестов
В первой главе были кратко обсуждены два основных для психо-
метрических тестов понятия - надежность и валидность. В этой
главе будут описаны методы и процедуры установления надежности
теста. Как уже отмечалось, в смысле практического применения по-
нятие надежности имеет два значения: одно связано с внутренней
согласованностью теста, а другое - с воспроизводимостью результа-
тов. Оба они важны, хотя на практике второе существенно для раз-
работки эффективных тестов, тогда как первое, связанное с внутрен-
ней согласованностью, является значением надежности, учитывае-
мым в классической теории погрешностей тестов.
Однако, с точки зрения разработчика психологических тестов,
существуют различные практические вопросы, касающиеся надеж-
ности тестов, которые следовало бы обсудить: о преимуществах и
недостатках различных способов вычисления надежности, о важно-
сти надежности по внутренней согласованности на практике, в отли-
чие от теории, а также об источниках неудовлетворительной надеж-
ности. Эти вопросы и будут рассмотрены в данной главе.
Важность надежности по внутренней согласованности
при конструировании тестов
Понятие надежности по внутренней согласованности является
центральным для теории погрешностей измерения: чем выше надеж-
ность, тем меньше погрешность и тем ближе значение показателя по
тесту к истинному показателю (см. гл. 1). Из этого делается очевид-
ный вывод: высокая внутренняя согласованность должна быть основ-
ной целью разработчиков тестов, и это точка зрения многих специа-
листов по психометрии (напр., Cronbach, 1970), отражаемая и в
обзорах тестов во многих изданиях Mental Measurement Yearbook
(Buros).
Однако, Кэттелл и его коллеги, являющиеся авторами некоторых
из наиболее известных тестов во многих областях психологических
измерений - например , Культурно-свободного теста интеллекта
(Culture-Fair Intelligence Test, CFIT; Cattell и Cattell, 1960), Шест-
надцатифакторного личностного опросника (16 PF Personality Test;
Cattell и др., 1970), Теста анализа мотивов (Motivation Analysis Test;
Cattell и др., 1970) -постоянно утверждали, что высокая внутренняя
согласованность может быть (а часто и является в таких ложных
областях, как темперамент и динамика) противоположностью высо-
кой валидности. Поскольку валидность определена как степень, в
которой тест измеряет то, для измерения чего он предназначен, то
164
достижение ее должно быть основной целью при разработке тестов.
Надежность важна лишь постольку, поскольку она может обеспечить
высокую валидность. Как же тогда могло оказаться, что Кэттелл
придерживается точки зрения, не только противоположной мнению
большинства специалистов в этой области, но и такой, которая про-
тиворечит статистическим основаниям разработки тестов?
Значение истинных показателей
В главе 1 большое внимание было уделено определению значения
истинных показателей - показателей для некоторой бесконечной
генеральной совокупности заданий - потому что это понятие явля-
ется определяющим.
Поскольку я буду утверждать здесь, что важность надежности по
внутренней согласованности была в психометрии излишне преувели-
чена (то есть я соглашаюсь с мнением Кэттелла) и что она может
быть антитезисом валидности, то существенно важно указать, что я
полностью принимаю статистические аргументы, выдвинутые ранее.
Однако то, что не было вынесено на рассмотрение при обсуждении
математических методов (и то, почему понятие истинного показате-
ля является определяющим) - это психологическая значимость ис-
тинных показателей в том виде, как они определены теоретически.
Эту точку зрения лучше всего пояснить на примерах.
Предположим, что мы пытаемся измерить такую переменную,
как вербальные способности. Весьма вероятно, что задания, которые
представляются затрагивающими вербальные способности, в дейст-
вительности их и затрагивают; например, словарный запас, опреде-
ления, синонимы, антонимы, конструирование искусственных язы-
ков с грамматикой, составление конспектов, понимание и способ-
ность к подведению итогов. То есть можно сказать, что переменная
"вербальные способности" является относительно однородным набо-
ром ясно определенных и очерченных навыков. Было бы очень уди-
вительно, если бы испытуемые, хорошо составляющие краткие кон-
спекты, были не очень понятливы и имели плохой словарный запас.
Это означает, что существуют веские психологические основания
для того, чтобы предполагать, что соответствующая выборка заданий
будет внутренне согласована, однородна и надежна, и что любые
задания, которые не могли быть определены таким образом, по всей
вероятности, измеряют некоторую другую переменную, а не вер-
бальные способности. Следовательно, в этом случае можно было бы
ожидать, что выборочный тест будет высоко надежным, потому что
генеральная совокупность истинных заданий была сама однородна. В
самом деле, большинство эффективных тестов способностей дейст-
165
вительно имеют высокие значения коэффициента О., поскольку в
сфере способностей каждый фактор является обычно четко опреде-
ленным и дискретным. Если тест валиден - то есть если его задания
взяты из той генеральной совокупности заданий, которую мы имели
в виду - то в сфере способностей высокая надежность является,
вероятно; обязательным, условием.
Однако, этот пример также дает нам основания для аргумента
против слишком высокой надежности, то есть речь идет о том, что
высокая надежность является антитезой высокой валидности. Давай-
те представим, что наш тест вербальных способностей состоит из
вопросов по антонимам, синонимам, пониманию, словарному запасу
и краткому конспективному изложению. Такие средства измерения,
при тщательной их разработке, имели высокие значения надежнос-
ти, порядка 0,90. Однако, если бы в стремлении достичь высокой
надежности мы использовали только один тип заданий, скажем, за-
дания на антонимы, то это значение надежности могло, несомненно,
возрасти. Однако, (и надеюсь, большинству читателей это понятно),
очень маловероятно, чтобы этот последний тест вербальных способ-
ностей имел бы более высокую валидность.
В терминах классической модели погрешностей измерений мы
можем ясно увидеть, почему этот тест с более высокой надежностью
является менее валидным. Высокая надежность теста антонимов от-
ражает тот факт, что наша выборка заданий теста (на антонимы) в
высокой степени коррелирует с гипотетической генеральной сово-
купностью заданий, то есть со всеми возможными заданиями на
антонимы. Однако, этот истинный показатель отражает не вербаль-
ные способности, а только способность подбирать антонимы. Таким
образом, можно создать валидные тесты, ограничивая выбор заданий
и конструируя генеральную совокупность заданий, однако это будет
достигнуто только за счет уменьшения валидности. Так, из этого
примера можно видеть, каким образом утверждение о том, что высо-
кая надежность противостоит высокой валидности, не является про-
тиворечащим классической модели погрешностей измерения. Как
отмечалось, все зависит от психологического значения истинных по-
казателей (в данном примере отличия вербальных способностей от
способности подбирать антонимы).
В нашем примере из сферы способностей большинство разработ-
чиков тестов не сделали бы такой ошибки, создавая высоконадежный
тест путем ограничения себя лишь одним типом заданий, потому что
конструкт вербальных способностей хорошо понятен и одних заданий
на антонимы для него недостаточно. Однако в других областях пси-
хологических измерений, особенно личности и мотивов, это не так.
166
Многие разработчики тестов, например, Кэттелл, Гилфорд и Айзенк
для очерчивания области и определения конструктов используют
факторно-аналитические методы.
Следовательно, в том случае, когда переменная не может быть
определена a priori, существует реальная опасность создания тестов
с такой высокой надежностью, что, и это существенно, генеральная
совокупность заданий будет настолько ограничена, что не будет
представлять сколь-нибудь значительного психологического интере-
са, или, говоря статистическим языком, истинный показатель будет
очень специфичным и не будет коррелировать практически ни с чем.
Это в особенности имеет место тогда, когда мы имеем дело с попыткой
измерить такую переменную, как экстраверсия, которая является
некоторым кластером или синдромом характеристик. Обычно счита-
ется, что экстраверсия (напр., Eysenck и Eysenck, 1975) включает в
себя социабельность, разговорчивость, бодрость, оптимистичность,
уверенность в себе и, помимо всего прочего, интерес к внешнему
миру, а не внутреннему. Шкала экстраверсии, которая содержит в
себе все эти переменные, будет однородной, потому что они вместе
действительно образуют кластер. Однако, она неизбежно будет ме-
нее однородна и, следовательно, будет иметь меньшую надежность,
чем шкала, построенная по такой составляющей этого фактора, как
социабельность. Хотя, разумеется, последняя как тест экстраверсии
будет, несомненно, менее валидной.
Из этого рассмотрения должно быть ясно, что высокая надежность
по внутренней согласованности может противоречить высокой ва-
лидности тогда, когда измеряемая переменная охватывает широкую
область. Это утверждение, как мы уже видели, никоим образом не
обесценивает роль статистической теории погрешностей измерения,
из которой следует, что для того, чтобы результаты измерения не
зависели от погрешностей, существенно важно добиться высокого
значения надежности. Все зависит от значения истинных показате-
лей и состава генеральной совокупности заданий. Из этого следует,
что тест должен быть сделан настолько внутренне согласованным,
насколько возможно, но только не за счет ограничения содержания
заданий. Следовательно, при конструировании тестов необходимо
иметь четкое представление о заданиях, которые мы собираемся
включить в окончательную версию теста (в том, что касается их
содержания), а не просто отбирать из множества заданий те, которые
обеспечивают наибольшее значение надежности. В противном слу-
чае мы создадим тесты ложных особенностей (bloated specifics) (Cat-
tell, 1973). Таким образом, можно заключить, как это и предполага-
ется в нашей модели погрешностей измерения, что надежность явля-
ется существенной характеристикой, но не главной.
Источники неудовлетворительной надежности
Теперь мы должны обратиться к одному важному вопросу, с кото-
рым теория погрешностей измерения сталкивается, однако на реше-
ние которого она не направлена - к вопросу об источниках неудов-
летворительной надежности. Этот вопрос имеет огромное значение
для практики разработки тестов, вероятно даже большее, чем для
теории, поскольку если эти источники нам известны, то становится
возможным, по крайней мере в некоторых случаях, устранить их
влияние при помощи процедур конструирования тестов.
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47

Введение в психометрическое проектирование

А-П

П-Я