Применение коэффициента ранговой корреляции кендалла. Кендалла коэффициент ранговой корреляции. Из чего следует исходить, определяя тему, объект, предмет, цель, задачи и гипотезу исследования
Коэффициент корреляции Кендалла используется в случае, когда переменные представлены двумя порядковыми шкалами при условии, что связанные ранги отсутствуют. Вычисление коэффициента Кендалла связано с подсчетом числа совпадений и инверсий. Рассмотрим эту процедуру на примере предыдущей задачи.
Алгоритм решения задачи следующий:
Переоформляем данные табл. 8.5 таким образом, чтобы один из рядов (в данном случае ряд x i) оказался ранжированным. Другими словами, мы переставляем пары x и y в нужном порядке и вносим данные в столбцы 1 и 2 табл. 8.6.
Таблица 8.6
x i |
y i | ||
2. Определяем «степень ранжированности» 2-го ряда (y i). Эта процедура проводится в следующей последовательности:
а) берем первое значение неранжированного ряда «3». Подсчитываем количество рангов ниже данного числа, которые больше сравниваемого значения. Таких значений 9 (числа 6, 7, 4, 9, 5, 11, 8, 12 и 10). Заносим число 9 в столбец «совпадения». Затем подсчитываем количество значений, которые меньше трех. Таких значений 2 (ранги 1 и 2); вносим число 2 в графу «инверсии».
б) отбрасываем число 3 (мы с ним уже поработали) и повторяем процедуру для следующего значения «6»: число совпадений равно 6 (ранги 7, 9, 11, 8, 12 и 10), число инверсий – 4 (ранги 1, 2, 4 и 5). Вносим число 6 в графу «совпадения», а число 4 – в графу «инверсии».
в) аналогичным образом процедура повторяется до конца ряда; при этом следует помнить, что каждое «отработанное» значение исключается из дальнейшего рассмотрения (подсчитываются только ранги, которые лежат ниже данного числа).
Примечание
Для того чтобы не совершать ошибок в подсчетах, следует иметь в виду, что с каждым «шагом» сумма совпадений и инверсий уменьшается на единицу; это понятно, если учесть, что каждый раз одно значение исключается из рассмотрения.
3. Подсчитывается сумма совпадений (Р) и сумма инверсий (Q) ; данные вносятся в одну и трех взаимозаменяемых формул коэффициента Кендалла (8.10). Проводятся соответствующие вычисления.
t (8.10)
В нашем случае:
В табл. XIV Приложений находятся критические значения коэффициента для данной выборки: τ кр. = 0,45; 0,59. Эмпирически полученное значение сравнивается с табличным.
Вывод
τ = 0,55 > τ кр. = 0,45. Корреляция статистически значима для 1-го уровня.
Примечание :
При необходимости (например, при отсутствии таблицы критических значений) статистическая значимость t Кендалла может быть определена по формуле следующего вида:
(8.11)
где S* = P – Q + 1, если P < Q , и S* = P – Q – 1, если P > Q.
Значения z для соответствующего уровня значимости соответствуют мере Пирсона и находятся по соответствующим таблицам (в приложение не включены. Для стандартных уровней значимости z кр = 1,96 (для β 1 = 0,95) и 2,58 (для β 2 = 0,99). Коэффициент корреляции Кендалла является статистически значимым, если z > z кр
В нашем случае S* = P – Q – 1 = 35 и z = 2,40, т. е. первоначальный вывод подтверждается: корреляция между признаками статистически достоверна для 1-го уровня значимости.
Ранговый коэффициент корреляции характеризует общий характер нелинейной зависимости: возрастание или убывание результативного признака при возрастании факторного. Это показатель тесноты монотонной нелинейной связи.Назначение сервиса . С помощью данного онлайн-калькулятора производится расчет коэффициента ранговой корреляции Кендэла по всем основным формулам, а также оценка его значимости.
Инструкция . Укажите количество данных (количество строк). Полученное решение сохраняется в файле Word .
Предложенный Кендэлом коэффициент строится на основе отношений типа «больше –меньше», справедливость которых установлена при построении шкал.
Выделим пару объектов и сравним их ранги по одному признаку и по другому. Если по данному признаку ранги образуют прямой порядок (т.е. порядок натурального ряда), то паре приписывается +1, если обратный, то –1. Для выделенной пары соответствующие плюс – минус единицы (по признаку X и по признаку Y) перемножаются. Результат, очевидно, равен +1; если ранги пары обоих признаков расположены в одинаковой последовательности, и –1 , если в обратной.
Если порядки рангов по обоим признакам у всех пар одинаковы, то сумма единиц, приписанных всем парам объектов, максимальна и равна числу пар. Если порядки рангов всех пар обратны, то –C 2 N . В общем случае C 2 N = P + Q, где P – число положительных, а Q – отрицательных единиц, приписанных парам при сопоставлении их рангов по обоим признакам.
Величина называется коэффициентом Кендалла.
Из формулы видно, что коэффициент τ представляет собой разность доли пар объектов, у которых совпадает порядок по обоим признакам (по отношению к числу всех пар) и доли пар объектов, у которых порядок не совпадает .
Например, значение коэффициента 0,60 означает, что у 80% пар порядок объектов совпадает, а у 20% не совпадает (80% + 20% = 100%; 0,80 – 0,20 = 0,60). Т.е. τ можно трактовать как разность вероятностей совпадения и не совпадения порядков по обоим признакам для наугад выбранной пары объектов.
В общем случае расчет τ (точнее Р или Q) даже для N порядка 10 оказывается громоздким.
Покажем, как упростить вычисления.
Пример . Зависимость между объемом промышленной продукции и инвестициями в основной капитал по 10 областям одного из федеральных округов РФ в 2003 году характеризуется следующими данными:
Вычислите ранговые коэффициенты корреляции Спирмена и Кендэла. Проверить их значимость при α=0,05. Сформулируйте вывод о зависимости между объемом промышленной продукции и инвестициями в основной капитал по рассматриваемым областям РФ.
Решение
. Присвоим ранги признаку Y и фактору X.
Упорядочим данные по X.
В ряду Y справа от 3 расположено 7 рангов, превосходящих 3, следовательно, 3 породит в Р слагаемое 7.
Справа от 1 стоят 8 ранга, превосходящих 1 (это 2, 4, 6, 9, 5, 10, 7, 8), т.е. в Р войдет 8 и т.д. В итоге Р = 37 и с использованием формул имеем:
X | Y | ранг X, d x | ранг Y, d y | P | Q |
18.4 | 5.57 | 1 | 3 | 7 | 2 |
20.6 | 2.88 | 2 | 1 | 8 | 0 |
21.5 | 4.12 | 3 | 2 | 7 | 0 |
35.7 | 7.24 | 4 | 4 | 6 | 0 |
37.1 | 9.67 | 5 | 6 | 4 | 1 |
39.8 | 10.48 | 6 | 9 | 1 | 3 |
51.1 | 8.58 | 7 | 5 | 3 | 0 |
54.4 | 14.79 | 8 | 10 | 0 | 2 |
64.6 | 10.22 | 9 | 7 | 1 | 0 |
90.6 | 10.45 | 10 | 8 | 0 | 0 |
37 | 8 |
По упрощенным формулам:
где n - объем выборки; z kp - критическая точка двусторонней критической области, которую находят по таблице функции Лапласа по равенству Ф(z kp)=(1-α)/2.
Если |τ| < T kp - нет оснований отвергнуть нулевую гипотезу. Ранговая корреляционная связь между качественными признаками незначима. Если |τ| > T kp - нулевую гипотезу отвергают. Между качественными признаками существует значимая ранговая корреляционная связь.
Найдем критическую точку z kp
Ф(z kp) = (1-α)/2 = (1 - 0.05)/2 = 0.475
Найдем критическую точку:
Так как τ > T kp - отвергаем нулевую гипотезу; ранговая корреляционная связь между оценками по двум тестам значимая.
Пример . По данным об объеме строительно-монтажных работ, выполненных собственными силами, и численности работающих в 10 строительных компаниях одного из городов РФ, определить зависимость между этими признаками с помощью коэффициента Кендела.
Решение
находим с помощью калькулятора .
Присвоим ранги признаку Y и фактору X.
Расположим объекты так, чтобы их ранги по X представили натуральный ряд. Так как оценки, приписываемые каждой паре этого ряда, положительные, значения «+1», входящие в Р, будут порождаться только теми парами, ранги которых по Y образуют прямой порядок.
Их легко подсчитать, сопоставляя последовательно ранги каждого объекта в ряду Y с стальными.
Коэффициент Кендэла
.
В общем случае расчет τ (точнее Р или Q) даже для N порядка 10 оказывается громоздким. Покажем, как упростить вычисления.
или
Решение
.
Упорядочим данные по X.
В ряду Y справа от 2 расположено 8 рангов, превосходящих 2, следовательно, 2 породит в Р слагаемое 8.
Справа от 4 стоят 6 ранга, превосходящих 4 (это 7, 5, 6, 8, 9, 10), т.е. в Р войдет 6 и т.д. В итоге Р = 29 и с использованием формул имеем:
X | Y | ранг X, d x | ранг Y, d y | P | Q |
38 | 292 | 1 | 2 | 8 | 1 |
50 | 302 | 2 | 4 | 6 | 2 |
52 | 366 | 3 | 7 | 3 | 4 |
54 | 312 | 4 | 5 | 4 | 2 |
59 | 359 | 5 | 6 | 3 | 2 |
61 | 398 | 6 | 8 | 2 | 2 |
66 | 401 | 7 | 9 | 1 | 2 |
70 | 298 | 8 | 3 | 1 | 1 |
71 | 283 | 9 | 1 | 1 | 0 |
73 | 413 | 10 | 10 | 0 | 0 |
29 | 16 |
По упрощенным формулам:
Для того чтобы при уровне значимости α проверить нулевую гипотезу о равенстве нулю генерального коэффициента ранговой корреляции Кендалла при конкурирующей гипотезе Н 1: τ ≠ 0,надо вычислить критическую точку:
где n - объем выборки; z kp - критическая точка двусторонней критической области, которую находят по таблице функции Лапласа по равенству Ф(z kp)=(1 - α)/2.
Если |τ| T kp - нулевую гипотезу отвергают. Между качественными признаками существует значимая ранговая корреляционная связь.
Найдем критическую точку z kp
Ф(z kp) = (1 - α)/2 = (1 - 0.05)/2 = 0.475
По таблице Лапласа находим z kp = 1.96
Найдем критическую точку:
Так как τ
Применяется для выявления взаимосвязи между количественными или качественными показателями, если их можно ранжировать. Значения показателя X выставляют в порядке возрастания и присваивают им ранги. Ранжируют значения показателя Y и рассчитывают коэффициент корреляции Кендалла:
где S = P − Q .
P большим значением рангов Y.
Q - суммарное число наблюдений, следующих за текущими наблюдениями с меньшим значением рангов Y. (равные ранги не учитываются!)
Если исследуемые данные повторяются (имеют одинаковые ранги), то в расчетах используется скорректированный коэффициент корреляции Кендалла:
t - число связанных рангов в ряду X и Y соответственно.
19.Из чего следует исходить, определяя тему, объект, предмет, цель, задачи и гипотезу исследования?
Программа исследования, как правило, имеет два раздела: методологический и процедурный. Первый включает обоснование актуальности темы, формулировку проблемы, определение объекта и предмета, целей и задач исследования, формулировку основных понятий (категориального аппарата), предварительный системный анализ объекта исследования и выдвижение рабочей гипотезы. Во втором разделе раскрывается стратегический план исследования, а также план и основные процедуры сбора и анализа первичных данных.
В первую очередь при выборе темы исследования надо исходить из актуальности. Обоснование актуальности включает указание на необходимость и своевременность изучения и решения проблемы для дальнейшего развития теории и практики обучения и воспитания. Актуальные исследования дают ответ на наиболее острые в данное время вопросы, отражают социальный заказ общества педагогической науке, обнаруживают важнейшие противоречия, которые имеют место в практике. Критерий актуальности динамичен, подвижен, зависит от времени, учета конкретных и специфических обстоятельств. В самом общем виде актуальность характеризует степень расхождения между спросом на научные идеи и практические рекомендации (для удовлетворения той или иной потребности) и предложениями, которые может дать наука и практика в настоящее время.
Наиболее убедительным основанием, определяющим тему исследования, является социальный заказ, отражающий самые острые, общественно значимые проблемы, требующие безотлагательного решения. Социальный заказ требует обоснования конкретной темы. Обычно это анализ степени разработанности вопроса в науке.
Если социальный заказ вытекает из анализа педагогической практики, то саманаучная проблема находится в другой плоскости. Она выражает основное противоречие, которое должно быть разрешено средствами науки. Решение проблемы обычно и составляет цель исследования. Цель - переформулированная проблема.
Формулировка проблемы влечет за собой выбор объекта исследования. Им может быть педагогический процесс, область педагогической действительности или какое-либо педагогическое отношение, содержащее в себе противоречие. Другими словами, объектом может быть все то, что явно или неявно содержит в себе противоречие и порождает проблемную ситуацию. Объект - это то, на что направлен процесс познания. Предмет исследования - часть, сторона объекта. Это те наиболее значимые с практической или теоретической точки зрения свойства, стороны, особенности объекта, которые подлежат непосредственному изучению.
В соответствии с целью, объектом и предметом исследования определяются исследовательские задачи, которые, как правило, направлены на проверку гипотезы. Последняя представляет собой совокупность теоретически обоснованных предположений, истинность которых подлежит проверке.
Критерий научной новизны применим для оценки качества завершенных исследований. Он характеризует новые теоретические и практические выводы, закономерности образования, его структуру и механизмы, содержание, принципы и технологии, которые к данному моменту времени не были известны и не зафиксированы в педагогической литературе. Новизна исследования может иметь как теоретическое, так и практическое значение. Теоретическое значение исследования заключается в создании концепции, получении гипотезы, закономерности, метода, модели выявления проблемы, тенденции, направления. Практическая значимость исследования состоит в подготовке предложений, рекомендаций и т.п. Критерии новизны, теоретической и практической значимости меняются в зависимости от типа исследования, они зависят также от времени получения нового знания.
При ранжировании эксперт должен расположить оцениваемые элементы в порядке возрастания (убывания) их предпочтительности и приписать каждому из них ранги в виде натуральных чисел. При прямом ранжировании наиболее предпочтительный элемент имеет ранг 1 (иногда 0), а наименее предпочтительный - ранг m.
Если эксперт не может осуществить строгое ранжирование из-за того, что, по его мнению, некоторые элементы одинаковы по предпочтительности, то допускается присваивать таким элементам одинаковые ранги. Чтобы обеспечить равенство суммы рангов сумме мест ранжируемых элементов, применяют так называемые стандартизированные ранги. Стандартизированный ранг есть среднее арифметическое номеров элементов в ранжированном ряду, являющихся одинаковыми по предпочтительности.
Пример 2.6. Эксперт упорядочил шесть элементов по предпочтению следующим образом:
Тогда стандартизированные ранги этих элементов будут
Таким образом, сумма рангов, приписанных элементам, будет равна сумме чисел натурального ряда.
Точность выражения предпочтения путем ранжирования элементов существенно зависит от мощности множества предъявлений. Процедура ранжирования дает наиболее надежные результаты (по степени близости выявленного предпочтения и «истинного»), когда число оцениваемых элементов не более 10. Предельная мощность множества предъявления не должна превосходить 20.
Обработка и анализ ранжировок проводятся с целью построения группового отношения предпочтения на основе индивидуальных предпочтений. При этом могут ставиться следующие задачи: а) определение тесноты связи между ранжировками двух экспертов на элементах множества предъявлений; б) определение взаимосвязи между двумя элементами по индивидуальным мнениям членов группы относительно различных характеристик этих элементов; в) оценка согласованности мнений экспертов в группе, содержащей более двух экспертов.
В первых двух случаях в качестве меры тесноты связи используется коэффициент ранговой корреляции. В зависимости от того, допускается ли только строгое или нестрогое ранжирование, используется коэффициент ранговой корреляции либо Кендалла, либо Спирмена.
Коэффициент ранговой корреляции Кендалла для задачи (a)
где m − число элементов; r 1 i – ранг,приписанный первым экспертом i −му элементу; r 2 i – то же, вторым экспертом.
Для задачи (б) компоненты (2.5) имеют следующий смысл: т - число характеристик двух оцениваемых элементов; r 1 i (r 2 i) - ранг i-й характеристики в ранжировке первого (второго) элемента, выставленный группой экспертов.
При строгом ранжировании используется коэффициент ранговой корреляции р Спирмена:
компоненты которого имеют тот же смысл, что и в (2.5).
Коэффициенты корреляции (2.5), (2.6) изменяются от -1 до +1. Если коэффициент корреляции равен +1, то это означает, что ранжировки одинаковы; если он равен -1, то − противоположны (ранжировки обратны друг другу). Равенство коэффициента корреляции нулю означает, что ранжировки линейно независимы (некоррелированы).
Поскольку при таком подходе (эксперт − «измеритель» со случайной погрешностью) индивидуальные ранжировки рассматриваются как случайные, то возникает задача статистической проверки гипотезы о значимости полученного коэффициента корреляции. В этом случае используют критерий Неймана-Пирсона: задаются уровнем значимости критерия α и, зная законы распределения коэффициента корреляции, определяют пороговое значение c α , с которым сравнивают полученное значение коэффициента корреляции. Критическая область − правосторонняя (в практике обычно сначала расчитывают значение критерия и определяют по нему уровень значимости, который сравнивают с пороговым уровнем α ).
Коэффициент ранговой корреляции τ Кендалла имеет при т > 10 распределение, близкое к нормальному с параметрами:
где M [τ] – математическое ожидание; D [τ] – дисперсия.
В этом случае используются таблицы функции стандартного нормального распределения:
а граница τ α критической области определяется как корень уравнения
Если вычисленное значение коэффициента τ ≥ τ α , то считается, что ранжировки, действительно хорошо согласуются. Обычно значение α выбирают в пределах 0,01-0,05. Для т ≤ 10 распределение т приведено в табл. 2.1.
Проверка значимости согласованности двух ранжировок с использованием коэффициента ρСпирмена осуществляется в том же порядке с использованием таблиц распределения Стьюдента при т > 10.
В этом случае величина
имеет распределение, хорошо аппроксимируемое распределением Стьюдента с m – 2 степенями свободы. При m > 30 распределение величины ρ хорошо согласуется с нормальным, имеющим M [ρ] = 0 и D [ρ] = .
Для т ≤ 10 проверку значимости ρ осуществляют с помощью табл. 2.2.
Если ранжировки нестрогие, то коэффициент Спирмена
где ρ – вычисляют по (2.6);
где k 1 , k 2 − число различных групп нестрогих рангов в первой и второй ранжировках соответственно; l i − число одинаковых рангов в i -й группе. При практическом использовании коэффициентов ранговой корреляции ρ Спирмена и τ Кендалла следует иметь в виду, что коэффициент ρ обеспечивает более точный результат в смысле минимума дисперсии.
Таблица 2.1. Распределение коэффициента ранговой корреляции Кендалла