Коэффициент корреляции с урожайностью

Добавил пользователь Алексей Ф.
Обновлено: 19.09.2024

В главах , посвященных статистическому изучению взаимосвязей методом аналитической группировки и методом корреляционного анализа , рассматривались зависимости между признаками , варьирующими в пространственной совокупности . Но необходимо изучать и связи , проявляющиеся в развитии , во времени . Например , есть ли связь между изменениями урожайности сельскохозяйственных культур и изменениями ее себестоимости , рентабельности ? Есть ли связь между динамикой рождаемости и динамикой обеспеченности населения жильем ? К сожалению , проблема изучения причинных связей во времени очень сложна , и полное решение всех задач такого изучения до сих пор не разработано .

Характерным примером для иллюстрации особенностей методики анализа корреляции в рядах динамики служит связь динамики урожайности сельскохозяйственных культур с себестоимостью продукции в 70 - 80- е гг . в СССР . Официально тогда , не признавалось наличие инфляции . Однако , даже в тех хозяйствах , где агротехника прогрессировала и урожайность имела тенденцию роста , себестоимость продукции тоже возрастала . Такой пример представлен в табл .9.12.


Основная сложность состоит в том , что , как показано в предыдущем разделе главы , при наличии тренда за достаточно длительный период большая часть суммы квадратов отклонений связана с трен - дом . Если два признака имеют тренды с одинаковым направлением изменения уровней , то между уровнями этих признаков будет наблюдаться положительная ковариация . И в одном , и в другом ряду уровни более поздних лет будут либо больше , либо меньше уровней более ранних периодов . Коэффициент корреляции уровней окажется положительным . При разной направленности трендов ковариация уровней и коэффициент их корреляции окажутся отрицательными .

Рассмотрим табл . 9.12. Корреляция уровней урожайности с уровнями себестоимости картофеля отсутствует : коэффициент корреляции равен -0,055, т . е . незначимо отличен от нуля . Но ведь на самом деле по законам экономики , при пространственной корреляции в совокупности хозяйств связь урожайности и себестоимости сильная , обратная .

Среднее значение урожайности по данным табл . 9.12 составило х ? = 119,92 ц / га , себестоимость у ? = 19,0 руб ./ ц . Уравнения трендов урожайности х ? = 119,9 + 3,81 t , себестоимости у ? = 19,0 + 1,22 t , t = 0 в 1983 г .

Всесторонний экономический и статистико - математический анализ ситуации показывает , что причина отсутствия корреляции уровней в том , что оба признака имеют одинаково направленные тренды - возрастание урожайности происходило параллельно с возрастанием себестоимости , вовсе не являясь причиной последнего ! Себестоимость росла из - за инфляции в стране , влияние которой оказалось сильнее , чем направленное на снижение себестоимости влияние роста урожайности .

Если же рассматривать уровни признаков год за годом , легко заметить , что без исключений снижению урожайности в сравнении с предыдущим годом соответствовал рост себестоимости , а повышению урожайности - ее снижение , т . е . связь обратная , которая и должна быть . Следовательно , чтобы получить реальные показатели корреляции , необходимо абстрагироваться , от искажающего влияния трендов : вычислить отклонения уровней урожайности и себестоимости от трендов и измерить корреляцию не уровней , а колебаний двух признаков . Подставляя в формулу парного коэффициента корреляции (8.11) вместо уровней признаков их отклонения от трендов , получаем :


(9.51)

Однако среднее отклонение от тренда равно нулю ( для прямой и параболы всегда , а для других типов тренда лишь в том случае , если правильно отражают тенденцию ), = =0 . Подставив в (9.51), получим :


(9.52)

Коэффициент регрессии для линейной зависимости принимает вид :


(9.53)

Свободный член линейного уравнения регрессии

а = u ? y = bu ? x = 0.

Регрессионное уравнение отклонений от тренда имеет вид :

u ? y = b и? x (9.54)

По данным табл . 9.12 коэффициент корреляции уровней урожайности и себестоимости



Прямая связь одинаково направленных трендов почти полностью компенсировала обратную связь между колебаниями признаков . Из 13 произведений семь положительны . Прежде всего в начале и в конце ряда , где ' сильнее всего сказались тренды . Если бы не страшный неурожай в 1987 г ., вызвавший огромные отклонения уровней , коэффициент корреляции был бы даже положителен .

Напротив , корреляция отклонений от трендов дает результат , соответствующий экономическому содержанию связи урожайности с себестоимостью . Коэффициент корреляции отклонений от трендов по формуле (9.52) составил :


Коэффициент детерминации равен 0,88, или 88% колебаний себестоимости картофеля связаны с колебаниями урожайности . Положительны лишь три произведения отклонения , притом наименьшие .

Коэффициент регрессии по формуле (9.53)



.

Это означает , что в среднем за период отклонение себестоимости от тренда было противоположно по знаку и составляло 0,124 отклонения урожайности от своего тренда . Если , например , урожайность в 1993 г . окажется на 20 ц / га ниже уровня тренда для этого года , составляющего 119,9 +3,81·10 = 158 ц / га , то себестоимость надо ожидать на -20(- 0,124) = 2,48 руб . за 1 ц выше уровня тренда , который для 1993 г . равен 31,2 руб . за 1 ц , т . е ., учитывая и тренды , и предполагаемый плохой урожай в 1993 г ., себестоимость картофеля составила бы 31,2 + 2,48 = 33,66 руб ./ ц . Естественно , что этот прогноз всего лишь пример , как пользоваться уравнением регрессии отклонений от тренда . В нашем случае метеорология не дает оснований для прогноза урожайности , а сильнейшая инфляция делает вообще невозможным любой прогноз себестоимости без использования дефлятора ( см . гл . 10).

Данные табл . 9.12 позволяют сделать интересное заключение о различии характера динамики признаков . Если из общей дисперсии ( суммы квадратов отклонений от среднего уровня ) урожайности 10341 большую часть составляет дисперсия за счет колеблемости 7678, то для себестоимости преобладающим моментом общей дисперсии , равной 405,16, является не колеблемость , дающая только 133,34, а тренд ; это эффект скрытой инфляции до 1989 г .

Другим приемом измерения корреляции в рядах динамики может служить корреляция между теми из цепных показателей рядов , которые являются константами их трендов . При линейных трен - дах - это цепные абсолютные приросты . Вычислив их по исходным рядам динамики ( а xi ,, а yi ), находим коэффициент корреляции между абсолютными изменениями по формуле (9.52) или , что более точно , по формуле (9.51), так как средние изменения не равны нулю в отличие от средних отклонений от трендов . Допустимость данного способа основана на том , что разность между соседними уровнями в основном состоит из колебаний , а доля тренда в них невелика , следовательно , искажение корреляции от тренда очень большое при кумулятивном эффекте на протяжении длительного периода , весьма мало - за каждый год в отдельности . Однако нужно помнить , . что это справедливо лишь для рядов с с - показателем , существенно меньшим единицы . В нашем примере для ряда урожайности с - показатель равен 0,144, для себестоимости он равен 0,350. Коэффициент корреляции цепных абсолютных изменений составил 0,928, что очень близко к коэффициенту корреляции отклонений от трендов .

Для рядов с тенденцией , близкой к экспоненте , следует рекомендовать корреляцию цепных темпов роста . Вычисление корреляции рядов динамики по цепным показателям не требует предварительного вычисления трендов , но все же желательно иметь о характере тенденции приближенное представление . Для параболических трендов с не очень большими ускорениями можно коррелировать цепные абсолютные изменения ; при больших ускорениях лучше их не коррелировать . Если коррелируемые ряды имеют разные типы тенденций , вполне допустимо коррелировать соответствующие разные цепные показатели : абсолютные изменения в одном ряду с темпами изменений в другом и т . д .

К сожалению , все вышеизложенные приемы по существу решают только задачу измерения связи между колебаниями признаков , а не между тенденциями их изменений . Насколько допустимо переносить выводы о тесноте связи между колебаниями на связь динамических рядов в целом , зависит от материального , качественного содержания процесса и причинного механизма связи . Это проблема , выходящая далеко за пределы статистической науки . Если колебания урожайности являются на самом деле следствиями колебания суммы осадков за лето , т . е . корреляция именно колебаний отвечает сущности причинной связи , то , например , причинную связь между дозой удобрений и урожайностью нельзя свести к зависимости только между колебаниями . Здесь главное - причинная связь тенденций , а ее измерять мы так и не научились .

Завершая этим признанием главу о статистическом анализе рядов динамики , дадим последние методологические советы изучающим статистику .

Всякая наука - это процесс продолжающегося познания природы и общества . Нет наук законченных , которые следует лишь выучить наизусть , чтобы все знать .

Учебники и учебные пособия - лишь сжатые и неполные изложения уже достигнутого наукой уровня познания . Изучайте специальную литературу , если хотите больше знать , а также новейшие достижения ученых всего мира .

5. Получение эмпирических формул зависимости явлений.

6. Множественная корреляция.

7. Частная корреляция.

8. Компонентный и факторный анализы.

1. Сущность теории корреляции. Диалектический подход к изучению закономерностей природы и общества требует рассмотрения процессов и явлений в их сложных взаимосвязях.

Явления географической среды зависят от многих, часто неизвест­ных и меняющихся факторов. Выявить и изучить такие связи помогает теория корреляции - один из центральных разделов математической статистики, исключительно важный для исследователей.

Рис. 4.1. Функциональ­ная зависимость

Главные задачи корреляционного анализа - изучение формы, знака (плюс или минус) и тесноты связей.

Опишем кратко сущность теории корреляции.

Все связи делятся на функцио­нальные, рассматриваемые в курсах математического анализа, и корреля­ционные.

Функциональная зависимость предполагает однозначное соответ­ствие между величинами, когда численному значению одной величины, называемой аргументом, соответствует строго определенное значение другой величины - функции. При графическом изображении функцио­нальной связи в прямоугольной системе координат (х, у), если по оси абсцисс отложить значение одного признака, а по оси ординат - друго­го, все точки расположатся на одной линии (прямой или кривой). Функ­циональные (идеальные) связи встречаются в абстрактных математиче­ских обобщениях. Например, зависимость площади круга от радиуса (R) выразится на графике определенной кривой (рис. 1), построенной по формуле

В любой опытной науке экспериментатор имеет дело не с функ­циональными связями, а с корреляционными, для которых характерен известный разброс результатов эксперимента. Причина колеблемости заключается в том, что функция (изучаемое явление ) зависит не только от одного или нескольких рассматриваемых факторов, но и от множест­ва других. Так, урожайность зерновых культур будет зависеть от ряда климатических, почвенных, экономических и других условий. Если связь урожайности с каким-либо из указанных факторов изобразить графически в системе координат (х, у), то получим разброс точек. Зако­номерности корреляционных связей и изучает теория корреляции.

По общему направлению роя точек - слева вверх направо - можно заключить, что в обоих случаях связь положительная (со знаком плюс).

При отрицательной (минусовой) зависимости рой точек направлен слева вниз направо (рис. 4.3). По характеру размещения точек в рое, их близо­сти к оси можно визуально определить не только тесноту и знак связи, но и ее форму, которая подразделяется на прямолинейную и криволинейную.

Первая форма связи воспроиз­ведена на рис. 4.2 а и б. Она условна и является частным случаем связи криволинейной. Однако именно прямолинейная связь (при всей ее условности) рассматривается в географических и других исследо­ваниях наиболее часто из-за простоты математико-статистического аппарата ее оценки и возможности применения при изучении многофакторных связей и зависимостей.




Рис. 4.4. Криволинейная форма связи

Степень кривизны географических корреляционных связей во многом зависит от меридиональной протяженности изучаемых терри­торий. На рисунке 4.4 показана в схематизированном виде криволинейная зависимость среднегодовой температуры (t) от географической широты t(j) в глобальном масштабе - от южного полюса (ЮП) через экватор (Э) до северного полюса (СП). Чем меньше протяженность изучаемой территории с юга на север, тем больше оснований назвать ее прямолинейной.

Так, на восходящем отрезке АВ (южное полушарие) связь прямолинейная положительная, а на нисходящем отрезке CD (северное полушарие) - прямолинейная отрицательная. На приэкваториальном отрезке ВС связь сохраняется криволинейной.

Визуально-графический способ изучения тесноты и формы связи прост, нагляден, но недоста­точно точен. Математико-статистическая обработка результатов наблюдений позволяет определить чи­словые значения, характеризующие как форму, так и тесноту связей.

2. Вычисление коэффициента корреляции.Наиболее распространенным показателем тесноты прямолинейной связи двух количественных признаков считается коэффициент корре­ляции (r). Его абсолютное численное значение находится в пределах от О до 1. Чем теснее связь, тем больше абсолютное значение г.

Рассмотрим наиболее распространенную схему вычисления, опирающуюся на предварительные расчеты средних арифметически, центральных отклонений и средних квадратических отклонений да каждого количественного признака. Предположим, необходимо найти тесноту связи между количеством осадков в июле (х) и урожайностью пшеницы (у). Эти данные вносятся в первые два столбца таблицы 1.

Схема вычисления коэффициента корреляции

– сумма по столбцу 5; n – число наблюдений; dx и dу – средние квадратические отклонения признаков х и у, вычисленные по формуле, при­веденной в лекции 2. В нашем примере связь хорошая.

X У Х-Х У-У (х-х).(у-у) (Х-Х) 2 (У-У) 2
-50 -10
-50 -6
-10 -6
-1 -10
-10 -7
1 600
800 180 0 0 1560 8600 464

Затем вычисляем разности между конкретными значениями ис­ходных величин и их средними арифметическими. Результаты этих расчетов записываем в столбцы 3 и 4. Вычисление чисел в столбцах 5, б и 7 вполне понятно из надписей над соответствующими столбцами. Под каждым столбцом подсчитываем суммы. Коэффициент корреляции (г) вычисляем по формуле

Особо ценен 5-й столбец схемы, представляющий собой совокуп­ность произведений центральных отклонений и названный ковариаци­онным столбцом. Он позволяет проверить правильность определения знака и численного значения коэффициента корреляции по соотноше­нию сумм плюсовых и минусовых показателей членов ковариационного ряда. Чем больше разнятся суммы плюсов и минусов, тем теснее связь исходных показателей. Примерное равенство их свидетельствует о низ­кой связи. Знак коэффициента корреляции будет соответствовать знаку превышения одной суммы над другой.

Коэффициент корреляции, как и d, проще определяется без вы­числения отклонений от средней. Приведем схему такого вычисления по данным предыдущего примера. Схема проста, и для ее понимания достаточно надписей над столбцами таблицы 2.

3. Оценка точности коэффициента корреляции. Как и всякая другая выборочная математико-статистическая ха­рактеристика, коэффициент корреляции имеет свою ошибку репрезен­тативности, вычисляемую при больших выборках (n > 50) по формуле

Таким образом, точность вычисления коэффициента корреляции повышается с увеличением объема выборки; она велика также при большой тесноте связи (r близок к +1 или -1).

Приведем пример вычисления ошибки выборочного r.

Коэффици­ент корреляции между заболеваемостью дизентерией и одним из клима­тических факторов r = 0,82.

Показатель тесноты связи вычисляется по данным 64 пунктов. Тогда

Получив суммы по всем столбцам, вычисляем коэффициент корреляции по формуле

С точностью определения коэффициента корреляции тесно связан вопрос о реальности существования этой связи между рассматриваемы­ми признаками. При малом объеме выборки или малой тесноте связи часто ошибки, коэффициента корреляции оказываются настолько боль­шими и сопоставимыми с самим коэффициентом, что встает вопрос, не случайно ли его значение отличается от нуля и соответствует ли опре­деленный знак связи действительной ее направленности (плюсовой или минусовой?) Этот вопрос разрешается численным сравнением r

чаться от нуля случайно, и связь явлений не доказывается.

Проверим, существует ли связь между явлениями в нашем примере

связь недостоверна, то есть ее может и не быть.

4. Ранговая корреляция.В географических исследованиях при малых объемах выбора часто требуется обработать статистический материал быстро, не претендуя на высокую точность. Для этого можно ограничиться вычислением не коэффициента корреляции, а ранговой корреляции. Суть этого показателя состоит в том, что действительные значения количественных признаков заменяются их рангами, то есть последовательным рядом простых чисел, начиная с единицы в порядке возрастания признака Например, имеются данные об урожайности зерновых культур (у) и количестве осадков за два месяца перед колошением (х) по пяти районам (табл. 3, столбцы 1 и 2). Требуется вычислить тесноту связи. Заме­няем значения признаков их рангами Хр и Ур (столбцы 3 и 4), находим разности рангов (столбец 5), затем вычисляем квадраты этих разностей (столбец 6).

Ранговый коэффициент корреляции (r) вычисляется по формуле

Этот показатель тесноты связи рассчитывается главным образом то­гда, когда достаточно выяснить приближенную величину тесноты связи, и поэтому полученные результаты можно округлять лишь до десятого знака. Ранговый коэффициент корреляции представляет ценность еще и потому, что в распоряжение географа-исследователя часто поступают данные о многих природных и социально-экономических явлениях, заранее выраженные в рангах или баллах, а последние легко перевести в ранги.

5. Получение эмпирических формул зависимости явлений. Корреляционные методы позволяют определить не только тесноту связи явлений, но и эмпирические формулы зависимости, с помощью которых можно по одним признакам находить другие, часто недоступ­ные или мало доступные наблюдению.

При вычислении коэффициента корреляции обычно получают пять основных статистических показателей - , , dx , dу и r. Эти пока­затели дают возможность легко и быстро рассчитать параметры линей­ной зависимости у от х. Известно, что такая зависимость выражается формулой

Параметры а и b вычисляются по формулам

Например, необходимо построить эмпирическую формулу линей­ной зависимости урожайности (у) от процента гумуса в почве (х). При вычислении коэффициента корреляции были получены следующие

По найденной формуле можно представить примерную урожай­ность, зная процент гумуса на любом участке изучаемой территории. Так, если процент гумуса равен 10, то следует ожидать урожайность у = 7+0,6-х ==7+0,6-10 =13 ц/га.

Чем больше абсолютная величина r , тем более точной и надежной будет эмпирическая формула зависимости.

6. Множественная корреляция.При изучении многофакторных связей встает проблема определе­ния степени совместного влияния нескольких факторов на исследуемое явление.

Корреляционный анализ обычно начинается с вычисления парных коэффициентов корреляции (rxy), выражающих степень зависимости изучаемого явления (у) от какого-либо фактора (х). Например, опреде­ляются коэффициенты корреляции между урожайностью зерновых культур, с одной стороны, и рядом климатических, почвенных и эконо­мических факторов — с другой. Анализ полученных парных коэффициентов корреляции позволяет выявить наиболее важные факторы уро­жайности.

Следующая ступень корреляционного анализа заключается в том, что вычисляется коэффициент множественной корреляции (R), показы­вающий степень совместного влияния важнейших факторов (x1, x2, . xn) на изучаемое явление (у), например, на урожайность зерновых куль­тур. Расчет для множества факторов представляет собой очень трудоем­кий процесс, часто требующий применения ЭВМ.

Рассмотрим простейший пример вычисления степени совокупного влияния на урожайность (у) только двух факторов: гидротермического коэффициента (x1) и стоимости основных средств производства (х2). Для этого вначале следует определить коэффициенты корреляции меж­ду тремя признаками (у, x1, и х2) попарно. Оказалось, что

1) коэффициент корреляции между урожайностью зерновых культур (у) и гидротермическим коэффициентом (х1) == 0,80;

2) коэффициент корреляции между урожайностью зерновых культур (у) и стоимостью основных средств производства (х2) == 0,67;

3) коэффициент корреляции между самими факторами урожайности (гидротермическим коэффициентом и стоимостью основных средств производства) = 0,31.

Коэффициент множественной корреляции, выражающий зависи­мость изучаемого явления от совокупного влияния двух факторов, вы­числяется по формуле

В нашем примере

Совокупное влияние нескольких факторов на изучаемое явление больше, чем каждого из этих факторов в отдельности. Действительно, 0,92 больше как 0,80, так и 0,67.

Квадрат коэффициента множественной корреляции (R 2 = 0,84) означает, что колеблемость урожайности зерновых объясняется воздей­ствием учтенных факторов (гидротермические коэффициенты и стои­мость основных средств производства) на 84%. На долю остальных неучтенных факторов приходится всего 16%.

Линейную зависимость одной переменной (у) от двух других можно выразить уравнением

7. Частная корреляция. В предыдущем параграфе была рассмотрена схема вычисления я коэффициента множественной корреляции, выражающего степень совместного воздействия двух факторов (x1 и х2) на изучаемое явление у. Представляет интерес выявить, как тесно связан у с x1 при постоянстве величине х2; или у с х2 при исключении влияния x1. Для этого следу вычислить коэффициент частной корреляции ( ) по формуле

где ryx1 – коэффициент корреляции между первым фактором (х1) и изучаемым явлением (у), ryx2 - коэффициент корреляции между вторым фактором (х2) и изучаемым явлением (у), rx1x2 – коэффициент корреляции между факторами x1 и x2.

Пользу коэффициента частной корреляции покажем на приме изучения овражной эрозии. Известно, что скорость роста оврагов во многом зависит от энергии поверхностного стока, определяемой eё объемом и скоростью. Первая характеристика может быть выражена таким морфометрическим показателем, как площадь водосбора при вершине оврага, а скорость стока - углом наклона у вершины оврага. Были измерены скорости роста n-го числа оврагов (у), углы наклов (x1) и площади водосбора (х2), вычислены парные коэффициенты корреляции: =: - 0,2, = 0,8; == - 0,7. Отрицательное значение первого коэффициента корреляции выглядит парадоксальным. Действительно, трудно представить, чтобы скорости роста оврагов были тем больше, чем меньше угол наклона.

Объяснить эту аномалию может обычно вогнутая форма продольного профиля балки, где растет oвраг (рис. 4.5). Благодаря такой форме профиля наблюдается противоположность воздействия двух рассматриваемых факторов (x1, и х2) на ско­рость роста оврагов (у): овраг, начинающий свое развитие в устье балка имеет малый угол наклона (ai), но зато наибольшую площадь водосбо­ра, обеспечивающую максимальный объем стекающей воды. По мера приближения вершины оврага к водоразделу угол наклона растет (a1, a2, a3, a4, a5), но площадь водосбора уменьшается (S1 – S5). Преоб­ладающее воздействие площади водосбора (объема воды) над воздейст­вием угла наклона (ее скорости) и привело к отрицательному значению зависимости скорости роста оврагов от угла наклона. Разнонаправленность воздействия двух рассмотренных факторов объясняет также ми­нусовой знак их корреляционной взаимозависимости ( == - 0.7). Для того, чтобы определить, насколько велика зависимость скорости роста оврагов от угла наклона при исключении влияния другого фактора (площади водосбора), необходимо вычислить коэффициент частной корреляции по формуле (13). Оказалось, что

Таким образом, только в результате корреляционных расчетов ста­ло возможным убедиться в прямой, а не обратной зависимости скорости роста оврагов от угла наклона, но только при условии исключения воз­действия площади водосбора.

8. Компонентный и факторный анализы.Из множества известных показателей тесноты корреляционных связей следует подчеркнуть особо важное значение коэффициента кор­реляции. Его отличает прежде всего повышенная информативность -способность оценивать не только тесноту, но и знак связи. Коэффици­енты корреляции лежат в основе вычисления более сложных показате­лей, характеризующих взаимосвязи не двух, а большего числа факторов.

Факторный анализ предназначен для сведения множества исходныx количественных показателей к малому числу факторов. На их основе вычисляются интегральные показатели, несущие в себе информацию нового качества. В основе математических расчетов лежит создание матрицы, элементами которой выступают обычные коэффициенты корреляции или ковариации, отражающие попарные связи между всеми исходными количественными показателями.

Компонентный анализ (метод главных компонент) в отличие о факторного анализа опирается на массовые расчеты не корреляций, дисперсий, характеризующих колеблемость количественных признаке; л

В результате таких математических расчетов любое самое большое число исходных данных заменяется ограниченным числомглавных компонент, отличающихся наиболее высокой дисперсностью, а, следовательно, и информативностью.

Желающим глубже познакомиться с теорией, методикой и накопленным опытом использования факторного и компонентного анализов в географических исследованиях следует обратиться к работам С.Н. Сербенюка (1972), Г.Т. Максимова (1972), П.И. Рахлина (1973), В.Т. Жукова, С.Н. Сербенюка, B.C. Тикунова (1980), В.М. Жуковской (1964), B.M. Жуковской, И.М. Кузиной (1973), В.М. Жуковской, И.Б. Мучник (1976):

В заключение отметим, что при криволинейных зависимостях коэффициенту корреляции не всегда можно доверять, особенно когда изучаются природные явления на территориях значительной протяжен­ности с севера на юг. В этом случае лучше вычислять корреляционные отношения, которые нуждаются в большом объеме статистической со­вокупности и в предварительной группировке данных (Лукомский, 1961).

ВОПРОСЫ И ЗАДАНИЯ

1. Назовите главные задачи корреляционного анализа.

2. Опишите схему вычисления коэффициента корреляции.

3. Как вычисляется ошибка выборочного коэффициента корреляции?

4. Какова схема вычисления рангового коэффициента корреляции?

5. Опишите получение эмпирических формул зависимости для двух показателей. Каково их использование?

Корреляция — степень связи между 2-мя или несколькими независимыми явлениями.

Корреляция бывает положительной и отрицательной.

Положительная корреляция (прямая) возникает при одновременном изменении 2-х переменных величин в одинаковых направлениях (в положительном или отрицательном). Например, взаимосвязь между количеством пользователей, приходящих на сайт из поисковой выдачи и нагрузкой на сервер: чем больше пользователей, тем больше нагрузка.

Корреляция отрицательна (обратная), если изменение одной величины приводит противоположному изменению другой. Например, с увеличением налоговой нагрузки на компании уменьшается их прибыль. Чем больше налогов, тем меньше денег на развитие.

Типичные виды корреляции

Типичные виды корреляции

Эффективность корреляции как статистического инструмента заключается в возможности выражения связи между двумя переменными при помощи коэффициента корреляции.

Коэффициент корреляции (КК) находится в диапазоне чисел от -1 до 1.

При значении КК равным 1, следует понимать, что при каждом изменении 1-й переменной происходит эквивалентное изменение 2-й переменной в том же направлении.

Положительная корреляция концентраций этанола в синовии и крови

Положительная корреляция концентраций этанола в синовии и крови

Если значение КК равно -1, то при каждом изменении происходит эквивалентное изменение второй переменной в противоположном направлении.

Отрицательная корреляция между показателями результатов в беге на 100 м с барьерами и прыжками в длину

Отрицательная корреляция между показателями результатов в беге на 100 м с барьерами и прыжками в длину

Чем ближе корреляция к -1 или 1, тем сильнее связь между переменными. При нулевом значении (или близким к 0) значимая связь между 2-мя переменными отсутствует или очень минимальна.

Интерпретация значений коэффициента корреляции
ЗначениеИнтерпретация
до 0,2Очень слабая
до 0,5Слабая
до 0,7Средняя
до 0,9Высокая
свыше 0,9Очень высокая корреляция

Данный метод обработки статистической информации популярен в экономических, технических, социальных и других науках в виду простоты подсчета КК, простотой интерпретации результатов и отсутствия необходимости владения математикой на высоком уровне.

Корреляционная зависимость отражает только взаимосвязь между переменными и не говорит о причинно-следственных связях: положительная или отрицательная корреляция между 2-мя переменными не обязательно означает, что изменение одной переменной вызывает изменение другой.

Например, есть положительная корреляция между увеличением зарплаты менеджеров по продажам и качеством работы с клиентами (повышения качества обслуживания, работа с возражениями, знание положительных качеств продукта в сравнении с конкурентами) при соответствующей мотивации персонала. Увеличившийся объем продаж, а следовательно и зарплата менеджеров, вовсе не означает что менеджеры улучшили качество работы с клиентами. Вполне вероятно, что случайно поступили крупные заказы и были отгружены или отдел маркетинга увеличил рекламный бюджет или произошло еще что-то.

Возможно существует некая третья переменная, влияющая на причину наличия или отсутствия корреляции.

Читайте также: