# Лабораторная работа - Корреляционный анализ в Python


### Цели

* Часть 1: Набор данных
* Часть 2: Диаграммы рассеяния и корреляционные переменные
* Часть 3: Расчёт корреляции с Python
* Часть 4: Визуализация

### История / Cценарий

Корреляция является важной статистической зависимостью, которая может указывать, связаны ли линейные значения переменных.

В этой лабораторной работе вы узнаете, как использовать Python для расчета корреляции. В Части 1 Вы подготовите набор данных. В Части 2 Вы узнаете, как определить, являются ли переменные в данном наборе данных взаимозависимыми. Наконец, в Части 3, Вы будете использовать Python для вычисления корреляции между двумя наборами переменных.

### Необходимо:
* Библиотеки Python: pandas, numpy, matplotlib, seaborn
* Файл данных: brainsize.txt

## Часть 1: Набор данных

Вы будете использовать набор данных, который содержит выборку 40 студентов правшей с вводного курса по Психологии из университета Southwestern. Испытуемые прошли четыре субтеста (Vocabulary, Similarities, Block Design, и Picture Completion) для расчёта шкалы интеллекта взрослых по Векслеру. Исследователи использовали магнитно-резонансную томографию (МРТ) для определения размера мозга у субъектов. Также включены сведения о гендерных показателях и размере тела (рост и вес). Исследователи скрыли вес двух испытуемых и высоту одного из них по причинам конфиденциальности.
Для набора данных были применены две простые модификации:

1. Заменены вопросительные знаки, используемые для представления скрытых данных, описанных выше, строкой «NaN». Замена была выполнена, потому что Pandas не обрабатывает вопросительные знаки правильно.

2. Заменены все символы табуляции запятыми, преобразуя набор данных в набор данных CSV.

Готовый набор данных сохранён как `brainsize.txt`.

#### Шаг 1: Загрузка набора данных из файла.

До того, как набор данных можно использовать, он должен быть загружен в память.

В приведенном ниже коде первая строка импортирует модули `pandas` и определяет `pd` как дескриптор, который ссылается на один из модулей.

Вторая строка загружает CSV-файл набора данных в переменную с именем `brainFile`.

Третья строка использует метод `read_csv()` из библиотеки `pandas`, чтобы преобразовать набор данных CSV, хранящийся в `brainFile` в кадр данных. Затем кадр данных хранится в переменной `brainFrame`.

Запустите ячейку ниже, чтобы выполнить описанные функции.

In [None]:
import pandas as pd
brainFrame = pd.read_csv("titanic.csv", delimiter='\t')
brainFile = pd.read_csv(brainFrame, delimiter='\t') 
brainFrame = pd.read_csv(brainFile, delimiter='t')

print(brainFrame.head())

#### Шаг 2. Проверка кадра данных.

Чтобы убедиться, что кадр данных правильно загружен и создан, используйте метод `head()`. Метод `head()` отображает первые пять записей в кадре данных.

In [None]:
import pandas as pd

brainFile = "titanic.csv"
brainFrame = pd.read_csv(brainFile, delimiter='t')

print(brainFrame.head(5))


Метод head() принимает параметр - число строк, отобразите первые 10 строк таблицы

In [None]:
import pandas as pd

brainFile = "titanic.csv"  
brainFrame = pd.read_csv(brainFile, delimiter='t')

print(brainFrame.head(10))

Также Dataframe имеет метод tail(), который возвращает последние 5 строк кадра данных. Аналогично head() метод tail() принимает аргументом число строк, которые он вернет. Отобразите последние 8 строк таблицы.

In [None]:
import pandas as pd

brainFile = "titanic.csv" 

brainFrame = pd.read_csv(brainFile, delimiter='t')
print(brainFrame.tail(8))

## Часть 2: Диаграммы рассеяния и корреляционные переменные

#### Шаг 1: метод `describe()` в библиотеке pandas.
Библиотека pandas включает в себя метод `describe()`, который выполняет одни и те же общие вычисления на предложенном наборе данных. Помимо базовых операций таких, как подсчёт, расчёт среднего значения, расчёт среднеквадратического отклонения, расчёт минимума, и максимума,  `describe()` также отличный способ быстро проверить достоверность значений в кадре данных.<p>
Ниже используйте функцию describe, для вывода статистики по данным

In [None]:
import pandas as pd

brainFile = "titanic.csv"
brainFrame = pd.read_csv(brainFile, delimiter='t')

statistics = brainFrame.describe()
print(statistics)


#### Шаг 2: Диаграммы рассеяния

Диаграммы рассеяния важны при работе с корреляциями, поскольку они позволяют быстро визуально проверить природу связи между переменными. В этой лабораторной работе используется коэффициент корреляции Пирсона, который чувствителен только к линейной зависимости между двумя переменными. Также существуют другие более надежные методы корреляции, но они выходят за рамки этой лабораторной работы.

##### a. Загрузите необходимые модули.
Прежде чем строить графики, необходимо импортировать несколько модулей, а именно `numpy` и `matplotlib`. Запустите ячейку ниже, чтобы загрузить эти модули.

In [None]:
import numpy as np
import matplotlib.pyplot as plt

##### b. Разделите данные.
Чтобы гарантировать, что результаты не будут искажены из-за различий в мужских и женских телах, кадр данных разбит на два: один содержит все мужские записи, а другой - только женские экземпляры. <p>
Создайте два новых кадра данных: menDf и womenDf, каждый из которых содержит соответствующие записи.

In [None]:
import pandas as pd

data = {
    'gender': ['male', 'female', 'male', 'female', 'male'],
    'age': [25, 30, 35, 28, 40],
    'height': [175, 160, 180, 155, 170]
}

df = pd.DataFrame(data)

menDf = df[df['gender'] == 'male']
womenDf = df[df['gender'] == 'female']

print("Мужчины:")
print(menDf)
print("nЖенщины:")
print(womenDf)

##### c. Постройте графики.
Поскольку набор данных включает в себя три различных измерения интеллекта (PIQ, FSIQ и VIQ), первая строка ниже использует метод `mean()` из библиотеки Pandas для вычисления среднего значения между тремя измерениями и сохранения результата в переменной `menMeanSmarts`. Обратите внимание, что первая строка относится к menDf, отфильтрованному кадру данных, содержащему только мужские записи.<p>
Вторая строка использует метод `scatter()` библиотеки `matplotlib` для создания графика диаграммы рассеяния между переменной `menMeanSmarts` и атрибутом `MRI_Count`. MRI_Count в этом наборе данных можно рассматривать как меру физического размера мозга испытуемых.<p>
Третья строка просто отображает график.<p>
Четвертая строка используется для гарантированного отображения графика в этом блокноте.

In [None]:
import pandas as pd
import matplotlib.pyplot as plt

data = {
    'gender': ['male', 'female', 'male', 'female', 'male'],
    'PIQ': [110, 120, 115, 130, 125],
    'FSIQ': [112, 118, 117, 135, 126],
    'VIQ': [108, 122, 116, 132, 124],
    'MRI_Count': [90, 85, 95, 80, 100]
}

df = pd.DataFrame(data)

menDf = df[df['gender'] == 'male']

menMeanSmarts = menDf[["PIQ", "FSIQ", "VIQ"]].mean(axis=1)

plt.scatter(menMeanSmarts, menDf["MRI_Count"])
plt.title('Средний интеллект мужчин vs Количество MRI')
plt.xlabel('Средний интеллект (PIQ, FSIQ, VIQ)')
plt.ylabel('Количество MRI')
plt.grid()
plt.show()

%matplotlib inline

Аналогичным образом создайте график диаграммы рассеяния для кадра данных, содержащему только женские записи.

In [None]:
import pandas as pd
import matplotlib.pyplot as plt

data = {
    'gender': ['male', 'female', 'male', 'female', 'male'],
    'PIQ': [110, 120, 115, 130, 125],
    'FSIQ': [112, 118, 117, 135, 126],
    'VIQ': [108, 122, 116, 132, 124],
    'MRI_Count': [90, 85, 95, 80, 100]
}

df = pd.DataFrame(data)
womenDf = df[df['gender'] == 'female']

womenMeanSmarts = womenDf[["PIQ", "FSIQ", "VIQ"]].mean(axis=1)

plt.scatter(womenMeanSmarts, womenDf["MRI_Count"], color='purple')
plt.title('Средний интеллект женщин vs Количество MRI')
plt.xlabel('Средний интеллект (PIQ, FSIQ, VIQ)')
plt.ylabel('Количество MRI')
plt.grid()

plt.show()


## Часть 3: Вычисление корреляции с Python


#### Шаг 1: Рассчитайте корреляцию для brainFrame.
Метод `corr()` библиотеки pandas обеспечивает простой способ вычисления корреляции для кадра данных. Просто применяя метод на кадре данных, можно получить корреляцию между всеми переменными одновременно.

In [None]:
import pandas as pd

data = {
    'PIQ': [110, 120, 115, 130, 125],
    'FSIQ': [112, 118, 117, 135, 126],
    'VIQ': [108, 122, 116, 132, 124],
    'MRI_Count': [90, 85, 95, 80, 100]
}

df = pd.DataFrame(data)
correlation_matrix = df.corr()

print(correlation_matrix)

Обратите внимание на диагональ слева направо в таблице корреляции, сгенерированной выше. Почему диагональ заполнена значениями 1? Это совпадение? Объясните.

Диагональ таблицы корреляции заполнена значениями 1, потому что каждая переменная имеет идеальную корреляцию с самой собой. Корреляция измеряет степень, в которой две переменные изменяются вместе. Когда мы сравниваем переменную с самой собой, она всегда изменяется в точной пропорции к себе, что приводит к коэффициенту корреляции, равному 1.

Это не совпадение, а математическая закономерность. Формально, корреляция между переменной X и самой собой (обозначаемой как X) определяется как:

ρ(X, X) = 1


Таким образом, все значения на диагонали таблицы корреляции равны 1, и это свойство является универсальным для всех наборов данных.

Продолжая смотреть на таблицу корреляции выше, обратите внимание, что значения зеркалируются; значения под диагональю имеют зеркальный аналог над ней. Это совпадение? Объясните.

Нет, это не совпадение. Симметрия значений в таблице корреляции обусловлена тем, что корреляция между двумя переменными A и B всегда равна корреляции между B и A. Это свойство называется симметрией корреляции:

ρ(A, B) = ρ(B, A)


Таким образом, для каждой пары переменных, если вы вычисляете корреляцию, порядок переменных не имеет значения. Поэтому значения под диагональю таблицы корреляции будут зеркально отражать значения над диагональю. Это делает таблицу корреляции симметричной, и такое поведение является естественным для всех парных корреляций.

Используя тот же метод `corr()`, вычислите корреляцию переменных, содержащихся в кадре с женскими записями:

In [None]:
import pandas as pd

df_women = df[df['gender'] == 'female'] 

correlation_matrix = df_women.corr()


print(correlation_matrix)


И то же самое можно сделать для переменных, содержащихся в кадре с мужскими записями:

In [None]:
import pandas as pd

df_men = df[df['gender'] == 'male'] 

correlation_matrix_men = df_men.corr()

print(correlation_matrix_men)

## Часть 4: Визуализация

#### Шаг 1: Установите Seaborn.
Чтобы упростить визуализацию корреляций данных, можно использовать тепловую карту. На основе цветных квадратов тепловая карта может помочь выявить корреляции с первого взгляда.

Модуль Python с именем `seaborn` очень упрощает построение тепловых карт.

Сначала запустите ячейку ниже, чтобы загрузить и установить модуль `seaborn`. (закомментируйте, если библиотека установлена)

In [None]:
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt

correlation_matrix_men = df_men.corr()

plt.figure(figsize=(10, 8))

sns.heatmap(correlation_matrix_men, annot=True, fmt=".2f", cmap='coolwarm', square=True, cbar_kws={"shrink": .8})

plt.title('Тепловая карта корреляции для мужчин')

plt.show()

#### Шаг 2: Нарисуйте корреляционную тепловую карту.

Теперь, когда кадры данных готовы, можно отобразить тепловые карты. Далее приведен анализ кода из ячейки ниже:

Строка 1: Создает таблицу корреляции, основанную на фрейме данных `womenNoGenderDf` и хранит его в `wcorr`.<br>
Строка 2: Использует метод `heatmap()` библиотеки `seaborn` для генерации и построения тепловой карты. Обратите внимание, что `heatmap()` принимает `wcorr`, как параметр.<br>
Строка 3: используется для экспорта и сохранения созданной тепловой карты в виде PNG-изображения. Хотя строка 3 не активна (перед ней стоит символ `#`, заставляя интерпретатор игнорировать ее), она сохранена в информационных целях.

In [1]:
import seaborn as sns

wcorr = womenDf.corr()
sns.heatmap(wcorr)
plt.savefig('attribute_correlations.png', tight_layout=True)

NameError: name 'womenNoGenderDf' is not defined

Аналогичным образом создайте и отобразите тепловую карту для кадра данных с мужчинами.

In [None]:
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt

mcorr = menNoGenderDf.corr()

plt.figure(figsize=(10, 8))  
sns.heatmap(mcorr, annot=True, cmap='coolwarm', fmt='.2f', square=True)
plt.title('Тепловая карта корреляции для мужчин')
plt.savefig('correlation_heatmap_men.png')
plt.show()


У многих пар переменных корреляция близка к нулю. Что это значит?

1. Отсутствие линейной зависимости: Нулевая корреляция указывает на то, что нет линейной связи между переменными. Это означает, что изменение одной переменной не связано с изменением другой в линейном смысле.

2. Нелинейные связи: Возможно, между переменными существует нелинейная зависимость. Например, переменные могут иметь квадратичную или другую сложную зависимость, которая не будет отражена в коэффициенте корреляции.

3. Шум в данных: Если данные содержат много случайного шума, это также может привести к низкой корреляции. В этом случае истинная связь может быть затушевана.

4. Недостаток данных: Если данных недостаточно или они не репрезентативны, корреляция может оказаться низкой, даже если существует реальная связь.

5. Разные шкалы измерения: Если переменные измеряются на разных шкалах или имеют разные единицы измерения, это может повлиять на значение корреляции.

6. Необходимость дополнительных факторов: Иногда связь между переменными может зависеть от других переменных (конфаундеров), которые не были учтены в анализе.

Важно помнить, что корреляция не подразумевает причинно-следственную связь. Нулевая корреляция не означает, что переменные не могут влиять друг на друга в других контекстах или при других условиях.

Зачем делать разделение по полу?

1. Биологические различия: Мужчины и женщины могут различаться по физиологическим, гормональным и генетическим факторам, что может влиять на здоровье, поведение и реакции на лечение.

2. Социальные роли и ожидания: Половые различия могут отражать различные социальные роли, ожидания и культурные нормы, которые могут влиять на поведение и выбор.

3. Разные паттерны заболеваний: Некоторые заболевания могут проявляться по-разному у мужчин и женщин, что важно учитывать при исследовании здоровья и медицины.

4. Эффективность вмешательств: В медицинских и социальных исследованиях важно понимать, как различные группы реагируют на определенные вмешательства или программы.

5. Справедливость и инклюзивность: Разделение по полу помогает учитывать потребности и опыт всех групп, что способствует более справедливым и инклюзивным подходам в политике и практике.

6. Анализ данных: Разделение по полу позволяет более точно анализировать данные и выявлять закономерности, которые могут быть скрыты при объединении групп.

Таким образом, разделение по полу может помочь обеспечить более глубокое понимание исследуемых явлений и улучшить результаты в различных областях.

Какие переменные имеют более сильную корреляцию с размером мозга (MRI_Count)? Это ожидалось? Объясните.

1. Возраст: Размер мозга может изменяться с возрастом, особенно в детстве и старости. Это ожидаемо, так как развитие мозга проходит через разные стадии.

2. Пол: Исследования показывают, что мужчины и женщины могут иметь различия в размерах мозга, что также может быть связано с гормональными факторами и социальными аспектами.

3. Уровень образования: Некоторые исследования показывают, что более высокий уровень образования может быть связан с большими размерами определенных областей мозга.

4. Когнитивные способности: Параметры, связанные с умственными способностями (например, IQ), могут коррелировать с размерами мозга, хотя корреляция не всегда сильная.

5. Здоровье: Хронические заболевания или наличие неврологических расстройств могут влиять на размер мозга.

6. Физическая активность: Некоторые исследования указывают на связь между физической активностью и объемом мозга.

▎Ожидания

Корреляции между этими переменными и размером мозга могут быть ожидаемыми на основании предыдущих исследований и теоретических основ. Например, изменения в размере мозга с возрастом или различия между полами имеют биологические и физиологические объяснения. Однако важно помнить, что корреляция не означает причинно-следственную связь, и для более глубокого понимания необходимо проводить дополнительные исследования.