# Введение в ТВиМС

*Алла Тамбовцева*

## Практикум 4. Меры связи

Импортируем библиотеку `pandas` и модуль `stats` из библиотеки `pandas`:

In [None]:
import pandas as pd
from scipy import stats

### Часть 1. О счастье: количественные данные

Загрузим данные:

In [None]:
happy = pd.read_csv("https://raw.githubusercontent.com/allatambov/IntroProbStat2024/main/WHR_2023.csv")
happy.head(3)

Посмотрим на то, как названы регионы в таблице:

In [None]:
happy["region"].value_counts()

Для дальнейших манипуляций закодируем регионы числами (но данные не перестанут быть качественными, как с числами с ними работать всё равно нельзя):

In [None]:
happy["region_num"] = happy["region"].map({"Sub-Saharan Africa": 1, 
                                           "Central and Eastern Europe" : 2, 
                                           "Western Europe" : 3, 
                                           "Latin America and Caribbean" : 4, 
                                           "Middle East and North Africa" : 5, 
                                           "Southeast Asia" : 6, 
                                           "East Asia" : 7,
                                           "South Asia" : 8,
                                           "North America and ANZ": 9,
                                           "Commonwealth of Independent States" : 10})

happy["region_num"].value_counts()

Изучим распределение индекса счастья:

In [None]:
happy["happiness_score"].describe()

In [None]:
# самые счастливые страны

happy.sort_values("happiness_score", 
                  ascending = False).head(3)

In [None]:
# самые несчастливые страны

happy.sort_values("happiness_score", 
                  ascending = False).tail(3)

Построим гистограмму для индекса счастья:

In [None]:
# цвет – пурпурное горное величие

happy["happiness_score"].hist(color = "#9D81BA", 
                              edgecolor = "white",
                              figsize = (16, 9));

Построим гистограмму для ВВП на душу населения:

In [None]:
# цвет – папоротник Крайола

happy["gdp_per_capita"].hist(color = "#71BC78", 
                             edgecolor = "white",
                             figsize = (16, 9));

Построим диаграмму рассеивания *ВВП на душу населения* vs *индекс счастья*:

In [None]:
happy.plot.scatter(x = "gdp_per_capita", 
                   y = "happiness_score",
                   color = "#025669", 
                   figsize = (16, 9), 
                   grid = True,
                   xlabel = "GDP per capita",
                   ylabel = "Happiness score");

Добавим градиент на цвет точек в зависимости от третьего показателя – индекса социальной поддержки:

In [None]:
# https://matplotlib.org/stable/users/explain/colors/colormaps.html

happy.plot.scatter("gdp_per_capita", "happiness_score",
                   c = "social_support", 
                   cmap = "viridis",
                   figsize = (16, 9), 
                   grid = True);

In [None]:
# изменим цветовую палитру

happy.plot.scatter("gdp_per_capita", "happiness_score",
                   c = "social_support", 
                   cmap = "Blues",
                   figsize = (16, 9),
                   grid = True);

Сделаем цвет точек зависимым от региона (их 10):

In [None]:
happy.plot.scatter("gdp_per_capita", "happiness_score",
                   c = "region_num", 
                   cmap = "tab10", 
                   figsize = (16, 9));

Вычислим коэффициент Пирсона и сразу проверим его значимость:

In [None]:
stats.pearsonr(happy["happiness_score"], happy["gdp_per_capita"])

Вычислим коэффициент Спирмена и соответствующее p-value:

In [None]:
stats.spearmanr(happy["happiness_score"], happy["gdp_per_capita"])

Выберем числовые столбцы из таблицы:

In [None]:
small = happy[["happiness_score", "gdp_per_capita", "social_support", 
               "healthy_life_expectancy", "generosity", "perceptions_of_corruption"]]

Построим матрицу диаграмм рассеивания (*scatterplot matrix*):

In [None]:
pd.plotting.scatter_matrix(small, 
                          figsize = (16, 9), 
                          hist_kwds = {"color" : "#9D81BA", "edgecolor" : "white"}, 
                          color = "navy");

Можем вывести коэффициенты Пирсона для всех пар числовых переменных:

In [None]:
# корреляционная матрица

small.corr()

### Часть 2. О счастье: качественные данные

Загрузим другой набор данных – о жизни в крупных городах:

In [None]:
cities = pd.read_csv("https://raw.githubusercontent.com/allatambov/IntroProbStat2024/main/city_happy.csv")
cities.head(3)

Построим таблицу сопряженности *качество воздуха* vs *уровень счастья*:

In [None]:
tab1 = pd.crosstab(cities["Air_Quality_Category"], 
            cities["Happiness_Cat"])
tab1

Применим критерий хи-квадрат:

In [None]:
stats.chi2_contingency(tab1)

Построим таблицу сопряженности *интенсивность дорожного движения* vs *уровень счастья*:

In [None]:
tab2 = pd.crosstab(cities["Traffic_Density"], 
            cities["Happiness_Cat"])
tab2

Применим критерий хи-квадрат:

In [None]:
stats.chi2_contingency(tab2)