Обозначения:

📝 - определение, которое нужно запомнить

`# ⏩`- комментарий, что эту ячейку / функцию нужно просто запустить, она уже написана

`# ✏️` - код в этой ячейке / функции мы будем дополнять в процессе урока

👨🏻‍💻 - задача для самостоятельного выполнения

# Чем мы будем заниматься на уроке?

Мы будем анализировать и визуализировать данные об индексе счастья.

[Чистая рабочая тетрадь для заполнения](https://colab.research.google.com/drive/1sK6XdgABL4tTb618dmuHzNO2xwK7u9ax?usp=sharing)

[Заполненная рабочая тетрадь](https://colab.research.google.com/drive/1Y8wLmEIRwLhJ3hPbFFffnulIyuwtFs6z?usp=sharing)

[Презентация к уроку](https://docs.google.com/presentation/d/1MK0k0N8JDZkvehBL6jq8Tzotc7r80WtZRuqmmUlMRn0/edit?usp=sharing)

Данные с Kaggle [Population Dataset](https://www.kaggle.com/datasets/unsdsn/world-happiness)

In [None]:
# ▶️▶️
import os # функции для работы с файлами
import plotly.express as px
import pandas as pd # функции для работы с таблицами
import urllib.request # скачивание файла
import zipfile # распаковка zip-архива

import plotly.express as px

In [None]:
# ▶️▶️

# Распаковываем архив
urllib.request.urlretrieve('https://drive.google.com/uc?export=view&id=1jbqLpNiKaDFY4ZJngrzYuWkTHOPuqsjL', 'dataset.zip')


with zipfile.ZipFile('dataset.zip', 'r') as zip_ref:
    zip_ref.extractall('dataset')

In [None]:
# ▶️▶️
# Возьмем для сравнения первый и последний год

# 👨🏻‍💻 Попробуйте заменить 2015 год на 2016
data2019 = pd.read_csv('dataset/2019.csv')
data2015 = pd.read_csv('dataset/2015.csv')

# Пропишем год
data2019['Year'] = 2019
data2015['Year'] = 2015

In [None]:
data2019.describe()

Unnamed: 0,Overall rank,Score,GDP per capita,Social support,Healthy life expectancy,Freedom to make life choices,Generosity,Perceptions of corruption,Year
count,156.0,156.0,156.0,156.0,156.0,156.0,156.0,156.0,156.0
mean,78.5,5.407096,0.905147,1.208814,0.725244,0.392571,0.184846,0.110603,2019.0
std,45.177428,1.11312,0.398389,0.299191,0.242124,0.143289,0.095254,0.094538,0.0
min,1.0,2.853,0.0,0.0,0.0,0.0,0.0,0.0,2019.0
25%,39.75,4.5445,0.60275,1.05575,0.54775,0.308,0.10875,0.047,2019.0
50%,78.5,5.3795,0.96,1.2715,0.789,0.417,0.1775,0.0855,2019.0
75%,117.25,6.1845,1.2325,1.4525,0.88175,0.50725,0.24825,0.14125,2019.0
max,156.0,7.769,1.684,1.624,1.141,0.631,0.566,0.453,2019.0


In [None]:
data2015.describe()

Unnamed: 0,Happiness Rank,Happiness Score,Standard Error,Economy (GDP per Capita),Family,Health (Life Expectancy),Freedom,Trust (Government Corruption),Generosity,Dystopia Residual,Year
count,158.0,158.0,158.0,158.0,158.0,158.0,158.0,158.0,158.0,158.0,158.0
mean,79.493671,5.375734,0.047885,0.846137,0.991046,0.630259,0.428615,0.143422,0.237296,2.098977,2015.0
std,45.754363,1.14501,0.017146,0.403121,0.272369,0.247078,0.150693,0.120034,0.126685,0.55355,0.0
min,1.0,2.839,0.01848,0.0,0.0,0.0,0.0,0.0,0.0,0.32858,2015.0
25%,40.25,4.526,0.037268,0.545808,0.856823,0.439185,0.32833,0.061675,0.150553,1.75941,2015.0
50%,79.5,5.2325,0.04394,0.910245,1.02951,0.696705,0.435515,0.10722,0.21613,2.095415,2015.0
75%,118.75,6.24375,0.0523,1.158448,1.214405,0.811013,0.549092,0.180255,0.309883,2.462415,2015.0
max,158.0,7.587,0.13693,1.69042,1.40223,1.02525,0.66973,0.55191,0.79588,3.60214,2015.0


In [None]:
# ▶️▶️

# Приведем к единому виду: удалим лишние колонки, переименуем отличающиеся

data2015 = data2015.drop(columns=['Region',
                                  'Dystopia Residual',
                                  'Standard Error',
                                  'Lower Confidence Interval',
                                  'Upper Confidence Interval',
                                  ],
                         errors='ignore')
data2015 = data2015.rename(columns={
    'Country': 'Country or region',
    'Freedom': 'Freedom to make life choices',
    'Economy (GDP per Capita)': 'GDP per capita',
    'Health (Life Expectancy)': 'Healthy life expectancy',
    'Trust (Government Corruption)': 'Perceptions of corruption',
    'Happiness Rank': 'Overall rank',
    'Happiness Score': 'Score',
    'Family': 'Social support',
    })

# Сделаем одинаковым порядок столбцов для наглядности - отфильтруем по списку колонок
data2015 = data2015[data2019.columns]

## Корреляция

📝 **Корреляция** - число от -1 до 1, которое показывает, насколько два фактора А и B зависят друг от друга.

* Если А и B растут и падают одновременно, то корреляция близка или равна 1 (прямая зависимость)

* Если А растет, когда B падает и наоборот, то корреляция близка или равна -1 (обратная зависимость)

* Если связи между поведением А и B нет, то корреляция равна 0

👨🏻‍💻 **Вопрос: чему равна корреляция A и B, если B = A?**

In [None]:
# ✏️

# Функция .corr() выдает таблицу попарных корреляций факторов.
# - numeric_only=True - удалить нечисловые колонки
correlations_table = data2019.corr(numeric_only=True)

# Выведем тепловую карту с помощью функции px.imshow
px.imshow(correlations_table)

In [None]:
# 👨🏻‍💻 Выведите таблицу корреляций для 2015 года. Изменилась ли картинка?


# Самая счастливая страна?

In [None]:
# ✏️
# 1. Найдем максимальное значение `data2019['Score'].max()`
# 2. Задаим условие фильтрации "равно максимальному значению"
#    `data2019['Score'] == data2019['Score'].max()`
# 3. Отфильтруем таблицу


max_value = data2019['Score'].max()

data2019[data2019['Score'] == max_value]

Unnamed: 0,Overall rank,Country or region,Score,GDP per capita,Social support,Healthy life expectancy,Freedom to make life choices,Generosity,Perceptions of corruption,Year
0,1,Finland,7.769,1.34,1.587,0.986,0.596,0.153,0.393,2019


In [None]:
# ✏️
# Аналогично для 2015

data2015[data2015['Score'] == data2015['Score'].max()]

Unnamed: 0,Overall rank,Country or region,Score,GDP per capita,Social support,Healthy life expectancy,Freedom to make life choices,Generosity,Perceptions of corruption,Year
0,1,Switzerland,7.587,1.39651,1.34951,0.94143,0.66557,0.29678,0.41978,2015


In [None]:
data2019[data2019['Country or region'] == 'Switzerland']

Unnamed: 0,Overall rank,Country or region,Score,GDP per capita,Social support,Healthy life expectancy,Freedom to make life choices,Generosity,Perceptions of corruption,Year
5,6,Switzerland,7.48,1.452,1.526,1.052,0.572,0.263,0.343,2019


# Построим графики распределения

Насколько сильно разбросаны значения?

In [None]:
# ▶️▶️
# Выберем только те столбцы, для которых интересно смотреть распределение:
interesting_columns = ['Score', 'GDP per capita', 'Social support',
       'Healthy life expectancy', 'Freedom to make life choices', 'Generosity',
       'Perceptions of corruption']

In [None]:
# ▶️▶️
# Построим violin plot (диаграмма типа "скрипка")
# В функцию px.violin передаем таблицу и список нужных колонок y
px.violin(data2019, y=interesting_columns)

In [None]:
# ✏️
# Аналигично для графиков "ящик с усами" px.box
px.box(data2019, y=interesting_columns)

In [None]:
# 👨🏻‍💻 Вернитесь к списку interesting_columns, удалите 'Score' и перезапустите
# ячейки с построением графиков

# Объединим данные в одну таблицу

In [None]:
# ▶️▶️
data = pd.concat([data2015, data2019])

In [None]:
# ✏️
# Посмотрим данные для России по условию data['Country or region'] == 'Russia'

data[data['Country or region'] == 'Russia']

Unnamed: 0,Overall rank,Country or region,Score,GDP per capita,Social support,Healthy life expectancy,Freedom to make life choices,Generosity,Perceptions of corruption,Year
63,64,Russia,5.716,1.13764,1.23617,0.66926,0.36679,0.00199,0.03005,2015
67,68,Russia,5.648,1.183,1.452,0.726,0.334,0.082,0.031,2019


In [None]:
# 👨🏻‍💻 Выведите данные для любой другой страны


# Сводная таблица

После склейки двух таблиц у нас получились 3-х-мерные данные: страна - индекс - год, и мы можем делать агрегацию в новом разрезе

In [None]:
# ▶️▶️
score_by_year = data.pivot(index='Country or region', columns='Year', values='Score')

In [None]:
score_by_year

Year,2015,2019
Country or region,Unnamed: 1_level_1,Unnamed: 2_level_1
Afghanistan,3.575,3.203
Albania,4.959,4.719
Algeria,5.605,5.211
Angola,4.033,
Argentina,6.574,6.086
...,...,...
Venezuela,6.810,4.707
Vietnam,5.360,5.175
Yemen,4.077,3.380
Zambia,5.129,4.107


In [None]:
# ✏️
# Посмотрим на строчку с Россией. Для выбора строки используется .loc
# Чтобы получить однострочную таблицу, используется список внутри .loc[[...]]

score_by_year.loc[['Russia']]

Year,2015,2019
Country or region,Unnamed: 1_level_1,Unnamed: 2_level_1
Russia,5.716,5.648


In [None]:
# 👨🏻‍💻 Выведите данные для любой другой страны


In [None]:
# ✏️
# Найдем страну, которая больше всего выросла и сильнее всех упала в индексе счастья

score_by_year['diff'] = score_by_year[2019] - score_by_year[2015]

# Удалим строчки, в которых отсутствовали данные для какого-то из годов
score_by_year = score_by_year.dropna()

In [None]:
# ✏️
# Отсортируем данные: sort_values('diff')
score_by_year.sort_values('diff')

Year,2015,2019,diff
Country or region,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Venezuela,6.810,4.707,-2.103
Lesotho,4.898,3.802,-1.096
Zambia,5.129,4.107,-1.022
Zimbabwe,4.610,3.663,-0.947
Haiti,4.518,3.597,-0.921
...,...,...,...
Burkina Faso,3.587,4.587,1.000
Honduras,4.788,5.860,1.072
Togo,2.839,4.085,1.246
Ivory Coast,3.655,4.944,1.289


In [None]:
# 👨🏻‍💻 Вернитесь к первой ячейке в блоке "Сводная таблица" и замените 'Score' на
#  любой другой числовой параметр

# Какой параметр влияет на счастье больше всего?

Числовые данные - это коэффициенты, показывающие, насколько фактор влияет на индекс. Чтобы посчитать в среднем фактор с максимальным влиянием, возьмем среднее для каждой колонки (axis=0)

In [None]:
# ✏️

data.mean(axis=0, numeric_only=True)

Overall rank                      79.000000
Score                              5.391315
GDP per capita                     0.875454
Social support                     1.099236
Healthy life expectancy            0.677449
Freedom to make life choices       0.410708
Generosity                         0.211238
Perceptions of corruption          0.127117
Year                            2016.987261
dtype: float64

👨🏻‍💻 Какой фактор больше всего влиял на Score?

In [None]:
# 👨🏻‍💻 Проведите такой же расчет для 2015 и 2019 года по отдельности.
# Изменилась ли картина?

# Что мы узнали на этом занятии?
* Дата-аналитик умеет визуализировать данные и делать из них полезные выводы
* С помощью Python можно не только заменить Excel, но и делать интерактивные визуализации. Мы построили сводные таблицы, посчитали средние значения, нарисовали графики распределений и тепловую карту корреляции.
* Наиболее важные факторы для счастья - социальная поддержка и семья, здоровье и экономическое благополучие
* Уметь программировать на Python и уметь анализировать данные - классно :)