Обозначения:

📝 - определение, которое нужно запомнить

`# ⏩`- комментарий, что эту ячейку / функцию нужно просто запустить, она уже написана

`# ✏️` - код в этой ячейке / функции мы будем дополнять в процессе урока

👨🏻‍💻 - задача для самостоятельного выполнения

# Чем мы будем заниматься на уроке?

Мы будем анализировать и визуализировать данные об индексе счастья.

[Чистая рабочая тетрадь для заполнения](https://colab.research.google.com/drive/1sK6XdgABL4tTb618dmuHzNO2xwK7u9ax?usp=sharing)

[Заполненная рабочая тетрадь](https://colab.research.google.com/drive/1Y8wLmEIRwLhJ3hPbFFffnulIyuwtFs6z?usp=sharing)

[Презентация к уроку](https://docs.google.com/presentation/d/1MK0k0N8JDZkvehBL6jq8Tzotc7r80WtZRuqmmUlMRn0/edit?usp=sharing)

Данные с Kaggle [Population Dataset](https://www.kaggle.com/datasets/unsdsn/world-happiness)

In [None]:
# ▶️▶️
import os # функции для работы с файлами
import plotly.express as px
import pandas as pd # функции для работы с таблицами
import urllib.request # скачивание файла
import zipfile # распаковка zip-архива

import plotly.express as px

In [None]:
# ▶️▶️

# Распаковываем архив
urllib.request.urlretrieve('https://drive.google.com/uc?export=view&id=1jbqLpNiKaDFY4ZJngrzYuWkTHOPuqsjL', 'dataset.zip')


with zipfile.ZipFile('dataset.zip', 'r') as zip_ref:
    zip_ref.extractall('dataset')

In [None]:
# ▶️▶️
# Возьмем для сравнения первый и последний год

# 👨🏻‍💻 Попробуйте заменить 2015 год на 2016
data2019 = pd.read_csv('dataset/2019.csv')
data2015 = pd.read_csv('dataset/2015.csv')

# Пропишем год
data2019['Year'] = 2019
data2015['Year'] = 2015

In [None]:
# ✏️
# Посмотрим описание с помощью функции .describe()


In [None]:
# ▶️▶️

# Приведем к единому виду: удалим лишние колонки, переименуем отличающиеся

data2015 = data2015.drop(columns=['Region',
                                  'Dystopia Residual',
                                  'Standard Error',
                                  'Lower Confidence Interval',
                                  'Upper Confidence Interval',
                                  ],
                         errors='ignore')
data2015 = data2015.rename(columns={
    'Country': 'Country or region',
    'Freedom': 'Freedom to make life choices',
    'Economy (GDP per Capita)': 'GDP per capita',
    'Health (Life Expectancy)': 'Healthy life expectancy',
    'Trust (Government Corruption)': 'Perceptions of corruption',
    'Happiness Rank': 'Overall rank',
    'Happiness Score': 'Score',
    'Family': 'Social support',
    })

# Сделаем одинаковым порядок столбцов для наглядности - отфильтруем по списку колонок
data2015 = data2015[data2019.columns]

## Корреляция

📝 **Корреляция** - число от -1 до 1, которое показывает, насколько два фактора А и B зависят друг от друга.

* Если А и B растут и падают одновременно, то корреляция близка или равна 1 (прямая зависимость)

* Если А растет, когда B падает и наоборот, то корреляция близка или равна -1 (обратная зависимость)

* Если связи между поведением А и B нет, то корреляция равна 0

👨🏻‍💻 **Вопрос: чему равна корреляция A и B, если B = A?**

In [None]:
# ✏️

# Функция .corr() выдает таблицу попарных корреляций факторов.
# - numeric_only=True - удалить нечисловые колонки
correlations_table = ...

# Выведем тепловую карту с помощью функции px.imshow
...

In [None]:
# 👨🏻‍💻 Выведите таблицу корреляций для 2015 года. Изменилась ли картинка?


# Самая счастливая страна?

In [None]:
# ✏️
# 1. Найдем максимальное значение `data2019['Score'].max()`
# 2. Задаим условие фильтрации "равно максимальному значению"
#    `data2019['Score'] == data2019['Score'].max()`
# 3. Отфильтруем таблицу


In [None]:
# ✏️
# Аналогично для 2015


# Построим графики распределения

Насколько сильно разбросаны значения?

In [None]:
# ▶️▶️
# Выберем только те столбцы, для которых интересно смотреть распределение:
interesting_columns = ['Score', 'GDP per capita', 'Social support',
       'Healthy life expectancy', 'Freedom to make life choices', 'Generosity',
       'Perceptions of corruption']

In [None]:
# ▶️▶️
# Построим violin plot (диаграмма типа "скрипка")
# В функцию px.violin передаем таблицу и список нужных колонок y
px.violin(data2019, y=interesting_columns)

In [None]:
# ✏️
# Аналигично для графиков "ящик с усами" px.box


In [None]:
# 👨🏻‍💻 Вернитесь к списку interesting_columns, удалите 'Score' и перезапустите
# ячейки с построением графиков

# Объединим данные в одну таблицу

In [None]:
# ▶️▶️
data = pd.concat([data2015, data2019])

In [None]:
# ✏️
# Посмотрим данные для России по условию data['Country or region'] == 'Russia'



In [None]:
# 👨🏻‍💻 Выведите данные для любой другой страны


# Сводная таблица

После склейки двух таблиц у нас получились 3-х-мерные данные: страна - индекс - год, и мы можем делать агрегацию в новом разрезе

In [None]:
# ▶️▶️
score_by_year = data.pivot(index='Country or region', columns='Year', values='Score')

In [None]:
# ✏️
# Посмотрим на строчку с Россией. Для выбора строки используется .loc
# Чтобы получить однострочную таблицу, используется список внутри .loc[[...]]

...

In [None]:
# 👨🏻‍💻 Выведите данные для любой другой страны


In [None]:
# ✏️
# Найдем страну, которая больше всего выросла и сильнее всех упала в индексе счастья

score_by_year['diff'] = ...

# Удалим строчки, в которых отсутствовали данные для какого-то из годов
score_by_year = score_by_year.dropna()

In [None]:
# ✏️
# Отсортируем данные: sort_values('diff')

In [None]:
# 👨🏻‍💻 Вернитесь к первой ячейке в блоке "Сводная таблица" и замените 'Score' на
#  любой другой числовой параметр

# Какой параметр влияет на счастье больше всего?

Числовые данные - это коэффициенты, показывающие, насколько фактор влияет на индекс. Чтобы посчитать в среднем фактор с максимальным влиянием, возьмем среднее для каждой колонки (axis=0)

In [None]:
# ✏️

👨🏻‍💻 Какой фактор больше всего влиял на Score?

In [None]:
# 👨🏻‍💻 Проведите такой же расчет для 2015 и 2019 года по отдельности.
# Изменилась ли картина?

# Что мы узнали на этом занятии?
* Дата-аналитик умеет визуализировать данные и делать из них полезные выводы
* С помощью Python можно не только заменить Excel, но и делать интерактивные визуализации. Мы построили сводные таблицы, посчитали средние значения, нарисовали графики распределений и тепловую карту корреляции.
* Наиболее важные факторы для счастья - социальная поддержка и семья, здоровье и экономическое благополучие
* Уметь программировать на Python и уметь анализировать данные - классно :)