In [38]:
import pandas as pd
from scipy.stats import levene
from scipy.stats import ttest_ind
from scipy.stats import f_oneway

## Раздел 02

Всемирный доклад ООН о счастье содержит данные об опросе людей в разных странах, в котором они оценивают свой общий уровень счастья, а также уровне удовлетворения в отдельных аспектах. Репрезентативные национальные выборки респондентов просят ответить на ряд вопросов по шкале от нуля до десяти, где десять — это лучшая из возможных жизней, а ноль — худшая. Ответы отдельных респондентов усредняются для получения общего для страны показателя. Попробуем исследовать данные за 2019 год, чтобы лучше понять их структуру. CSV-файл доступен под названием “2019.csv”.

Некоторые переменные, доступные в данных:

* 'Country or region' - название страны
* 'Score' - Уровень индекса счастья
* 'GDP per capita' - Уровень ВВП на душу населения

In [4]:
df = pd.read_csv('02_2019.csv')

Unnamed: 0,Overall rank,Country or region,Score,GDP per capita,Social support,Healthy life expectancy,Freedom to make life choices,Generosity,Perceptions of corruption
0,1,Finland,7.769,1.340,1.587,0.986,0.596,0.153,0.393
1,2,Denmark,7.600,1.383,1.573,0.996,0.592,0.252,0.410
2,3,Norway,7.554,1.488,1.582,1.028,0.603,0.271,0.341
3,4,Iceland,7.494,1.380,1.624,1.026,0.591,0.354,0.118
4,5,Netherlands,7.488,1.396,1.522,0.999,0.557,0.322,0.298
...,...,...,...,...,...,...,...,...,...
151,152,Rwanda,3.334,0.359,0.711,0.614,0.555,0.217,0.411
152,153,Tanzania,3.231,0.476,0.885,0.499,0.417,0.276,0.147
153,154,Afghanistan,3.203,0.350,0.517,0.361,0.000,0.158,0.025
154,155,Central African Republic,3.083,0.026,0.000,0.105,0.225,0.235,0.035


A: Какое максимальное и минимальное значение индекса счастья в 2019 году?

In [13]:
print(f"{df['Score'].max()}\n{df['Score'].min()}")

7.769
2.853


B: Какой средний уровень счастья среди всех стран?

In [14]:
print(df['Score'].mean())

5.407096153846155


C: Каков медианный уровень счастья среди всех стран?

In [15]:
print(df['Score'].median())

5.3795


D: Какова мода среди всех стран?

In [17]:
print(df['Score'].mode()[0])

5.208


E: Каково стандартное отклонение среди всех стран?

In [18]:
print(df['Score'].std())

1.1131198687956712


F: Найдите десять самых счастливых стран

Отсортируйте наблюдения по уровню счастья, затем выберите единственную колонку с названиями регионов, а потом выведите первые 10 наблюдений.

In [24]:
print(df.sort_values(by=['Score'], ascending=False)[:10]['Country or region'].to_list())

['Finland', 'Denmark', 'Norway', 'Iceland', 'Netherlands', 'Switzerland', 'Sweden', 'New Zealand', 'Canada', 'Austria']


G: Подсчитайте суммарный ВВП всех стран.

In [25]:
print(df['GDP per capita'].sum())

141.203

H: Подсчитайте суммарный ВВП первых десяти стран.

In [31]:
print(df.sort_values(by=['Score'], ascending=False)[:10]['GDP per capita'].sum())

13.87


## Раздел 03

Самый популярный писатель

В этой и в следующих задачах мы используем набор данных с самыми популярными книгами на Amazon. Мы добавили в него несколько дополнительных переменных. CSV-файл доступен под названием “books_prep.csv”.

In [3]:
df = pd.read_csv('03_books_prep.csv')

A: Выведите имя самого популярного писателя в наборе данных

In [17]:
print(df['Author'].describe()['top'])

Jeff Kinney


Среднее значение рейтинга 1

Определите средние значения рейтинга для «дешёвых» и «дорогих» книг.
Попробуем исследовать этот набор данных. Мы создали переменную “Price (Above Average)”, которая содержит “Yes”, если цена книги больше средней, и “No”, если меньше.

Мы предполагаем, что рейтинг книги не зависит от её стоимости. Давайте проверим эту гипотезу. Начнём с того, что выведем средние значения пользовательского рейтинга для каждой из групп.

Вам необходимо загрузить набор данных и напечатать средний рейтинг для «дорогих» книг.

In [25]:
print(df.loc[df['Price (Above Average)']=='Yes']['User Rating'].mean())

4.560103626943005

А теперь вам необходимо загрузить набор данных и напечатать средний рейтинг для «дешёвых» книг.

In [26]:
print(df.loc[df['Price (Above Average)']=='No']['User Rating'].mean())

4.649859943977591


P-value

Проведите тест для определения равенства дисперсий. Выведите значение p-value.
Прежде чем сравнивать средние, нам необходимо сравнить дисперсии. Для этого мы можем использовать критерий Левене.

Вам необходимо вывести только значение p-value. Попробуйте немного изменить функцию `levene('add something here').pvalue`

In [34]:
exp = df.loc[df['Price (Above Average)']=='Yes'].sample(100)['User Rating']
cheap = df.loc[df['Price (Above Average)']=='No'].sample(100)['User Rating']
levene(exp, cheap).pvalue

0.059639718981464994

Равенство средних

Проведите тест для определения равенства средних. Выведите значение p-value
Теперь давайте попробуем понять, является ли значимым то различие между средними, которое мы увидели. Вам снова необходимо вывести только значение p-value. Модифицировать метод необходимо аналогично предыдущей задаче.

In [37]:
print(ttest_ind(exp, cheap).pvalue)

0.0014972028104128605


ANOVA

Проведите тест ANOVA. Выведите значение p-value

Ещё в этом примере мы создали переменную “User Rating (Round)”, которая содержит округлённые до целого значения среднего пользовательского рейтинга. Мы предполагаем, что рейтинг книги для каждой из групп, — у нас получилось их три, — зависит от числа рецензий (на хорошие книги люди охотнее пишут рецензии). Давайте проверим эту гипотезу с помощью теста ANOVA.

In [57]:
# df['User Rating (Round)'].value_counts()
round_5 = df.loc[df['User Rating (Round)']==5]['Reviews']
round_4 = df.loc[df['User Rating (Round)']==4]['Reviews']
round_3 = df.loc[df['User Rating (Round)']==3]['Reviews']
print(f_oneway(round_5, round_4, round_3).pvalue)

0.2973862975123458
