<a href="https://colab.research.google.com/github/K1R1VV/ASU_Lab/blob/main/%D0%97%D0%B0%D0%BD%D1%8F%D1%82%D0%B8%D0%B5_4.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Анализ и обработка результатов

В анализе данных важно наглядное представление результатов, чтобы их мог оценить заказчик. Это бизнес, где на кону громадный трафик, серверные мощности, личное время многотысячной аудитории. И одновременно это исследование.

Как в настоящей экспериментальной науке, ответ непредсказуем. Его точность зависит от умелого владения статистическими методами и от качества исходных данных. Перед тем, как начинать считать, проверьте, грамотно ли ваши данные подготовлены.

# Группировка данных

Слово «анализ» означает разбор, рассмотрение с разных сторон. Анализ данных начинают с разделения их на группы по какому-нибудь признаку. Эта операция называется группировка данных. Она помогает изучить материал более подробно, чтобы затем перейти к поиску взаимосвязей между отдельными группами.


Группировка оправданна, если данные чётко делятся по значимому признаку, а полученные группы близки к теме задачи. Например, когда есть данные обо всех покупках в супермаркете, можно смело заниматься группировкой. Так можно установить время наплыва покупателей и решить проблему пиковых нагрузок. Или посчитать средний чек — обычно для магазинов это ключевая метрика.


Стадии группировки хорошо укладываются в словесную формулу **split-apply-combine**:

•	разделить, **split** — разбиение на группы по определённому критерию;

•	применить, **apply** — применение какого-либо метода к каждой группе в отдельности, например, подсчёт численности группы методом count() или суммирование вызовом sum();

•	объединить, **combine** — сведение результатов в новую структуру данных, в зависимости от условий разделения и выполнения метода это бывает DataFrame и Series.

На картинке изображен принцип **split-apply-combine** для таблицы с экзопланетами. Посмотрим, как вообще идут дела с поиском экзопланет. Сначала данные делят по группам, где каждая группа — это год. Потом метод **count()** подсчитывает численность каждой группы. В итоге получаем новую структуру данных с группами, где каждая содержит год и число открытых за этот год экзопланет.


В Рandas для группировки данных есть метод **groupby()**. Он принимает как аргумент название столбца, по которому нужно группировать. В случае с делением экзопланет по годам открытия:

**print(exoplanet.groupby('discovered'))**

**<pandas.core.groupby.DataFrameGroupBy object at 0x7fc1e1ca3400>**


Применение метода **groupby()** к объекту типа DataFrame приводит к созданию объекта особого типа — **DataFrameGroupBy**. Это сгруппированные данные. Если применить к ним какой-нибудь метод Pandas, они станут новой структурой данных типа **DataFrame** или **Series**.
Подсчитаем сгруппированные по годам экзопланеты методом **count()**:

Если нужно сравнить наблюдения по одному показателю, метод применяют к **DataFrameGroupBy** с указанием на один столбец. Нас в первую очередь интересует радиус экзопланет: мы ищем другую Землю. Давайте получим таблицу с единственным столбцом 'radius':

**exo_number = exoplanet.groupby('discovered')['radius'].count()**

**print(exo_number)**

Получили Series, где по годам открытия расписано количество экзопланет, для которых удалось установить радиус.

Посмотрим, как меняется средний радиус открытых экзопланет год от года. Для этого надо сложить радиусы планет, открытых за определённый год, и поделить на их количество (которое мы уже нашли).

Сумма радиусов считается методом **sum()**:

**exo_radius_sum = exoplanet.groupby('discovered')['radius'].sum()**


**print(exo_radius_sum)**



## Задача
Вашему вниманию предлагается датасет с обзором показателей самоубийств с 1985 по 2016 год — Сравнение социально-экономической информации с показателями самоубийств по годам и странам.

Столбцами этой таблицы являются: страна, год, пол, возрастная группа, количество самоубийств, население, уровень самоубийств, сводный ключ по стране за год, ИЧР (индекс человеческого развития) за год, ВВП за год, ВВП на душу населения, поколение (на основе среднего по возрастной группе).

1. Загрузите таблицу master, содержащую данные о самоубийствах. Выведите на экран таблицу и оцените данные, обратите внимание на названия столбцов, переименуйте их, если это необходимо.

2. Убедитесь в том, что данные прошли предподготовку.  Пропущенные и неопределённые значения выявляет метод isna(), а суммарное количество таких значений — метод sum().

3. Сгруппируйте DataFrame по столбцу country, сохраните полученный результат в переменной country_grouping.

4. Посчитайте количество случаев самоубийств по странам, которые были совершены, методом **sum()**, указав, что выбираем один столбец suicides_no.

Сохраните результат в переменной country_sum и выведите первые 30 строк этой таблицы.



In [None]:
from google.colab import drive
drive.mount('/content/drive')

Mounted at /content/drive


In [None]:
import pandas as pd
df = pd.read_csv('/content/drive/MyDrive/master.csv')

In [None]:
df.head(5)

Unnamed: 0,country,year,sex,age,suicides_no,population,suicides/100k pop,country-year,HDI for year,gdp_for_year ($),gdp_per_capita ($),generation
0,Albania,1987,male,15-24 years,21,312900,6.71,Albania1987,,2156624900,796,Generation X
1,Albania,1987,male,35-54 years,16,308000,5.19,Albania1987,,2156624900,796,Silent
2,Albania,1987,female,15-24 years,14,289700,4.83,Albania1987,,2156624900,796,Generation X
3,Albania,1987,male,75+ years,1,21800,4.59,Albania1987,,2156624900,796,G.I. Generation
4,Albania,1987,male,25-34 years,9,274300,3.28,Albania1987,,2156624900,796,Boomers


In [None]:
new_names = ['country', 'year', 'sex', 'age', 'suicides_no', 'population', 'suicides_100k_pop', 'country_year', 'hdi_for_year', 'gdp_for_year($)', 'gdp_per_capita($)', 'generation']
df = df.set_axis(new_names, axis='columns')

In [None]:
print(df.isna().sum())

country                   0
year                      0
sex                       0
age                       0
suicides_no               0
population                0
suicides/100k pop         0
country-year              0
HDI for year          19456
 gdp_for_year ($)         0
gdp_per_capita ($)        0
generation                0
dtype: int64


In [None]:
df = df.drop('hdi_for_year', axis=1)

In [None]:
print(df.isna().sum())

country              0
year                 0
sex                  0
age                  0
suicides_no          0
population           0
suicides_100k_pop    0
country_year         0
gdp_for_year($)      0
gdp_per_capita($)    0
generation           0
dtype: int64


In [None]:
df.head(10)

Unnamed: 0,country,year,sex,age,suicides_no,population,suicides_100k_pop,country_year,gdp_for_year($),gdp_per_capita($),generation
0,Albania,1987,male,15-24 years,21,312900,6.71,Albania1987,2156624900,796,Generation X
1,Albania,1987,male,35-54 years,16,308000,5.19,Albania1987,2156624900,796,Silent
2,Albania,1987,female,15-24 years,14,289700,4.83,Albania1987,2156624900,796,Generation X
3,Albania,1987,male,75+ years,1,21800,4.59,Albania1987,2156624900,796,G.I. Generation
4,Albania,1987,male,25-34 years,9,274300,3.28,Albania1987,2156624900,796,Boomers
5,Albania,1987,female,75+ years,1,35600,2.81,Albania1987,2156624900,796,G.I. Generation
6,Albania,1987,female,35-54 years,6,278800,2.15,Albania1987,2156624900,796,Silent
7,Albania,1987,female,25-34 years,4,257200,1.56,Albania1987,2156624900,796,Boomers
8,Albania,1987,male,55-74 years,1,137500,0.73,Albania1987,2156624900,796,G.I. Generation
9,Albania,1987,female,5-14 years,0,311000,0.0,Albania1987,2156624900,796,Generation X


In [None]:
country_grouping = df.groupby('country')

In [None]:
country_grouping.describe()

Unnamed: 0_level_0,year,year,year,year,year,year,year,year,suicides_no,suicides_no,...,suicides_100k_pop,suicides_100k_pop,gdp_per_capita($),gdp_per_capita($),gdp_per_capita($),gdp_per_capita($),gdp_per_capita($),gdp_per_capita($),gdp_per_capita($),gdp_per_capita($)
Unnamed: 0_level_1,count,mean,std,min,25%,50%,75%,max,count,mean,...,75%,max,count,mean,std,min,25%,50%,75%,max
country,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2,Unnamed: 8_level_2,Unnamed: 9_level_2,Unnamed: 10_level_2,Unnamed: 11_level_2,Unnamed: 12_level_2,Unnamed: 13_level_2,Unnamed: 14_level_2,Unnamed: 15_level_2,Unnamed: 16_level_2,Unnamed: 17_level_2,Unnamed: 18_level_2,Unnamed: 19_level_2,Unnamed: 20_level_2,Unnamed: 21_level_2
Albania,264.0,1999.227273,6.788036,1987.0,1994.00,1999.5,2005.00,2010.0,264.0,7.462121,...,5.1000,18.88,264.0,1859.045455,1387.229780,251.0,796.0,1213.0,2931.00,4672.0
Antigua and Barbuda,324.0,1999.481481,9.095450,1985.0,1991.00,2000.0,2007.00,2015.0,324.0,0.033951,...,0.0000,30.00,324.0,10448.185185,3335.016995,3850.0,7976.0,10468.0,13657.00,16238.0
Argentina,372.0,2000.000000,8.956318,1985.0,1992.00,2000.0,2008.00,2015.0,372.0,221.018817,...,14.1325,63.01,372.0,7914.096774,3506.725386,2670.0,4683.0,7918.0,9126.00,14981.0
Armenia,298.0,2002.791946,8.049740,1990.0,1996.00,2002.0,2010.00,2016.0,298.0,6.392617,...,4.9525,24.82,298.0,1873.919463,1541.130961,357.0,515.0,788.0,3773.00,4142.0
Aruba,168.0,2004.285714,4.444121,1995.0,2001.00,2004.5,2008.00,2011.0,168.0,0.601190,...,12.3575,224.97,168.0,24221.642857,2968.073993,17949.0,22317.0,24501.5,26361.00,29447.0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
United Arab Emirates,72.0,2007.500000,1.719810,2005.0,2006.00,2007.5,2009.00,2010.0,72.0,8.638889,...,2.0375,9.46,72.0,42162.000000,4811.254798,34960.0,36964.0,43653.0,45285.00,48457.0
United Kingdom,372.0,2000.000000,8.956318,1985.0,1992.00,2000.0,2008.00,2015.0,372.0,367.755376,...,12.4075,23.99,372.0,31908.354839,12736.016607,9231.0,20927.0,29508.0,44491.00,53576.0
United States,372.0,2000.000000,8.956318,1985.0,1992.00,2000.0,2008.00,2015.0,372.0,2779.604839,...,23.3050,58.95,372.0,39269.612903,12334.117581,19693.0,27760.0,39218.0,51585.00,60387.0
Uruguay,336.0,2000.214286,8.902888,1985.0,1993.75,2000.5,2007.25,2015.0,336.0,39.101190,...,26.5975,115.05,336.0,7622.071429,4705.511948,1729.0,4311.5,6691.0,8763.25,18179.0


In [None]:
country_sum  = country_grouping['suicides_no'].sum()
country_sum.head(30)

Unnamed: 0_level_0,suicides_no
country,Unnamed: 1_level_1
Albania,1970
Antigua and Barbuda,11
Argentina,82219
Armenia,1905
Aruba,101
Australia,70111
Austria,50073
Azerbaijan,1656
Bahamas,93
Bahrain,463


# Сортировка данных


Поиск необычного в группе — что среди планет, что среди меломанов — это прежде всего поиск чемпионов: объектов с выдающимися показателями по разным статьям. Как всю таблицу, так и отдельные группы изучают, сортируя строки по какому-либо столбцу.

В Pandas для этой операции есть метод **sort_values()**. У него два аргумента:

• **by = 'имя столбца'** — имя столбца, по которому нужно сортировать;

• **ascending:** по умолчанию True. Для сортировки по убыванию установите значение False.


Среди экзопланет интересны близкие по размерам к Земле. Есть ли такие? Отсортируем список по радиусу в порядке возрастания. Тогда в голове таблицы окажутся самые малые, на которых гравитация не прижмёт нас к полу.

**print(exoplanet.sort_values(by='radius').head(30))**

Оказывается, некоторые из уже открытых экзопланет по размерам близки не то что к Земле, но уже и к Луне! Получим список экзопланет с радиусом меньше земного. Смотрите, как логический оператор (здесь это <) задействуется в отборе элементов столбца. Дальше нам этот приём не раз понадобится.

**print(exoplanet[exoplanet['radius'] < 1])**

Но и этот список такой длинный, что изучать его лучше по частям. Экзопланеты, близкие по размерам к Земле, за последнее десятилетие открывали нередко. Можно изучать список открытых за каждый год. Например, для 2014 года (вновь обратите внимание на работу логического оператора, теперь это ==):

**print(exoplanet[exoplanet['discovered'] == 2014])**

А чтобы не тратить время на лишнее, поставим оба условия сразу. Для этого в Pandas есть логический оператор &, подобный оператору and языка Python. Напомним, его смысл на русском языке можно передать словами «и ещё»:

**exo_small_14 = exoplanet[ (exoplanet['radius']<1) & (exoplanet['discovered']==2014)]**

**print(exo_small_14)**

Отсортируем результат в порядке убывания радиуса.

**print(exo_small_14.sort_values(by = 'radius', ascending = False))**





## Задача
1. Выделим пятерки стран с самым низким и самым высоким уровнем самоубийств в мире.

In [None]:
top_countries = df.groupby('country')['suicides_no'].sum().sort_values(ascending=False).head(5)
bottom_countries = df.groupby('country')['suicides_no'].sum().sort_values().head(5)


In [None]:
print('Топ 5 стран с самым высоким уровнем самоубийств: ')
print(top_countries)
print()
print('Топ 5 стран с самым низким уровнем самоубийств: ')
print(bottom_countries)


Топ 5 стран с самым высоким уровнем самоубийств: 
country
Russian Federation    1209742
United States         1034013
Japan                  806902
France                 329127
Ukraine                319950
Name: suicides_no, dtype: int64

Топ 5 стран с самым низким уровнем самоубийств: 
country
Dominica                  0
Saint Kitts and Nevis     0
San Marino                4
Antigua and Barbuda      11
Maldives                 20
Name: suicides_no, dtype: int64


2. Исследуйте распределение количества суидидов по гендерному признаку. Найдите лидеров и антилидеров по количеству самоубийств среди женщин. Повторяется ли картина по сравнению с предыдущим исследованием?

In [None]:
gender_distribution = df.groupby('sex')['suicides_no'].sum()

female_suicides = df[df['sex'] == 'female']
female_top = female_suicides.groupby('country')['suicides_no'].sum().sort_values(ascending=False).head(5)
female_bottom = female_suicides.groupby('country')['suicides_no'].sum().sort_values().head(5)

print('Лидеры по количеству самоубийств среди женщин: ')
print(female_top)
print()
print('Антилидеры по количеству самоубийств среди женщин: ')
print(female_bottom)


Лидеры по количеству самоубийств среди женщин: 
country
Japan                 251630
Russian Federation    214330
United States         213797
France                 89419
Republic of Korea      82615
Name: suicides_no, dtype: int64

Антилидеры по количеству самоубийств среди женщин: 
country
Oman                     0
San Marino               0
Dominica                 0
Saint Kitts and Nevis    0
Antigua and Barbuda      1
Name: suicides_no, dtype: int64


# Описательная статистика

Чтобы представить себе среднестатистического самоубийцу, понадобится описательная статистика.

Из её показателей для количественного описания данных в нашей задаче нужны четыре меры — максимум, минимум, медиана и среднее.

Наибольшее и наименьшее обычно вычисляют только по одному признаку. Например, можно получить минимальное и максимальное значение уровня самоубийств (количество самоубийств на 100 тыс.населения) (столбец 'suicides/100k pop'). Для поиска максимума вызывают метод max(), примененный к этому столбцу:

print(master['suicides/100k pop'].max())


In [None]:
print(df['suicides_100k_pop'].max())

224.97


Самый высокий показатель оказался 224.97 самоубийств на 100 тыс.населения. Интересно, в какой стране такая ситуация.

Запросим из master строку с максимальным значением, прибегнув к логической индексации с условием

**master['suicides/100k pop'] == master['suicides/100k pop'].max()**

In [None]:
df[df['suicides_100k_pop'] == df['suicides_100k_pop'].max()]["country"]

Unnamed: 0,country
1258,Aruba


Минимальное значение — ищут методом **min()**. Нам интересно установить случаи, когда уровень суицидов минимальный, но не нулевой.

Вот как мы создаём выборку  и находим в ней минимальное значение:

**master_drop_null = master[master['suicides/100k pop'] != 0]**

**print(master_drop_null['suicides/100k pop'].min())**


In [None]:
master_drop_null = df[df['suicides_100k_pop'] != 0]

print(master_drop_null['suicides_100k_pop'].min())

0.02


Получим название самой "счастливой" страны. Как и при поиске максимума, воспользуемся условием и логической индексацией

In [None]:
print(df[df['suicides_100k_pop'] == master_drop_null['suicides_100k_pop'].min()]['country'])

23347    South Africa
23371    South Africa
23479    South Africa
25060        Thailand
25061        Thailand
Name: country, dtype: object


Результат вывода — две страны, которые соответствуют минимальному значению.
На основе полученных данных можно сделать вывод, что число совершенных самоубийств на 100 тыс. населения  находится в диапазоне от 0,02 до 224.97 секунд, не включая пропущенные.

Это знание пригодится, чтобы разобраться с медианой и средним арифметическим.

Среднее и медиана оценивают значения в центре выборки. Если тех строк, где число с большим количеством самоубийц, столько же, сколько тех, где это число мало — среднее подойдет. Но когда есть оторванные от основной массы лидеры, их результаты сильно смещают значение среднего вверх. Вот почему оценивать в этом случае лучше медианой.


В геометрии медиана делит фигуру на две равные по площади. В статистике она делит выборку пополам: в одной половине значения меньше медианного, в другой больше. Логично, что для определения медианы список обязательно должен быть отсортирован — либо по возрастанию, либо по убыванию.
Когда количество значений нечётное, медиана будет равна тому значению, которое оказалось ровно посередине отсортированного набора. Если же количество данных чётное, то медиана рассчитывается как среднее арифметическое двух соседних чисел в середине набора.



В Pandas есть метод **median()**, который считает медиану. По аналогии с **min()** и **max()** его можно применять ко всей таблице, к отдельному столбцу или к сгруппированным данным. Теперь применим медиану ко всем значениям времени прослушивания в нашей таблице, исключив нулевые:



In [None]:
print(master_drop_null['suicides_100k_pop'].median())

8.26


Чтобы убедиться, что лидеры действительно смещают средний показатель вверх, найдём среднее арифметическое всех этих значений методом mean():

In [None]:
print(master_drop_null['suicides_100k_pop'].mean())

15.14694039678831


In [None]:
south_africa = df[(df['country'] == 'South Africa') & (df['year'].isin([2005, 2006, 2007]))]

In [None]:
south_africa

Unnamed: 0,country,year,sex,age,suicides_no,population,suicides_100k_pop,country_year,gdp_for_year($),gdp_per_capita($),generation
23396,South Africa,2005,male,75+ years,7,217456,3.22,South Africa2005,257671413751,5914,Silent
23397,South Africa,2005,male,25-34 years,123,4115079,2.99,South Africa2005,257671413751,5914,Generation X
23398,South Africa,2005,male,35-54 years,113,4940028,2.29,South Africa2005,257671413751,5914,Boomers
23399,South Africa,2005,male,15-24 years,84,5085130,1.65,South Africa2005,257671413751,5914,Millenials
23400,South Africa,2005,male,55-74 years,26,1814968,1.43,South Africa2005,257671413751,5914,Silent
23401,South Africa,2005,female,75+ years,6,436545,1.37,South Africa2005,257671413751,5914,Silent
23402,South Africa,2005,female,15-24 years,37,5019979,0.74,South Africa2005,257671413751,5914,Millenials
23403,South Africa,2005,female,55-74 years,13,2277534,0.57,South Africa2005,257671413751,5914,Silent
23404,South Africa,2005,female,35-54 years,24,5380632,0.45,South Africa2005,257671413751,5914,Boomers
23405,South Africa,2005,female,25-34 years,17,4074236,0.42,South Africa2005,257671413751,5914,Generation X


In [None]:
south_africa.info()

<class 'pandas.core.frame.DataFrame'>
Index: 36 entries, 23396 to 23431
Data columns (total 11 columns):
 #   Column             Non-Null Count  Dtype  
---  ------             --------------  -----  
 0   country            36 non-null     object 
 1   year               36 non-null     int64  
 2   sex                36 non-null     object 
 3   age                36 non-null     object 
 4   suicides_no        36 non-null     int64  
 5   population         36 non-null     int64  
 6   suicides_100k_pop  36 non-null     float64
 7   country_year       36 non-null     object 
 8   gdp_for_year($)    36 non-null     object 
 9   gdp_per_capita($)  36 non-null     int64  
 10  generation         36 non-null     object 
dtypes: float64(1), int64(4), object(6)
memory usage: 3.4+ KB


In [None]:
man_s = south_africa[south_africa['sex'] == 'male'].shape[0]
print(man_s)

18


In [None]:
woman_s = south_africa[south_africa['sex'] == 'female'].shape[0]
print(woman_s)

18


In [None]:
s = man_s + woman_s
print(s)

36
