# Анализ данных с Pandas
## Часть 2
Автор: Хужина Вария   
Репозиторий курса: https://github.com/VariyaKh/ML_21school

Считаем данные из файла

In [1]:
import pandas as pd

In [2]:
data = pd.read_csv("data/who_suicide_statistics.csv", sep=',')

In [3]:
data.head()

Unnamed: 0,country,year,sex,age,suicides_no,population
0,Albania,1985,female,15-24 years,,277900.0
1,Albania,1985,female,25-34 years,,246800.0
2,Albania,1985,female,35-54 years,,267500.0
3,Albania,1985,female,5-14 years,,298300.0
4,Albania,1985,female,55-74 years,,138700.0


## Статистики по признакам

Количество данных по странам

In [4]:
data['country'].value_counts()

Iceland                           456
Hungary                           456
Austria                           456
United Kingdom                    456
Israel                            456
Sweden                            456
Romania                           456
Mauritius                         456
United States of America          456
Netherlands                       456
Finland                           444
Mexico                            444
Belgium                           444
Norway                            444
Denmark                           444
Japan                             444
Hong Kong SAR                     444
Spain                             444
Cuba                              444
Australia                         444
Malta                             444
Luxembourg                        444
Ecuador                           444
Republic of Moldova               444
Greece                            444
Chile                             444
Italy       

Общее колиество мужчин и женщин

In [5]:
data['sex'].value_counts()

male      21888
female    21888
Name: sex, dtype: int64

Какие в таблице есть года

In [6]:
sorted(data['year'].unique())

[1979,
 1980,
 1981,
 1982,
 1983,
 1984,
 1985,
 1986,
 1987,
 1988,
 1989,
 1990,
 1991,
 1992,
 1993,
 1994,
 1995,
 1996,
 1997,
 1998,
 1999,
 2000,
 2001,
 2002,
 2003,
 2004,
 2005,
 2006,
 2007,
 2008,
 2009,
 2010,
 2011,
 2012,
 2013,
 2014,
 2015,
 2016]

Количество незаполненных данных

In [7]:
data['suicides_no'].isnull().sum()

2256

Доля незаполненных данных ко всем

In [8]:
data['suicides_no'].isnull().sum() / data['suicides_no'].count()

0.05433526011560694

Средняя численность населения РФ

In [9]:
data[data['country'] == 'Russian Federation']['population'].mean()

11269312.083333334

Медиана

In [10]:
data[data['country'] == 'Russian Federation']['population'].median()

10858638.0

## GroupBy
groupby(признак1)[признак2] метод, позволяющий группировать данные по признаку1 и получать по нему аггрегированные значения признака2, например среднее, сумма, медиана, количество и т д

Посмотрим количество суицидов в России по годам. Для этого сначала отберем данные только для России, сгруппируем по годам и посчитаем сумму по признаку suicides_no

In [11]:
data[data['country'] == 'Russian Federation'].groupby('year')['suicides_no'].sum()

year
1980    47877.0
1981    47557.0
1982    48663.0
1983        0.0
1984        0.0
1985    44517.0
1986    33229.0
1987    33842.0
1988    35565.0
1989    37921.0
1990    39028.0
1991    39281.0
1992    45923.0
1993    55846.0
1994    61420.0
1995    60548.0
1996    57511.0
1997    54746.0
1998    51518.0
1999    56974.0
2000    56619.0
2001    56958.0
2002    55024.0
2003    51445.0
2004    49096.0
2005    45802.0
2006    42614.0
2007    41149.0
2008    38211.0
2009    37408.0
2010    33356.0
2011    31038.0
2012    29643.0
2013    28690.0
2014    26541.0
2015    25432.0
Name: suicides_no, dtype: float64

Если нам нужно определить год, когда было больше всего суицидов, то можно вызвать метод idxmax()

In [12]:
data[data['country'] == 'Russian Federation'].groupby('year')['suicides_no'].sum().idxmax()

1994

Ничего удивительного! (

In [13]:
type(data[data['country'] == 'Russian Federation'].groupby('year'))

pandas.core.groupby.DataFrameGroupBy

GroupBy это самостоятельный объект, у которого также есть методы. Пример:

In [14]:
data[data['country'] == 'Russian Federation'].groupby('year')

<pandas.core.groupby.DataFrameGroupBy object at 0x7fac2abd0da0>

In [15]:
data.groupby('year').groups

{1979: Int64Index([ 1056,  1057,  1058,  1059,  1060,  1061,  1062,  1063,  1064,
              1065,
             ...
             43142, 43143, 43144, 43145, 43146, 43147, 43148, 43149, 43150,
             43151],
            dtype='int64', length=672),
 1980: Int64Index([ 1068,  1069,  1070,  1071,  1072,  1073,  1074,  1075,  1076,
              1077,
             ...
             43526, 43527, 43528, 43529, 43530, 43531, 43532, 43533, 43534,
             43535],
            dtype='int64', length=804),
 1981: Int64Index([ 1080,  1081,  1082,  1083,  1084,  1085,  1086,  1087,  1088,
              1089,
             ...
             43538, 43539, 43540, 43541, 43542, 43543, 43544, 43545, 43546,
             43547],
            dtype='int64', length=996),
 1982: Int64Index([ 1092,  1093,  1094,  1095,  1096,  1097,  1098,  1099,  1100,
              1101,
             ...
             43550, 43551, 43552, 43553, 43554, 43555, 43556, 43557, 43558,
             43559],
            dtyp

Множество примеров использования groupby вы можете найти в [документации](http://pandas.pydata.org/pandas-docs/stable/groupby.html?highlight=groupby)