# Знакомство с `pandas`

>Полная документация [`pandas` documentation](http://pandas.pydata.org/pandas-docs/stable/).


##  DataFrame: импорт данных и подсчет статистик

In [50]:
%matplotlib inline

import pandas as pd
import matplotlib as mpl
import matplotlib.pyplot as plt

mpl.rc('savefig', dpi=200)
plt.style.use('ggplot')
plt.rcParams['xtick.minor.size'] = 0
plt.rcParams['ytick.minor.size'] = 0

`read_csv()` в `pandas` позволяет нам легко импортитировать даныые. По умаолчавнию предполагаем, что данные разделены запятиыми. При этом можно указать, если нужно использовать другой.

In [51]:
unemployment = pd.read_csv('data/country_total.csv')

Так мы создали `pandas` `DataFrame`. Можем посмотреть на присер данных с помощью метода `.head()`. По умолчанию этот иетод показывает нам заголовки и первые пять строк.

In [52]:
unemployment.head()

Unnamed: 0,country,seasonality,month,unemployment,unemployment_rate
0,at,nsa,1993.01,171000,4.5
1,at,nsa,1993.02,175000,4.6
2,at,nsa,1993.03,166000,4.4
3,at,nsa,1993.04,157000,4.1
4,at,nsa,1993.05,147000,3.9


Чтобы узнать количество строк в данных воспользуемся функцией `len()`. Но лучше воспользоваться аргументом `shape`.

In [53]:
unemployment.shape

(20796, 5)

Еще один полезный метод `.describe()`, он позволяет нам увидеть общие статистики по данным

In [54]:
unemployment.describe()

Unnamed: 0,month,unemployment,unemployment_rate
count,20796.0,20796.0,19851.0
mean,1999.40129,790081.8,8.179764
std,7.483751,1015280.0,3.922533
min,1983.01,2000.0,1.1
25%,1994.09,140000.0,5.2
50%,2001.01,310000.0,7.6
75%,2006.01,1262250.0,10.0
max,2010.12,4773000.0,20.9


Можно заметить, что количество количество в строке `count` отличается, это означает, что у нас есть строки с пропущенными значениями.

### Импортировать данные по  ссылке

Выше, мы импортировали данные с помощью функции `read_csv`, указав путь к файлу. Но эта функция также позволяет нам считтать данные по ссылке.

Используя  `read_csv`, считаем данные по странам и запишем их в переменную `countries`.

In [98]:
countries_url = 'https://raw.githubusercontent.com/pyaternev57/datasets/main/countries.csv'
countries = pd.read_csv(countries_url)

### метод `tail` 

Метод похожий на `head`, но показывающий последние строки датасета

In [55]:
# используем метод tail
countries.tail()

Unnamed: 0,country,google_country_code,country_group,name_en,name_fr,name_de,latitude,longitude
25,si,SI,eu,Slovenia,Slovénie,Slowenien,46.149259,14.986617
26,es,ES,eu,Spain,Espagne,Spanien,39.895013,-2.988296
27,se,SE,eu,Sweden,Suède,Schweden,62.198468,14.896307
28,tr,TR,non-eu,Turkey,Turquie,Türkei,38.952942,35.439795
29,uk,GB,eu,United Kingdom,Royaume-Uni,Vereinigtes Königreich,54.315447,-2.232612


In [56]:
countries.describe()

Unnamed: 0,latitude,longitude
count,30.0,30.0
mean,49.092609,14.324579
std,7.956624,11.25701
min,35.129141,-8.239122
25%,43.230916,6.979186
50%,49.238087,14.941462
75%,54.0904,23.35169
max,64.950159,35.439795


## Смена имен колонок, индексирование и срезы 

Вернемся к первому датасету, одна из колонок называется `month`, но содержит также и информация про год

In [58]:
unemployment.rename(columns={'month' : 'year_month'}, inplace=True)

Метод `.rename()` позволяет изменять названия колонок или строк в датасете. Как можно увидеть мы передаем `dict` как значение аргумента  `columns`. Мы такде поставили аргумент `inplace` равным `True`, что изменяет `DataFrame`, а не копирует его.

In [59]:
unemployment['year_month'].head()

0    1993.01
1    1993.02
2    1993.03
3    1993.04
4    1993.05
Name: year_month, dtype: float64

In [60]:
unemployment[['year_month', 'country']].head()

Unnamed: 0,year_month,country
0,1993.01,at
1,1993.02,at
2,1993.03,at
3,1993.04,at
4,1993.05,at


In [12]:
unemployment.year_month.head()

0    1993.01
1    1993.02
2    1993.03
3    1993.04
4    1993.05
Name: year_month, dtype: float64

In [61]:
unemployment[:5]

Unnamed: 0,country,seasonality,year_month,unemployment,unemployment_rate
0,at,nsa,1993.01,171000,4.5
1,at,nsa,1993.02,175000,4.6
2,at,nsa,1993.03,166000,4.4
3,at,nsa,1993.04,157000,4.1
4,at,nsa,1993.05,147000,3.9


`.loc` метод рабоатет с индексами. В качестве арнкмента он принимает имя колонки/индекс, список колонок/индексов или же срез колонок/индексов(`'a' : 'f'`).

Создадим `DataFrame`чтобы посмотреть как это рабоатет.

In [62]:
bacteria = pd.DataFrame({'bacteria_counts' : [632, 1638, 569, 115],
                         'other_feature' : [438, 833, 234, 298]},
                         index=['Firmicutes', 'Proteobacteria', 'Actinobacteria', 'Bacteroidetes'])

In [63]:
bacteria

Unnamed: 0,bacteria_counts,other_feature
Firmicutes,632,438
Proteobacteria,1638,833
Actinobacteria,569,234
Bacteroidetes,115,298


In [64]:
bacteria.loc['Actinobacteria']

bacteria_counts    569
other_feature      234
Name: Actinobacteria, dtype: int64

In [65]:
bacteria[2:3]

Unnamed: 0,bacteria_counts,other_feature
Actinobacteria,569,234


In [66]:
unemployment.iloc[[1, 5, 6, 9]]

Unnamed: 0,country,seasonality,year_month,unemployment,unemployment_rate
1,at,nsa,1993.02,175000,4.6
5,at,nsa,1993.06,134000,3.5
6,at,nsa,1993.07,128000,3.4
9,at,nsa,1993.1,141000,3.7


In [67]:
unemployment.iloc[25:50:5]

Unnamed: 0,country,seasonality,year_month,unemployment,unemployment_rate
25,at,nsa,1995.02,174000,4.5
30,at,nsa,1995.07,123000,3.3
35,at,nsa,1995.12,175000,4.7
40,at,nsa,1996.05,159000,4.3
45,at,nsa,1996.1,146000,3.9


Разделим колонку `year_month` в две отдельные колонки. Для этого сначала сменим тип данных с `float` на `integer`

In [68]:
unemployment['year'] = unemployment['year_month'].astype(int)

In [69]:
unemployment['month'] = ((unemployment['year_month'] - unemployment['year']) * 100).round(0).astype(int)

In [70]:
unemployment.head(12)

Unnamed: 0,country,seasonality,year_month,unemployment,unemployment_rate,year,month
0,at,nsa,1993.01,171000,4.5,1993,1
1,at,nsa,1993.02,175000,4.6,1993,2
2,at,nsa,1993.03,166000,4.4,1993,3
3,at,nsa,1993.04,157000,4.1,1993,4
4,at,nsa,1993.05,147000,3.9,1993,5
5,at,nsa,1993.06,134000,3.5,1993,6
6,at,nsa,1993.07,128000,3.4,1993,7
7,at,nsa,1993.08,130000,3.4,1993,8
8,at,nsa,1993.09,132000,3.5,1993,9
9,at,nsa,1993.1,141000,3.7,1993,10


Также мы легко можем менять колонки местами

In [71]:
unemployment = unemployment[['country', 'seasonality',
                             'year_month', 'year', 'month',
                             'unemployment', 'unemployment_rate']]

In [72]:
unemployment.head(10)

Unnamed: 0,country,seasonality,year_month,year,month,unemployment,unemployment_rate
0,at,nsa,1993.01,1993,1,171000,4.5
1,at,nsa,1993.02,1993,2,175000,4.6
2,at,nsa,1993.03,1993,3,166000,4.4
3,at,nsa,1993.04,1993,4,157000,4.1
4,at,nsa,1993.05,1993,5,147000,3.9
5,at,nsa,1993.06,1993,6,134000,3.5
6,at,nsa,1993.07,1993,7,128000,3.4
7,at,nsa,1993.08,1993,8,130000,3.4
8,at,nsa,1993.09,1993,9,132000,3.5
9,at,nsa,1993.1,1993,10,141000,3.7


## Слияние данных

In [25]:
countries.tail(3)

Unnamed: 0,country,google_country_code,country_group,name_en,name_fr,name_de,latitude,longitude
27,se,SE,eu,Sweden,Suède,Schweden,62.198468,14.896307
28,tr,TR,non-eu,Turkey,Turquie,Türkei,38.952942,35.439795
29,uk,GB,eu,United Kingdom,Royaume-Uni,Vereinigtes Königreich,54.315447,-2.232612


In [73]:
country_names = countries[['country', 'country_group', 'name_en']].copy()

In [74]:
country_names.head(2)

Unnamed: 0,country,country_group,name_en
0,at,eu,Austria
1,be,eu,Belgium


В `pandas` есть специальная функция для слияния.

In [75]:
unemployment = pd.merge(unemployment, country_names, on='country')

Слияние обычно более сложное, чем в нашем примере. Если вы хотите совмещать данные по нескольким параметрам, надо передать список, как указано ниже

```
pd.merge(first, second, on=['name', 'id'])
```


Иногда нужно выполнять слияние по колонкам с разными именами. Чтобы сделать это воспользуемся аргументами `left_on` и `right_on` 

```
pd.merge(one, two, left_on='city', right_on='city_name')
```


In [76]:
country_codes = country_names.rename({"country":"c_code"}, axis=1).drop("country_group", axis=1)
country_codes.head()

Unnamed: 0,c_code,name_en
0,at,Austria
1,be,Belgium
2,bg,Bulgaria
3,hr,Croatia
4,cy,Cyprus


Используем `merge` для слияния `unemployment` и `country_codes` по кодам стран.

In [77]:
unemployment_merged = pd.merge(unemployment, country_codes, left_on='country', right_on='c_code')
unemployment_merged.head()

Unnamed: 0,country,seasonality,year_month,year,month,unemployment,unemployment_rate,country_group,name_en_x,c_code,name_en_y
0,at,nsa,1993.01,1993,1,171000,4.5,eu,Austria,at,Austria
1,at,nsa,1993.02,1993,2,175000,4.6,eu,Austria,at,Austria
2,at,nsa,1993.03,1993,3,166000,4.4,eu,Austria,at,Austria
3,at,nsa,1993.04,1993,4,157000,4.1,eu,Austria,at,Austria
4,at,nsa,1993.05,1993,5,147000,3.9,eu,Austria,at,Austria


## Уникальные и пропущенные значения

In [78]:
unemployment.head()

Unnamed: 0,country,seasonality,year_month,year,month,unemployment,unemployment_rate,country_group,name_en
0,at,nsa,1993.01,1993,1,171000,4.5,eu,Austria
1,at,nsa,1993.02,1993,2,175000,4.6,eu,Austria
2,at,nsa,1993.03,1993,3,166000,4.4,eu,Austria
3,at,nsa,1993.04,1993,4,157000,4.1,eu,Austria
4,at,nsa,1993.05,1993,5,147000,3.9,eu,Austria


In [79]:
unemployment.name_en.unique()

array(['Austria', 'Belgium', 'Bulgaria', 'Cyprus', 'Czech Republic',
       'Germany (including  former GDR from 1991)', 'Denmark', 'Estonia',
       'Spain', 'Finland', 'France', 'Greece', 'Croatia', 'Hungary',
       'Ireland', 'Italy', 'Lithuania', 'Luxembourg', 'Latvia', 'Malta',
       'Netherlands', 'Norway', 'Poland', 'Portugal', 'Romania', 'Sweden',
       'Slovenia', 'Slovakia', 'Turkey', 'United Kingdom'], dtype=object)

Чтобы получить **количество уникальных стран**, можем воспользоваться методом `len()` или можем использвоать метод  `Series.nunique()`.

In [80]:
unemployment.name_en.nunique()

30

Более интересно как много каждое значение встречается в наших данных. Для этого используем метод `.value_counts()`

In [81]:
unemployment['name_en'].value_counts()

Denmark                                      1008
Portugal                                     1008
Sweden                                       1008
Luxembourg                                   1008
Spain                                        1008
Netherlands                                  1008
France                                       1008
Ireland                                      1008
Belgium                                      1008
United Kingdom                               1002
Italy                                         924
Finland                                       828
Norway                                        786
Austria                                       648
Bulgaria                                      576
Slovenia                                      576
Malta                                         576
Slovakia                                      576
Poland                                        576
Hungary                                       576


In [82]:
unemployment['name_en'].value_counts().sort_index()

Austria                                       648
Belgium                                      1008
Bulgaria                                      576
Croatia                                       324
Cyprus                                        396
Czech Republic                                468
Denmark                                      1008
Estonia                                       387
Finland                                       828
France                                       1008
Germany (including  former GDR from 1991)     504
Greece                                        450
Hungary                                       576
Ireland                                      1008
Italy                                         924
Latvia                                        459
Lithuania                                     459
Luxembourg                                   1008
Malta                                         576
Netherlands                                  1008


In [36]:
unemployment['year'].min(), unemployment['year'].max()

(1983, 2010)

Найдем как много значений пропущено в колонке  `unemployment_rate`

In [83]:
unemployment['unemployment_rate'].isnull().sum()

945

## GroupBy


Что если мы хотим узнать как много пропущенных значений на уровне стран? 

In [84]:
unemployment['unemployment_rate_null'] = unemployment['unemployment_rate'].isnull()

Чтобы посчитать **количество пропущенных значений для каждой страны**, воспользуемся методом `.groupby()`.

In [85]:
unemployment.groupby('name_en')['unemployment_rate_null'].sum()

name_en
Austria                                        0.0
Belgium                                        0.0
Bulgaria                                     180.0
Croatia                                      216.0
Cyprus                                         0.0
Czech Republic                                 0.0
Denmark                                        0.0
Estonia                                        0.0
Finland                                        0.0
France                                         0.0
Germany (including  former GDR from 1991)      0.0
Greece                                         0.0
Hungary                                       36.0
Ireland                                        0.0
Italy                                          0.0
Latvia                                         0.0
Lithuania                                      0.0
Luxembourg                                     0.0
Malta                                        180.0
Netherlands            

In [86]:
unemployment_rate = unemployment.groupby('name_en', as_index=False)['unemployment_rate_null'].sum()

In [87]:
unemployment_rate.head(3)

Unnamed: 0,name_en,unemployment_rate_null
0,Austria,0.0
1,Belgium,0.0
2,Bulgaria,180.0


In [88]:
unemployment_rate['n_obs'] = unemployment.groupby('name_en')['name_en'].count().values

In [89]:
unemployment_rate['null_percentage'] = unemployment_rate['unemployment_rate_null'] / unemployment_rate['n_obs']

In [90]:
unemployment_rate

Unnamed: 0,name_en,unemployment_rate_null,n_obs,null_percentage
0,Austria,0.0,648,0.0
1,Belgium,0.0,1008,0.0
2,Bulgaria,180.0,576,0.3125
3,Croatia,216.0,324,0.666667
4,Cyprus,0.0,396,0.0
5,Czech Republic,0.0,468,0.0
6,Denmark,0.0,1008,0.0
7,Estonia,0.0,387,0.0
8,Finland,0.0,828,0.0
9,France,0.0,1008,0.0


### попробуйте GroupBy 
 
Давайте найдем среднее значение unemployment rate для стран входящих в Евросоюз и сравним с остальными

1. используйте `groupby` по параметру "country_group"
2. выберите колонку "unemployment_rate" 
3. используйте метод `.mean()`

## Сохранение DataFrame в csv 

In [91]:
unemployment_rate.to_csv('data/unemployment_missing.csv')

In [92]:
! head -5 data/unemployment_missing.csv

,name_en,unemployment_rate_null,n_obs,null_percentage
0,Austria,0.0,648,0.0
1,Belgium,0.0,1008,0.0
2,Bulgaria,180.0,576,0.3125
3,Croatia,216.0,324,0.6666666666666666


In [93]:
unemployment_rate.to_csv('data/unemployment_missing.csv', index=False, sep=';')

In [94]:
!head -5 data/unemployment_missing.csv

name_en;unemployment_rate_null;n_obs;null_percentage
Austria;0.0;648;0.0
Belgium;0.0;1008;0.0
Bulgaria;180.0;576;0.3125
Croatia;216.0;324;0.6666666666666666


Удалять строки/стоблцы можно с помощью метода `drop`

In [None]:
unemployment.drop('unemployment_rate_null', axis=1, inplace=True)

In [None]:
unemployment.head()

## Сортировка значений

In [95]:
unemployment.sort_values('unemployment_rate', ascending=False)[:5]

Unnamed: 0,country,seasonality,year_month,year,month,unemployment,unemployment_rate,country_group,name_en,unemployment_rate_null
15526,pl,nsa,2004.02,2004,2,3531000,20.9,eu,Poland,False
15525,pl,nsa,2004.01,2004,1,3520000,20.7,eu,Poland,False
15514,pl,nsa,2003.02,2003,2,3460000,20.7,eu,Poland,False
5663,es,sa,2010.09,2010,9,4773000,20.6,eu,Spain,False
15527,pl,nsa,2004.03,2004,3,3475000,20.6,eu,Poland,False


Воспользовавшись этим методом мы создали копию `DataFrame`, отсортированной в порядке убывания и напечатали пераве 5 строк

In [96]:
unemployment['seasonality'].unique()

array(['nsa', 'sa', 'trend'], dtype=object)

In [97]:
unemployment[unemployment['seasonality'] == 'sa'].sort_values('unemployment_rate', ascending=False)[:5]

Unnamed: 0,country,seasonality,year_month,year,month,unemployment,unemployment_rate,country_group,name_en,unemployment_rate_null
5664,es,sa,2010.1,2010,10,4758000,20.6,eu,Spain,False
5663,es,sa,2010.09,2010,9,4773000,20.6,eu,Spain,False
5662,es,sa,2010.08,2010,8,4739000,20.5,eu,Spain,False
5665,es,sa,2010.11,2010,11,4723000,20.4,eu,Spain,False
15702,pl,sa,2002.1,2002,10,3471000,20.3,eu,Poland,False
