<center>
<img src="https://cdn.megabonus.com/images/shop_logo/skillbox.png"/>
# Курс аналитик данных на Python  
    
## Модуль 2.3. Pandas intermediate. Швейцарский нож аналитика.

Итак, в этом уроке мы немного шире взглянем на библиотеку [**Pandas**](http://pandas.pydata.org/pandas-docs/stable/) и поймем как работает `Python` с полноценными табличными данными.<br>

Итак, мы:
* загрузим файл, который весит **14 мегабайт**.;
* поймем как **манипулировать данными**: выбирать определенные значения и колонки;
* освоим **методы, которые постоянно используются** при работе с данными в Pandas.

Сначала импортируем библиотеки

In [1]:
import numpy as np
import pandas as pd

#### Загружаем файл

Для начала прочитаем данные с помощью библиотеки [**Pandas**](http://pandas.pydata.org/pandas-docs/stable/).<br>
Наши довольно много весят. В распакованном виде экселевская табличка **весит около 14 мегабайт.**<br>
Это сатистические данные по демографии в США за 2015 год. Такие данные как нельзя лучше подходят для того чтобы научиться работать с [**Pandas**](http://pandas.pydata.org/pandas-docs/stable/).

In [3]:
data = pd.read_csv('../data/acs2015_census_tract_data.csv.gz', compression='gzip')

#### Смотрим размерности таблицы

Как и прежде, первое с чего нужно начать это с того чтобы понять что перед нами за данные.<br>
Сначала хотелось бы понять на сколько большая перед нами таблица. В этом нам поможет метод **.shape()**, который передает количество строк и колонок.

In [4]:
data.shape

(74001, 37)

Далее хотелось бы посмотреть на саму табличку и какие в ней есть колонки. В этом нам поможет метод **.head()** и **.info()**.

In [5]:
data.head(3)

Unnamed: 0,CensusTract,State,County,TotalPop,Men,Women,Hispanic,White,Black,Native,...,Walk,OtherTransp,WorkAtHome,MeanCommute,Employed,PrivateWork,PublicWork,SelfEmployed,FamilyWork,Unemployment
0,1001020100,Alabama,Autauga,1948,940,1008,0.9,87.4,7.7,0.3,...,0.5,2.3,2.1,25.0,943,77.1,18.3,4.6,0.0,5.4
1,1001020200,Alabama,Autauga,2156,1059,1097,0.8,40.4,53.3,0.0,...,0.0,0.7,0.0,23.4,753,77.0,16.9,6.1,0.0,13.3
2,1001020300,Alabama,Autauga,2968,1364,1604,0.0,74.5,18.6,0.5,...,0.0,0.0,2.5,19.6,1373,64.1,23.6,12.3,0.0,6.2


Можем сделать немного красивее.

In [6]:
print('У нас %s строк и %s колонок.'%data.shape)
print('---')
print(data.info())

У нас 74001 строк и 37 колонок.
---
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 74001 entries, 0 to 74000
Data columns (total 37 columns):
 #   Column           Non-Null Count  Dtype  
---  ------           --------------  -----  
 0   CensusTract      74001 non-null  int64  
 1   State            74001 non-null  object 
 2   County           74001 non-null  object 
 3   TotalPop         74001 non-null  int64  
 4   Men              74001 non-null  int64  
 5   Women            74001 non-null  int64  
 6   Hispanic         73311 non-null  float64
 7   White            73311 non-null  float64
 8   Black            73311 non-null  float64
 9   Native           73311 non-null  float64
 10  Asian            73311 non-null  float64
 11  Pacific          73311 non-null  float64
 12  Citizen          74001 non-null  int64  
 13  Income           72901 non-null  float64
 14  IncomeErr        72901 non-null  float64
 15  IncomePerCap     73261 non-null  float64
 16  IncomePerCapErr  73261

#### Работа с колонками 

Также мы можем получить список с названиями колонок с помощью метода **.columns**. В данном случае это аттрибут уже построенной таблицы, так что скобки ставить не нужно, тк аттрибут не подразумевает передачу каких либо переменных.

In [6]:
data.columns

In [8]:
data.head()

Unnamed: 0,CensusTract,State,County,TotalPop,Men,Women,Hispanic,White,Black,Native,...,Walk,OtherTransp,WorkAtHome,MeanCommute,Employed,PrivateWork,PublicWork,SelfEmployed,FamilyWork,Unemployment
0,1001020100,Alabama,Autauga,1948,940,1008,0.9,87.4,7.7,0.3,...,0.5,2.3,2.1,25.0,943,77.1,18.3,4.6,0.0,5.4
1,1001020200,Alabama,Autauga,2156,1059,1097,0.8,40.4,53.3,0.0,...,0.0,0.7,0.0,23.4,753,77.0,16.9,6.1,0.0,13.3
2,1001020300,Alabama,Autauga,2968,1364,1604,0.0,74.5,18.6,0.5,...,0.0,0.0,2.5,19.6,1373,64.1,23.6,12.3,0.0,6.2
3,1001020400,Alabama,Autauga,4423,2172,2251,10.5,82.8,3.7,1.6,...,0.0,2.6,1.6,25.3,1782,75.7,21.2,3.1,0.0,10.8
4,1001020500,Alabama,Autauga,10763,4922,5841,0.7,68.5,24.8,0.0,...,0.0,0.6,0.9,24.8,5037,67.1,27.6,5.3,0.0,4.2


Мы также можем выбрать какие-то определенные колонки, например `State`,`County`,`Unemployment`. <br>
Для этого мы объединяем их лист `['State','County','Unemployment']` и выделяем только их.  

In [9]:
data[['State','County','Unemployment']].head()

Unnamed: 0,State,County,Unemployment
0,Alabama,Autauga,5.4
1,Alabama,Autauga,13.3
2,Alabama,Autauga,6.2
3,Alabama,Autauga,10.8
4,Alabama,Autauga,4.2


In [26]:
data.groupby(['Country','State']).aggregate({'TotalPop': 'mean'}).sort_values('Country', ascending=False)

Unnamed: 0_level_0,Unnamed: 1_level_0,TotalPop
Country,State,Unnamed: 2_level_1
Ziebach,South Dakota,2833.000000
Zavala,Texas,3015.000000
Zapata,Texas,4769.333333
Yuma,Colorado,5092.500000
Yuma,Arizona,3690.672727
...,...,...
Adair,Kentucky,2693.142857
Ada,Idaho,7076.288136
Accomack,Virginia,2759.583333
Acadia,Louisiana,5180.250000


In [20]:
data.rename({'County': 'Country'}, axis=1, inplace=True)

In [21]:
data.head()

Unnamed: 0,CensusTract,State,Country,TotalPop,Men,Women,Hispanic,White,Black,Native,...,Walk,OtherTransp,WorkAtHome,MeanCommute,Employed,PrivateWork,PublicWork,SelfEmployed,FamilyWork,Unemployment
0,1001020100,Alabama,Autauga,1948,940,1008,0.9,87.4,7.7,0.3,...,0.5,2.3,2.1,25.0,943,77.1,18.3,4.6,0.0,5.4
1,1001020200,Alabama,Autauga,2156,1059,1097,0.8,40.4,53.3,0.0,...,0.0,0.7,0.0,23.4,753,77.0,16.9,6.1,0.0,13.3
2,1001020300,Alabama,Autauga,2968,1364,1604,0.0,74.5,18.6,0.5,...,0.0,0.0,2.5,19.6,1373,64.1,23.6,12.3,0.0,6.2
3,1001020400,Alabama,Autauga,4423,2172,2251,10.5,82.8,3.7,1.6,...,0.0,2.6,1.6,25.3,1782,75.7,21.2,3.1,0.0,10.8
4,1001020500,Alabama,Autauga,10763,4922,5841,0.7,68.5,24.8,0.0,...,0.0,0.6,0.9,24.8,5037,67.1,27.6,5.3,0.0,4.2


В `Pandas` можно указывать название колонки в одинарных и двойных кавычках `('' и "")`, а так же через точку, как например ниже.

In [27]:
data.CensusTract.head(n=10)

0    1001020100
1    1001020200
2    1001020300
3    1001020400
4    1001020500
5    1001020600
6    1001020700
7    1001020801
8    1001020802
9    1001020900
Name: CensusTract, dtype: int64

#### Индексирование и срезы

Передавая цифры через двоеточие мы можем проиндексировать и как-бы 'срезать' часть нашего датафрейма.

In [28]:
data[0:5] # Напоминаю, что индексация в Python ведется с 0.

Unnamed: 0,CensusTract,State,Country,TotalPop,Men,Women,Hispanic,White,Black,Native,...,Walk,OtherTransp,WorkAtHome,MeanCommute,Employed,PrivateWork,PublicWork,SelfEmployed,FamilyWork,Unemployment
0,1001020100,Alabama,Autauga,1948,940,1008,0.9,87.4,7.7,0.3,...,0.5,2.3,2.1,25.0,943,77.1,18.3,4.6,0.0,5.4
1,1001020200,Alabama,Autauga,2156,1059,1097,0.8,40.4,53.3,0.0,...,0.0,0.7,0.0,23.4,753,77.0,16.9,6.1,0.0,13.3
2,1001020300,Alabama,Autauga,2968,1364,1604,0.0,74.5,18.6,0.5,...,0.0,0.0,2.5,19.6,1373,64.1,23.6,12.3,0.0,6.2
3,1001020400,Alabama,Autauga,4423,2172,2251,10.5,82.8,3.7,1.6,...,0.0,2.6,1.6,25.3,1782,75.7,21.2,3.1,0.0,10.8
4,1001020500,Alabama,Autauga,10763,4922,5841,0.7,68.5,24.8,0.0,...,0.0,0.6,0.9,24.8,5037,67.1,27.6,5.3,0.0,4.2


Можно не указывать ограничения и тогда индексирование возьмет по дефолту все значения.

In [11]:
data[:5] 

Посмотрим последние 5 рядов

In [29]:
data[-5:]

Unnamed: 0,CensusTract,State,Country,TotalPop,Men,Women,Hispanic,White,Black,Native,...,Walk,OtherTransp,WorkAtHome,MeanCommute,Employed,PrivateWork,PublicWork,SelfEmployed,FamilyWork,Unemployment
73996,72153750501,Puerto Rico,Yauco,6205,3291,2914,99.7,0.3,0.0,0.0,...,0.9,3.3,2.3,22.5,1659,64.7,31.3,3.9,0.0,21.3
73997,72153750502,Puerto Rico,Yauco,2122,921,1201,99.2,0.3,0.0,0.0,...,0.0,0.0,0.0,23.5,484,64.0,32.6,3.3,0.0,22.4
73998,72153750503,Puerto Rico,Yauco,2277,1097,1180,99.5,0.4,0.0,0.0,...,3.2,0.0,3.0,29.8,582,58.2,32.3,9.5,0.0,23.3
73999,72153750601,Puerto Rico,Yauco,5267,2663,2604,98.8,1.2,0.0,0.0,...,0.0,0.0,0.0,26.9,1369,67.5,31.2,1.3,0.0,26.7
74000,72153750602,Puerto Rico,Yauco,2741,1181,1560,99.3,0.7,0.0,0.0,...,0.0,0.0,14.9,26.8,496,72.8,19.6,7.7,0.0,20.1


Возьмем прошлый кусок таблицы для наглядности.<br>
Также можно перевернуть датафрейм, передав -1 третьим аргументом в методе. Сравните с прошлой ячейкой.

In [30]:
chunk = data[73996:] 
chunk[::-1] 

Unnamed: 0,CensusTract,State,Country,TotalPop,Men,Women,Hispanic,White,Black,Native,...,Walk,OtherTransp,WorkAtHome,MeanCommute,Employed,PrivateWork,PublicWork,SelfEmployed,FamilyWork,Unemployment
74000,72153750602,Puerto Rico,Yauco,2741,1181,1560,99.3,0.7,0.0,0.0,...,0.0,0.0,14.9,26.8,496,72.8,19.6,7.7,0.0,20.1
73999,72153750601,Puerto Rico,Yauco,5267,2663,2604,98.8,1.2,0.0,0.0,...,0.0,0.0,0.0,26.9,1369,67.5,31.2,1.3,0.0,26.7
73998,72153750503,Puerto Rico,Yauco,2277,1097,1180,99.5,0.4,0.0,0.0,...,3.2,0.0,3.0,29.8,582,58.2,32.3,9.5,0.0,23.3
73997,72153750502,Puerto Rico,Yauco,2122,921,1201,99.2,0.3,0.0,0.0,...,0.0,0.0,0.0,23.5,484,64.0,32.6,3.3,0.0,22.4
73996,72153750501,Puerto Rico,Yauco,6205,3291,2914,99.7,0.3,0.0,0.0,...,0.9,3.3,2.3,22.5,1659,64.7,31.3,3.9,0.0,21.3


Можем вынести кажду тысячную строчку, а тк как у нас таблица немногим более 74К строк, то выйдет всего 8 строчек

In [31]:
data[::10000]

Unnamed: 0,CensusTract,State,Country,TotalPop,Men,Women,Hispanic,White,Black,Native,...,Walk,OtherTransp,WorkAtHome,MeanCommute,Employed,PrivateWork,PublicWork,SelfEmployed,FamilyWork,Unemployment
0,1001020100,Alabama,Autauga,1948,940,1008,0.9,87.4,7.7,0.3,...,0.5,2.3,2.1,25.0,943,77.1,18.3,4.6,0.0,5.4
10000,6075032901,California,San Francisco,5608,2761,2847,6.8,25.7,0.9,0.0,...,0.5,2.8,5.8,37.3,2745,73.6,19.1,7.2,0.2,7.0
20000,13227050100,Georgia,Pickens,5119,2645,2474,2.9,95.6,1.2,0.0,...,0.4,1.3,24.1,38.8,1814,75.7,9.5,14.8,0.0,12.3
30000,24005404501,Maryland,Baltimore,6970,3118,3852,12.8,57.0,23.4,0.0,...,1.0,1.7,2.4,35.2,3637,83.5,9.8,6.7,0.0,5.8
40000,32003003635,Nevada,Clark,5941,2957,2984,37.5,30.7,11.9,2.9,...,1.4,0.7,1.4,26.7,3175,78.3,18.9,2.9,0.0,9.8
50000,37179020602,North Carolina,Union,4998,2440,2558,32.6,44.3,23.0,0.0,...,6.2,2.2,1.3,21.1,2068,90.4,6.7,2.9,0.0,12.8
60000,46077958200,South Dakota,Kingsbury,2069,1027,1042,0.7,97.8,0.0,0.0,...,5.4,0.4,7.8,18.4,1060,73.6,11.1,15.0,0.3,2.4
70000,53033011600,Washington,King,6570,2866,3704,3.2,86.5,0.8,1.3,...,1.6,2.5,7.8,32.8,3835,76.8,15.8,7.0,0.4,2.7


Также можно выделять колонки с помощью метода **.iloc[ ]**, который совмещает 2 метода выше, принимая на вход сначала срез по строчкам, а потом по столбцам.

In [32]:
data.iloc[1:5,:] # первые 5 строк всей таблицы

Unnamed: 0,CensusTract,State,Country,TotalPop,Men,Women,Hispanic,White,Black,Native,...,Walk,OtherTransp,WorkAtHome,MeanCommute,Employed,PrivateWork,PublicWork,SelfEmployed,FamilyWork,Unemployment
1,1001020200,Alabama,Autauga,2156,1059,1097,0.8,40.4,53.3,0.0,...,0.0,0.7,0.0,23.4,753,77.0,16.9,6.1,0.0,13.3
2,1001020300,Alabama,Autauga,2968,1364,1604,0.0,74.5,18.6,0.5,...,0.0,0.0,2.5,19.6,1373,64.1,23.6,12.3,0.0,6.2
3,1001020400,Alabama,Autauga,4423,2172,2251,10.5,82.8,3.7,1.6,...,0.0,2.6,1.6,25.3,1782,75.7,21.2,3.1,0.0,10.8
4,1001020500,Alabama,Autauga,10763,4922,5841,0.7,68.5,24.8,0.0,...,0.0,0.6,0.9,24.8,5037,67.1,27.6,5.3,0.0,4.2


In [33]:
data.iloc[1:5,1:10] # первые 5 строк первых 10 столбцов

Unnamed: 0,State,Country,TotalPop,Men,Women,Hispanic,White,Black,Native
1,Alabama,Autauga,2156,1059,1097,0.8,40.4,53.3,0.0
2,Alabama,Autauga,2968,1364,1604,0.0,74.5,18.6,0.5
3,Alabama,Autauga,4423,2172,2251,10.5,82.8,3.7,1.6
4,Alabama,Autauga,10763,4922,5841,0.7,68.5,24.8,0.0


In [34]:
data.iloc[1:5,-5:] # первые 5 строк последних 5 столбцов

Unnamed: 0,PrivateWork,PublicWork,SelfEmployed,FamilyWork,Unemployment
1,77.0,16.9,6.1,0.0,13.3
2,64.1,23.6,12.3,0.0,6.2
3,75.7,21.2,3.1,0.0,10.8
4,67.1,27.6,5.3,0.0,4.2


Напомню, что всегда можно посмотреть документацию по методам, если что-то не помним или запутались.

In [36]:
??data.iloc

[1;31mType:[0m        property
[1;31mString form:[0m <property object at 0x000001574A961080>
[1;31mSource:[0m     
[1;31m# data.iloc.fget[0m[1;33m
[0m[1;33m@[0m[0mproperty[0m[1;33m
[0m[1;32mdef[0m [0miloc[0m[1;33m([0m[0mself[0m[1;33m)[0m [1;33m->[0m [0m_iLocIndexer[0m[1;33m:[0m[1;33m
[0m    [1;34m"""
    Purely integer-location based indexing for selection by position.

    .. deprecated:: 2.2.0

       Returning a tuple from a callable is deprecated.

    ``.iloc[]`` is primarily integer position based (from ``0`` to
    ``length-1`` of the axis), but may also be used with a boolean
    array.

    Allowed inputs are:

    - An integer, e.g. ``5``.
    - A list or array of integers, e.g. ``[4, 3, 0]``.
    - A slice object with ints, e.g. ``1:7``.
    - A boolean array.
    - A ``callable`` function with one argument (the calling Series or
      DataFrame) and that returns valid output for indexing (one of the above).
      This is useful in method c

#### Простые манипуляции с данными

Теперь, когда м поняли как манипулировать строка и столбцами, хотелось бы как-то манипулировать таблицей, основываясь на данных которые в ней заключены.

Можно делать логические операции сравнения. Например, посмотрим где процент чернокожего населенияв США больше 50 процентов.

In [37]:
(data['Black'] > 50).head()

0    False
1     True
2    False
3    False
4    False
Name: Black, dtype: bool

И выделим только эти строки.

In [38]:
data[data['Black'] > 50].head()

Unnamed: 0,CensusTract,State,Country,TotalPop,Men,Women,Hispanic,White,Black,Native,...,Walk,OtherTransp,WorkAtHome,MeanCommute,Employed,PrivateWork,PublicWork,SelfEmployed,FamilyWork,Unemployment
1,1001020200,Alabama,Autauga,2156,1059,1097,0.8,40.4,53.3,0.0,...,0.0,0.7,0.0,23.4,753,77.0,16.9,6.1,0.0,13.3
11,1001021100,Alabama,Autauga,3295,1666,1629,0.5,44.5,54.3,0.0,...,1.3,3.2,2.6,32.6,1496,70.7,24.7,4.6,0.0,7.3
17,1003010600,Alabama,Baldwin,3398,1821,1577,3.5,34.0,62.5,0.0,...,1.0,0.9,0.7,20.4,1392,71.7,23.9,4.5,0.0,5.7
45,1005950200,Alabama,Barbour,4320,2796,1524,1.8,32.7,63.3,0.6,...,4.0,3.3,1.2,24.9,873,66.8,28.8,4.5,0.0,22.9
50,1005950700,Alabama,Barbour,1896,792,1104,0.3,38.5,61.0,0.0,...,4.5,0.0,0.0,15.6,675,76.9,19.1,4.0,0.0,13.1


Можно посмотреть только штаты для этого условия.

In [39]:
data[data['Black'] > 50]['State'].head()

1     Alabama
11    Alabama
17    Alabama
45    Alabama
50    Alabama
Name: State, dtype: object

Это очень не удобно даже небольших датасетах,так что посмотрим уникальные значения. В этом нам поможет метод **.unique()**

In [48]:
data[data['Black'] > 50]['State'].unique()

array(['Alabama', 'Arkansas', 'California', 'Connecticut', 'Delaware',
       'District of Columbia', 'Florida', 'Georgia', 'Illinois',
       'Indiana', 'Iowa', 'Kansas', 'Kentucky', 'Louisiana', 'Maryland',
       'Massachusetts', 'Michigan', 'Minnesota', 'Mississippi',
       'Missouri', 'Nebraska', 'Nevada', 'New Jersey', 'New York',
       'North Carolina', 'Ohio', 'Oklahoma', 'Pennsylvania',
       'South Carolina', 'Tennessee', 'Texas', 'Virginia', 'Wisconsin'],
      dtype=object)

Этого же можно достигнуть просто сбросив дубликаты методом **.drop_duplicates()**.

In [49]:
data[data['Black'] > 50]['State'].drop_duplicates()

1                     Alabama
2877                 Arkansas
3577               California
12988             Connecticut
13729                Delaware
13940    District of Columbia
14099                 Florida
18352                 Georgia
20979                Illinois
24103                 Indiana
25636                    Iowa
26918                  Kansas
27373                Kentucky
28311               Louisiana
29871                Maryland
32182           Massachusetts
32800                Michigan
35892               Minnesota
36845             Mississippi
37649                Missouri
39263                Nebraska
39722                  Nevada
40691              New Jersey
43195                New York
48116          North Carolina
50546                    Ohio
53644                Oklahoma
55371            Pennsylvania
58835          South Carolina
60318               Tennessee
61650                   Texas
67820                Virginia
71587               Wisconsin
Name: Stat

В реально жизни нужно комбинировать условия и это не проблема для **Pandas**. Например найдем штаты, где больше половины чернокожего населения и процент безработицы больше 50 процентов =(  <br>
Просто добавим еще одно условие в наз запрос и он покажет штаты.

In [50]:
data[(data['Black'] > 50)&(data['Unemployment']>50)]['State'].unique()

array(['District of Columbia', 'Florida', 'Georgia', 'Illinois',
       'Michigan', 'New York', 'Ohio', 'Pennsylvania', 'Texas'],
      dtype=object)

#### Простые статистики

Когда мы поняли как обращаться и манипулировать таблицей, можно посмотреть какие-то простые статистики и первое что нам поможет это метод **.describe()**, который выводит базовую статистику по всем колонкам.

In [51]:
data.describe()

Unnamed: 0,CensusTract,TotalPop,Men,Women,Hispanic,White,Black,Native,Asian,Pacific,...,Walk,OtherTransp,WorkAtHome,MeanCommute,Employed,PrivateWork,PublicWork,SelfEmployed,FamilyWork,Unemployment
count,74001.0,74001.0,74001.0,74001.0,73311.0,73311.0,73311.0,73311.0,73311.0,73311.0,...,73204.0,73204.0,73204.0,73052.0,74001.0,73194.0,73194.0,73194.0,73194.0,73199.0
mean,28391130000.0,4325.591465,2127.648816,2197.942649,16.86281,62.032106,13.272581,0.727726,4.588253,0.145012,...,3.12334,1.891606,4.368093,25.667357,1983.907366,78.975238,14.621566,6.233814,0.169772,9.028663
std,16475930000.0,2129.306903,1072.332031,1095.730931,22.940695,30.684152,21.762483,4.48834,8.794003,1.037354,...,5.881237,2.596198,3.90499,6.964881,1073.429808,8.345758,7.535786,4.04299,0.458227,5.955441
min,1001020000.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,...,0.0,0.0,0.0,1.2,0.0,0.0,0.0,0.0,0.0,0.0
25%,13039010000.0,2891.0,1409.0,1461.0,2.4,39.4,0.7,0.0,0.2,0.0,...,0.4,0.4,1.8,20.8,1249.0,74.6,9.6,3.5,0.0,5.1
50%,28047000000.0,4063.0,1986.0,2066.0,7.0,71.4,3.7,0.0,1.4,0.0,...,1.4,1.1,3.5,25.0,1846.0,80.1,13.4,5.5,0.0,7.7
75%,42003410000.0,5442.0,2674.0,2774.0,20.4,88.3,14.4,0.4,4.8,0.0,...,3.5,2.5,5.9,29.8,2553.0,84.6,18.2,8.1,0.0,11.4
max,72153750000.0,53812.0,27962.0,27250.0,100.0,100.0,100.0,100.0,91.3,84.7,...,100.0,100.0,100.0,80.0,24075.0,100.0,100.0,100.0,26.5,100.0


Очень полезным методом является **value_counts()**, который позволяет посчитать значения, например в разрезе категории.<br>
Для того чтобы разбить наш датасет на категории, нам понадобится еще один метод, а именно жемчужина **Pandas**, а именно метод **.groupby()**<br>

Давайте, например, посчитаем количество строк/событий/наблюдей по штату.

In [52]:
data.State.value_counts().head()

State
California      8057
Texas           5265
New York        4918
Florida         4245
Pennsylvania    3218
Name: count, dtype: int64

Метод **value_counts()** может принимать на вход значения для параметров, например **normalize**, который нормализирует/взвесит наши значения, чтобы в сумме получилось 1. А это удобно привести к процентам, умножив на 100.

In [53]:
data.State.value_counts(normalize=True).head()*100

State
California      10.887691
Texas            7.114769
New York         6.645856
Florida          5.736409
Pennsylvania     4.348590
Name: proportion, dtype: float64

Но мы хотим посчитать что-то более осмысленное, например, как количество мужчин и женщин в штатах с условиями, которые были выше. И сделать обычную табличку с процентом от колонки, чтобы понять в каком штате хуже условия. <br>

Берем запрос выше и добавляем **.groupby()**, создавая вот такой объект, группируя по штату:

In [54]:
data[(data['Black'] > 50)&(data['Unemployment']>50)].groupby('State')

<pandas.core.groupby.generic.DataFrameGroupBy object at 0x000001574CD0F6B0>

Добавим колонки по которым мы хотим посчитать сумму, а именно `['Men', 'Women']` и применим метод **.sum()**

In [56]:
data[(data['Black'] > 50)&(data['Unemployment']>30)].groupby('State')[['Men', 'Women']].sum().head()

Unnamed: 0_level_0,Men,Women
State,Unnamed: 1_level_1,Unnamed: 2_level_1
Alabama,20696,25350
Arkansas,3107,3783
California,4849,2626
Connecticut,3362,3599
Delaware,1487,2129


До этого мы выводили объекты, а сейчас мы создадим новые объекты с нашими условиями с которым уже будет гораздо более удобнее работать.
Посчитаем туже самую табличку, но в процентах. <br>

`gender_sum` это наша таблица <br>
`total` это сумма всех значений по мужичнам и женщинам <br>

И все это делим между собой и умножаем на 100 для красоты =)

In [66]:
gender_sum = data[(data['Black'] > 50)&(data['Unemployment']>30)].groupby('State')[['Men', 'Women']].sum()

total = data[(data['Black'] > 50)&(data['Unemployment']>30)].groupby('State')[['Men', 'Women']].sum().sum()

result = gender_sum/total*100

result.head()

Unnamed: 0_level_0,Men,Women
State,Unnamed: 1_level_1,Unnamed: 2_level_1
Alabama,4.212866,4.468661
Arkansas,0.632459,0.666862
California,0.98706,0.462907
Connecticut,0.684367,0.634426
Delaware,0.302693,0.375297


In [58]:
gender_sum.head()

Unnamed: 0_level_0,Men,Women
State,Unnamed: 1_level_1,Unnamed: 2_level_1
Alabama,20696,25350
Arkansas,3107,3783
California,4849,2626
Connecticut,3362,3599
Delaware,1487,2129


In [60]:
gender_sum.sum()

Men      491257
Women    567284
dtype: int64

In [64]:
total.head()


Men      491257
Women    567284
dtype: int64

И в завершении можно посмотреть на максимальные значения по нашей табличке и понять что в шатат Мичиган лучше ехать не стоит.

In [68]:
result.style.highlight_max()

Unnamed: 0_level_0,Men,Women
State,Unnamed: 1_level_1,Unnamed: 2_level_1
Alabama,4.212866,4.468661
Arkansas,0.632459,0.666862
California,0.98706,0.462907
Connecticut,0.684367,0.634426
Delaware,0.302693,0.375297
District of Columbia,2.191317,1.864498
Florida,5.121963,4.414896
Georgia,4.52879,4.724089
Illinois,18.80706,19.255964
Indiana,1.181663,1.261802


Итого, наш скрип для табличке ниже уместился в 4 строчки (хотя можно еще меньше) и сработал за ~8 микросекунд.<br>
А за сколько вы бы могли это сделать в экселе?)

In [71]:
import time # импортируем модуль времени, чтобы оценить наш код

%time
gender_sum = data[(data['Black'] > 50)&(data['Unemployment']>30)].groupby('State')[['Men', 'Women']].sum()
total = data[(data['Black'] > 50)&(data['Unemployment']>30)].groupby('State')[['Men', 'Women']].sum().sum()
result = gender_sum/total*100
result.style.highlight_max(color='red')

CPU times: total: 0 ns
Wall time: 0 ns


Unnamed: 0_level_0,Men,Women
State,Unnamed: 1_level_1,Unnamed: 2_level_1
Alabama,4.212866,4.468661
Arkansas,0.632459,0.666862
California,0.98706,0.462907
Connecticut,0.684367,0.634426
Delaware,0.302693,0.375297
District of Columbia,2.191317,1.864498
Florida,5.121963,4.414896
Georgia,4.52879,4.724089
Illinois,18.80706,19.255964
Indiana,1.181663,1.261802


###  Домашнее задание

На эту неделю вам предстоит разобраться с методами, которые рассматривали на уроке и почитать документацию про новые.

1) Есть ли такие графства (County) где уровень безработицы нулевой?

In [77]:
data[data['Unemployment']==0]['Country'].unique().size

161

2) У какого штата наименьший средний уровень безработицы (используйте колонку `Unemployment` и метод **.mean()** ) ? 

In [82]:
data.groupby('State').agg({'Unemployment': 'mean'}).sort_values('Unemployment').head(1)

Unnamed: 0_level_0,Unemployment
State,Unnamed: 1_level_1
North Dakota,2.933171


3) Какой наибольший средний уровень дохода (используйте колонку `Income` и метод **.mean()** ) среди штатов?

In [84]:
data.groupby('State').agg({'Income': 'mean'}).sort_values('Income', ascending=False).head(1)

Unnamed: 0_level_0,Income
State,Unnamed: 1_level_1
Maryland,78765.400725


4) В каком штате самое большое население женщин среди штатов?

In [88]:
data.groupby('State').agg({'Women': 'sum'}).sort_values('Women', ascending=False).head(1)

Unnamed: 0_level_0,Women
State,Unnamed: 1_level_1
California,19334329


5) В каком штате мужчин больше чем женщин и на сколько процентов?

In [101]:
df = data[(data['Men']> data['Women'])].groupby('State').agg({'Men': 'sum', 'Women': 'sum'})
df['Percent'] = (df['Men'] - df['Women'])/ df['Women'] *100
df

Unnamed: 0_level_0,Men,Women,Percent
State,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Alabama,782769,700094,11.809128
Alaska,273960,232130,18.020075
Arizona,1473026,1282857,14.823866
Arkansas,560235,504069,11.142522
California,8342975,7411294,12.571098
Colorado,1345654,1200305,12.109339
Connecticut,593420,538428,10.213436
Delaware,115369,102832,12.19173
District of Columbia,99668,86079,15.786661
Florida,3332032,2920577,14.088141
