<center>
<img src="https://cdn.megabonus.com/images/shop_logo/skillbox.png"/>
# Курс аналитик данных на Python  
    
## Модуль 2.3. Pandas intermediate. Швейцарский нож аналитика.

Итак, в этом уроке мы немного шире взглянем на библиотеку [**Pandas**](http://pandas.pydata.org/pandas-docs/stable/) и поймем как работает `Python` с полноценными табличными данными.<br>

Итак, мы:
* загрузим файл, который весит **14 мегабайт**.;
* поймем как **манипулировать данными**: выбирать определенные значения и колонки;
* освоим **методы, которые постоянно используются** при работе с данными в Pandas.

Сначала импортируем библиотеки

In [1]:
import numpy as np
import pandas as pd

#### Загружаем файл

Для начала прочитаем данные с помощью библиотеки [**Pandas**](http://pandas.pydata.org/pandas-docs/stable/).<br>
Наши довольно много весят. В распакованном виде экселевская табличка **весит около 14 мегабайт.**<br>
Это сатистические данные по демографии в США за 2015 год. Такие данные как нельзя лучше подходят для того чтобы научиться работать с [**Pandas**](http://pandas.pydata.org/pandas-docs/stable/).

In [2]:
data = pd.read_csv('../data/acs2015_census_tract_data.csv.gz', compression='gzip')

#### Смотрим размерности таблицы

Как и прежде, первое с чего нужно начать это с того чтобы понять что перед нами за данные.<br>
Сначала хотелось бы понять на сколько большая перед нами таблица. В этом нам поможет метод **.shape()**, который передает количество строк и колонок.

In [3]:
data.shape

Далее хотелось бы посмотреть на саму табличку и какие в ней есть колонки. В этом нам поможет метод **.head()** и **.info()**.

In [4]:
data.head(3)

Можем сделать немного красивее.

In [5]:
print('У нас %s строк и %s колонок.'%data.shape)
print('---')
print(data.info())

#### Работа с колонками 

Также мы можем получить список с названиями колонок с помощью метода **.columns**. В данном случае это аттрибут уже построенной таблицы, так что скобки ставить не нужно, тк аттрибут не подразумевает передачу каких либо переменных.

In [6]:
data.columns

In [7]:
data.head()

Мы также можем выбрать какие-то определенные колонки, например `State`,`County`,`Unemployment`. <br>
Для этого мы объединяем их лист `['State','County','Unemployment']` и выделяем только их.  

In [8]:
data[['State','County','Unemployment']].head()

В `Pandas` можно указывать название колонки в одинарных и двойных кавычках `('' и "")`, а так же через точку, как например ниже.

In [9]:
data.CensusTract.head(n=10)

#### Индексирование и срезы

Передавая цифры через двоеточие мы можем проиндексировать и как-бы 'срезать' часть нашего датафрейма.

In [10]:
data[0:5] # Напоминаю, что индексация в Python ведется с 0.

Можно не указывать ограничения и тогда индексирование возьмет по дефолту все значения.

In [11]:
data[:5] 

Посмотрим последние 5 рядов

In [12]:
data[-5:]

Возьмем прошлый кусок таблицы для наглядности.<br>
Также можно перевернуть датафрейм, передав -1 третьим аргументом в методе. Сравните с прошлой ячейкой.

In [13]:
chunk = data[73996:] 
chunk[::-1] 

Можем вынести кажду тысячную строчку, а тк как у нас таблица немногим более 74К строк, то выйдет всего 8 строчек

In [14]:
data[::10000]

Также можно выделять колонки с помощью метода **.iloc[ ]**, который совмещает 2 метода выше, принимая на вход сначала срез по строчкам, а потом по столбцам.

In [15]:
data.iloc[1:5,:] # первые 5 строк всей таблицы

In [16]:
data.iloc[1:5,1:10] # первые 5 строк первых 10 столбцов

In [17]:
data.iloc[1:5,-5:] # первые 5 строк последних 5 столбцов

Напомню, что всегда можно посмотреть документацию по методам, если что-то не помним или запутались.

In [18]:
??data.iloc[1:5]

#### Простые манипуляции с данными

Теперь, когда м поняли как манипулировать строка и столбцами, хотелось бы как-то манипулировать таблицей, основываясь на данных которые в ней заключены.

Можно делать логические операции сравнения. Например, посмотрим где процент чернокожего населенияв США больше 50 процентов.

In [19]:
(data['Black'] > 50).head()

И выделим только эти строки.

In [20]:
data[data['Black'] > 50].head()

Можно посмотреть только штаты для этого условия.

In [21]:
data[data['Black'] > 50]['State'].head()

Это очень не удобно даже небольших датасетах,так что посмотрим уникальные значения. В этом нам поможет метод **.unique()**

In [22]:
data[data['Black'] > 50]['State'].unique()

Этого же можно достигнуть просто сбросив дубликаты методом **.drop_duplicates()**.

In [23]:
data[data['Black'] > 50]['State'].drop_duplicates()

В реально жизни нужно комбинировать условия и это не проблема для **Pandas**. Например найдем штаты, где больше половины чернокожего населения и процент безработицы больше 50 процентов =(  <br>
Просто добавим еще одно условие в наз запрос и он покажет штаты.

In [24]:
data[(data['Black'] > 50)&(data['Unemployment']>50)]['State'].unique()

#### Простые статистики

Когда мы поняли как обращаться и манипулировать таблицей, можно посмотреть какие-то простые статистики и первое что нам поможет это метод **.describe()**, который выводит базовую статистику по всем колонкам.

In [25]:
data.describe()

Очень полезным методом является **value_counts()**, который позволяет посчитать значения, например в разрезе категории.<br>
Для того чтобы разбить наш датасет на категории, нам понадобится еще один метод, а именно жемчужина **Pandas**, а именно метод **.groupby()**<br>

Давайте, например, посчитаем количество строк/событий/наблюдей по штату.

In [26]:
data.State.value_counts().head()

Метод **value_counts()** может принимать на вход значения для параметров, например **normalize**, который нормализирует/взвесит наши значения, чтобы в сумме получилось 1. А это удобно привести к процентам, умножив на 100.

In [27]:
data.State.value_counts(normalize=True).head()*100

Но мы хотим посчитать что-то более осмысленное, например, как количество мужчин и женщин в штатах с условиями, которые были выше. И сделать обычную табличку с процентом от колонки, чтобы понять в каком штате хуже условия. <br>

Берем запрос выше и добавляем **.groupby()**, создавая вот такой объект, группируя по штату:

In [28]:
data[(data['Black'] > 50)&(data['Unemployment']>50)].groupby('State')

Добавим колонки по которым мы хотим посчитать сумму, а именно `['Men', 'Women']` и применим метод **.sum()**

In [29]:
data[(data['Black'] > 50)&(data['Unemployment']>30)].groupby('State')[['Men', 'Women']].sum().head()

До этого мы выводили объекты, а сейчас мы создадим новые объекты с нашими условиями с которым уже будет гораздо более удобнее работать.
Посчитаем туже самую табличку, но в процентах. <br>

`gender_sum` это наша таблица <br>
`total` это сумма всех значений по мужичнам и женщинам <br>

И все это делим между собой и умножаем на 100 для красоты =)

In [30]:
gender_sum = data[(data['Black'] > 50)&(data['Unemployment']>30)].groupby('State')[['Men', 'Women']].sum()

total = data[(data['Black'] > 50)&(data['Unemployment']>30)].groupby('State')[['Men', 'Women']].sum().sum()

result = gender_sum/total*100

result.head()

И в завершении можно посмотреть на максимальные значения по нашей табличке и понять что в шатат Мичиган лучше ехать не стоит.

In [31]:
result.style.highlight_max()

Итого, наш скрип для табличке ниже уместился в 4 строчки (хотя можно еще меньше) и сработал за ~8 микросекунд.<br>
А за сколько вы бы могли это сделать в экселе?)

In [32]:
import time # импортируем модуль времени, чтобы оценить наш код

%time
gender_sum = data[(data['Black'] > 50)&(data['Unemployment']>30)].groupby('State')[['Men', 'Women']].sum()
total = data[(data['Black'] > 50)&(data['Unemployment']>30)].groupby('State')[['Men', 'Women']].sum().sum()
result = gender_sum/total*100
result.style.highlight_max()

###  Домашнее задание

На эту неделю вам предстоит разобраться с методами, которые рассматривали на уроке и почитать документацию про новые.

1) Есть ли такие графства (County) где уровень безработицы нулевой?

2) У какого штата наименьший средний уровень безработицы (используйте колонку `Unemployment` и метод **.mean()** ) ? 

3) Какой наибольший средний уровень дохода (используйте колонку `Income` и метод **.mean()** ) среди штатов?

4) В каком штате самое большое население женщин среди штатов?

5) В каком штате мужчин больше чем женщин и на сколько процентов?