<center>
<img src="https://pbs.twimg.com/media/B1sbpDdIIAAaOIN.jpg" width=600px/>
<br />
<h1>Pandas и анализ данных </h1>
<br />


In [1]:
import pandas as pd

### Series

Структура/объект Series представляет из себя объект, похожий на одномерный массив (питоновский список, например), но отличительной его чертой является наличие ассоциированных меток, т.н. индексов, вдоль каждого элемента из списка. Такая особенность превращает его в ассоциативный массив или словарь в Python.



In [73]:
import pandas as pd
my_series = pd.Series([5, 6, 7, 8, 9, 10])
my_series

0     5
1     6
2     7
3     8
4     9
5    10
dtype: int64

В строковом представлении объекта Series, индекс находится слева, а сам элемент справа. Если индекс явно не задан, то pandas автоматически создаёт RangeIndex от 0 до N-1, где N общее количество элементов. Также стоит обратить, что у Series есть тип хранимых элементов, в нашем случае это int64, т.к. мы передали целочисленные значения.

In [74]:
my_series.index

RangeIndex(start=0, stop=6, step=1)

In [75]:
my_series.values

array([ 5,  6,  7,  8,  9, 10])

In [76]:
my_series[4]

9

Индексы можно задавать явно:


In [77]:
my_series2 = pd.Series([5, 6, 7, 8, 9, 10], index=['a', 'b', 'c', 'd', 'e', 'f'])
my_series2

a     5
b     6
c     7
d     8
e     9
f    10
dtype: int64

Делать выборку по нескольким индексам и осуществлять групповое присваивание:

In [78]:
my_series2[['a', 'b', 'f']]

a     5
b     6
f    10
dtype: int64

In [79]:
my_series2[['a', 'b', 'f']] = 0
my_series2

a    0
b    0
c    7
d    8
e    9
f    0
dtype: int64

Фильтрация:

In [80]:
my_series2[my_series2 > 0]

c    7
d    8
e    9
dtype: int64

### DataFrame


In [81]:
df = pd.DataFrame({
     'country': ['Kazakhstan', 'Russia', 'Belarus', 'Ukraine'],
     'population': [17.04, 143.5, 9.5, 45.5],
     'square': [2724902, 17125191, 207600, 603628]
})
df
 

Unnamed: 0,country,population,square
0,Kazakhstan,17.04,2724902
1,Russia,143.5,17125191
2,Belarus,9.5,207600
3,Ukraine,45.5,603628


Каждый столбец датафрейма - объект класса Series

In [33]:
df['country']

0    Kazakhstan
1        Russia
2       Belarus
3       Ukraine
Name: country, dtype: object

In [34]:
type(df['country'])

pandas.core.series.Series

Объект DataFrame имеет 2 индекса: по строкам и по столбцам.

In [35]:
df.columns

Index(['country', 'population', 'square'], dtype='object')

In [36]:
df.index

RangeIndex(start=0, stop=4, step=1)

Можно переприсвоить индекс:

In [37]:
df.index = ['KZ', 'RU', 'BY', 'UA']
df

Unnamed: 0,country,population,square
KZ,Kazakhstan,17.04,2724902
RU,Russia,143.5,17125191
BY,Belarus,9.5,207600
UA,Ukraine,45.5,603628


Доступ к строкам по индексу возможен несколькими способами:

- .loc - используется для доступа по строковой метке
- .iloc - используется для доступа по числовому значению (начиная от 0)


In [38]:
df.loc['KZ']

country       Kazakhstan
population         17.04
square           2724902
Name: KZ, dtype: object

In [39]:
 df.iloc[0]

country       Kazakhstan
population         17.04
square           2724902
Name: KZ, dtype: object

Так же поддерживается слайсинг:

In [40]:
 df.iloc[0:2]

Unnamed: 0,country,population,square
KZ,Kazakhstan,17.04,2724902
RU,Russia,143.5,17125191


На самом деле, .loc в квадратных скобках принимает 2 аргумента: интересующий индекс и колонки.

In [41]:
df.loc['KZ':'BY', 'population':'square']

Unnamed: 0,population,square
KZ,17.04,2724902
RU,143.5,17125191
BY,9.5,207600


Кстати, к столбцам можно обращаться, используя атрибут или нотацию словарей Python, т.е. df.population и df['population'] это одно и то же.



Сбросить индексы можно вот так:

In [42]:
df.reset_index()

Unnamed: 0,index,country,population,square
0,KZ,Kazakhstan,17.04,2724902
1,RU,Russia,143.5,17125191
2,BY,Belarus,9.5,207600
3,UA,Ukraine,45.5,603628


`reset_index()` сбрасывает индекс, создавая новый порядковый индекс. Тогда старый индекс становится новой колонкой с именем `index`

*Примечание*
если к объекту Series вызвать reset_index(), то получится DataFrame, понятно почему?

pandas при операциях над DataFrame, возвращает новый объект DataFrame.

Добавьте новый столбец, в котором население (в миллионах) поделим на площадь страны, получив тем самым плотность:

In [32]:
df['density'] = ### your code
df

Unnamed: 0,country,population,square,density
KZ,Kazakhstan,17.04,2724902,6.253436
RU,Russia,143.5,17125191,8.379469
BY,Belarus,9.5,207600,45.761079
UA,Ukraine,45.5,603628,75.37755


Не нравится новый столбец? Не проблема, удалим его:

In [33]:
df.drop(['density'], axis='columns')

Unnamed: 0,country,population,square
KZ,Kazakhstan,17.04,2724902
RU,Russia,143.5,17125191
BY,Belarus,9.5,207600
UA,Ukraine,45.5,603628


### Чтение и запись данных


pandas поддерживает все самые популярные форматы хранения данных: csv, excel, sql, буфер обмена, html и многое другое:



In [None]:
pd.read

Чаще всего приходится работать с csv-файлами. Например, чтобы сохранить наш DataFrame со странами, достаточно написать:

In [43]:
df.to_csv('filename.csv')

In [44]:
df = pd.read_csv('filename.csv', sep=',')

### Группировка и агрегирование в pandas


Скачаем данные о пассажирах Титаника:

In [93]:
! wget "https://downloader.disk.yandex.ru/disk/b89e634c9c9ebe6cc9a73ddd852930328d8aa0e60e83048e526677c75be7175c/5dece83e/ksTGnu9Mhj0C8AhZTnfZZceHGWgfqkmAmrf-8NRz_cs7wdTNbfCKid0J39KAmRlqeqXVaLn0gYJth9bgzl1ZXw%3D%3D?uid=0&filename=titanic.csv&disposition=attachment&hash=YxHdib8PoEQ4srd2tyWj4AWoIiE80az61%2BIRJDJBIFA%3D%3A&limit=0&content_type=text%2Fcsv&owner_uid=37408220&fsize=71689&hid=1f433688be7e5399d28c063da42fbf86&media_type=spreadsheet&tknv=v2" -O titanic.csv -q

In [2]:
titanic_df = pd.read_csv('titanic.csv')
titanic_df.head(10) 

Unnamed: 0,PassengerID,Name,PClass,Age,Sex,Survived,SexCode
0,1,"Allen, Miss Elisabeth Walton",1st,29.0,female,1,1
1,2,"Allison, Miss Helen Loraine",1st,2.0,female,0,1
2,3,"Allison, Mr Hudson Joshua Creighton",1st,30.0,male,0,0
3,4,"Allison, Mrs Hudson JC (Bessie Waldo Daniels)",1st,25.0,female,0,1
4,5,"Allison, Master Hudson Trevor",1st,0.92,male,1,0
5,6,"Anderson, Mr Harry",1st,47.0,male,1,0
6,7,"Andrews, Miss Kornelia Theodosia",1st,63.0,female,1,1
7,8,"Andrews, Mr Thomas, jr",1st,39.0,male,0,0
8,9,"Appleton, Mrs Edward Dale (Charlotte Lamson)",1st,58.0,female,1,1
9,10,"Artagaveytia, Mr Ramon",1st,71.0,male,0,0


Посчитаем, сколько женщин и мужчин выжило, а сколько нет. В этом нам поможет метод `groupby`.



In [69]:
titanic_df.groupby(['Sex', 'Survived'])['PassengerID'].count()

Sex     Survived
female  0           154
        1           308
male    0           709
        1           142
Name: PassengerID, dtype: int64

То же самое, но в разрезе класса кабины:

Посчитайте, сколько пассажиров выжило в разрезе класса кабины:

In [None]:
titanic_df.groupby(### INSERT YOUR CODE

Метод `groupby` создает объект класса SeriesGroupBy:

In [56]:
tmp = titanic_df.groupby(['Sex', 'Survived'])['PassengerID']
type(tmp)

Unnamed: 0_level_0,Unnamed: 1_level_0,PassengerID,Name,PClass,Age,SexCode
Sex,Survived,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
female,0,154,154,154,71,154
female,1,308,308,308,217,308
male,0,709,709,709,372,709
male,1,142,142,142,96,142


Вы уже воспользовались методом `count()` этого класса. Кроме `count()`, подсчитывающий число элементов, есть другой полезный метод - `agg()`, позволяющий вычислять `'sum','mean','std','min','max'`

Подсчитаем средний возраст пассажиров в разрезе класса кабины:

In [70]:
titanic_df.groupby(['PClass', 'Sex'])["Age"].agg('mean')

PClass  Sex   
*       male            NaN
1st     female    37.772277
        male      41.199360
2nd     female    27.388235
        male      28.910472
3rd     female    22.776176
        male      26.357222
Name: Age, dtype: float64

`count()` и `agg()` возвращают `Series`

In [85]:
titanic_df.groupby(['PClass', 'Sex'])["Age"].agg('mean').reset_index()

Unnamed: 0,PClass,Sex,Age
0,*,male,
1,1st,female,37.772277
2,1st,male,41.19936
3,2nd,female,27.388235
4,2nd,male,28.910472
5,3rd,female,22.776176
6,3rd,male,26.357222


Определите возраст самого молодого и самого пожилого пассажира выжившего пассажира каждого пола.

In [86]:
### YOUR CODE

### Сводные таблицы в pandas

Чтобы посчитать сколько всего женщин и мужчин было в конкретном классе корабля, воспользуемся `.pivot_table`

В качестве индекса теперь у нас будет пол человека, колонками станут значения из `PClass`, функцией агрегирования будет `count` (подсчёт количества записей) по колонке Name.

In [24]:
pvt = titanic_df.pivot_table(index=['Sex'], columns=['PClass'], values='Name', aggfunc='count')

In [25]:
pvt

PClass,*,1st,2nd,3rd
Sex,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
female,,143.0,107.0,212.0
male,1.0,179.0,172.0,499.0


In [26]:
type(pvt)

pandas.core.frame.DataFrame

Другой способ для создания сводных таблиц - метод `pivot()`. Он не содержит параметра `aggfunc` и используется, когда все значения `index x columns` уникальны и нет необходмости в функции аггрегации.

Для демонстрации возьмем небольшую подтаблицу (так чтобы не было повторяющихся значений)

In [39]:
titanic_subset = titanic_df.iloc[:10]
titanic_subset

Unnamed: 0,PassengerID,Name,PClass,Age,Sex,Survived,SexCode
0,1,"Allen, Miss Elisabeth Walton",1st,29.0,female,1,1
1,2,"Allison, Miss Helen Loraine",1st,2.0,female,0,1
2,3,"Allison, Mr Hudson Joshua Creighton",1st,30.0,male,0,0
3,4,"Allison, Mrs Hudson JC (Bessie Waldo Daniels)",1st,25.0,female,0,1
4,5,"Allison, Master Hudson Trevor",1st,0.92,male,1,0
5,6,"Anderson, Mr Harry",1st,47.0,male,1,0
6,7,"Andrews, Miss Kornelia Theodosia",1st,63.0,female,1,1
7,8,"Andrews, Mr Thomas, jr",1st,39.0,male,0,0
8,9,"Appleton, Mrs Edward Dale (Charlotte Lamson)",1st,58.0,female,1,1
9,10,"Artagaveytia, Mr Ramon",1st,71.0,male,0,0


In [37]:
pvt2 = titanic_subset.pivot(index='Sex', columns='Age', values='Name')

In [38]:
pvt2

Age,0.92,2.0,25.0,29.0,30.0,39.0,47.0,58.0,63.0,71.0
Sex,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1
female,,"Allison, Miss Helen Loraine","Allison, Mrs Hudson JC (Bessie Waldo Daniels)","Allen, Miss Elisabeth Walton",,,,"Appleton, Mrs Edward Dale (Charlotte Lamson)","Andrews, Miss Kornelia Theodosia",
male,"Allison, Master Hudson Trevor",,,,"Allison, Mr Hudson Joshua Creighton","Andrews, Mr Thomas, jr","Anderson, Mr Harry",,,"Artagaveytia, Mr Ramon"


А теперь постройте свои сводные таблицы, воспользовавшись методами `pivot()` и `pivot_table()`:

In [None]:
my_ pvt = ## YOUR CODE HERE