<p style="align: center;"><img align=center src="https://s8.hostingkartinok.com/uploads/images/2018/08/308b49fcfbc619d629fe4604bceb67ac.jpg" style="height:450px;" width=500/></p>

<h3 style="text-align: center;"><b>Школа глубокого обучения ФПМИ МФТИ</b></h3>
<h3 style="text-align: center;"><b>Базовый поток. Весна 2021</b></h3>

<h1 style="text-align: center;"><b>Библиотека Pandas</b></h1>

Библиотека `pandas` активно используется в современном data science для работы с данными, которые могут быть представлены в виде таблиц (а это очень, очень большая часть данных)

`pandas` есть в пакете Anaconda, но если вдруг у Вас её по каким-то причинам нет, то можно установить, раскомментировав одну из следующих команд:

In [None]:
# !pip3 install pandas
# !conda install pandas

In [1]:
import numpy as np
import pandas as pd # Стандартное сокращение для pandas. Всегда используйте его!

# pd.Series

Тип данных pd.Series представляет собой одномерный набор данных. Отсутствующий данные записываются как `np.nan` (в этот день термометр сломался или метеоролог был пьян); они не участвуют в вычислении средних, среднеквадратичных отклонений и т.д.

### Создание
Создадим Series из списка температур

In [2]:
some_list = [1, 3, 5, np.nan, 6, 8]
ser_1 = pd.Series(some_list)
ser_1

0    1.0
1    3.0
2    5.0
3    NaN
4    6.0
5    8.0
dtype: float64

In [6]:
# Так же можно в явном виде указать индексы, чтобы потом было более удобно обращаться к элементам
ind = ['1st day', '2nd day', '3rd day', '4th day', '5rd day', '6th day']
ind_1 = [i for i in range(1, 7)]

ser_2 = pd.Series(some_list, index=ind)
ser_2

1st day    1.0
2nd day    3.0
3rd day    5.0
4th day    NaN
5rd day    6.0
6th day    8.0
dtype: float64

In [7]:
ser_2['4th day']

nan

In [8]:
# А еще можно дать pd.Series имя, чтобы было совсем красиво
ser_3 = pd.Series(some_list, index=ind, name='Temperature')
ser_3

1st day    1.0
2nd day    3.0
3rd day    5.0
4th day    NaN
5rd day    6.0
6th day    8.0
Name: Temperature, dtype: float64

### Индексирование
С индексами можно работать так же, как и в случае с обычным list.

In [9]:
print(ser_3[0])

print('-----------')

print(ser_3[1:3])

print('-----------')

print(ser_3[::-1])

1.0
-----------
2nd day    3.0
3rd day    5.0
Name: Temperature, dtype: float64
-----------
6th day    8.0
5rd day    6.0
4th day    NaN
3rd day    5.0
2nd day    3.0
1st day    1.0
Name: Temperature, dtype: float64


### Индексирование pd.Series по условиям

In [13]:
date_range = pd.date_range('20200227', periods=7)
ser_4 = pd.Series(np.random.rand(7), index=date_range)
ser_4

2020-02-27    0.947688
2020-02-28    0.115387
2020-02-29    0.439775
2020-03-01    0.144162
2020-03-02    0.471653
2020-03-03    0.090742
2020-03-04    0.509898
Freq: D, dtype: float64

In [15]:
ser_4 > 0.5

2020-02-27     True
2020-02-28    False
2020-02-29    False
2020-03-01    False
2020-03-02    False
2020-03-03    False
2020-03-04     True
Freq: D, dtype: bool

В качестве индекса можно указать выражение, и нам будут возвращены только те элементы, для которых значение является `True`

In [16]:
ser_4[ser_4 > 0.5]

2020-02-27    0.947688
2020-03-04    0.509898
dtype: float64

In [17]:
ser_4[(ser_4 > 0.6) | (ser_4 < 0.2)]

2020-02-27    0.947688
2020-02-28    0.115387
2020-03-01    0.144162
2020-03-03    0.090742
dtype: float64

In [18]:
ser_4[(ser_4 > 0.6) & (ser_4 < 0.2)]

Series([], Freq: D, dtype: float64)

### Сортировки
Тип `pd.Series` можно отсортировать как по значениям, так и по индексу.

In [19]:
ser_4.sort_index()

2020-02-27    0.947688
2020-02-28    0.115387
2020-02-29    0.439775
2020-03-01    0.144162
2020-03-02    0.471653
2020-03-03    0.090742
2020-03-04    0.509898
Freq: D, dtype: float64

In [20]:
ser_4 = ser_4.sort_values()

In [21]:
ser_4

2020-03-03    0.090742
2020-02-28    0.115387
2020-03-01    0.144162
2020-02-29    0.439775
2020-03-02    0.471653
2020-03-04    0.509898
2020-02-27    0.947688
dtype: float64

### Операции с series
Тип `pd.Series` можно модифицировать проще, чем стандартный ``list`` из Python.

In [22]:
ser_4 + 100

2020-03-03    100.090742
2020-02-28    100.115387
2020-03-01    100.144162
2020-02-29    100.439775
2020-03-02    100.471653
2020-03-04    100.509898
2020-02-27    100.947688
dtype: float64

In [23]:
np.exp(ser_4)

2020-03-03    1.094986
2020-02-28    1.122307
2020-03-01    1.155071
2020-02-29    1.552358
2020-03-02    1.602641
2020-03-04    1.665122
2020-02-27    2.579737
dtype: float64

In [27]:
term_1 = pd.Series(np.random.randint(0, 10, 5))
term_2 = pd.Series(np.random.randint(0, 10, 6))

print(term_1)
print(term_2)
print()
term_1 + term_2

0    8
1    2
2    5
3    8
4    9
dtype: int64
0    0
1    4
2    2
3    2
4    5
5    7
dtype: int64



0     8.0
1     6.0
2     7.0
3    10.0
4    14.0
5     NaN
dtype: float64

In [28]:
term_1.shape

(5,)

# pd.DataFrame

Тип данных pd.DataFrame представляет собой двумерную таблицу с данными. Имеет индекс и набор столбцов (возможно, имеющих разные типы). Таблицу можно построить, например, из словаря, значениями в котором являются одномерные наборы данных.
### Создание и основные объекты

In [29]:
# Dataframe можно составить из словаря. Ключ будет соответсовать колонке
some_dict = {'one': pd.Series([1,2,3], index=['a','b','c']),
             'two': pd.Series([1,2,3,4], index=['a','b','c','d']),
             'three': pd.Series([5,6,7,8], index=['a','b','c','d'])}
df = pd.DataFrame(some_dict)
df

Unnamed: 0,one,two,three
a,1.0,1,5
b,2.0,2,6
c,3.0,3,7
d,,4,8


In [30]:
#Альтернативно, из списка списков с аргументом columns

some_array = [[1,1,5], [2,2,6], [3,3,7], [np.nan, 4,8]]
df = pd.DataFrame(some_array, index=['a', 'b', 'c', 'd'], columns=['one', 'two', 'three'])
df

Unnamed: 0,one,two,three
a,1.0,1,5
b,2.0,2,6
c,3.0,3,7
d,,4,8


In [31]:
df.values

array([[ 1.,  1.,  5.],
       [ 2.,  2.,  6.],
       [ 3.,  3.,  7.],
       [nan,  4.,  8.]])

In [32]:
df.columns

Index(['one', 'two', 'three'], dtype='object')

In [33]:
df.columns = ['first_column', 'second_column', 'third_column']
df.index = [1,2,3,4]
df

Unnamed: 0,first_column,second_column,third_column
1,1.0,1,5
2,2.0,2,6
3,3.0,3,7
4,,4,8


### Индексирование 
Есть очень много способов индексировать DataFrame в Pandas. Не все из них хорошие! Вот несколько удобных, но не универсальных.

#### По колонкам
Индексирование по колонке возращает pd.Series. Можно выбирать не одну колонку, а сразу несколько. Тогда снова вернётся pd.DataFrame.

In [34]:
first_column = df['first_column']
first_column

1    1.0
2    2.0
3    3.0
4    NaN
Name: first_column, dtype: float64

In [35]:
df.first_column

1    1.0
2    2.0
3    3.0
4    NaN
Name: first_column, dtype: float64

In [36]:
subset_dataframe = df[['first_column', 'second_column']]
subset_dataframe

Unnamed: 0,first_column,second_column
1,1.0,1
2,2.0,2
3,3.0,3
4,,4


In [37]:
one_column_dataframe = df[['first_column']]
one_column_dataframe

Unnamed: 0,first_column
1,1.0
2,2.0
3,3.0
4,


#### По строкам
Можно писать любые слайсы, как в Python-списке. Они будут применяться к строкам. Нельзя обращаться по элементу!

In [38]:
df[1] # не сработает

KeyError: 1

In [39]:
df[:1]

Unnamed: 0,first_column,second_column,third_column
1,1.0,1,5


In [40]:
df[1:4]

Unnamed: 0,first_column,second_column,third_column
2,2.0,2,6
3,3.0,3,7
4,,4,8


#### Универсальное индексирование: .loc и .iloc

.loc и .iloc --- это два взаимозаменяемых атрибута, которые позволяют индексировать по обеим осям сразу. Путаницы не возникает из-за фиксированного порядка перечисления осей.

In [41]:
# По индексам: 
df.iloc[1:3, :2]

Unnamed: 0,first_column,second_column
2,2.0,2
3,3.0,3


In [42]:
df.loc[1:3, ['first_column', 'second_column']]

Unnamed: 0,first_column,second_column
1,1.0,1
2,2.0,2
3,3.0,3


Лучше использовать по умолчанию либо только loc, либо только .iloc! А лучше вообще всегда только .iloc, чтобы не запутаться.

### Модификации датасета, создание новых колонок
Можно просто брать и создавать новую колонку. Синтаксис тут вполне естественный.

In [43]:
new_column = [5,2,1,4]
df['new_column'] = new_column
df

Unnamed: 0,first_column,second_column,third_column,new_column
1,1.0,1,5,5
2,2.0,2,6,2
3,3.0,3,7,1
4,,4,8,4


Аналогично, можно применять к отдельным колонкам арифметические операции (ведь колонки --- это Series!)

In [44]:
df['first_column'] = df['first_column'] * 10
df

Unnamed: 0,first_column,second_column,third_column,new_column
1,10.0,1,5,5
2,20.0,2,6,2
3,30.0,3,7,1
4,,4,8,4


## Реальный датасет
Мы будем работать с датасетом ``Титаник``. Файлы необходимо скачать локально или загрузить с помощью функции ниже.
![alt text](https://drive.google.com/uc?id=1Tb52nFFsjI8sqv0AlMpx25aNJ62xzp5w)

Информация о файлах: 
 - *titanic_data.csv* содержит различную информацию о пассажирах Титаника (билет, класс, возраст и т.п.)
 - *titanic_surv.csv* содержит для каждого пассажира из первого файла информацию о том, выжил ли этот пассажир (метка 1) или нет (метка 0)


### Чтение из файла
Обычно данные хранятся в виде таблиц в файлах формата .csv или .xlsx. На этом семинаре мы будем загружать данные из .csv файлов.


 
Загрузим первый файл

In [45]:
# df_1 = pd.read_csv('titanic_data.csv')
pass_link = 'https://www.dropbox.com/s/lyzcuxu1pdrw5qb/titanic_data.csv?dl=1'
titanic_passengers = pd.read_csv(pass_link, index_col='PassengerId') # index_col=?

In [46]:
print('Всего пассажиров: ', len(titanic_passengers))
titanic_passengers.head(10)

Всего пассажиров:  891


Unnamed: 0_level_0,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
PassengerId,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1
1,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
2,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
3,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S
4,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S
5,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,,S
6,3,"Moran, Mr. James",male,,0,0,330877,8.4583,,Q
7,1,"McCarthy, Mr. Timothy J",male,54.0,0,0,17463,51.8625,E46,S
8,3,"Palsson, Master. Gosta Leonard",male,2.0,3,1,349909,21.075,,S
9,3,"Johnson, Mrs. Oscar W (Elisabeth Vilhelmina Berg)",female,27.0,0,2,347742,11.1333,,S
10,2,"Nasser, Mrs. Nicholas (Adele Achem)",female,14.0,1,0,237736,30.0708,,C


### Разная информация о датасете

Можно узнать размер таблицы, информацию о значениях таблицы, различные статистики по значениям.

In [47]:
titanic_passengers.shape

(891, 10)

In [48]:
titanic_passengers.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 891 entries, 1 to 891
Data columns (total 10 columns):
 #   Column    Non-Null Count  Dtype  
---  ------    --------------  -----  
 0   Pclass    891 non-null    int64  
 1   Name      891 non-null    object 
 2   Sex       891 non-null    object 
 3   Age       714 non-null    float64
 4   SibSp     891 non-null    int64  
 5   Parch     891 non-null    int64  
 6   Ticket    891 non-null    object 
 7   Fare      891 non-null    float64
 8   Cabin     204 non-null    object 
 9   Embarked  889 non-null    object 
dtypes: float64(2), int64(3), object(5)
memory usage: 76.6+ KB


In [49]:
titanic_passengers.describe()

Unnamed: 0,Pclass,Age,SibSp,Parch,Fare
count,891.0,714.0,891.0,891.0,891.0
mean,2.308642,29.699118,0.523008,0.381594,32.204208
std,0.836071,14.526497,1.102743,0.806057,49.693429
min,1.0,0.42,0.0,0.0,0.0
25%,2.0,20.125,0.0,0.0,7.9104
50%,3.0,28.0,0.0,0.0,14.4542
75%,3.0,38.0,1.0,0.0,31.0
max,3.0,80.0,8.0,6.0,512.3292


## Задание 1 
Опишите данный датасет: какое расределение женщин/мужчин в нем? Сколько пассажиров ехало в каждом классе? Какой средний/минимальный/максимальный возраст пассажиров?

In [50]:
(titanic_passengers['Age'].min(), titanic_passengers['Age'].mean(), titanic_passengers['Age'].max())

(0.42, 29.69911764705882, 80.0)

In [51]:
titanic_passengers['Sex'].value_counts()

male      577
female    314
Name: Sex, dtype: int64

In [None]:
titanic_passengers['Pclass'].value_counts()

## Задание 2
Сгруппируйте записи по классам пассажиров, в каждой группе посчитайте средний возраст. Используйте метод ``pandas.DataFrame.groupby``.

In [None]:
titanic_passengers.groupby(['Pclass']).mean()

In [None]:
titanic_passengers.groupby(['Pclass'])['Age'].mean()

## Слияние таблиц
Таблицы можно сливать несколькими способами. Мы рассмотрим слияние по индексу: метод называется ``pd.join``.

In [None]:
# df_2 = pd.read_csv('titanic_surv.csv')
surv_link = 'https://www.dropbox.com/s/v35x9i6a1tc7emm/titanic_surv.csv?dl=1'
df_2 = pd.read_csv(surv_link)

In [None]:
df_2.head()

### Задание 3.
Слейте два датасета по колонке индекса.

In [None]:
df_2.index = np.arange(1, 892)

In [None]:
df_2 = df_2.sample(frac=1)
df_2.head()

In [None]:
titanic_passengers = titanic_passengers.join(df_2)
titanic_passengers.head()

### Задание 4. 
Сколько всего выживших пассажиров? Выживших пассажиров по каждому из полов? Постройте матрицу корреляций факта выживания, пола и возраста.

In [None]:
titanic_passengers['Survived'].sum()

In [None]:
titanic_passengers.groupby(['Sex'])['Survived'].sum()

In [None]:
corr_data = titanic_passengers[['Sex', 'Age', 'Survived']]
corr_data['Sex'] = (corr_data['Sex'] == 'female').astype(int)

In [None]:
corr_data.head()

In [None]:
corr_data.corr()

In [None]:
import seaborn as sns

In [None]:
sns.heatmap(corr_data.corr(), annot=True, cmap='coolwarm',
            vmin=-1, vmax=1, annot_kws={"size": 16})