<a href="https://colab.research.google.com/github/eggheadsv/try_git/blob/master/%D0%91%D0%B8%D0%B1%D0%BB%D0%B8%D0%BE%D1%82%D0%B5%D0%BA%D0%B0_pandas_ipynb%22%22.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

<h1 style="text-align: center;"><b>Библиотека Pandas</b></h1>

Библиотека `pandas` активно используется в современном data science для работы с данными, которые могут быть представлены в виде таблиц (а это очень, очень большая часть данных)

`pandas` есть в пакете Anaconda, но если вдруг у Вас её по каким-то причинам нет, то можно установить, раскомментировав одну из следующих команд:

In [None]:
# !pip3 install pandas
# !conda install pandas

In [None]:
import numpy as np
import pandas as pd # Стандартное сокращение для pandas. Всегда используйте его!

# pd.Series

Тип данных pd.Series представляет собой одномерный набор данных. Отсутствующий данные записываются как `np.nan` (в этот день термометр сломался или метеоролог был пьян); они не участвуют в вычислении средних, среднеквадратичных отклонений и т.д.

### Создание
Создадим Series из списка температур

In [None]:
some_list = [1, 3, 5, np.nan, 6, 8]
ser_1 = pd.Series(some_list)
ser_1

0    1.0
1    3.0
2    5.0
3    NaN
4    6.0
5    8.0
dtype: float64

In [None]:
# Так же можно в явном виде указать индексы, чтобы потом было более удобно обращаться к элементам
ind = ['1st day', '2nd day', '3rd day', '4th day', '5rd day', '6th day']

ser_2 = pd.Series(some_list, index=ind)
ser_2

1st day    1.0
2nd day    3.0
3rd day    5.0
4th day    NaN
5rd day    6.0
6th day    8.0
dtype: float64

In [None]:
ser_2['4th day']

nan

In [None]:
# А еще можно дать pd.Series имя, чтобы было совсем красиво
ser_3 = pd.Series(some_list, index=ind, name='Temperature')
ser_3

1st day    1.0
2nd day    3.0
3rd day    5.0
4th day    NaN
5rd day    6.0
6th day    8.0
Name: Temperature, dtype: float64

### Индексирование
С индексами можно работать так же, как и в случае с обычным list.

In [None]:
print(ser_3[0])

print('-----------')

print(ser_3[1:3])

print('-----------')

print(ser_3[::-1])

1.0
-----------
2nd day    3.0
3rd day    5.0
Name: Temperature, dtype: float64
-----------
6th day    8.0
5rd day    6.0
4th day    NaN
3rd day    5.0
2nd day    3.0
1st day    1.0
Name: Temperature, dtype: float64


### Индексирование pd.Series по условиям

In [None]:
date_range = pd.date_range('20190101', periods=10)
ser_4 = pd.Series(np.random.rand(10), index=date_range)
ser_4

2019-01-01    0.770076
2019-01-02    0.855594
2019-01-03    0.601338
2019-01-04    0.279838
2019-01-05    0.618881
2019-01-06    0.292496
2019-01-07    0.394787
2019-01-08    0.270815
2019-01-09    0.148393
2019-01-10    0.869316
Freq: D, dtype: float64

In [None]:
ser_4 > 0.5

2019-01-01     True
2019-01-02     True
2019-01-03     True
2019-01-04    False
2019-01-05     True
2019-01-06    False
2019-01-07    False
2019-01-08    False
2019-01-09    False
2019-01-10     True
Freq: D, dtype: bool

В качестве индекса можно указать выражение, и нам будут возвращены только те элементы, для которых значение является `True`

In [None]:
ser_4[ser_4 > 0.5]

2019-01-01    0.770076
2019-01-02    0.855594
2019-01-03    0.601338
2019-01-05    0.618881
2019-01-10    0.869316
dtype: float64

In [None]:
ser_4[(ser_4 > 0.6) | (ser_4 < 0.2)]

2019-01-01    0.770076
2019-01-02    0.855594
2019-01-03    0.601338
2019-01-05    0.618881
2019-01-09    0.148393
2019-01-10    0.869316
dtype: float64

In [None]:
ser_4[(ser_4 > 0.6) & (ser_4 < 0.2)]

Series([], Freq: D, dtype: float64)

### Сортировки
Тип `pd.Series` можно отсортировать как по значениям, так и по индексу.

In [1]:
ser_4.sort_index()

NameError: ignored

In [None]:
ser_4 = ser_4.sort_values()

In [None]:
ser_4

### Операции с series
Тип `pd.Series` можно модифицировать проще, чем стандартный ``list`` из Python.

In [None]:
ser_4 + 100

2019-01-09    100.148393
2019-01-08    100.270815
2019-01-04    100.279838
2019-01-06    100.292496
2019-01-07    100.394787
2019-01-03    100.601338
2019-01-05    100.618881
2019-01-01    100.770076
2019-01-02    100.855594
2019-01-10    100.869316
dtype: float64

In [None]:
np.exp(ser_4)

2019-01-09    1.159969
2019-01-08    1.311032
2019-01-04    1.322916
2019-01-06    1.339767
2019-01-07    1.484068
2019-01-03    1.824559
2019-01-05    1.856849
2019-01-01    2.159930
2019-01-02    2.352773
2019-01-10    2.385279
dtype: float64

In [None]:
term_1 = pd.Series(np.random.randint(0, 10, 5))
term_2 = pd.Series(np.random.randint(0, 10, 6))

term_1 + term_2

0    8.0
1    7.0
2    4.0
3    8.0
4    2.0
5    NaN
dtype: float64

In [None]:
term_1.shape

(5,)

# pd.DataFrame

Тип данных pd.DataFrame представляет собой двумерную таблицу с данными. Имеет индекс и набор столбцов (возможно, имеющих разные типы). Таблицу можно построить, например, из словаря, значениями в котором являются одномерные наборы данных.
### Создание и основные объекты

In [None]:
# Dataframe можно составить из словаря. Ключ будет соответсовать колонке
some_dict = {'one': pd.Series([1,2,3], index=['a','b','c']),
             'two': pd.Series([1,2,3,4], index=['a','b','c','d']),
             'three': pd.Series([5,6,7,8], index=['a','b','c','d'])}
df = pd.DataFrame(some_dict)
df

Unnamed: 0,one,two,three
a,1.0,1,5
b,2.0,2,6
c,3.0,3,7
d,,4,8


In [None]:
#Альтернативно, из списка списков с аргументом columns

some_array = [[1,1,5], [2,2,6], [3,3,7], [np.nan, 4,8]]
df = pd.DataFrame(some_array, index=['a', 'b', 'c', 'd'], columns=['one', 'two', 'three'])
df

Unnamed: 0,one,two,three
a,1.0,1,5
b,2.0,2,6
c,3.0,3,7
d,,4,8


In [None]:
df.values

array([[ 1.,  1.,  5.],
       [ 2.,  2.,  6.],
       [ 3.,  3.,  7.],
       [nan,  4.,  8.]])

In [None]:
df.columns

Index(['one', 'two', 'three'], dtype='object')

In [None]:
df.columns = ['first_column', 'second_column', 'third_column']
df.index = [1,2,3,4]
df

Unnamed: 0,first_column,second_column,third_column
1,1.0,1,5
2,2.0,2,6
3,3.0,3,7
4,,4,8


### Индексирование 
Есть очень много способов индексировать DataFrame в Pandas. Не все из них хорошие! Вот несколько удобных, но не универсальных.

#### По колонкам
Индексирование по колонке возращает pd.Series. Можно выбирать не одну колонку, а сразу несколько. Тогда снова вернётся pd.DataFrame.

In [None]:
first_column = df['first_column']
first_column

1    1.0
2    2.0
3    3.0
4    NaN
Name: first_column, dtype: float64

In [None]:
df.first_column

1    1.0
2    2.0
3    3.0
4    NaN
Name: first_column, dtype: float64

In [None]:
subset_dataframe = df[['first_column', 'second_column']]
subset_dataframe

Unnamed: 0,first_column,second_column
1,1.0,1
2,2.0,2
3,3.0,3
4,,4


In [None]:
one_column_dataframe = df[['first_column']]
one_column_dataframe

Unnamed: 0,first_column
1,1.0
2,2.0
3,3.0
4,


#### По строкам
Можно писать любые слайлы, как в Python-списке. Они будут применяться к строкам. Нельзя обращаться по элементу!

In [None]:
df[1] # не сработает

KeyError: ignored

In [None]:
df[:1]

Unnamed: 0,first_column,second_column,third_column
1,1.0,1,5


In [None]:
df[1:4]

Unnamed: 0,first_column,second_column,third_column
2,2.0,2,6
3,3.0,3,7
4,,4,8


#### Универсальное индексирование: .loc и .iloc

.loc и .iloc --- это два взаимозаменяемых атрибута, которые позволяют индексировать по обеим осям сразу. Путаницы не возникает из-за фиксированного порядка перечисления осей.

In [None]:
# По индексам: 
df.iloc[1:3, :2]

In [None]:
df.loc[1:3, ['first_column', 'second_column']]

Лучше использовать по умолчанию либо только loc, либо только .iloc! А лучше вообще всегда только .iloc, чтобы не запутаться.

### Модификации датасета, создание новых колонок
Можно просто брать и создавать новую колонку. Синтаксис тут вполне естественный.

In [None]:
new_column = [5,2,1,4]
df['new_column'] = new_column
df

Аналогично, можно применять к отдельным колонкам арифметические операции (ведь колонки --- это Series!)

In [None]:
df['first_column'] = df['first_column'] * 10
df

## Реальный датасет
Мы будем работать с датасетом ``Титаник``. Файлы необходимо скачать локально или загрузить с помощью функции ниже.
![alt text](https://drive.google.com/uc?id=1Tb52nFFsjI8sqv0AlMpx25aNJ62xzp5w)

Информация о файлах: 
 - *titanic_data.csv* содержит различную информацию о пассажирах Титаника (билет, класс, возраст и т.п.)
 - *titanic_surv.csv* содержит для каждого пассажира из первого файла информацию о том, выжил ли этот пассажир (метка 1) или нет (метка 0)


### Чтение из файла
Обычно данные хранятся в виде таблиц в файлах формата .csv или .xlsx. На этом семинаре мы будем загружать данные из .csv файлов.


 
Загрузим первый файл

In [None]:
# df_1 = pd.read_csv('titanic_data.csv')
pass_link = 'https://www.dropbox.com/s/lyzcuxu1pdrw5qb/titanic_data.csv?dl=1'
titanic_passengers = pd.read_csv(pass_link, index_col='PassengerId') # index_col=?

In [None]:
print('Всего пассажиров: ', len(titanic_passengers))
titanic_passengers.head(10)

### Разная информация о датасете

Можно узнать размер таблицы, информацию о значениях таблицы, различные статистики по значениям.

In [None]:
titanic_passengers.shape

In [None]:
titanic_passengers.info()

In [None]:
titanic_passengers.describe()

## Задание 1 
Опишите данный датасет: какое расределение женщин/мужчин в нем? Сколько пассажиров ехало в каждом классе? Какой средний/минимальный/максимальный возраст пассажиров?

In [None]:
(titanic_passengers['Age'].min(), titanic_passengers['Age'].mean(), titanic_passengers['Age'].max())

In [None]:
titanic_passengers['Sex'].value_counts()

In [None]:
titanic_passengers['Pclass'].value_counts()

## Задание 2. 
Сгруппируйте записи по классам пассажиров, в каждой группе посчитайте средний возраст. Используйте метод ``pandas.DataFrame.groupby``.

In [None]:
titanic_passengers.groupby(['Pclass']).mean()

In [None]:
titanic_passengers.groupby(['Pclass'])['Age'].mean()

## Слияние таблиц
Таблицы можно сливать несколькими способами. Мы рассмотрим слияние по индексу: метод называется ``pd.join``.

In [None]:
# df_2 = pd.read_csv('titanic_surv.csv')
surv_link = 'https://www.dropbox.com/s/v35x9i6a1tc7emm/titanic_surv.csv?dl=1'
df_2 = pd.read_csv(surv_link)

In [None]:
df_2.head()

### Задание 3.
Слейте два датасета по колонке индекса.

In [None]:
df_2.index = np.arange(1, 892)

In [None]:
df_2 = df_2.sample(frac=1)
df_2.head()

In [None]:
titanic_passengers = titanic_passengers.join(df_2)
titanic_passengers.head()

### Задание 4. 
Сколько всего выживших пассажиров? Выживших пассажиров по каждому из полов? Постройте матрицу корреляций факта выживания, пола и возраста.

In [None]:
titanic_passengers['Survived'].sum()

In [None]:
titanic_passengers.groupby(['Sex'])['Survived'].sum()

In [None]:
corr_data = titanic_passengers[['Sex', 'Age', 'Survived']]
corr_data['Sex'] = (corr_data['Sex'] == 'female').astype(int)

In [None]:
corr_data.head()

In [None]:
corr_data.corr()

In [None]:
import seaborn as sns

In [None]:
sns.heatmap(corr_data.corr(), annot=True, cmap='coolwarm',
            vmin=-1, vmax=1, annot_kws={"size": 16})