<a href="https://colab.research.google.com/github/Irina-64/Alg-Data-Analisys/blob/main/seminar%2Cpandas.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

Библиотека `pandas` активно используется в современном data science для работы с данными, которые могут быть представлены в виде таблиц (а это очень, очень большая часть данных)

`pandas` есть в пакете Anaconda, но если вдруг у Вас её по каким-то причинам нет, то можно установить, раскомментировав следующую команду:

In [None]:
# !pip install pandas

In [None]:
import numpy as np
import pandas as pd #Стандартное сокращение для pandas. Всегда используйте его!

# pd.Series

Тип данных pd.Series представляет собой одномерный набор данных. Отсутствующий данные записываются как `np.nan` (в этот день термометр сломался или метеоролог был пьян); они не участвуют в вычислении средних, среднеквадратичных отклонений и т.д.

### Создание
Создадим Series из списка температур

In [None]:
some_list = [1, 3, 5, np.nan, 6, 8]
ser_1 = pd.Series(some_list)
ser_1


0    1.0
1    3.0
2    5.0
3    NaN
4    6.0
5    8.0
dtype: float64

In [None]:
# Так же можно в явном виде указать индексы, чтобы потом было более удобно обращаться к элементам
ind = ['1st day', '2nd day', '3rd day', '4th day', '5rd day', '6th day']

ser_2 = pd.Series(some_list, index=ind)
ser_2

1st day    1.0
2nd day    3.0
3rd day    5.0
4th day    NaN
5rd day    6.0
6th day    8.0
dtype: float64

In [None]:
ser_2['4th day']

nan

In [None]:
# А еще можно дать pd.Series имя, чтобы было совсем красиво
ser_3 = pd.Series(some_list, index=ind, name='Temperature')
ser_3

1st day    1.0
2nd day    3.0
3rd day    5.0
4th day    NaN
5rd day    6.0
6th day    8.0
Name: Temperature, dtype: float64

### Индексирование
С индексами можно работать так же, как и в случае с обычным list.

In [None]:
print(ser_3[0])

print('-----------')

print(ser_3[1:3])

print('-----------')

print(ser_3[::-1])

1.0
-----------
2nd day    3.0
3rd day    5.0
Name: Temperature, dtype: float64
-----------
6th day    8.0
5rd day    6.0
4th day    NaN
3rd day    5.0
2nd day    3.0
1st day    1.0
Name: Temperature, dtype: float64


### Индексирование pd.Series по условиям

In [None]:
date_range = pd.date_range('20190101', periods=10)
ser_4 = pd.Series(np.random.rand(10), date_range)
ser_4

2019-01-01    0.341259
2019-01-02    0.573949
2019-01-03    0.164875
2019-01-04    0.709123
2019-01-05    0.073728
2019-01-06    0.839578
2019-01-07    0.195359
2019-01-08    0.170616
2019-01-09    0.924392
2019-01-10    0.880405
Freq: D, dtype: float64

In [None]:
ser_4 > 0.5

2019-01-01     True
2019-01-02     True
2019-01-03     True
2019-01-04     True
2019-01-05    False
2019-01-06     True
2019-01-07     True
2019-01-08     True
2019-01-09     True
2019-01-10    False
Freq: D, dtype: bool

В качестве индекса можно указать выражение, и нам будут возвращены только те элементы, для которых значение является `True`

In [None]:
ser_4[ser_4 > 0.5]

2019-01-01    0.837918
2019-01-02    0.788804
2019-01-03    0.876902
2019-01-04    0.814446
2019-01-06    0.623335
2019-01-07    0.904732
2019-01-08    0.899608
2019-01-09    0.891198
dtype: float64

In [None]:
ser_4[(ser_4 > 0.6) | (ser_4 < 0.2)]

2019-01-01    0.837918
2019-01-02    0.788804
2019-01-03    0.876902
2019-01-04    0.814446
2019-01-05    0.062119
2019-01-06    0.623335
2019-01-07    0.904732
2019-01-08    0.899608
2019-01-09    0.891198
2019-01-10    0.194763
Freq: D, dtype: float64

### Сортировки
Тип `pd.Series` можно отсортировать как по значениям, так и по индексу.

In [None]:
ser_4.sort_index()

2019-01-01    0.341259
2019-01-02    0.573949
2019-01-03    0.164875
2019-01-04    0.709123
2019-01-05    0.073728
2019-01-06    0.839578
2019-01-07    0.195359
2019-01-08    0.170616
2019-01-09    0.924392
2019-01-10    0.880405
Freq: D, dtype: float64

In [None]:
ser_4.sort_values()

2019-01-05    0.073728
2019-01-03    0.164875
2019-01-08    0.170616
2019-01-07    0.195359
2019-01-01    0.341259
2019-01-02    0.573949
2019-01-04    0.709123
2019-01-06    0.839578
2019-01-10    0.880405
2019-01-09    0.924392
dtype: float64

### Операции с series
Тип `pd.Series` можно модифицировать проще, чем стандартный ``list`` из Python.

In [None]:
ser_4 + 100

2019-01-01    100.341259
2019-01-02    100.573949
2019-01-03    100.164875
2019-01-04    100.709123
2019-01-05    100.073728
2019-01-06    100.839578
2019-01-07    100.195359
2019-01-08    100.170616
2019-01-09    100.924392
2019-01-10    100.880405
Freq: D, dtype: float64

In [None]:
np.exp(ser_4)

2019-01-01    1.406717
2019-01-02    1.775264
2019-01-03    1.179246
2019-01-04    2.032209
2019-01-05    1.076514
2019-01-06    2.315391
2019-01-07    1.215748
2019-01-08    1.186035
2019-01-09    2.520335
2019-01-10    2.411876
Freq: D, dtype: float64

In [None]:
term_1 = pd.Series(np.random.randint(0, 10, 5))
term_2 = pd.Series(np.random.randint(0, 10, 6))

term_1 + term_2

0     7.0
1     4.0
2     9.0
3    13.0
4    14.0
5     NaN
dtype: float64

In [None]:
term_1.shape

(5,)

# pd.DataFrame

Тип данных pd.DataFrame представляет собой двумерную таблицу с данными. Имеет индекс и набор столбцов (возможно, имеющих разные типы). Таблицу можно построить, например, из словаря, значениями в котором являются одномерные наборы данных.
### Создание и основные объекты

In [None]:
# Dataframe можно составить из словаря. Ключ будет соответсовать колонке
some_dict = {'one': pd.Series([1,2,3], index=['a','b','c']),
             'two': pd.Series([1,2,3,4], index=['a','b','c','d']),
             'three': pd.Series([5,6,7,8], index=['a','b','c','d'])}
df = pd.DataFrame(some_dict)
df

Unnamed: 0,one,two,three
a,1.0,1,5
b,2.0,2,6
c,3.0,3,7
d,,4,8


In [None]:
#Альтернативно, из списка списков с аргументом columns

some_array = [[1,1,5], [2,2,6], [3,3,7], [np.nan, 4,8]]
df = pd.DataFrame(some_array, index=['a', 'b', 'c', 'd'], columns=['one', 'two', 'three'])
df

Unnamed: 0,one,two,three
a,1.0,1,5
b,2.0,2,6
c,3.0,3,7
d,,4,8


In [None]:
df.values

array([[ 1.,  1.,  5.],
       [ 2.,  2.,  6.],
       [ 3.,  3.,  7.],
       [nan,  4.,  8.]])

In [None]:
df.columns

Index(['one', 'two', 'three'], dtype='object')

In [None]:
df.columns = ['first_column', 'second_column', 'third_column']
df.index = [1,2,3,4]
df

Unnamed: 0,first_column,second_column,third_column
1,1.0,1,5
2,2.0,2,6
3,3.0,3,7
4,,4,8


### Индексирование 
Есть очень много способов индексировать DataFrame в Pandas. Не все из них хорошие! Вот несколько удобных, но не универсальных.

#### По колонкам
Индексирование по колонке возращает pd.Series. Можно выбирать не одну колонку, а сразу несколько. Тогда снова вернётся pd.DataFrame.

In [None]:
first_column = df['first_column']
first_column

1    1.0
2    2.0
3    3.0
4    NaN
Name: first_column, dtype: float64

In [None]:
subset_dataframe = df[['first_column', 'second_column']]
subset_dataframe

Unnamed: 0,first_column,second_column
1,1.0,1
2,2.0,2
3,3.0,3
4,,4


#### По строкам
Можно писать любые слайлы, как в Python-списке. Они будут применяться к строкам. Нельзя обращаться по элементу!

In [None]:
df[1] #не сработает

KeyError: ignored

In [None]:
df[:1]

Unnamed: 0,first_column,second_column,third_column
1,1.0,1,5


In [None]:
df[1:4]

Unnamed: 0,first_column,second_column,third_column
2,2.0,2,6
3,3.0,3,7
4,,4,8


#### Универсальное индексирование: .loc и .iloc

.loc и .iloc --- это два взаимозаменяемых атрибута, которые позволяют индексировать по обеим осям сразу. Путаницы не возникает из-за фиксированного порядка перечисления осей.

In [None]:
#По индексам: 
df.iloc[1:3, :2]

Unnamed: 0,first_column,second_column
2,2.0,2
3,3.0,3


In [None]:
df.loc[1:3, ['first_column', 'second_column']]

Unnamed: 0,first_column,second_column
1,1.0,1
2,2.0,2
3,3.0,3


Лучше использовать по умолчанию либо только loc, либо только .iloc! А лучше вообще всегда только .iloc, чтобы не запутаться.

### Модификации датасета, создание новых колонок
Можно просто брать и создавать новую колонку. Синтаксис тут вполне естественный.

In [None]:
new_column = [5,2,1,4]
df['new_column'] = new_column
df

Unnamed: 0,first_column,second_column,third_column,new_column
1,1.0,1,5,5
2,2.0,2,6,2
3,3.0,3,7,1
4,,4,8,4


Аналогично, можно применять к отдельным колонкам арифметические операции (ведь колонки --- это Series!)

In [None]:
df['first_column'] = df['first_column'] * 10
df

Unnamed: 0,first_column,second_column,third_column,new_column
1,10.0,1,5,5
2,20.0,2,6,2
3,30.0,3,7,1
4,,4,8,4


## Реальный датасет
Мы будем работать с датасетом ``Титаник``. Файлы необходимо скачать локально или загрузить с помощью функции ниже.
![alt text](https://drive.google.com/uc?id=1Tb52nFFsjI8sqv0AlMpx25aNJ62xzp5w)

Информация о файлах: 
 - *titanic_data.csv* содержит различную информацию о пассажирах Титаника (билет, класс, возраст и т.п.)
 - *titanic_surv.csv* содержит для каждого пассажира из первого файла информацию о том, выжил ли этот пассажир (метка 1) или нет (метка 0)


### Чтение из файла
Обычно данные хранятся в виде таблиц в файлах формата .csv или .xlsx. На этом семинаре мы будем загружать данные из .csv файлов.


 
Загрузим первый файл

In [None]:
#df_1 = pd.read_csv('titanic_data.csv')
pass_link = 'https://www.dropbox.com/s/lyzcuxu1pdrw5qb/titanic_data.csv?dl=1'
titanik_passengers = pd.read_csv(pass_link, ) #index_col=?

In [None]:
print('Всего пассажиров: ', len(titanik_passengers))
titanik_passengers.tail()

Всего пассажиров:  891


Unnamed: 0,PassengerId,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
886,887,2,"Montvila, Rev. Juozas",male,27.0,0,0,211536,13.0,,S
887,888,1,"Graham, Miss. Margaret Edith",female,19.0,0,0,112053,30.0,B42,S
888,889,3,"Johnston, Miss. Catherine Helen ""Carrie""",female,,1,2,W./C. 6607,23.45,,S
889,890,1,"Behr, Mr. Karl Howell",male,26.0,0,0,111369,30.0,C148,C
890,891,3,"Dooley, Mr. Patrick",male,32.0,0,0,370376,7.75,,Q


### Разная информация о датасете

Можно узнать размер таблицы, информацию о значениях таблицы, различные статистики по значениям.

In [None]:
titanik_passengers.shape

(891, 11)

In [None]:
titanik_passengers.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 891 entries, 0 to 890
Data columns (total 11 columns):
 #   Column       Non-Null Count  Dtype  
---  ------       --------------  -----  
 0   PassengerId  891 non-null    int64  
 1   Pclass       891 non-null    int64  
 2   Name         891 non-null    object 
 3   Sex          891 non-null    object 
 4   Age          714 non-null    float64
 5   SibSp        891 non-null    int64  
 6   Parch        891 non-null    int64  
 7   Ticket       891 non-null    object 
 8   Fare         891 non-null    float64
 9   Cabin        204 non-null    object 
 10  Embarked     889 non-null    object 
dtypes: float64(2), int64(4), object(5)
memory usage: 76.7+ KB


In [None]:
titanik_passengers.describe()

Unnamed: 0,PassengerId,Pclass,Age,SibSp,Parch,Fare
count,891.0,891.0,714.0,891.0,891.0,891.0
mean,446.0,2.308642,29.699118,0.523008,0.381594,32.204208
std,257.353842,0.836071,14.526497,1.102743,0.806057,49.693429
min,1.0,1.0,0.42,0.0,0.0,0.0
25%,223.5,2.0,20.125,0.0,0.0,7.9104
50%,446.0,3.0,28.0,0.0,0.0,14.4542
75%,668.5,3.0,38.0,1.0,0.0,31.0
max,891.0,3.0,80.0,8.0,6.0,512.3292


## Задание 1 
Опишите данный датасет: какое расределение женщин/мужчин в нем? Сколько пассажиров ехало в каждом классе? Какой средний/минимальный/максимальный возраст пассажиров?

In [None]:
#YOUR CODE

## Задание 2. 
Сгруппируйте записи по классам пассажиров, в каждой группе посчитайте средний возраст. Используйте метод ``pandas.DataFrame.groupby``.

In [None]:
#YOUR CODE

## Слияние таблиц
Таблицы можно сливать несколькими способами. Мы рассмотрим слияние по индексу: метод называется ``pd.join``.

In [None]:
#df_2 = pd.read_csv('titanic_surv.csv')
surv_link = 'https://www.dropbox.com/s/v35x9i6a1tc7emm/titanic_surv.csv?dl=1'
df_2 = pd.read_csv(surv_link)

### Задание 3.
Слейте два датасета по колонке индекса.

In [None]:
#YOUR CODE

### Задание 4. 
Сколько всего выживших пассажиров? Выживших пассажиров по каждому из полов? Постройте матрицу корреляций факта выживания, пола и возраста.

In [None]:
#YOUR CODE