<center><img src="ktp_logo.png" width=400 style="display: inline-block;"></center> 

## Машинное обучение
### Семинар 2. Введение в библиотеку Pandas

### 19 октября 2023

#### Зачем:
* Для подготовки данных к анализу: очищение, заполнение пропусков, сортировка, добавление новых столбцов и т.д.
* Для первичного анализа данных

#### Почему:
* Построена поверх более низкоуровневой библиотеки NumPy (написана на Си)

In [None]:
import numpy as np
import pandas as pd

## Структуры данных в Pandas
# Series
Одномерный массив, который может хранить значения любого типа данных. Seria отличается от обычного Python-массива наличием ассоциированных меток, т.е. наличием индексов, имеющих вдоль каждого элемента из списка


### Создание

In [None]:
some_list = [1, 3, 5, np.nan, 6, 8]
ser_1 = pd.Series(some_list)
ser_1

In [None]:
some_dict = {'a' : 1, 'b' : 2, 'c' : 3, 'd' : 4}
ser = pd.Series(some_dict)
ser

In [None]:
print(some_list, "\n")
ind = ['1st day', '2nd day', '3rd day', '4th day', '5rd day', '6th day']
ser_2 = pd.Series(some_list, index=ind)
ser_2

In [None]:
ser_3 = pd.Series(some_list, index=ind, name='Temperature')
ser_3

### Индексирование
С индексами можно работать так же, как и в случае с обычным list.

In [None]:
print(ser_3)
print('-----')
print(ser_3[0])

print('-----------')

print(ser_3[1:3])

print('-----------')

print(ser_3[::2])
print('-----------')

In [None]:
ser_3[2:5] = 4.0
ser_3

### Индексирование pd.Series по условиям

In [None]:
date_range = pd.date_range('20230101', periods=10)

ser_4 = pd.Series(np.random.rand(10), index=date_range)
ser_4


In [None]:
ser_4 > 0.5

В качестве индекса можно указать выражение, и нам будут возвращены только те элементы, для которых значение является `True`

In [None]:
ser_4[ser_4 > 0.5]

In [None]:
ser_4[(ser_4 > 0.6) | (ser_4 < 0.2)]

### Сортировки
Тип `pd.Series` можно отсортировать как по значениям, так и по индексу.

In [None]:
ser_4.sort_index(ascending=False)

In [None]:
ser_4 = ser_4.sort_values()

In [None]:
ser_4

### Операции с series
Тип `pd.Series` можно модифицировать проще, чем стандартный ``list`` из Python.

In [None]:
ser_4 + 100

In [None]:
np.exp(ser_4)

In [None]:
term_1 = pd.Series(np.random.randint(0, 10, 5))
term_2 = pd.Series(np.random.randint(0, 10, 7))

print(term_1)
print(term_2)
print('------')
print(term_1 + term_2)


In [None]:
print(term_1.shape)
print(term_1.index)
print(term_1.values)

#### Добавление элемента/серии в серию

In [None]:
term_1[len(term_1)] = 8
term_1

In [None]:
term_3 = pd.concat([term_1, term_2])
term_3

# pd.DataFrame

Тип данных pd.DataFrame представляет собой двумерный массив с данными. Имеет индекс и набор столбцов (возможно, имеющих разные типы). Таблицу можно построить, например, из словаря, значениями в котором являются одномерные наборы данных.
### Создание

In [None]:
some_dict = {'one': pd.Series([1,2,3], index=['a','b','c']),
             'two': pd.Series([1,2,3,4], index=['a','b','c','d']),
             'three': pd.Series([5,6,7,8], index=['a','b','c','d'])}
df = pd.DataFrame(some_dict)
df

In [None]:
#Альтернативно, из списка списков с аргументом columns

some_array = [[1,1,5], [2,2,6], [3,3,7], [np.nan, 4,np.nan]]
df = pd.DataFrame(some_array, index=['a', 'b', 'c', 'd'], columns=['one', 'two', 'three'])
df

### Обращение к основным элементам
- `df.values` позволяет обратиться к значениям `DataFrame`
- `df.columns` позволяет обратиться к названиям колонок `DataFrame`
- `df.index` позволяет обратиться к индексам `DataFrame`

In [None]:
df.values

In [None]:
df.columns

In [None]:
df.index

In [None]:
df.columns = ['first_column', 'second_column', 'third_column']
df.index = [1,2,3,4]
df

### Индексирование
- По колонкам
- По строкам
- iloc, loc

#### По колонкам


In [None]:
first_column = df['first_column']
first_column

In [None]:
df.second_column

In [None]:
one_column_dataframe = df[['first_column']]
one_column_dataframe

In [None]:
subset_dataframe = df[['first_column', 'second_column']]
subset_dataframe

#### По строкам

In [None]:
df[1]

In [None]:
df[:1]

In [None]:
df[0:4]

#### Универсальное индексирование: .loc и .iloc

.loc и .iloc --- это два взаимозаменяемых атрибута, которые позволяют индексировать по обеим осям сразу. Путаницы не возникает из-за фиксированного порядка перечисления осей.

In [None]:
# По индексам:
df.iloc[1:3, :2]

In [None]:
df.loc[1:3, ['first_column', 'second_column']]

### Cоздание новых колонок, строк
#### Добавление серии/датафрейма в датафрейм

In [None]:
df

In [None]:
new_col = []
for i in range(len(df)):
    new_col.append(i)
df['new_column'] = new_col
df

In [None]:
new_row = []
for i in range(df.shape[1]):
    new_row.append(i)

df.loc[len(df)+1] = new_row
df

In [None]:
# Добавление серии как новую колонку
ser = pd.Series({'a' : 5, 'b' : 100, 'c' : 10000000})
print(ser)
df['four'] = ser
df

In [None]:
# Добавление серии как новую строку
ser_1 = pd.Series({'two' : 7, 'three' : 666, 'four' : 909, 'five' : 89898})
df.loc[len(df) + 1] = ser_1
df


In [None]:
# Добавление датафрейма
df = pd.concat([df, df], axis=0, ignore_index=True)
df


#### Операции над pd.DataFrame

In [None]:
df['first_column'] = df['first_column'] * 10
df[:1] = df[:1] * 100
df

## Реальный датасет
### Чтение из файла

In [None]:
# df_1 = pd.read_csv('titanic_data.csv')
pass_link = 'https://www.dropbox.com/s/lyzcuxu1pdrw5qb/titanic_data.csv?dl=1'
titanic_passengers = pd.read_csv(pass_link) # index_col=?

In [None]:
titanic_passengers.head(10)

### Разная информация о датасете

In [None]:
titanic_passengers.shape

In [None]:
titanic_passengers.info()

In [None]:
titanic_passengers.describe()

In [None]:
titanic_passengers.columns

#### Поиск уникальных значений

In [None]:
titanic_passengers['Age'].unique()

#### Подсчёт значений

In [None]:
titanic_passengers['Sex'].value_counts()

#### Приведение данных к другому типу

In [None]:
titanic_passengers['female'] = titanic_passengers['Sex'] == 'female' 
titanic_passengers

In [None]:
titanic_passengers['female'] = titanic_passengers['female'].astype('int64')
titanic_passengers

#### Удаление столбца

In [None]:
titanic_passengers.drop(['Sex'], axis = 1, inplace=True)

#### Сортировка

In [None]:
titanic_passengers.sort_values(by=['Age', 'Pclass'], ascending=[True, False]).head(10)

#### Группировка

In [None]:
titanic_passengers.groupby('female')['Age'].mean()

In [None]:
titanic_passengers.groupby(by = ['female', 'Pclass'])['Ticket'].agg(['count'])