# Лекция №3. Работа с табличными данными - pandas

![](https://miro.medium.com/max/1978/1*k3PsTP1ibp4CTLJ3ofVlqg.jpeg)

Содержание:

1. Осматриваемся
2. Тип данных pd.Series
3. Тип данных pd.DataFrame
4. Срезы
5. Полезные мелочи

Pandas - библиотека, работы с данными и анализа данных.
Работает с таблицами. Умеет объединять таблицы, сортировать таблицы, заполнять значения, аггрегировать данные и т.п.
Умеет работать с экселевскими таблицами.

Полезные ссылки:
* [Документация](https://pandas.pydata.org/docs/)
* [Документация: 10 minutes to pandas](https://pandas.pydata.org/pandas-docs/stable/user_guide/10min.html)
* [Документация: User Guide](https://pandas.pydata.org/docs/user_guide/index.html#user-guide)

In [None]:
import pandas as pd

## Learning from tragedy: анализ данных на примере "Титаника"
![](http://www.maritimequest.com/liners/titanic/photos/emil_besirevic/titanic_emil_besirevic_01.jpg)

<br><br>

## 1. Осматриваемся

In [None]:
#считываем dataframe в переменную pasInfo
pasInfo = pd.read_csv('titanic_data.csv')

Другие методы чтения
* read_excel
* read_json
* ...

Параметры:
* sep
* skiprows
* nrows
* parse_dates
* names
* index_col
* usecols
* ...

In [None]:
?pd.read_csv

In [None]:
# длина таблицы
print(len(pasInfo))

In [None]:
# размеры всех измерений таблицы: число строк и столбцов
print(pasInfo.shape)

In [None]:
# тип объекта - ДатаФрейм
type(pasInfo)

In [None]:
#просматриваем часть колонок
pasInfo.head(10)

In [None]:
pasInfo.tail(5)

In [None]:
#двумерный размер датафрейма
pasInfo.shape

In [None]:
#имена колонок
pasInfo.columns

In [None]:
# list(pasInfo.columns)

In [None]:
# индекс
pasInfo.index

In [None]:
# list(pasInfo.index)

In [None]:
# выбрать колонку
pasInfo['Pclass']

In [None]:
(pasInfo['Pclass']).value_counts()

In [None]:
type(pasInfo)

In [None]:
type(pasInfo['Pclass'])

In [None]:
pasInfo['Age']

In [None]:
# pasInfo['Age'] + pasInfo['Age']

**Что знаем и умеем?**

* Познакомились с csv-файлами
* Основные типы данных pandas: `pd.DataFrame`, `pd.Series`
* Чтение файлов в pandas:
    * `pd.read_csv`
    * `pd.read_excel`
    * `pd.read_json`
    * параметры этих функций
* `df.columns`, `df.index`
* Выделям столбцы таблички: `df['col']`
* `len(df)`, `df.shape`, `df.head()`, `df.tail`
* `series.value_counts()`

<br><br>

## 2. Тип данных pd.Series

In [None]:
pd.Series([1,2,3])

In [None]:
pd.Series({'a': 1, 'b': 2, 'c': 3, 'd': 3})

In [None]:
pd.DataFrame(pd.Series({'a': 1, 'b': 2, 'c': 3, 'd': 3}))

In [None]:
pd.DataFrame(pd.Series({'a': 1, 'b': 2, 'c': 3, 'd': 3}), columns=['my_column'])

In [None]:
pd.Series({'a': 1, 'b': 2, 'c': 3, 'd': 3}).to_dict()

In [None]:
temp = pd.Series(pd.Series({'a': 1, 'b': 2, 'c': 3, 'd': 3}))

In [None]:
temp * 3

In [None]:
temp + temp

In [None]:
temp.value_counts()

In [None]:
temp.value_counts(normalize=True)

In [None]:
temp.unique()

In [None]:
temp.nunique()

In [None]:
# other functions: mean, median, std, max, min, sum, ....

In [None]:
type(temp.value_counts())

In [None]:
temp2 = temp.value_counts()

In [None]:
temp2

In [None]:
temp2 == temp2

In [None]:
temp2 == 2

In [None]:
temp[temp == 3]

In [None]:
temp.values

In [None]:
list(temp.values)

In [None]:
set(temp.values)

**Что знаем и умеем?**

* `pd.Series`. Создаём из списка, из словаря. Превращаем `pd.Series` в словарь, в список, в множество
* Важное свойство: поэлементные операции. Арифметические операции с числами или с другими `pd.Series`
* `pd.Series.value_counts()`, параметр `normalize`
* `unique`, `nunique`
* `mean`, `std`, `median`, `sum`, `max`, `min`, ...
* Проверка значений ряда на равенство с числом/переменной/объектом
* Индексация ряда булевым рядом

<br><br>

## 3. Тип данных pd.DataFrame

In [None]:
# зададим датафрейм
df = pd.DataFrame(index=[1,2,3,4], columns=['a','b','c'], data=[[1,2,3],[4,5,6],[7,8,9],[10,11,12]])

In [None]:
df

In [None]:
# по-другому
df = pd.DataFrame()

In [None]:
df['a'] = [1,2,3,4]

In [None]:
df['b'] = [5,6,7,8]

In [None]:
df.index = ['row1', 'row2', 'row3', 'row4']

In [None]:
df

In [None]:
df.columns = ['col1', 'col2']

In [None]:
df.append(df)

In [None]:
df.append(df, ignore_index=True)

In [None]:
df.append(pd.Series({'col1': 1, 'col2': 2}), ignore_index=True)

In [None]:
pd.DataFrame(pd.Series({'col1': 1, 'col2': 2}))

In [None]:
df.append(pd.DataFrame(pd.Series({'col1': 1, 'col2': 2})).T)

In [None]:
df * 3

In [None]:
df + df

In [None]:
df * df

In [None]:
for el in df:
    print(el)

In [None]:
for el in df.iterrows():
    print(el)

In [None]:
for el in df.iterrows():
    print(type(el))

In [None]:
list(df.iterrows())[0]

In [None]:
list(df.itertuples())

In [None]:
for el in df.itertuples():
    print(el)

In [None]:
for el in df.itertuples():
    print(el.col1)

In [None]:
for col in df.columns:
    print(df[col])

In [None]:
df

In [None]:
df[['col2', 'col1']]

In [None]:
df = df[['col2', 'col1']]

In [None]:
df.reindex(['row3', 'row4', 'row1', 'row2'])

In [None]:
df.values

In [None]:
df.values[0]

In [None]:
df.values[0][1]

In [None]:
df = pd.DataFrame()

In [None]:
df.to_csv('some_table.csv', index=None)

**Что знаем и умеем?**

* `pd.DataFrame`. Создаём различными способами
* Важное свойство: поэлементные операции. Арифметические операции с числами или с другими `pd.DataFrame`
* Добавление колонок
* `df.append` - добавление другого `pd.DataFrame`; добавление одной строки
* Итерация по `df` различными способами. Итерация по строкам. Итерация по столбцам
* Меняем порядок столбцов
* `df.reindex` - меняем порядок строк
* Сохраняем результат:
    * `df.to_csv(...)`
    * `df.to_excel(...)`
    * ...

<br><br>

## 4. Срезы

In [None]:
df = pd.DataFrame(index=[1,2,3,4], columns=['a','b','c'], data=[[1,2,3],[4,5,6],[7,8,9],[10,11,12]])

In [None]:
df['a']

In [None]:
df[['a', 'b']]

In [None]:
df[0:3]

In [None]:
# df[3]

In [None]:
df.iloc[3]

In [None]:
df.iloc[:,0]

In [None]:
df.iloc[2,0]

In [None]:
df[0:3][['a', 'b']]

In [None]:
df.loc[0:3, ['a', 'b']]

In [None]:
df

In [None]:
df.index = ['row1', 'row2', 'row3', 'row4']

In [None]:
df

In [None]:
#df.loc[0:3, ['a', 'b']]

In [None]:
df.loc['row1':'row3', ['a', 'b']]

In [None]:
df.iloc[0:3,0:3]

In [None]:
df

In [None]:
df2 = df

In [None]:
df2

In [None]:
df2.loc['row2', 'a'] = 100

In [None]:
df2

In [None]:
df

In [None]:
df3 = df.copy()

In [None]:
df3.loc['row3', 'b'] = 9999

In [None]:
df3

In [None]:
df2

In [None]:
df

In [None]:
#считываем dataframe в переменную pasInfo
pasInfo = pd.read_csv('titanic_data.csv')

In [None]:
pasInfo

In [None]:
pasInfo['Pclass']

In [None]:
pasInfo['Pclass'] == 3

In [None]:
pasInfo[pasInfo['Pclass'] == 3]

In [None]:
pasInfo[pasInfo['Pclass'] == 2]

In [None]:
pasInfo[pasInfo['Pclass'].isin([2,3])]

In [None]:
pasInfo['Age'] < 22

In [None]:
pasInfo[(pasInfo['Pclass'].isin([2,3])) & (pasInfo['Age'] < 22)]

In [None]:
condition_1 = pasInfo['Pclass'].isin([2,3])

In [None]:
condition_2 = pasInfo['Age'] < 22

In [None]:
type(condition_1), type(condition_2)

In [None]:
pasInfo[condition_1 & condition_2]

In [None]:
pasInfo[condition_1 | condition_2]

In [None]:
pasInfo[~condition_1]

In [None]:
pasInfo[~condition_1]['Age'].mean()

In [None]:
pasInfo[condition_1]['Age'].mean()

In [None]:
# pasInfo.loc[condition_1, ['Age', 'Fare']]

In [None]:
# правильнее всего для срезов использовать конструкцию loc:
# df.loc[условия, колонки]

df_slice = pasInfo.loc[((pasInfo['Pclass'] == 3) & (pasInfo['Embarked'] == 'S')), ['Sex', 'Age']]
print(df_slice.shape)

In [None]:
condition = ((pasInfo['Pclass'] == 3) & (pasInfo['Embarked'] == 'S'))
columns = ['Sex', 'Age']

In [None]:
df_slice = pasInfo.loc[condition, columns]

In [None]:
# если нет условий, а нужно выбрать только колонки
df_slice = pasInfo.loc[:, columns]

In [None]:
# и наоборот, если есть только условия, а колонки нужы все
df_slice = pasInfo.loc[condition, :]

In [None]:
temp_table = pasInfo[condition_1]

In [None]:
temp_table['Fare']

In [None]:
temp_table[temp_table['Fare'] > 20]

In [None]:
temp_table['Cabin'].value_counts()

In [None]:
temp_table['Cabin'].value_counts(dropna=False)

In [None]:
temp_table['Cabin'].isnull()

In [None]:
temp_table[temp_table['Cabin'].isnull()]

In [None]:
temp_table['Cabin'].notnull()

In [None]:
temp_table['Age'].isnull()

In [None]:
temp_table['Age'].isnull().value_counts()

In [None]:
temp_table.dropna()

In [None]:
temp_table['Age'].mean()

In [None]:
temp_table['Age'].fillna(temp_table['Age'].mean())

In [None]:
temp_table['Age'].fillna(temp_table['Age'].mean()).isnull().value_counts()

In [None]:
temp_table['Age'] = temp_table['Age'].fillna(temp_table['Age'].mean()).isnull()

**Что знаем и умеем?**

* `pd.DataFrame` как "ссылки" на объекты. Необходимость `copy` при попытке создания новой таблицы из имеющейся, чтобы избежать изменения оригинальной.
* Выделение элемента
* Выделение столбца, колонки
* Выделение подтаблицы
* Выделение через `[]`, через `.iloc[]`, через `loc[]`
* Фильтрация: выделение строк таких, что `<выполняется некоторое условие>`
* Логические операции над условиями для выделения
* Работа с пропущенными значениями
    * Выделение строк с пропущенными значениями
    * Выделение строк без пропущенными значениями
    * Выбрасывание строк с пропущенными значениями
    * Заполнение пропущенных значений каким-нибудь другим значением

<br><br>

## 5. Полезные мелочи

In [None]:
pasInfo = pd.read_csv('titanic_data.csv')

In [None]:
pasInfo.dtypes

In [None]:
pasInfo.describe()

In [None]:
pasInfo.info()

In [None]:
pasInfo.rename(columns={'Fare': 'TicketPrice'})

In [None]:
pasInfo = pasInfo.rename(columns={'Fare': 'TicketPrice'})

In [None]:
pasInfo['Fare'] = pasInfo['TicketPrice']

In [None]:
pasInfo.drop('TicketPrice', axis=1)

In [None]:
pasInfo = pasInfo.drop('TicketPrice', axis=1)

In [None]:
pasInfo

In [None]:
pasInfo.iloc[890]

In [None]:
last_row = pasInfo.iloc[890]

In [None]:
pasInfo.drop(890, axis=0)

In [None]:
pasInfo.drop(890, axis=0).append(last_row)

In [None]:
pasInfo.set_index('PassengerId')

In [None]:
pasInfo = pasInfo.set_index('PassengerId')

In [None]:
pasInfo.reset_index()

In [None]:
pasInfo.sort_index()

In [None]:
pasInfo.sort_index(ascending=False)

In [None]:
pasInfo.sort_index(ascending=False, axis=1)

In [None]:
pasInfo.sort_values('Fare')

In [None]:
pasInfo.sort_values(['Fare', 'Age'])

In [None]:
pasInfo['Age'].drop_duplicates()

In [None]:
pasInfo.drop_duplicates()

In [None]:
pasInfo.drop_duplicates(subset=['Age'])

In [None]:
pasInfo.sample(n=10)

In [None]:
pasInfo.sample(frac=0.1)

In [None]:
#HERE

In [None]:
mapper = {'male': 'М', 'female': 'Ж'}

In [None]:
pasInfo['Sex'].map(mapper)

In [None]:
pasInfo['Name'].map(len)

In [None]:
def get_first(name):
    return name.split()[0]

In [None]:
pasInfo['Name'].map(get_first)

In [None]:
pasInfo['ShortName'] = pasInfo['Name'].map(get_first)

In [None]:
pasInfo

In [None]:
pasInfo['Ticket'].map(get_first)

**Что знаем и умеем?**

* `df.describe()`, `df.info()`, `df.dtypes`
* Переименование столбцов
* Добавление/удаление столбцов
* Добавление/удаление строки
* Превращение столбцов в индекс. Сброс индекса
* Сортировка по индексам/колонкам. Сортировка по значениям
* Сброс дубликатов
* Генерация подвыборки - `df.sample`
* `map` - применение функций к значениям столбца