# Работа с табличными данными
* [Pandas](#Pandas)
* [Data Frame. Iris](#Data-Frame.-Iris)
* [Titanic. Задачи](#Titanic.-Задачи)
* [Дополнительные материалы](#Дополнительные-материалы)

# Pandas

Основными структурами данных в Pandas являются классы:
* **`Series`** - одномерный индексированный массив данных некоторого фиксированного типа.
* **`DataFrame`** - двухмерная структура данных, представляющая собой таблицу, каждый столбец которой содержит данные одного типа. Можно представлять её как словарь объектов типа Series.

Структура DataFrame отлично подходит для представления реальных данных: строки соответствуют признаковым описаниям отдельных объектов, а столбцы соответствуют признакам.

In [None]:
%matplotlib inline

import pandas as pd
import numpy as np

# Data Frame. Iris

**`read_csv`** - функция, позволяющая создавать `DataFrame` из ссылки/url на csv файл. Имеет множество полезных аргументов для парсинга.

In [None]:
url_data = 'https://raw.githubusercontent.com/uiuc-cse/data-fa14/gh-pages/data/iris.csv'
iris = pd.read_csv(url_data)

# data_path = '../data/iris.csv'
# iris.to_csv(data_path, index=False)
# iris = pd.read_csv(data_path)

**`head`** - выводит первые (по умолчанию 5) строк таблицы. Метод полезен для наглядного отображения формата данных.

In [None]:
iris.head()

**`shape`** - размерность таблицы как матрицы. Аналогичен атрибуту `numpy.array`.

In [None]:
iris.shape

**`columns`** - список названий столбцов.

In [None]:
iris.columns

**`info`** - агрегированная информация о таблице. Включает так же информацию о типах столбцов.

In [None]:
iris.info()

**`describe`** - статистики по столбцам таблицы. Полезно для быстрого анализа. По умолчанию использует только числовые столбцы.

In [None]:
iris.describe()

Для отображения статистик по столбцам с другими типами, нужно указать отдельно. Например, можно указать тип `object`, и статистику будут другими.

In [None]:
iris.describe(include=['object'])

**`value_counts`** - позволяет посчитать количество уникальных значений у `Series`. Важно, что по умолчанию не включаются пустые значения.

In [None]:
iris['species'].value_counts()

In [None]:
iris['species'].value_counts(normalize=True)

**`sort_values`** - метод сортировки таблицы по значениям столбцов.

In [None]:
iris.sort_values('sepal_length').head()

Индексацию можно осуществлять множеством способов.  
Обращаться к столбцу по названию, как в словаре.

In [None]:
iris['sepal_length'].mean()

Часто используется логическая индексация, как у `numpy`, когда необходимо выбрать только часть строчек.

In [None]:
iris[iris['species'] == 'setosa'].mean()

Также есть методы индексация:
* **`loc`** - по индексу
* **`iloc`** - по позиции

In [None]:
iris.loc[1:3]

In [None]:
iris.iloc[1:3] # позиционные слайсятся как листы (конец не включен)

In [None]:
iris.loc[1:3, ['sepal_length', 'sepal_width']]

Создавать новые столбцы можно из старых, аналогично созданию нового ключа в словаре.

In [None]:
iris['sepal_rate'] = iris['sepal_width'] / iris['sepal_length']
iris.head(2)

Так же можно создавать новые столбцы, используя метод **`assign`**.

In [None]:
iris.assign(petal_rate=lambda df: df['petal_width'] / df['petal_length']).head(2)

In [None]:
iris.head(2)

Вторым способом сама таблица не меняется, что позволяет использовать функциональный подход к анализу данных.  
Например, нарисуем  scatter в координатах x=petal_width/petal_length, y=sepal_width/sepal_length только для species = setosa.  
[Статья про использование chaining](https://tomaugspurger.github.io/method-chaining.html)  

In [None]:
(iris.query('species == "setosa"')
     .assign(petal_rate=lambda df: df['petal_width'] / df['petal_length'],
             sepal_rate=lambda df: df['sepal_width'] / df['sepal_length'])
     .plot(x='petal_rate', y='sepal_rate', kind='scatter'));

# Titanic. Задачи

* **`survival`** — поле в котором указано спасся человек (1) или нет (0)
* **`pclass`** — содержит социально-экономический статус:
  1. высокий
  2. средний
  3. низкий
* **`name`** — имя пассажира
* **`sex`** — пол пассажира
* **`age`** — возраст
* **`sibsp`** — содержит информацию о количестве родственников 2-го порядка (муж, жена, братья, сетры)
* **`parch`** — содержит информацию о количестве родственников на борту 1-го порядка (мать, отец, дети)
* **`ticket`** — номер билета
* **`fare`** — цена билета
* **`cabin`** — каюта
* **`embarked`** — порт посадки
  C — Cherbourg
  Q — Queenstown
  S — Southampton
  
[Статья на хабре про titanic](https://habrahabr.ru/post/202090/)

In [None]:
# titanic_url = 'https://raw.githubusercontent.com/pcsanwald/kaggle-titanic/master/train.csv'

# titanic = pd.read_csv(titanic_url)

titanic_path = '../data/titanic.csv'
# titanic.to_csv(titanic_path, index=False)
titanic = pd.read_csv(titanic_path)

In [None]:
titanic.head()

Опишите данный датасет: какое расределение женщин/мужчин в нем?

Сколько пассажиров ехало в каждом классе?

Какой средний/минимальный/максимальный возраст пассажиров?

Сколько было выживших пассажиров?

Верно ли, что женщины выживали чаще мужчин?

Какие пассажиры выживали чаще: с более дешевыми или дорогими билетами?

Верно ли, что чаще выживали более молодые пассажиры?

Сгруппируйте записи по классам пассажиров, в каждой группе посчитайте средний возраст. Верно ли, что во всех классах эта величина примерно одинакова?  
**[`pd.qcut`](https://pandas.pydata.org/pandas-docs/stable/generated/pandas.qcut.html)** - разбивка на бакеты

Найдите все признаки, для которых есть пропуски в данных.

# Дополнительные материалы

* [Официальная документация](http://pandas.pydata.org/pandas-docs/stable/index.html)
* [10 Minutes to pandas](http://pandas.pydata.org/pandas-docs/stable/10min.html)
* [Статья на хабре про pandas](https://habrahabr.ru/company/ods/blog/322626/)
* [Подборка упражнений](https://github.com/guipsamora/pandas_exercises/)