# Семинар по библиотеке Pandas

Библиотека Pandas - важная библиотека, с которой мы будем активно работать в курсе. Pandas $-$ это модуль для первичной работы с данными, с помощью которого можно проводить простой анализ данных и предобработку данных..
Основные возможности:
* удобное чтение и запись данных из csv, txt, xls, SQL databases, HDF5
* удобная работа с пропусками в данных
* поиск, сортировка, выборка объектов, удовлетворяющих заданным критериям
* возможности по соединению датасетов
* красивая визуализация

Импорт библиотеки:

In [None]:
import pandas as pd

### Загрузка данных и создание датафреймов

__Наиболее популярные форматы данных (при скачивании датасета из интернета)__:
* _csv_ (comma separated file), _tsv_ (tab separated file) - таблицы, записанные в текстовые файлы с простой структурой. Эти файлы можно открывать в обычном текстовом редакторе. Pandas позволяет считывать эти данные именно в формате таблицы.
* _xls_ (eXceL Spreadsheet $-$ таблицы Microsoft)
* _json_ (JavaScript Object Notation, используется для _сериализации_ структур языка, то есть сохранения сложных объектов, например, вложенных списков или словарей python). Json-текст представляет собой либо набор пар ключ: значение, либо упорядоченный набор значений
* _txt_ в иной специфичной для задачи форме (например, vowpal-wabbit и uci bag-of-words для <<мешка слов>>)

В pandas есть функции для считывания во всех этих форматах.

В реальной жизни данные хранятся в базах данных, откуда с помощью sql-подобных языков из них составляют файлы в указанных выше форматах.

__Чтение из csv с помощью pandas__:
[pandas.read_csv()](http://pandas.pydata.org/pandas-docs/stable/generated/pandas.read_csv.html)
У функции несколько параметров, основные необходимые:
* filepath_or_buffer (перый и единственный обязательный аргумент) --- имя файла
* sep $-$ разделитель (; , \t ...)
* quotechar $-$ символ кавычек, все что внутри считается за строку (разделители также могут входить в эту строку; ' " ...)
* names $-$ список названий колонок
* header $-$ номер строки файла (с 0), которую нужно считать заголовком
* dtype $-$ словарь, сопоставляющий именам колонок типы данных в них
* na_values $-$ строка/список/словарь (ключи $-$ названия колонок) строковых значений, которые нужно считать пропуском.

По умолчанию names=None и header=0, то есть названия колонок берутся из первой строки файла. Можно передать названия через names. Если вы не хотите давать названия, укажите header=None, тогда названия будут даны автоматически индексами с 0. Учтите, что названия нужны при дальнейшей работе с данными (если вы только не собираетесь взять оттуда только numpy-матрицу; в этом случае они не понадобятся). Следите за длиной списка названий, он должен совпадать с реальным числом колонок в файле (а в противном случае вы получите ошибки)! Чтобы заменить заголовки, записанные в файле, нужно установить header=0 и передать names.

В функцию pd.read\_csv можно передавать как путь к файлу, хранящемуся на компьютере, так и ссылку на файл в Интернете.

Для чтения xls: [pandas.read_excel](http://pandas.pydata.org/pandas-docs/stable/generated/pandas.read_excel.html)

Для чтения sql: [pandas.read_sql](http://pandas.pydata.org/pandas-docs/stable/generated/pandas.read_sql.html)


Считывание данных:

In [None]:
data = pd.read_csv("data_sem7.csv",
                   sep=";")

Мы будем работать с данными Titanic: он содержит информаицию о пассажирах корабля, включая их демографические характеристики и выжил пассажир или нет.

Посмотреть первые строки:

In [None]:
data.head(10)

In [None]:
type(data)

In [None]:
data.shape

Переменная, которую возвращает функция чтения, ссылается на _датафрейм_; это основная структура данных в pandas. Его можно создать и вручную:

In [None]:
df = pd.DataFrame({'AAA' : [4,5,6,7], 'BBB' : [10,20,30,40], 'CCC' : [100,50,-30,-50]})
df

### Работа со строками и столбцами датафрейма

Датафрейм - это таблица. Названия строк:

In [None]:
data.index

Названия столбов:

In [None]:
data.columns

Полезный функционал:
* параметр df.dtypes $-$ типы колонок
* метод [df.fillna(value)](http://pandas.pydata.org/pandas-docs/version/0.17.1/generated/pandas.DataFrame.fillna.html), value $-$ на что заменить (скаляр или словарь с ключами-названиями колонок)
* методы df.head([N]) и df.tail([N]) $-$ показать N (необязательный аргумент) первых или последних значений
* параметры df.index, df.columns и df.values $-$ соответственно индексы строк датафрейма, названия колонок и np.array, составленный из значений датафрейма
* метод df.T $-$ транспонировать данные (поменять строки и столбцы местами)
* сортировка данных по индексу (по названиям строк) и по значениям колонки, например df.sort_index(axis=1, ascending=False) и df.sort_values(by='B')
* метод df.copy() $-$ копировать датафрейм

Все структуры данных, показываемые и возвращаемые pandas, имеют тип, придуманный разработчиками pandas (а не стандартный для python список или словарь). Все эти типы имеют удобный интерфейс обращения к своим элементам (индексация, slicing), но иногда кажутся непривычными. Например, df[smth], как указано выше, должен выдать колонку, имеющую название smth (если она существует в датафрейме).

В датафрейме могут храниться данные разных типов (главное, чтобы тип был один и тот же внутри колонки), например float, int, string.

Выбор нескольких столбцов:

In [None]:
data[["Age", "Sex", "Cabin"]].head(5)

In [None]:
#print(data.index[2:5])
#print(data.columns[0])
print(data.dtypes)

В машинном обучении библиотеку удобно использовать со следующей интерпретацией: по строкам датафрейма находятся объекты, по столбцам - признаки и целевая переменная. В нашем датафрейме целевая переменная задана в столбце Survived. Если мы бы хотели выделить часть датафрейма без этого столбца, мы бы использовали такой код:

In [None]:
y = data['Survived'] # целевая переменная (вектор ответов)

X = data.drop("Survived", axis=1) # матрица объект-признак

X.head()

In [None]:
data.drop("Survived", axis=1)

In [None]:
data = data.drop("Survived", axis=1) # две таблицы в памяти

# или

data.drop("Survived", axis=1, inplace=True) # изменение таблицы без создания копий

data.head()

Обратите внимание, что столбец не удалился из датафрейма навсегда. Наоборот, результат нашей операции записан в выводе, и если бы мы хотели его сохранить, мы должны были бы присвоить результат операции новой переменной.

Индексация по строкам:

In [None]:
#data2 = data.iloc[data.index % 2 == 0].head(5)

data.iloc[data.index % 2 == 0]

Использовать столбец Name для задания названий строк (index):

In [None]:
data.set_index(data["Name"], inplace=True)

In [None]:
data.head()

Теперь строки индексируются с помощью Name (выделено жирным в начале каждой строки).

Считывание данных без названий колонок и придумывание своих названий колонкам:

In [None]:
data_m = pd.read_csv("https://archive.ics.uci.edu/ml/machine-learning-databases/mushroom/agaricus-lepiota.data",
                     header=None)

In [None]:
data_m.columns = ["col"+str(i) for i in range(23)]

In [None]:
data_m.head()

### Анализ и преобразование датафрейма

Основная информация по датафрейму:

In [None]:
data.describe()

По этим статистикам можно понять, одинаковый ли масштаб имеют признаки (например, Age измеряется от 0 до 80, а Pclass в единицах - от 1 до 3). Также можно понять, есть ли пропуски в данных (по count). Например, в графе Age есть пропуски.

Уникальные значения в столбце:

In [None]:
set(data["Sex"])

# или

data['Sex'].unique()

Уникальные значения в столбце с числом строк с таким значением:

In [None]:
data["Sex"].value_counts()

Перекодирование столбца с помощью функции map:

In [None]:
sex = data["Sex"]
sex.map({"male":1, "female":-1, "unknown":0}).head()

# iterrows - аналог for для таблиц

Функция apply: применение функции поэлементно к столбцу или строке (+ создание нового столбца, потому что apply возвращает результат и никак не модифицирует датафрейм)

In [None]:
# data["Age"].apply(lambda x: 1 if x >= 18 else 0)

data["NewAge"] = data["Age"].apply(lambda x: x+100)

In [None]:
data.head()

Функция groupby: создание групп по значению какого-то столбца (или группы столбцов)

In [None]:
data.groupby("Sex")

In [None]:
#data.groupby("Sex")['Age'].apply(lambda x: x.mean())

data.groupby("Pclass")['Age'].mean()

Создаем столбец с фамилией:

In [None]:
data[['Name']].head(5)

In [None]:
data["Family"] = data["Name"].apply(lambda s: s.split(";")[0])

In [None]:
data.reset_index(drop=True,inplace=True)

In [None]:
data.head(5)

Сколько человек в каждой семье (семья - множество людей с одной фамилией Family)?

In [None]:
data.groupby("Family")["Age"].count().head()

In [None]:
grouped_family = data.groupby("Family")["Age"]

In [None]:
grouped_family.mean()

Сколько семей, в которых больше трех человек?

In [None]:
data.head()

In [None]:
(data.groupby("Family")["Pclass"].count() > 3).sum()

Выбор строк по условию (индексация по строкам по массиву из True и False)

In [None]:
data[(data.Age > 10) & (data.Sex=="male")].head()

### Задания:

1. Какова доля семей, в которых минимальный возраст меньше 20 (семьи с детьми)?

In [None]:
# your code here

2. Какова доля выживших пассажиров из класса 3? А пассажиров из класса 1?

In [None]:
# your code here

3. Сколько пассажиров выжило, а сколько - нет?

In [None]:
#your code here

4. Создайте столбец "IsChild", который равен 1, если возраст меньше 20, и 0 иначе. Для пропущенных значений поведение функции может быть произвольным.

In [None]:
# your code here

5. Какова доля выживших женщин из первого класса? А доля выживших мужчин из 3 класса?

In [None]:
# your code here