<center>
<img src="../../img/ods_stickers.jpg">
## Открытый курс по машинному обучению
</center>
Автор материала: программист-исследователь Mail.ru Group, старший преподаватель Факультета Компьютерных Наук ВШЭ Юрий Кашницкий


# <center>Тема 1. Первичный анализ данных с Pandas</center>
## <center>Часть 1. Обзор библиотеки Pandas</center>

**Pandas** - это библиотека Python, предоставляющая широкие возможности для анализа данных. С ее помощью очень удобно загружать, обрабатывать и анализировать табличные данные с помощью SQL-подобных запросов. В связке с библиотеками Matplotlib и Seaborn появляется возможность удобного визуального анализа табличных данных.

In [1]:
# Python 2 and 3 compatibility
# pip install future
from __future__ import absolute_import, division, print_function, unicode_literals

# отключим предупреждения Anaconda
import warnings

warnings.simplefilter("ignore")
import numpy as np
import pandas as pd

%matplotlib inline
import matplotlib.pyplot as plt

Основными структурами данных в Pandas являются классы Series и DataFrame. Первый из них представляет собой одномерный индексированный массив данных некоторого фиксированного типа. Второй - это двухмерная структура данных, представляющая собой таблицу, каждый столбец которой содержит данные одного типа. Можно представлять её как словарь объектов типа Series. Структура DataFrame отлично подходит для представления реальных данных: строки соответствуют признаковым описаниям отдельных объектов, а столбцы соответствуют признакам.

Для начала рассмотрим простые примеры создания таких объектов и возможных операций над ними.

### Series

** Создание объекта Series из 5 элементов, индексированных буквами:**

In [2]:
salaries = pd.Series([400, 300, 200, 250], index=["Andrew", "Bob", "Charles", "Ann"])
print(salaries)

Andrew     400
Bob        300
Charles    200
Ann        250
dtype: int64


In [3]:
salaries[salaries > 250]

Andrew    400
Bob       300
dtype: int64

**Индексирование возможно в виде s.Name или s['Name'].**

In [4]:
print(salaries.Andrew == salaries["Andrew"])

True


In [8]:
salaries["Carl"] = np.nan

In [9]:
salaries.fillna(salaries.median(), inplace=True)

In [10]:
salaries

Andrew     400.0
Bob        300.0
Charles    200.0
Ann        250.0
Carl       275.0
dtype: float64

**Series поддерживает пропуски в данных.**

In [11]:
salaries.c = np.nan  # Series can contain missing values
print(salaries)

Andrew     400.0
Bob        300.0
Charles    200.0
Ann        250.0
Carl       275.0
dtype: float64


**Объекты Series похожи на ndarray и могут быть переданы в качестве аргументов большинству функций из Numpy.**

In [12]:
print("Second element of salaries is", salaries[1], "\n")
# Smart indexing
print(salaries[:3], "\n")
print("There are", len(salaries[salaries > 0]), "positive elements in salaries\n")
# Series obects can be the arguments for Numpy functions
print(np.exp(salaries))

Second element of salaries is 300.0 

Andrew     400.0
Bob        300.0
Charles    200.0
dtype: float64 

There are 5 positive elements in salaries

Andrew     5.221470e+173
Bob        1.942426e+130
Charles     7.225974e+86
Ann        3.746455e+108
Carl       2.697631e+119
dtype: float64


### DataFrame

### Создание и изменение

**Перейдём к рассмотрению объектов типа DataFrame. Такой объект можно создать из массива numpy, указав названия строк и столбцов.**

In [13]:
df1 = pd.DataFrame(
    np.random.randn(5, 3),
    index=["o1", "o2", "o3", "o4", "o5"],
    columns=["f1", "f2", "f3"],
)
df1

Unnamed: 0,f1,f2,f3
o1,-0.221481,-0.995512,-0.006789
o2,-0.38291,0.355207,0.700056
o3,0.004807,1.017832,-0.764288
o4,-2.05692,-0.928713,-0.447293
o5,1.200249,-0.603009,-0.284257


**Альтернативным способом является создание DataFrame из словаря numpy массивов или списков.**

In [14]:
df2 = pd.DataFrame(
    {"A": np.random.random(5), "B": ["a", "b", "c", "d", "e"], "C": np.arange(5) > 2}
)
df2

Unnamed: 0,A,B,C
0,0.060837,a,False
1,0.4597,b,False
2,0.441977,c,False
3,0.732647,d,True
4,0.703492,e,True


**Обращение к элементам (или целым кускам фрейма):**

In [15]:
print("The element in position 3, B is", df2.at[3, "B"], "\n")
print(df2.loc[[1, 4], ["A", "B"]])

The element in position 3, B is d 

          A  B
1  0.459700  b
4  0.703492  e


**Изменение элементов и добавление новых:**

In [16]:
df2.at[2, "B"] = "f"
df2

Unnamed: 0,A,B,C
0,0.060837,a,False
1,0.4597,b,False
2,0.441977,f,False
3,0.732647,d,True
4,0.703492,e,True


In [17]:
df2.loc[5] = [3.1415, "c", False]
df2

Unnamed: 0,A,B,C
0,0.060837,a,False
1,0.4597,b,False
2,0.441977,f,False
3,0.732647,d,True
4,0.703492,e,True
5,3.1415,c,False


In [18]:
df1.columns = ["A", "B", "C"]
df3 = df1.append(df2)
df3

Unnamed: 0,A,B,C
o1,-0.221481,-0.995512,-0.006789
o2,-0.38291,0.355207,0.700056
o3,0.004807,1.017832,-0.764288
o4,-2.05692,-0.928713,-0.447293
o5,1.200249,-0.603009,-0.284257
0,0.060837,a,0.0
1,0.4597,b,0.0
2,0.441977,f,0.0
3,0.732647,d,1.0
4,0.703492,e,1.0


#### Обработка пропущенных значений

In [19]:
df1.at["o2", "A"] = np.nan
df1.at["o4", "C"] = np.nan
df1

Unnamed: 0,A,B,C
o1,-0.221481,-0.995512,-0.006789
o2,,0.355207,0.700056
o3,0.004807,1.017832,-0.764288
o4,-2.05692,-0.928713,
o5,1.200249,-0.603009,-0.284257


**Булева маска для пропущенных значений (True - там, где был пропуск, иначе - False):**

In [20]:
pd.isnull(df1)

Unnamed: 0,A,B,C
o1,False,False,False
o2,True,False,False
o3,False,False,False
o4,False,False,True
o5,False,False,False


**Можно удалить все строки, где есть хотя бы один пропуск.**

In [21]:
df1.dropna(how="any")

Unnamed: 0,A,B,C
o1,-0.221481,-0.995512,-0.006789
o3,0.004807,1.017832,-0.764288
o5,1.200249,-0.603009,-0.284257


**Пропуски можно заменить каким-то значением.**

In [22]:
df1.fillna(0)

Unnamed: 0,A,B,C
o1,-0.221481,-0.995512,-0.006789
o2,0.0,0.355207,0.700056
o3,0.004807,1.017832,-0.764288
o4,-2.05692,-0.928713,0.0
o5,1.200249,-0.603009,-0.284257


## Пример первичного анализа данных с Pandas

### Чтение из файла и первичный анализ

Однако на практике DataFrame, с которым нам предстоит работать, необходимо считать из некоторого файла. Рассмотрим работу с DataFrame на примере следующего набора данных. Для каждрого опрошенного имеется следующая информация: заработная плата за час работы, опыт работы, образование, внешняя привлекательность (в баллах от 1 до 5), бинарные признаки: пол, семейное положение, состояние здоровья (хорошее/плохое), членство в профсоюзе, цвет кожи (белый/чёрный), занятость в сфере обслуживания (да/нет).

In [None]:
df = pd.read_csv("../../data/beauty.csv", sep=";")

**Посмотрим на размер данных и названия признаков.**

In [None]:
print(df.shape)
print(df.columns.values)

In [None]:
df.head(10)

**При работе с большими объёмами данных бывает удобно посмотреть только на небольшие части фрейма (например, начало).**

In [None]:
df.head(4)

Метод **describe** показывает основные статистические характеристики данных по каждому признаку: число непропущенных значений, среднее, стандартное отклонение, диапазон, медиану, 0.25 и 0.75 квартили.

In [None]:
df.describe()

**DataFrame можно отсортировать по значению какого-нибудь из признаков. В нашем случае, например, по размеру заработной платы.**

In [None]:
df.sort_values(by="wage", ascending=False).head()

In [None]:
df.sort_values(by=["female", "wage"], ascending=[True, False]).head()

### Индексация и извлечение данных

DataFrame можно индексировать по-разному. В связи с этим рассмотрим различные способы индексации и извлечения нужных нам данных из DataFrame на примере простых вопросов.

Для извлечения отдельного столбца можно использовать конструкцию вида DataFrame['Name']. Воспользуемся этим для ответа на вопрос: **какова доля людей с хорошим здоровьем среди опрошенных?**

In [None]:
df["goodhlth"].mean()

Очень удобной является логическая индексация DataFrame по одному столбцу. Выглядит она следующим образом: df[P(df['Name'])], где P - это некоторое логическое условие, проверяемое для каждого элемента столбца Name. Итогом такой индексации является DataFrame, состоящий только из строк, удовлетворяющих условию P по столбцу Name. Воспользуемся этим для ответа на вопрос: **На сколько средняя заработная плата мужчин выше средней заработной платы среди женщин?**

In [None]:
df[df["female"] == 1].head()

In [None]:
df[(df["goodhlth"] == 1) & (df["female"] == 1)].head()

In [None]:
df[(df["female"] == 0)]["wage"].mean() - df[(df["female"] == 1)]["wage"].mean()

**Какова максимальная заработная плата среди мужчин, имеющих членство в профсоюзе, и с опытом работы до 10 лет?**

In [None]:
df[(df["female"] == 0) & (df["union"] == 1) & (df["exper"] < 10)]["wage"].max()

**Применение функции к каждому столбцу:**

In [None]:
df.apply(np.mean)

**Группирование данных в зависимости от значения признака *looks* и подсчет среднего значения по каждому столбцу в каждой группе.**

In [None]:
df["looks"].describe()

In [None]:
g = df.groupby("looks")
for (i, sub_df) in g:
    print(sub_df["wage"].mean(), sub_df["looks"].mean())

**Обращение к конкретной группе:**

In [None]:
d1 = g.get_group(1)
d1

### Визуализация в Pandas

Метод **scatter_matrix** позволяет визуализировать попарные зависимости между признаками (а также распределение каждого признака на диагонали). Проделаем это для небинарных признаков.

In [None]:
pd.plotting.scatter_matrix(
    df[["wage", "exper", "educ", "looks"]], figsize=(15, 15), diagonal="kde"
)
plt.show()

**Для каждого признака можно построить отдельную гистограмму:**

In [None]:
df["looks"].hist()

**Или сразу для всех:**

In [None]:
df.hist(color="k", bins=30, figsize=(15, 10))
plt.show()

Полезным также является график типа **box plot** ("ящик с усами"). Он позволяет компактно визуализировать основные характеристики (медиану, нижний и верхний квартили, минимальное и максимальное значение, выбросы) распределения признаков.

In [None]:
df.boxplot(column="exper", by="looks")
plt.show()

**Можно сделать это, сгруппировав данные по какому-либо другому признаку:**

In [None]:
df.boxplot(column="exper", by=["female", "black"], figsize=(10, 10))
plt.show()