# Лекция 3.2. Pandas. Первичный анализ данных

**Pandas** — это библиотека Python, предоставляющая широкие возможности для анализа данных. Данные, с которыми работают датасаентисты, часто хранятся в форме табличек — например, в форматах .csv, .tsv или .xlsx. С помощью библиотеки Pandas такие табличные данные очень удобно загружать, обрабатывать и анализировать с помощью SQL-подобных запросов. А в связке с библиотеками Matplotlib и Seaborn Pandas предоставляет широкие возможности визуального анализа табличных данных.


Основными структурами данных в Pandas являются классы Series и DataFrame. Первый из них представляет собой одномерный индексированный массив данных некоторого фиксированного типа. Второй – это двухмерная структура данных, представляющая собой таблицу, каждый столбец которой содержит данные одного типа. Можно представлять её как словарь объектов типа Series. Структура DataFrame отлично подходит для представления реальных данных: строки соответствуют признаковым описаниям отдельных объектов, а столбцы соответствуют признакам.

Официальная документация pandas: https://pandas.pydata.org/pandas-docs/stable/index.html

## Импорт модуля pandas и numpy

In [0]:
import pandas as pd
import numpy as np

## Использование основных методов

Будем рассматривать основные методы на практике, анализируя набор данных по оттоку клиентов телеком-оператора, который уже закачан в [репозиторий](data/telecom_churn.csv) и доступен по пути адресу https://github.com/Eductorium/DataScience/raw/master/Module2/data/telecom_churn.csv. Прочитаем данные (метод read_csv) и посмотрим на первые 5 строк с помощью метода head:

In [0]:
df = pd.read_csv('https://github.com/Eductorium/DataScience/raw/master/Module2/data/telecom_churn.csv')

In [0]:
df.head()

В Jupyter-ноутбуках датафреймы Pandas выводятся в виде вот таких красивых табличек как выше. Команда print(df.head()) выглядела бы намного хуже:

In [0]:
print(df.head())

Весь датафрейм можно вывести просто указав название переменной:

In [0]:
df

По умолчанию Pandas выводит 60 строк и 50 столбцов, либо в зависимости от размера экрана. В нашем случае - от размера экрана. Поэтому если Ваш датафрейм больше, воспользуйтесь функцией set_option:

In [0]:
pd.set_option('max_rows', 3500)
pd.set_option('max_colwidth', 60)
# df можно для теста раскомментировать и посмотреть как будет выведена таблица

Вернем исходные значения параметров:

In [0]:
pd.set_option('max_rows', 60)
pd.set_option('max_colwidth', 50)

Вернемся к данным. Каждая строка представляет собой одного клиента – это объект исследования.
Столбцы – признаки объекта.

**Описание признаков:**

![](https://github.com/Eductorium/DataScience/raw/master/Module2/params.png)

Целевая переменная: **Churn** – Признак оттока, бинарный признак (1 – потеря клиента, то есть отток). Потом мы будем строить модели, прогнозирующие этот признак по остальным, поэтому мы и назвали его целевым.

Посмотрим на размер данных, названия признаков и их типы.


In [0]:
print(df.shape)

Видим, что в таблице 3333 строки и 20 столбцов. Выведем названия столбцов:

In [0]:
print(df.columns)

Чтобы посмотреть общую информацию по датафрейму и всем признакам, воспользуемся методом info:

In [0]:
print(df.info())

bool, int64, float64 и object — это типы признаков. Видим, что 1 признак — логический (bool), 3 признака имеют тип object и 16 признаков — числовые. Также с помощью метода info удобно быстро посмотреть на пропуски в данных, в нашем случае их нет, в каждом столбце по 3333 наблюдения.


**Изменить тип колонки** можно с помощью метода astype. Применим этот метод к признаку Churn и переведём его в int64:

In [0]:
df['Churn'] = df['Churn'].astype('int64')

Метод describe показывает основные статистические характеристики данных по каждому числовому признаку (типы int64 и float64): число непропущенных значений, среднее, стандартное отклонение, диапазон, медиану, 0.25 и 0.75 квартили.

In [0]:
df.describe()

Чтобы посмотреть статистику по нечисловым признакам, нужно явно указать интересующие нас типы в параметре include.

In [0]:
df.describe(include=['object', 'bool'])

Для категориальных (тип object) и булевых (тип bool) признаков можно воспользоваться методом value_counts. Посмотрим на распределение данных по нашей целевой переменной — Churn:

In [0]:
df['Churn'].value_counts()

2850 пользователей из 3333 — лояльные, значение переменной Churn у них — 0.

Посмотрим на распределение пользователей по переменной Area code. Укажем значение параметра normalize=True, чтобы посмотреть не абсолютные частоты, а относительные - в процента (100% = 1).

In [0]:
df['Area code'].value_counts(normalize=True)

## Сортировка

DataFrame можно отсортировать по значению какого-нибудь из признаков. В нашем случае, например, по Total day charge (ascending=False для сортировки по убыванию):

In [0]:
df.sort_values(by='Total day charge', 
        ascending=False).head()

Сортировать можно и по группе столбцов:

In [0]:
df.sort_values(by=['Churn', 'Total day charge'],
        ascending=[True, False]).head()

## Индексация и извлечение данных

DataFrame можно индексировать по-разному. В связи с этим рассмотрим различные способы индексации и извлечения нужных нам данных из датафрейма на примере простых вопросов.

Для извлечения отдельного столбца можно использовать конструкцию вида DataFrame['Name']. Воспользуемся этим для ответа на вопрос: **какова доля нелояльных пользователей в нашем датафрейме?**

In [0]:
df['Churn'].mean()

14,5% — довольно плохой показатель для компании, с таким процентом оттока можно и разориться. Здесь мы нашли среднее mean значение Churn. Это и есть доля нелояльных пользователей.

Очень удобной является логическая индексация DataFrame по одному столбцу. Выглядит она следующим образом: df[P(df['Name'])], где P — это некоторое логическое условие, проверяемое для каждого элемента столбца Name. Итогом такой индексации является DataFrame, состоящий только из строк, удовлетворяющих условию P по столбцу Name.

Воспользуемся этим для ответа на вопрос: **каковы средние значения числовых признаков среди нелояльных пользователей?**

In [0]:
df[df['Churn'] == 1].mean()

Скомбинировав предыдущие два вида индексации, ответим на вопрос: **сколько в среднем в течение дня разговаривают по телефону нелояльные пользователи?**

In [0]:
df[df['Churn'] == 1]['Total day minutes'].mean()

**Какова максимальная длина международных звонков среди лояльных пользователей (Churn == 0), не пользующихся услугой международного роуминга ('International plan' == 'No')?**

In [0]:
df[(df['Churn'] == 0) & (df['International plan'] == 'No')]['Total intl minutes'].max()

Датафреймы можно индексировать как по названию столбца или строки, так и по порядковому номеру. Для индексации по названию используется метод loc, по номеру — iloc.

В первом случае мы говорим «передай нам значения для id строк от 0 до 5 и для столбцов от State до Area code», а во втором — «передай нам значения первых пяти строк в первых трёх столбцах».

In [0]:
df.loc[0:5, 'State':'Area code']

**Примечание:** когда мы передаём slice object в iloc, датафрейм слайсится как обычно. Однако в случае с loc учитываются и начало, и конец слайса

In [0]:
df.iloc[0:5, 0:3]

Если нам нужна первая или последняя строчка датафрейма, пользуемся конструкцией df[:1] или df[-1:]:

In [0]:
df[-1:]

## Применение функций к ячейкам, столбцам и строкам

In [0]:
df.apply(np.max) 

Метод apply можно использовать и для того, чтобы применить функцию к каждой строке. Для этого нужно указать axis=1.

Применение функции к каждой ячейке столбца: map

Например, метод map можно использовать для замены значений в колонке, передав ему в качестве аргумента словарь вида {old_value: new_value}:

In [0]:
d = {'No' : False, 'Yes' : True}
df['International plan'] = df['International plan'].map(d)
df.head()

Аналогичную операцию можно провернуть с помощью метода replace:

In [0]:
df = df.replace({'Voice mail plan': d})
df.head()

## Группировка данных

В общем случае группировка данных в Pandas выглядит следующим образом:

    df.groupby(by=grouping_columns)[columns_to_show].function()

1. К датафрейму применяется метод groupby, который разделяет данные по grouping_columns – признаку или набору признаков.
2. Выбираем нужные нам столбцы (columns_to_show).
3. К полученным группам применяется функция или несколько функций.

**Группирование данных в зависимости от значения признака Churn и вывод статистик по трём столбцам в каждой группе:**

In [0]:
columns_to_show = ['Total day minutes', 'Total eve minutes', 'Total night minutes']
df.groupby(['Churn'])[columns_to_show].describe(percentiles=[])

Сделаем то же самое, но немного по-другому, передав в agg список функций:

In [0]:
columns_to_show = ['Total day minutes', 'Total eve minutes', 'Total night minutes']
df.groupby(['Churn'])[columns_to_show].agg([np.mean, np.std, np.min, np.max])

## Сводные таблицы

Допустим, мы хотим посмотреть, как наблюдения в нашей выборке распределены в контексте двух признаков — Churn и International plan. Для этого мы можем построить таблицу сопряженности, воспользовавшись методом crosstab:

In [0]:
pd.crosstab(df['Churn'], df['International plan'])

Построим таблицу для Churn и Voice mail plan в долях, для этого будем использовать нормализацию - normalize=True:

In [0]:
pd.crosstab(df['Churn'], df['Voice mail plan'], normalize=True)

Мы видим, что большинство пользователей лояльны и при этом пользуются дополнительными услугами (международного роуминга / голосовой почты).

Продвинутые пользователи Excel наверняка вспомнят о такой фиче, как сводные таблицы (pivot tables). В Pandas за сводные таблицы отвечает метод pivot_table, который принимает в качестве параметров:

* values – список переменных, по которым требуется рассчитать нужные статистики,
* index – список переменных, по которым нужно сгруппировать данные,
* aggfunc — то, что нам, собственно, нужно посчитать по группам — сумму, среднее, максимум, минимум или что-то ещё.

Давайте посмотрим среднее число дневных, вечерних и ночных звонков для разных Area code:

In [0]:
df.pivot_table(['Total day calls', 'Total eve calls', 'Total night calls'], 
['Area code'], aggfunc='mean').head(10)

## Преобразование датафреймов


Как и многое другое в Pandas, добавление столбцов в DataFrame осуществимо несколькими способами.

Например, мы хотим посчитать общее количество звонков для всех пользователей. Создадим объект total_calls типа Series и вставим его в датафрейм:

In [0]:
total_calls = df['Total day calls'] + df['Total eve calls'] + \
                  df['Total night calls'] + df['Total intl calls']
df.insert(loc=len(df.columns), column='Total calls', value=total_calls) 
# loc - номер столбца, после которого нужно вставить данный Series
# мы указали len(df.columns), чтобы вставить его в самом конце
df.head()

Добавить столбец из имеющихся можно и проще, не создавая промежуточных Series:

In [0]:
df['Total charge'] = df['Total day charge'] + df['Total eve charge'] + df['Total night charge'] + df['Total intl charge']
df.head()

Чтобы удалить столбцы или строки, воспользуйтесь методом drop, передавая в качестве аргумента нужные индексы и требуемое значение параметра axis (1, если удаляете столбцы, и ничего или 0, если удаляете строки):

In [0]:
# избавляемся от созданных только что столбцов
df = df.drop(['Total charge', 'Total calls'], axis=1) 
df.drop([1, 2]).head() # а вот так можно удалить строчки

## Первые попытки прогнозирования оттока

Посмотрим, как отток связан с признаком "Подключение международного роуминга" (International plan). Сделаем это с помощью сводной таблички crosstab, а также путем иллюстрации с Seaborn (как именно строить такие картинки и анализировать с их помощью графики – материал следующей лекции).

In [0]:
pd.crosstab(df['Churn'], df['International plan'], margins=True)

![](https://github.com/Eductorium/DataScience/raw/master/Module2/diag1.png)

Видим, что когда роуминг подключен (True), доля оттока (зеленый график почти равен синему) намного выше – интересное наблюдение! Когда же роуминг выключен (False), то зеленый график намного меньше синего. Возможно, большие и плохо контролируемые траты в роуминге очень конфликтогенны и приводят к недовольству клиентов телеком-оператора и, соответственно, к их оттоку.

Далее посмотрим на еще один важный признак – "Число обращений в сервисный центр" (Customer service calls). Также построим сводную таблицу и картинку.

In [0]:
pd.crosstab(df['Churn'], df['Customer service calls'], margins=True)

![alt text](https://github.com/Eductorium/DataScience/raw/master/Module2/diag2.png)

Может быть, по сводной табличке это не так хорошо видно (или скучно ползать взглядом по строчкам с цифрами), а вот картинка красноречиво свидетельствует о том, что доля оттока сильно возрастает начиная с 4 звонков в сервисный центр.


Добавим теперь в наш DataFrame бинарный признак — результат сравнения Customer service calls > 3. И еще раз посмотрим, как он связан с оттоком.

In [0]:
df['Many_service_calls'] = (df['Customer service calls'] > 3).astype('int')
pd.crosstab(df['Many_service_calls'], df['Churn'], margins=True)

![alt text](https://github.com/Eductorium/DataScience/raw/master/Module2/diag2.png)

Объединим рассмотренные выше условия и построим сводную табличку для этого объединения и оттока.

In [0]:
pd.crosstab(df['Many_service_calls'] & df['International plan'] , df['Churn'])

Значит, прогнозируя отток клиента в случае, когда число звонков в сервисный центр больше 3 и подключен роуминг (и прогнозируя лояльность – в противном случае), можно ожидать около 85.8% правильных попаданий (ошибаемся всего 464 + 9 раз). Эти 85.8%, которые мы получили с помощью очень простых рассуждений – это неплохая отправная точка (baseline) для дальнейших моделей машинного обучения, которые мы будем строить.

В целом до появления машинного обучения процесс анализа данных выглядел примерно так. Прорезюмируем:

* Доля лояльных клиентов в выборке – 85.5%. Самая наивная модель, ответ которой "клиент всегда лоялен" на подобных данных будет угадывать примерно в 85.5% случаев. То есть доли правильных ответов (accuracy) последующих моделей должны быть как минимум не меньше, а лучше, значительно выше этой цифры;
* С помощью простого прогноза, который условно можно выразить такой формулой: "International plan = True & Customer Service calls > 3 => Churn = 1, else Churn = 0", можно ожидать долю угадываний 85.8%, что еще чуть выше 85.5%. Впоследствии мы поговорим о деревьях решений и разберемся, как находить подобные правила автоматически на основе только входных данных;
* Эти два бейзлайна мы получили без всякого машинного обучения, и они служат отправной точной для наших последующих моделей. Если окажется, что мы громадными усилиями увеличиваем долю правильных ответов всего, скажем, на 0.5%, то возможно, мы что-то делаем не так, и достаточно ограничиться простой моделью из двух условий;
* Перед обучением сложных моделей рекомендуется немного покрутить данные и проверить простые предположения. Более того, в бизнес-приложениях машинного обучения чаще всего начинают именно с простых решений, а потом экспериментируют с их усложнениями.