# Тема 1. Первичный анализ данных с Pandas

In [1]:
import pandas as pd
import numpy as np

Основными структурами данных в Pandas являются классы Series и DataFrame. Первый из них представляет собой одномерный индексированный массив данных некоторого фиксированного типа. Второй - это двухмерная структура данных, представляющая собой таблицу, каждый столбец которой содержит данные одного типа. Можно представлять её как словарь объектов типа Series. Структура DataFrame отлично подходит для представления реальных данных: строки соответствуют признаковым описаниям отдельных объектов, а столбцы соответствуют признакам.

In [2]:
df = pd.read_csv('https://raw.githubusercontent.com/Yorko/mlcourse.ai/main/data/telecom_churn.csv')

Прочитаем данные и посмотрим на первые 5 строк с помощью метода head:

In [3]:
df.head()

Unnamed: 0,State,Account length,Area code,International plan,Voice mail plan,Number vmail messages,Total day minutes,Total day calls,Total day charge,Total eve minutes,Total eve calls,Total eve charge,Total night minutes,Total night calls,Total night charge,Total intl minutes,Total intl calls,Total intl charge,Customer service calls,Churn
0,KS,128,415,No,Yes,25,265.1,110,45.07,197.4,99,16.78,244.7,91,11.01,10.0,3,2.7,1,False
1,OH,107,415,No,Yes,26,161.6,123,27.47,195.5,103,16.62,254.4,103,11.45,13.7,3,3.7,1,False
2,NJ,137,415,No,No,0,243.4,114,41.38,121.2,110,10.3,162.6,104,7.32,12.2,5,3.29,0,False
3,OH,84,408,Yes,No,0,299.4,71,50.9,61.9,88,5.26,196.9,89,8.86,6.6,7,1.78,2,False
4,OK,75,415,Yes,No,0,166.7,113,28.34,148.3,122,12.61,186.9,121,8.41,10.1,3,2.73,3,False


По умолчанию Pandas выводит всего 20 столбцов и 60 строк, поэтому если ваш датафрейм больше, воспользуйтесь функцией set_option:

In [4]:
pd.set_option("display.max_columns", 30)
pd.set_option("display.max_rows", 30)

Укажем значение параметра presicion равным 2, чтобы отображать два знака после запятой (а не 6, как установлено
по умолчанию.

In [10]:
pd.set_option("precision", 2)

OptionError: Pattern matched multiple keys

In [11]:
df.head()

Unnamed: 0,State,Account length,Area code,International plan,Voice mail plan,Number vmail messages,Total day minutes,Total day calls,Total day charge,Total eve minutes,Total eve calls,Total eve charge,Total night minutes,Total night calls,Total night charge,Total intl minutes,Total intl calls,Total intl charge,Customer service calls,Churn
0,KS,128,415,No,Yes,25,265.1,110,45.07,197.4,99,16.78,244.7,91,11.01,10.0,3,2.7,1,False
1,OH,107,415,No,Yes,26,161.6,123,27.47,195.5,103,16.62,254.4,103,11.45,13.7,3,3.7,1,False
2,NJ,137,415,No,No,0,243.4,114,41.38,121.2,110,10.3,162.6,104,7.32,12.2,5,3.29,0,False
3,OH,84,408,Yes,No,0,299.4,71,50.9,61.9,88,5.26,196.9,89,8.86,6.6,7,1.78,2,False
4,OK,75,415,Yes,No,0,166.7,113,28.34,148.3,122,12.61,186.9,121,8.41,10.1,3,2.73,3,False


Посмотрим на размер данных, названия признаков и их типы

In [12]:
df.shape

(3333, 20)

В таблице 3333 строки и 20 столбцов. Выведем названия столбцов:

In [13]:
df.columns

Index(['State', 'Account length', 'Area code', 'International plan',
       'Voice mail plan', 'Number vmail messages', 'Total day minutes',
       'Total day calls', 'Total day charge', 'Total eve minutes',
       'Total eve calls', 'Total eve charge', 'Total night minutes',
       'Total night calls', 'Total night charge', 'Total intl minutes',
       'Total intl calls', 'Total intl charge', 'Customer service calls',
       'Churn'],
      dtype='object')

Чтобы посмотреть общую информацию по датафрейму и всем признакам, воспользуемся методом info:

In [14]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3333 entries, 0 to 3332
Data columns (total 20 columns):
 #   Column                  Non-Null Count  Dtype  
---  ------                  --------------  -----  
 0   State                   3333 non-null   object 
 1   Account length          3333 non-null   int64  
 2   Area code               3333 non-null   int64  
 3   International plan      3333 non-null   object 
 4   Voice mail plan         3333 non-null   object 
 5   Number vmail messages   3333 non-null   int64  
 6   Total day minutes       3333 non-null   float64
 7   Total day calls         3333 non-null   int64  
 8   Total day charge        3333 non-null   float64
 9   Total eve minutes       3333 non-null   float64
 10  Total eve calls         3333 non-null   int64  
 11  Total eve charge        3333 non-null   float64
 12  Total night minutes     3333 non-null   float64
 13  Total night calls       3333 non-null   int64  
 14  Total night charge      3333 non-null   

bool, int64, float64 и object — это типы признаков. Видим, что 1 признак — логический (bool), 3 признака имеют тип object и 16 признаков — числовые.

**Изменить тип колонки** можно с помощью **метода astype**. Применим этот метод к признаку Churn и переведём его в int64

In [None]:
df["Churn"] = df["Churn"].astype("int64")

In [None]:
df.head()

**Метод describe** показывает основные статистические характеристики данных по каждому числовому признаку (типы int64 и float64): число непропущенных значений, среднее, стандартное отклонение, диапазон, медиану, 0.25 и 0.75 квартили.

In [None]:
df.describe()

Чтобы посмотреть статистику по нечисловым признакам, нужно явно указать интересующие нас типы в параметре include. Можно также задать **include='all'**, чтоб вывести статистику по всем имеющимся признакам.

In [None]:
df.describe(include = 'all')

In [None]:
df.describe(include=["object", "bool"])

**Для категориальных (тип object) и булевых (тип bool) признаков** можно воспользоваться методом **value_counts**. Посмотрим на распределение нашей целевой переменной — Churn:

In [None]:
df['Churn'].value_counts()

Посмотрим на распределение пользователей по переменной Area code. Укажем значение параметра **normalize=True**, чтобы посмотреть не абсолютные частоты, а **относительные**.

In [None]:
df["Area code"].value_counts(normalize=True)

## Сортировка

DataFrame можно отсортировать по значению какого-нибудь из признаков. В нашем случае, например, по Total day charge (ascending=False для сортировки по убыванию):

In [None]:
df.sort_values(by="Total day charge", ascending=False).head()

Сортировать можно и по группе столбцов:

In [None]:
df.sort_values(by=["Churn", "Total day charge"], ascending=[True, False]).head()

## Индексация и извлечение данных

Для извлечения отдельного столбца можно использовать конструкцию вида DataFrame['Name']. Воспользуемся этим для ответа на вопрос: какова доля нелояльных пользователей в нашем датафрейме?

In [None]:
df['Churn'].mean()

Очень удобной является логическая индексация DataFrame по одному столбцу. Выглядит она следующим образом: df[P(df['Name'])], где P - это некоторое логическое условие, проверяемое для каждого элемента столбца Name. Итогом такой индексации является DataFrame, состоящий только из строк, удовлетворяющих условию P по столбцу Name.

Воспользуемся этим для ответа на вопрос: каковы средние значения числовых признаков среди нелояльных пользователей?

In [None]:
df[df["Churn"] == 1].mean()

FutureWarning: удаление ненужных столбцов в сокращениях DataFrame (с 'numeric_only=None') устарело; в будущей версии это вызовет TypeError. Перед вызовом редукции выберите только допустимые столбцы.

Скомбинировав предыдущие два вида индексации, ответим на вопрос: **сколько в среднем в течение дня разговаривают по телефону нелояльные пользователи?

In [None]:
df[df["Churn"] == 1]["Total day minutes"].mean()

**Какова максимальная длина международных звонков среди лояльных пользователей (Churn == 0), не пользующихся услугой международного роуминга ('International plan' == 'No')?

In [None]:
df[(df["Churn"] == 0) & (df["International plan"] == "No")]["Total intl minutes"].max()

Датафреймы можно индексировать как по названию столбца или строки, так и по порядковому номеру. Для индексации по названию используется метод **loc**, по номеру — **iloc**.

В первом случае мы говорим «передай нам значения для id строк от 0 до 5 и для столбцов от State до Area code», а во втором — «передай нам значения первых пяти строк в первых трёх столбцах».

В случае iloc срез работает как обычно, однако в случае loc учитываются и начало, и конец среза. Да, неудобно, да, вызывает путаницу.

In [None]:
df.loc[0:5, 'State': 'Area code']

In [None]:
df.iloc[0:5, 0:3]

## Применение функций: apply, map и др.

**Применение функции к каждому столбцу:**

In [None]:
df.apply(np.max)

Метод **apply** можно использовать и для того, чтобы применить функцию **к каждой строке**. Для этого нужно указать axis=1.

Применение функции к каждой ячейке столбца

Допустим, по какой-то причине нас интересуют все люди из штатов, названия которых начинаются на 'W'. В данному случае это можно сделать по-разному, но наибольшую свободу дает связка apply-lambda – применение функции ко всем значениям в столбце.

In [None]:
df[df['State'].apply(lambda state: state[0] == 'W')].head()

Метод map можно использовать и для замены значений в колонке, передав ему в качестве аргумента словарь вида {old_value: new_value}:

In [None]:
d = {"No": False, "Yes": True}
df["International plan"] = df["International plan"].map(d)
df.head()

Аналогичную операцию можно провернуть с помощью метода replace:

In [None]:
d = {"No": False, "Yes": True}
df = df.replace({"Voice mail plan": d})
df.head()

## Группировка данных

В общем случае группировка данных в Pandas выглядит следующим образом:
df.groupby(by=grouping_columns)[columns_to_show].function()

1. К датафрейму применяется метод groupby, который разделяет данные по grouping_columns – признаку или набору признаков.
2. Индексируем по нужным нам столбцам (columns_to_show).
3. К полученным группам применяется функция или несколько функций.
**Группирование данных в зависимости от значения признака Churn и вывод статистик по трём столбцам в каждой группе.**

In [None]:
df.groupby(by = 'Churn')["Total day minutes", "Total eve minutes", "Total night minutes"].describe(percentiles=[])

Сделаем то же самое, но немного по-другому, передав в agg список функций:

In [None]:
df.groupby(by = 'Churn')["Total day minutes", "Total eve minutes", "Total night minutes"].agg([np.mean, np.std, np.min, np.max])

## Сводные таблицы

Допустим, мы хотим посмотреть, как наблюдения в нашей выборке распределены в контексте двух признаков — Churn и Customer service calls. Для этого мы можем построить **таблицу сопряженности**, воспользовавшись методом **crosstab**:

In [None]:
pd.crosstab(df["Churn"], df["Customer service calls"])

In [None]:
pd.crosstab(df['Churn'], df['Voice mail plan'], normalize = True)

В Pandas за сводные таблицы отвечает метод pivot_table, который принимает в качестве параметров:

values – список переменных, по которым требуется рассчитать нужные статистики,
index – список переменных, по которым нужно сгруппировать данные,
aggfunc — то, что нам, собственно, нужно посчитать по группам — сумму, среднее, максимум, минимум или что-то ещё.

Давайте посмотрим среднее число дневных, вечерних и ночных звонков для разных Area code:

In [None]:
df.pivot_table(
                ["Total day calls", "Total eve calls", "Total night calls"],
                ["Area code"],
                aggfunc="mean").head()

## Преобразование датафреймов

Как и многие другие вещи, добавлять столбцы в DataFrame можно несколькими способами.

Например, мы хотим посчитать общее количество звонков для всех пользователей. Создадим объект total_calls типа Series и вставим его в датафрейм:

In [None]:
df.insert(loc=len(df.columns), column="Total calls", value=df["Total day calls"]
                                         + df["Total eve calls"]
                                         + df["Total night calls"]
                                         + df["Total intl calls"])
# loc parameter is the number of columns after which to insert the Series object
# we set it to len(df.columns) to paste it at the very end of the dataframe
df.head()

Добавить столбец из имеющихся можно и проще, не создавая промежуточных Series:

In [None]:
df['Total charge'] = df['Total day charge'] + df['Total eve charge'] + df['Total night charge'] + df['Total intl charge']

df.head()

Чтобы удалить столбцы или строки, воспользуйтесь методом drop, передавая в качестве аргумента нужные индексы и требуемое значение параметра axis (1, если удаляете столбцы, и ничего или 0, если удаляете строки):

In [None]:
# удаляем созданные столбцы
df.drop(['Total calls', 'Total charge'], axis=1)

# axis = 0 по умолчанию, тогда удаляет строки

In [None]:
# df.drop(np.where(df['Total day minutes'] <= 70)[0])

# удаляем строки по условию в столбце Total day minutes

## 4. Первые попытки прогнозирования оттока

Посмотрим, как отток связан с признаком "Подключение международного роуминга" (International plan). Сделаем это с помощью сводной таблички crosstab, а также путем иллюстрации с Seaborn (как именно строить такие картинки и анализировать с их помощью графики – материал следующей статьи)

In [None]:
pd.crosstab(df['Churn'], df['International plan'], margins=True)

In [None]:
pd.crosstab(df['Churn'], df['Customer service calls'], margins=True)

Видим, что когда роуминг подключен, доля оттока намного выше – интересное наблюдение! Возможно, большие и плохо контролируемые траты в роуминге очень конфликтогенны и приводят к недовольству клиентов телеком-оператора и, соответственно, к их оттоку.
Далее посмотрим на еще один важный признак – "Число обращений в сервисный центр" (Customer service calls).

Может быть, по сводной табличке это не так хорошо видно (или скучно ползать взглядом по строчкам с цифрами), а вот картинка красноречиво свидетельствует о том, что доля оттока сильно возрастает начиная с 4 звонков в сервисный центр.
Добавим теперь в наш DataFrame бинарный признак — результат сравнения Customer service calls > 3. И еще раз посмотрим, как он связан с оттоком.

In [None]:
df['Many_service_calls'] = (df['Customer service calls'] > 3).astype('int')

pd.crosstab(df['Many_service_calls'], df['Churn'], margins=True)

Объединим рассмотренные выше условия и построим сводную табличку для этого объединения и оттока.

In [None]:
pd.crosstab(df['Many_service_calls'] & df['International plan'] , df['Churn'])

Значит, прогнозируя отток клиента в случае, когда число звонков в сервисный центр больше 3 и подключен роуминг (и прогнозируя лояльность – в противном случае), можно ожидать около 85.8% правильных попаданий (ошибаемся всего 464 + 9 раз). Эти 85.8%, которые мы получили с помощью очень простых рассуждений – это неплохая отправная точка (baseline) для дальнейших моделей машинного обучения, которые мы будем строить.

В целом до появления машинного обучения процесс анализа данных выглядел примерно так. Прорезюмируем:

Доля лояльных клиентов в выборке – 85.5%. Самая наивная модель, ответ которой "клиент всегда лоялен" на подобных данных будет угадывать примерно в 85.5% случаев. То есть доли правильных ответов (accuracy) последующих моделей должны быть как минимум не меньше, а лучше, значительно выше этой цифры;
С помощью простого прогноза, который условно можно выразить такой формулой: "International plan = True & Customer Service calls > 3 => Churn = 1, else Churn = 0", можно ожидать долю угадываний 85.8%, что еще чуть выше 85.5%. Впоследствии мы поговорим о деревьях решений и разберемся, как находить подобные правила автоматически на основе только входных данных;
Эти два бейзлайна мы получили без всякого машинного обучения, и они служат отправной точной для наших последующих моделей. Если окажется, что мы громадными усилиями увеличиваем долю правильных ответов всего, скажем, на 0.5%, то возможно, мы что-то делаем не так, и достаточно ограничиться простой моделью из двух условий;
Перед обучением сложных моделей рекомендуется немного покрутить данные и проверить простые предположения. Более того, в бизнес-приложениях машинного обучения чаще всего начинают именно с простых решений, а потом экспериментируют с их усложнениями