**Pandas** — это библиотека Python, предоставляющая широкие возможности для анализа данных. 

Основными структурами данных в Pandas являются классы **Series** (*одномерный индексированный массив данных некоторого фиксированного типа*) и **DataFrame** (*двухмерная структура данных, представляющая собой таблицу, каждый столбец которой содержит данные одного типа; можно представлять её как словарь объектов типа Series*).

Структура DataFrame отлично подходит для представления реальных данных: строки соответствуют признаковым описаниям отдельных объектов, а столбцы соответствуют признакам.

In [124]:
import pandas as pd
import numpy as np

Анализируется набор данных по оттоку клиентов телеком-оператора. С помощью функции `read_csv('file_path')` считываются данные из файла формата .csv. Метод `head()` позволяет посмотреть первые 5 строк данных таблицы.

In [125]:
df = pd.read_csv('telecom_churn.csv')
df.head()

Unnamed: 0,State,Account length,Area code,International plan,Voice mail plan,Number vmail messages,Total day minutes,Total day calls,Total day charge,Total eve minutes,Total eve calls,Total eve charge,Total night minutes,Total night calls,Total night charge,Total intl minutes,Total intl calls,Total intl charge,Customer service calls,Churn
0,KS,128,415,No,Yes,25,265.1,110,45.07,197.4,99,16.78,244.7,91,11.01,10.0,3,2.7,1,False
1,OH,107,415,No,Yes,26,161.6,123,27.47,195.5,103,16.62,254.4,103,11.45,13.7,3,3.7,1,False
2,NJ,137,415,No,No,0,243.4,114,41.38,121.2,110,10.3,162.6,104,7.32,12.2,5,3.29,0,False
3,OH,84,408,Yes,No,0,299.4,71,50.9,61.9,88,5.26,196.9,89,8.86,6.6,7,1.78,2,False
4,OK,75,415,Yes,No,0,166.7,113,28.34,148.3,122,12.61,186.9,121,8.41,10.1,3,2.73,3,False


Свойство (*property*) `shape` класса DataFrame возвращает кортеж, представляющий размерность данных.

In [126]:
df.shape

(3333, 20)

Свойство `columns` возвращает объект типа **Index**, в котором перечислены имена всех столбцов (названия признаков).

In [127]:
df.columns

Index(['State', 'Account length', 'Area code', 'International plan',
       'Voice mail plan', 'Number vmail messages', 'Total day minutes',
       'Total day calls', 'Total day charge', 'Total eve minutes',
       'Total eve calls', 'Total eve charge', 'Total night minutes',
       'Total night calls', 'Total night charge', 'Total intl minutes',
       'Total intl calls', 'Total intl charge', 'Customer service calls',
       'Churn'],
      dtype='object')

Метод `info()` выводит общую информацию о объекте класса DataFrame – размерность, названия столбцов, их типы, ненулевые значения и объем занимаемой памяти.  

In [128]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3333 entries, 0 to 3332
Data columns (total 20 columns):
State                     3333 non-null object
Account length            3333 non-null int64
Area code                 3333 non-null int64
International plan        3333 non-null object
Voice mail plan           3333 non-null object
Number vmail messages     3333 non-null int64
Total day minutes         3333 non-null float64
Total day calls           3333 non-null int64
Total day charge          3333 non-null float64
Total eve minutes         3333 non-null float64
Total eve calls           3333 non-null int64
Total eve charge          3333 non-null float64
Total night minutes       3333 non-null float64
Total night calls         3333 non-null int64
Total night charge        3333 non-null float64
Total intl minutes        3333 non-null float64
Total intl calls          3333 non-null int64
Total intl charge         3333 non-null float64
Customer service calls    3333 non-null int64


Метод `astype('dtype')` позволяет изменить тип колонки к указанному типу.

In [129]:
df['Churn'] = df['Churn'].astype('int64')
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3333 entries, 0 to 3332
Data columns (total 20 columns):
State                     3333 non-null object
Account length            3333 non-null int64
Area code                 3333 non-null int64
International plan        3333 non-null object
Voice mail plan           3333 non-null object
Number vmail messages     3333 non-null int64
Total day minutes         3333 non-null float64
Total day calls           3333 non-null int64
Total day charge          3333 non-null float64
Total eve minutes         3333 non-null float64
Total eve calls           3333 non-null int64
Total eve charge          3333 non-null float64
Total night minutes       3333 non-null float64
Total night calls         3333 non-null int64
Total night charge        3333 non-null float64
Total intl minutes        3333 non-null float64
Total intl calls          3333 non-null int64
Total intl charge         3333 non-null float64
Customer service calls    3333 non-null int64


Метод `describe()` выводит основные статистические характеристики данных по каждому числовому признаку (типы `int64` и `float64`): число non-NA (*None, NaN, NaT*) значений, среднее значение, СКО и квартили.

In [130]:
df.describe()

Unnamed: 0,Account length,Area code,Number vmail messages,Total day minutes,Total day calls,Total day charge,Total eve minutes,Total eve calls,Total eve charge,Total night minutes,Total night calls,Total night charge,Total intl minutes,Total intl calls,Total intl charge,Customer service calls,Churn
count,3333.0,3333.0,3333.0,3333.0,3333.0,3333.0,3333.0,3333.0,3333.0,3333.0,3333.0,3333.0,3333.0,3333.0,3333.0,3333.0,3333.0
mean,101.064806,437.182418,8.09901,179.775098,100.435644,30.562307,200.980348,100.114311,17.08354,200.872037,100.107711,9.039325,10.237294,4.479448,2.764581,1.562856,0.144914
std,39.822106,42.37129,13.688365,54.467389,20.069084,9.259435,50.713844,19.922625,4.310668,50.573847,19.568609,2.275873,2.79184,2.461214,0.753773,1.315491,0.352067
min,1.0,408.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,23.2,33.0,1.04,0.0,0.0,0.0,0.0,0.0
25%,74.0,408.0,0.0,143.7,87.0,24.43,166.6,87.0,14.16,167.0,87.0,7.52,8.5,3.0,2.3,1.0,0.0
50%,101.0,415.0,0.0,179.4,101.0,30.5,201.4,100.0,17.12,201.2,100.0,9.05,10.3,4.0,2.78,1.0,0.0
75%,127.0,510.0,20.0,216.4,114.0,36.79,235.3,114.0,20.0,235.3,113.0,10.59,12.1,6.0,3.27,2.0,0.0
max,243.0,510.0,51.0,350.8,165.0,59.64,363.7,170.0,30.91,395.0,175.0,17.77,20.0,20.0,5.4,9.0,1.0


Чтобы посмотреть статистику по нечисловым признакам, нужно явно указать интересующие нас типы в параметре `include`.

In [131]:
df.describe(include=['object', 'bool'])

Unnamed: 0,State,International plan,Voice mail plan
count,3333,3333,3333
unique,51,2,2
top,WV,No,No
freq,106,3010,2411


Метод `value_counts` возвращает количество уникальных значений (в данном случае смотрим на распределение данных по признаку `Churn`).

In [132]:
df['Churn'].value_counts()

0    2850
1     483
Name: Churn, dtype: int64

Указав значение параметра `normalize=True`, можно посмотреть относительные частоты (в данном примере смотрим на распределение пользователей по параметру `Area code`).

In [133]:
df['Area code'].value_counts(normalize=True)

415    0.496550
510    0.252025
408    0.251425
Name: Area code, dtype: float64

### Сортировка

DataFrame можно отсортировать по значению какого-нибудь из признаков (в данном примере сортировка осуществляется по признаку `Total day charge`; параметр `ascending=False` означает сортировку по убыванию).

In [134]:
df.sort_values(by='Total day charge', ascending=False)

Unnamed: 0,State,Account length,Area code,International plan,Voice mail plan,Number vmail messages,Total day minutes,Total day calls,Total day charge,Total eve minutes,Total eve calls,Total eve charge,Total night minutes,Total night calls,Total night charge,Total intl minutes,Total intl calls,Total intl charge,Customer service calls,Churn
365,CO,154,415,No,No,0,350.8,75,59.64,216.5,94,18.40,253.9,100,11.43,10.1,9,2.73,1,1
985,NY,64,415,Yes,No,0,346.8,55,58.96,249.5,79,21.21,275.4,102,12.39,13.3,9,3.59,1,1
2594,OH,115,510,Yes,No,0,345.3,81,58.70,203.4,106,17.29,217.5,107,9.79,11.8,8,3.19,1,1
156,OH,83,415,No,No,0,337.4,120,57.36,227.4,116,19.33,153.9,114,6.93,15.8,7,4.27,0,1
605,MO,112,415,No,No,0,335.5,77,57.04,212.5,109,18.06,265.0,132,11.93,12.7,8,3.43,2,1
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
1986,WI,70,415,No,No,0,7.9,100,1.34,136.4,83,11.59,156.6,89,7.05,12.1,1,3.27,0,0
2753,OH,134,415,No,No,0,7.8,86,1.33,171.4,100,14.57,186.5,80,8.39,12.9,2,3.48,2,0
2736,OK,127,510,No,Yes,27,2.6,113,0.44,254.0,102,21.59,242.7,156,10.92,9.2,5,2.48,3,0
1397,VT,101,510,No,No,0,0.0,0,0.00,192.1,119,16.33,168.8,95,7.60,7.2,4,1.94,1,0


Сортировать можно и по группе столбцов, причем для каждого столбца можно указать свой порядок сортировки. 

In [135]:
df.sort_values(by=['Churn', 'Total day charge'], ascending=[True, False]).head()

Unnamed: 0,State,Account length,Area code,International plan,Voice mail plan,Number vmail messages,Total day minutes,Total day calls,Total day charge,Total eve minutes,Total eve calls,Total eve charge,Total night minutes,Total night calls,Total night charge,Total intl minutes,Total intl calls,Total intl charge,Customer service calls,Churn
688,MN,13,510,No,Yes,21,315.6,105,53.65,208.9,71,17.76,260.1,123,11.7,12.1,3,3.27,3,0
2259,NC,210,415,No,Yes,31,313.8,87,53.35,147.7,103,12.55,192.7,97,8.67,10.1,7,2.73,3,0
534,LA,67,510,No,No,0,310.4,97,52.77,66.5,123,5.65,246.5,99,11.09,9.2,10,2.48,4,0
575,SD,114,415,No,Yes,36,309.9,90,52.68,200.3,89,17.03,183.5,105,8.26,14.2,2,3.83,1,0
2858,AL,141,510,No,Yes,28,308.0,123,52.36,247.8,128,21.06,152.9,103,6.88,7.4,3,2.0,1,0


### Индексация и извлечение данных

Для извлечения отдельного столбца можно использовать кострукцию вида `DataFrame['Name']`. 

Вопрос: **Какова доля нелояльных пользователей в нашем датафрейме?**

👇

In [136]:
df['Churn'].mean()

0.14491449144914492

**Логическая индексация** DataFrame по одному столбцу выглядит следующим образом: `df[P(df['Name'])]`, где `P(df['Name'])` – это некоторое логическое условие, проверяемое для каждого элемента столбца `Name`. Итогом такой индексации является DataFrame, состоящий только из строк, удовлетворяющих условию `P` по столбцу `Name`.

In [137]:
df[df['Churn'] == 1]

Unnamed: 0,State,Account length,Area code,International plan,Voice mail plan,Number vmail messages,Total day minutes,Total day calls,Total day charge,Total eve minutes,Total eve calls,Total eve charge,Total night minutes,Total night calls,Total night charge,Total intl minutes,Total intl calls,Total intl charge,Customer service calls,Churn
10,IN,65,415,No,No,0,129.1,137,21.95,228.5,83,19.42,208.8,111,9.40,12.7,6,3.43,4,1
15,NY,161,415,No,No,0,332.9,67,56.59,317.8,97,27.01,160.6,128,7.23,5.4,9,1.46,4,1
21,CO,77,408,No,No,0,62.4,89,10.61,169.9,121,14.44,209.6,64,9.43,5.7,6,1.54,5,1
33,AZ,12,408,No,No,0,249.6,118,42.43,252.4,119,21.45,280.2,90,12.61,11.8,3,3.19,1,1
41,MD,135,408,Yes,Yes,41,173.1,85,29.43,203.9,107,17.33,122.2,78,5.50,14.6,15,3.94,0,1
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
3301,CA,84,415,No,No,0,280.0,113,47.60,202.2,90,17.19,156.8,103,7.06,10.4,4,2.81,0,1
3304,IL,71,510,Yes,No,0,186.1,114,31.64,198.6,140,16.88,206.5,80,9.29,13.8,5,3.73,4,1
3320,GA,122,510,Yes,No,0,140.0,101,23.80,196.4,77,16.69,120.1,133,5.40,9.7,4,2.62,4,1
3322,MD,62,408,No,No,0,321.1,105,54.59,265.5,122,22.57,180.5,72,8.12,11.5,2,3.11,4,1


Вопрос: **Каковы средние значения числовых признаков среди нелояльных пользователей?**

👇

In [138]:
df[df['Churn'] == 1].mean()

Account length            102.664596
Area code                 437.817805
Number vmail messages       5.115942
Total day minutes         206.914079
Total day calls           101.335404
Total day charge           35.175921
Total eve minutes         212.410145
Total eve calls           100.561077
Total eve charge           18.054969
Total night minutes       205.231677
Total night calls         100.399586
Total night charge          9.235528
Total intl minutes         10.700000
Total intl calls            4.163561
Total intl charge           2.889545
Customer service calls      2.229814
Churn                       1.000000
dtype: float64

Скомбинировав предыдущие два вида индексации, ответим на вопрос: **Сколько в среднем в течение дня разговаривают по телефону нелояльные пользователи?**

👇

In [139]:
df[df['Churn'] == 1]['Total day minutes'].mean()

206.91407867494814

Вопрос: **Какова максимальная длина международных звонков среди лояльных пользователей, не пользующихся услугой международного роуминга?**

👇

In [140]:
df[(df['Churn'] == 0) & (df['International plan'] == 'No')]['Total intl minutes'].max()

18.9

DataFrame можно индексировать как по названию столбца или строки, так и по порядковому номеру. 

Для индексации **по названию** используется метод `loc`. В этом случае мы говорим "*передай нам значения для строк с id от 5 до 15 и для столбцов от State до Voice mail plan*".

In [141]:
df.loc[5:15, 'State':'Voice mail plan']

Unnamed: 0,State,Account length,Area code,International plan,Voice mail plan
5,AL,118,510,Yes,No
6,MA,121,510,No,Yes
7,MO,147,415,Yes,No
8,LA,117,408,No,No
9,WV,141,415,Yes,Yes
10,IN,65,415,No,No
11,RI,74,415,No,No
12,IA,168,408,No,No
13,MT,95,510,No,No
14,IA,62,415,No,No


Для индексации **по номеру** используется метод `iloc`. В этом случае мы говорим "*передай нам значения строк с 5 до 15 первых пяти столбцов*".

In [142]:
df.iloc[5:15, 0:5]

Unnamed: 0,State,Account length,Area code,International plan,Voice mail plan
5,AL,118,510,Yes,No
6,MA,121,510,No,Yes
7,MO,147,415,Yes,No
8,LA,117,408,No,No
9,WV,141,415,Yes,Yes
10,IN,65,415,No,No
11,RI,74,415,No,No
12,IA,168,408,No,No
13,MT,95,510,No,No
14,IA,62,415,No,No


Если нам нужна первая строчка DataFrame, используем конструкцию `df[:1]` (аналогично срезам для списков и строк).

In [143]:
df[:1]

Unnamed: 0,State,Account length,Area code,International plan,Voice mail plan,Number vmail messages,Total day minutes,Total day calls,Total day charge,Total eve minutes,Total eve calls,Total eve charge,Total night minutes,Total night calls,Total night charge,Total intl minutes,Total intl calls,Total intl charge,Customer service calls,Churn
0,KS,128,415,No,Yes,25,265.1,110,45.07,197.4,99,16.78,244.7,91,11.01,10.0,3,2.7,1,0


Если нам нужна последняя строчка DataFrame, используем конструкцию `df[-1:]` (также аналогично срезам для списков и строк).

In [144]:
df[-1:]

Unnamed: 0,State,Account length,Area code,International plan,Voice mail plan,Number vmail messages,Total day minutes,Total day calls,Total day charge,Total eve minutes,Total eve calls,Total eve charge,Total night minutes,Total night calls,Total night charge,Total intl minutes,Total intl calls,Total intl charge,Customer service calls,Churn
3332,TN,74,415,No,Yes,25,234.4,113,39.85,265.9,82,22.6,241.4,77,10.86,13.7,4,3.7,0,0


### Применение функций к ячейкам, столбцам и строкам

**Применение функции к каждому столбцу: `apply()`**

К каждому столбцу применяется функция `max` из библиотеки `NumPy` для определения максимального элемента в столбце. Метод `apply()` можно использовать и для того, чтобы применить функцию к каждой строке. Для этого нужно указать параметр `axis=1` – `df.apply(np.max, axis=1)`.

In [145]:
df.apply(np.max)

State                        WY
Account length              243
Area code                   510
International plan          Yes
Voice mail plan             Yes
Number vmail messages        51
Total day minutes         350.8
Total day calls             165
Total day charge          59.64
Total eve minutes         363.7
Total eve calls             170
Total eve charge          30.91
Total night minutes         395
Total night calls           175
Total night charge        17.77
Total intl minutes           20
Total intl calls             20
Total intl charge           5.4
Customer service calls        9
Churn                         1
dtype: object

**Применение функции к каждой ячейке столбца: `map()`**

Метод `map()` можно использовать для **замены значений в колонке**, передав ему в качестве аргумента словарь вида `{old_value: new_value}`.

In [146]:
d = {'No': False, 'Yes': True}
df['International plan'] = df['International plan'].map(d)
df.head()

Unnamed: 0,State,Account length,Area code,International plan,Voice mail plan,Number vmail messages,Total day minutes,Total day calls,Total day charge,Total eve minutes,Total eve calls,Total eve charge,Total night minutes,Total night calls,Total night charge,Total intl minutes,Total intl calls,Total intl charge,Customer service calls,Churn
0,KS,128,415,False,Yes,25,265.1,110,45.07,197.4,99,16.78,244.7,91,11.01,10.0,3,2.7,1,0
1,OH,107,415,False,Yes,26,161.6,123,27.47,195.5,103,16.62,254.4,103,11.45,13.7,3,3.7,1,0
2,NJ,137,415,False,No,0,243.4,114,41.38,121.2,110,10.3,162.6,104,7.32,12.2,5,3.29,0,0
3,OH,84,408,True,No,0,299.4,71,50.9,61.9,88,5.26,196.9,89,8.86,6.6,7,1.78,2,0
4,OK,75,415,True,No,0,166.7,113,28.34,148.3,122,12.61,186.9,121,8.41,10.1,3,2.73,3,0


Аналогичную операцию можно провернуть с помощью метода `replace`.

In [147]:
df = df.replace({'Voice mail plan': d})
df.head()

Unnamed: 0,State,Account length,Area code,International plan,Voice mail plan,Number vmail messages,Total day minutes,Total day calls,Total day charge,Total eve minutes,Total eve calls,Total eve charge,Total night minutes,Total night calls,Total night charge,Total intl minutes,Total intl calls,Total intl charge,Customer service calls,Churn
0,KS,128,415,False,True,25,265.1,110,45.07,197.4,99,16.78,244.7,91,11.01,10.0,3,2.7,1,0
1,OH,107,415,False,True,26,161.6,123,27.47,195.5,103,16.62,254.4,103,11.45,13.7,3,3.7,1,0
2,NJ,137,415,False,False,0,243.4,114,41.38,121.2,110,10.3,162.6,104,7.32,12.2,5,3.29,0,0
3,OH,84,408,True,False,0,299.4,71,50.9,61.9,88,5.26,196.9,89,8.86,6.6,7,1.78,2,0
4,OK,75,415,True,False,0,166.7,113,28.34,148.3,122,12.61,186.9,121,8.41,10.1,3,2.73,3,0


### Группировка данных

В общем случае группировка данных в Pandas выглядит следующим образом:

`df.groupby(by=grouping_columns)[columns_to_show].function()`

1. К датафрейму применяется метод `groupby`, который разделяет данные по `grouping_columns` – признаку или набору признаков.

2. Выбираются нужные столбцы (`columns_to_show`).

3. К полученным группам применяется функция или несколько функций.

**Группирование данных в зависимости от значения признака `Churn` и вывод статистик по трём столбцам в каждой группе.**

In [151]:
columns_to_show = ['Total day minutes', 
                   'Total eve minutes', 
                   'Total night minutes']

df.groupby(['Churn'])[columns_to_show].describe(percentiles=[])

Unnamed: 0_level_0,Total day minutes,Total day minutes,Total day minutes,Total day minutes,Total day minutes,Total day minutes,Total eve minutes,Total eve minutes,Total eve minutes,Total eve minutes,Total eve minutes,Total eve minutes,Total night minutes,Total night minutes,Total night minutes,Total night minutes,Total night minutes,Total night minutes
Unnamed: 0_level_1,count,mean,std,min,50%,max,count,mean,std,min,50%,max,count,mean,std,min,50%,max
Churn,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2,Unnamed: 8_level_2,Unnamed: 9_level_2,Unnamed: 10_level_2,Unnamed: 11_level_2,Unnamed: 12_level_2,Unnamed: 13_level_2,Unnamed: 14_level_2,Unnamed: 15_level_2,Unnamed: 16_level_2,Unnamed: 17_level_2,Unnamed: 18_level_2
0,2850.0,175.175754,50.181655,0.0,177.2,315.6,2850.0,199.043298,50.292175,0.0,199.6,361.8,2850.0,200.133193,51.105032,23.2,200.25,395.0
1,483.0,206.914079,68.997792,0.0,217.6,350.8,483.0,212.410145,51.72891,70.9,211.3,363.7,483.0,205.231677,47.132825,47.4,204.8,354.9


То же самое можно сделать, передав в функцию `agg()` (одним из аргументов принимает одну или несколько функций, которые нужно применить к заданной абсциссе) список функций.

In [152]:
df.groupby(['Churn'])[columns_to_show].agg([np.mean, np.std, np.min, np.max])

Unnamed: 0_level_0,Total day minutes,Total day minutes,Total day minutes,Total day minutes,Total eve minutes,Total eve minutes,Total eve minutes,Total eve minutes,Total night minutes,Total night minutes,Total night minutes,Total night minutes
Unnamed: 0_level_1,mean,std,amin,amax,mean,std,amin,amax,mean,std,amin,amax
Churn,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2,Unnamed: 8_level_2,Unnamed: 9_level_2,Unnamed: 10_level_2,Unnamed: 11_level_2,Unnamed: 12_level_2
0,175.175754,50.181655,0.0,315.6,199.043298,50.292175,0.0,361.8,200.133193,51.105032,23.2,395.0
1,206.914079,68.997792,0.0,350.8,212.410145,51.72891,70.9,363.7,205.231677,47.132825,47.4,354.9
