## Объектно-ориентированное программирование и информационная безопасность

*Валерий Семенов, Самарский университет*  
<h1 style="text-align:center">Библиотека <strong>pandas</strong></h1>

<div style="text-align:center"><img src="pandas.gif"></div>

<h3 style="text-align:center">Индексирование и извлечение данных</h3>

<div style="text-indent:30px; text-align:justify"><strong>DataFrame</strong> можно индексировать несколькими способами. Рассмотрим различные способы индексации и извлечения нужных нам данных из датафрейма на примере простых запросов.</div>
<div style="text-indent:30px; text-align:justify; margin-top:20px">Воспользуемся примером из прошлой лекции:</div>

In [2]:
import numpy as np
import pandas as pd
df = pd.read_csv("http://vshot.ru/ssau/files/ooap/telecom_churn.csv")  # Чтение датасета
df["Churn"] = df["Churn"].astype("int64")                              # Преобразование логического признака в числовой

<div style="text-indent:30px; text-align:justify">Для извлечения отдельного столбца можно использовать конструкцию вида <strong>DataFrame['Name']</strong>. Воспользуемся этим для ответа на вопрос: какова доля нелояльных пользователей в нашем датафрейме?</div>

In [4]:
df["Churn"].mean()

0.14491449144914492

<div style="text-indent:30px; text-align:justify">14,5% — довольно плохой показатель для компании, с таким процентом оттока можно и разориться.</div>

<div style="text-indent:30px; text-align:justify">Очень удобной является логическая индексация <strong>DataFrame</strong> по одному столбцу. </div>
<div style="text-indent:30px; text-align:justify; margin-top:20px">Выглядит она следующим образом: </div>
<div style="text-indent:60px; text-align:justify"><strong>df[P(df['Name'])]</strong></div>
<div style="text-indent:80px; text-align:justify">где <strong>P</strong> - это некоторое логическое условие, проверяемое для каждого элемента столбца <strong>Name</strong>. </div>

<div style="text-indent:30px; text-align:justify; margin-top:20px">Итогом такой индексации является <strong>DataFrame</strong>, состоящий только из строк, удовлетворяющих условию <strong>P</strong> по столбцу <strong>Name</strong>.</div>

<div style="text-indent:30px; text-align:justify; margin-top:20px">Воспользуемся этим для ответа на вопрос: <strong>каковы средние значения числовых признаков среди нелояльных пользователей?</strong></div>

In [6]:
#df[df['Churn'] == 1].mean()  # Такая инструкция теперь приводит к ошибке

df.select_dtypes(include="number")[df["Churn"] == 1].mean()

Account length            102.664596
Area code                 437.817805
Number vmail messages       5.115942
Total day minutes         206.914079
Total day calls           101.335404
Total day charge           35.175921
Total eve minutes         212.410145
Total eve calls           100.561077
Total eve charge           18.054969
Total night minutes       205.231677
Total night calls         100.399586
Total night charge          9.235528
Total intl minutes         10.700000
Total intl calls            4.163561
Total intl charge           2.889545
Customer service calls      2.229814
Churn                       1.000000
dtype: float64

<div style="text-indent:30px; text-align:justify">Здесь мы используем дополнительный метод <strong>select_dtypes()</strong> для выбора всех числовых столбцов.</div>

<div style="text-indent:30px; text-align:justify; margin-top:20px">Скомбинировав предыдущие два вида индексации, ответим на вопрос: <strong>сколько в среднем в течение дня разговаривают по телефону нелояльные пользователи?</strong></div>

In [9]:
df[df["Churn"] == 1]["Total day minutes"].mean()

206.91407867494823

<div style="text-indent:30px; text-align:justify"><strong>Какова максимальная длина международных звонков среди лояльных пользователей (Churn == 0), не пользующихся услугой международного роуминга ('International plan' == 'No')?</strong></div>

In [11]:
df[(df["Churn"] == 0) & (df["International plan"] == "No")]["Total intl minutes"].max()

18.9

<div style="text-indent:30px; text-align:justify">Датафреймы можно индексировать как по названию столбца или строки, так и по порядковому номеру. </div>
<div style="text-indent:30px; text-align:justify">Для индексации по названию используется метод <strong>loc</strong>, по номеру — <strong>iloc</strong>.</div>

<div style="text-indent:30px; text-align:justify">В первом случае мы говорим <i>«передай нам значения для id строк от 0 до 5 и для столбцов от <strong>State</strong> до <strong>Area code</strong>»</i>, а во втором — <i>«передай нам значения первых пяти строк в первых трех столбцах»</i>.</div>

<div style="text-indent:30px; text-align:justify; margin-top:20px">В случае <strong>iloc</strong> срез работает как обычно, однако в случае <strong>loc</strong> учитываются и начало, и конец среза. Да, неудобно, да, вызывает путаницу.</div>

In [13]:
df.loc[0:5, "State":"Area code"]

Unnamed: 0,State,Account length,Area code
0,KS,128,415
1,OH,107,415
2,NJ,137,415
3,OH,84,408
4,OK,75,415
5,AL,118,510


In [14]:
df.iloc[0:5, 0:3]

Unnamed: 0,State,Account length,Area code
0,KS,128,415
1,OH,107,415
2,NJ,137,415
3,OH,84,408
4,OK,75,415


<div style="text-indent:30px; text-align:justify">Метод <strong>ix</strong> индексирует и по названию, и по номеру, но он вызывает путаницу, и поэтому был объявлен устаревшим (<i>deprecated</i>).</div>

<div style="text-indent:30px; text-align:justify; margin-top:20px">Если нам нужна первая или последняя строчка датафрейма, пользуемся конструкцией <strong>df[:1]</strong> или <strong>df[-1:]</strong>:</div>

In [16]:
df[:1]

Unnamed: 0,State,Account length,Area code,International plan,Voice mail plan,Number vmail messages,Total day minutes,Total day calls,Total day charge,Total eve minutes,Total eve calls,Total eve charge,Total night minutes,Total night calls,Total night charge,Total intl minutes,Total intl calls,Total intl charge,Customer service calls,Churn
0,KS,128,415,No,Yes,25,265.1,110,45.07,197.4,99,16.78,244.7,91,11.01,10.0,3,2.7,1,0


In [17]:
df[-1:]

Unnamed: 0,State,Account length,Area code,International plan,Voice mail plan,Number vmail messages,Total day minutes,Total day calls,Total day charge,Total eve minutes,Total eve calls,Total eve charge,Total night minutes,Total night calls,Total night charge,Total intl minutes,Total intl calls,Total intl charge,Customer service calls,Churn
3332,TN,74,415,No,Yes,25,234.4,113,39.85,265.9,82,22.6,241.4,77,10.86,13.7,4,3.7,0,0


<h3 style="text-align:center">Применение функций к ячейкам, столбцам и строкам</h3>
<h4 style="text-align:center">Применение функции к каждому столбцу:</h4>

In [19]:
df.apply(np.max)

State                        WY
Account length              243
Area code                   510
International plan          Yes
Voice mail plan             Yes
Number vmail messages        51
Total day minutes         350.8
Total day calls             165
Total day charge          59.64
Total eve minutes         363.7
Total eve calls             170
Total eve charge          30.91
Total night minutes       395.0
Total night calls           175
Total night charge        17.77
Total intl minutes         20.0
Total intl calls             20
Total intl charge           5.4
Customer service calls        9
Churn                         1
dtype: object

<div style="text-indent:30px; text-align:justify">Метод <strong>apply()</strong> также можно использовать для применения функции к каждой строке. Для этого укажите <strong>axis=1</strong>. Лямбда-функции очень удобны в таких сценариях. </div>

<h4 style="text-align:center">Применение функции к каждой ячейке столбца</h4>

<div style="text-indent:30px; text-align:justify; margin-top:20px">Допустим, по какой-то причине нас интересуют все люди из штатов, названия которых начинаются на '<strong>W</strong>'. В данному случае это можно сделать по-разному, но наибольшую свободу дает связка метода <strong>apply()</strong> с <a href="https://pythonru.com/osnovy/ljambda-funkcii-i-anonimnye-funkcii-v-python"><strong>лямбда-функцией</strong></a> (применение функции ко всем значениям в столбце):</div>

In [21]:
df[df["State"].apply(lambda state: state[0] == "W")].head()

Unnamed: 0,State,Account length,Area code,International plan,Voice mail plan,Number vmail messages,Total day minutes,Total day calls,Total day charge,Total eve minutes,Total eve calls,Total eve charge,Total night minutes,Total night calls,Total night charge,Total intl minutes,Total intl calls,Total intl charge,Customer service calls,Churn
9,WV,141,415,Yes,Yes,37,258.6,84,43.96,222.0,111,18.87,326.4,97,14.69,11.2,5,3.02,0,0
26,WY,57,408,No,Yes,39,213.0,115,36.21,191.1,112,16.24,182.7,115,8.22,9.5,3,2.57,0,0
44,WI,64,510,No,No,0,154.0,67,26.18,225.8,118,19.19,265.3,86,11.94,3.5,3,0.95,1,0
49,WY,97,415,No,Yes,24,133.2,135,22.64,217.2,58,18.46,70.6,79,3.18,11.0,3,2.97,1,0
54,WY,87,415,No,No,0,151.0,83,25.67,219.7,116,18.67,203.9,127,9.18,9.7,3,2.62,5,1


<div style="text-indent:30px; text-align:justify"><a href="https://pythonist.ru/funkcziya-map-v-python">Метод <strong>map()</strong></a>  можно использовать для замены значений в колонке, передав ему в качестве аргумента словарь вида <strong>{old_value: new_value}</strong>:</div>

In [23]:
d = {"No": False, "Yes": True}
df["International plan"] = df["International plan"].map(d)
df.head()

Unnamed: 0,State,Account length,Area code,International plan,Voice mail plan,Number vmail messages,Total day minutes,Total day calls,Total day charge,Total eve minutes,Total eve calls,Total eve charge,Total night minutes,Total night calls,Total night charge,Total intl minutes,Total intl calls,Total intl charge,Customer service calls,Churn
0,KS,128,415,False,Yes,25,265.1,110,45.07,197.4,99,16.78,244.7,91,11.01,10.0,3,2.7,1,0
1,OH,107,415,False,Yes,26,161.6,123,27.47,195.5,103,16.62,254.4,103,11.45,13.7,3,3.7,1,0
2,NJ,137,415,False,No,0,243.4,114,41.38,121.2,110,10.3,162.6,104,7.32,12.2,5,3.29,0,0
3,OH,84,408,True,No,0,299.4,71,50.9,61.9,88,5.26,196.9,89,8.86,6.6,7,1.78,2,0
4,OK,75,415,True,No,0,166.7,113,28.34,148.3,122,12.61,186.9,121,8.41,10.1,3,2.73,3,0


<div style="text-indent:30px; text-align:justify">Значения, которых нет в словаре сопоставления, метод <strong>map()</strong> изменит на NaN.</div>

<h4 style="text-align:center">Группировка данных</h4>

<div style="text-indent:30px; text-align:justify">В общем случае группировка данных в Pandas выглядит следующим образом:</div>
<div style="text-indent:70px; text-align:justify"><strong>df.groupby(by=grouping_columns)[columns_to_show].function()</strong></div>

<div style=" margin-left:100px">
<li style="text-align:justify">К датафрейму применяется метод <strong>groupby()</strong>, который разделяет данные по <strong>grouping_columns</strong> – признаку или набору признаков; </li> 
<li style="text-align:justify">Индексируем по нужным нам столбцам (<strong>columns_to_show</strong>);</li>
<li style="text-align:justify">К полученным группам применяется функция или несколько функций.</li>    
</div>
<div style="text-indent:30px; text-align:justify; margin-top:20px">Группирование данных в зависимости от значения признака <strong>Churn</strong> и вывод статистик по трем столбцам в каждой группе:</div>

In [25]:
columns_to_show = ["Total day minutes", "Total eve minutes", "Total night minutes"]
df.groupby(["Churn"])[columns_to_show].describe(percentiles=[])

Unnamed: 0_level_0,Total day minutes,Total day minutes,Total day minutes,Total day minutes,Total day minutes,Total day minutes,Total eve minutes,Total eve minutes,Total eve minutes,Total eve minutes,Total eve minutes,Total eve minutes,Total night minutes,Total night minutes,Total night minutes,Total night minutes,Total night minutes,Total night minutes
Unnamed: 0_level_1,count,mean,std,min,50%,max,count,mean,std,min,50%,max,count,mean,std,min,50%,max
Churn,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2,Unnamed: 8_level_2,Unnamed: 9_level_2,Unnamed: 10_level_2,Unnamed: 11_level_2,Unnamed: 12_level_2,Unnamed: 13_level_2,Unnamed: 14_level_2,Unnamed: 15_level_2,Unnamed: 16_level_2,Unnamed: 17_level_2,Unnamed: 18_level_2
0,2850.0,175.175754,50.181655,0.0,177.2,315.6,2850.0,199.043298,50.292175,0.0,199.6,361.8,2850.0,200.133193,51.105032,23.2,200.25,395.0
1,483.0,206.914079,68.997792,0.0,217.6,350.8,483.0,212.410145,51.72891,70.9,211.3,363.7,483.0,205.231677,47.132825,47.4,204.8,354.9


<div style="text-indent:30px; text-align:justify">Сделаем то же самое, но немного по-другому, передав в метод агрегации <strong>agg()</strong> названия функций:

In [27]:
columns_to_show = ["Total day minutes", "Total eve minutes", "Total night minutes"]
df.groupby(["Churn"])[columns_to_show].agg("mean", "std", "min", "max")

Unnamed: 0_level_0,Total day minutes,Total eve minutes,Total night minutes
Churn,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
0,175.175754,199.043298,200.133193
1,206.914079,212.410145,205.231677


<h4 style="text-align:center">Перекрестные таблицы</h4>

<div style="text-indent:30px; text-align:justify">Одним из наиболее полезных инструментов для анализа данных в Pandas является метод перекрестной табуляции (таблица сопряженности) <strong>crosstab()</strong>. Он позволяет рассчитать таблицу частот двух и более групп данных, которые суммируют разбросанные в данных значения и позволяют выявить между ними связь. </div> 
<div style="text-indent:30px; text-align:justify; margin-top:20px">Вот простой пример с набором данных о студентах, содержащей пол, уровень образования и результаты теста:</div>

In [29]:
# Набор данных
data = pd.DataFrame({
    'Пол': ['male', 'male', 'female', 'female', 'male', 'female', 'male', 'female'],
    'Образование': ['high school', 'college', 'college', 'graduate', 'high school', 'graduate', 'college', 'graduate'],
    'Тест': [75, 82, 88, 95, 69, 92, 78, 85]
})
data

Unnamed: 0,Пол,Образование,Тест
0,male,high school,75
1,male,college,82
2,female,college,88
3,female,graduate,95
4,male,high school,69
5,female,graduate,92
6,male,college,78
7,female,graduate,85


In [30]:
# Создаем перекрестную таблицу по полу и уровню образования
pd.crosstab(data['Пол'], data['Образование'])

Образование,college,graduate,high school
Пол,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
female,1,3,0
male,2,0,2


<div style="text-indent:30px; text-align:justify">В этом примере мы создали перекрестную таблицу по полу и уровню образования, передав столбец <strong>Пол</strong> в качестве индекса, а столбец <strong>Образование</strong> как столбцы метода <strong>crosstab()</strong>. Функция подсчитывает число вхождений каждой комбинации значений и возвращает таблицу, которая суммирует распределение студентов по полу и уровню образования.</div>

<div style="text-indent:30px; text-align:justify; margin-top:20px">Помимо подсчета числа вхождений каждой комбинации значений, метод <strong>crosstab()</strong> может выполнять другие агрегации значений в таблице. Например, можно вычислить средний балл за тест для студентов в каждой комбинации пол - уровень образования:</div>

In [32]:
# Перекрестная таблица по полу и уровню образования со средним баллом
pd.crosstab(data['Пол'], data['Образование'], values = data['Тест'], aggfunc='mean')

Образование,college,graduate,high school
Пол,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
female,88.0,90.666667,
male,80.0,,72.0


<div style="text-indent:30px; text-align:justify">В этом примере мы добавили параметр <strong>values</strong> в функцию <strong>crosstab()</strong> для столбца <strong>Тест</strong>. Также добавили параметр <strong>aggfunc</strong> со значением <strong>'mean'</strong>, который подсчитывает средний балл студентов в каждой комбинации пол - уровень образования.


<div style="text-indent:30px; text-align:justify">Вернемся к нашему набору данных некоторого телефонного оператора. Предположим, мы хотим увидеть, как наблюдения в нашем наборе данных распределены в контексте двух признаков – <strong>Churn</strong> и <strong>International plan</strong>. </div>
<div style="text-indent:30px; text-align:justify; margin-top:20px">Для этого мы можем построить перекрестную таблицу, используя метод <strong>crosstab()</strong>:</div>

In [35]:
pd.crosstab(df["Churn"], df["International plan"])

International plan,False,True
Churn,Unnamed: 1_level_1,Unnamed: 2_level_1
0,2664,186
1,346,137


<div style="text-indent:30px; text-align:justify; margin-top:20px">Используем относительные значения вместо абсолютных:</div>

In [37]:
pd.crosstab(df["Churn"], df["Voice mail plan"], normalize=True)

Voice mail plan,No,Yes
Churn,Unnamed: 1_level_1,Unnamed: 2_level_1
0,0.60246,0.252625
1,0.120912,0.024002


<div style="text-indent:30px; text-align:justify">Мы видим, что большинство пользователей лояльны и не пользуются дополнительными услугами (международный тариф и голосовая почта).</div>
<div style="text-indent:30px; text-align:justify; margin-top:20px">Тем, кто знаком с Excel это может напомнить сводные таблицы. И, конечно же, сводные таблицы также реализованы в Pandas.</div>

<h4 style="text-align:center">Сводные таблицы</h4>

<div style="text-indent:30px; text-align:justify">Сводная таблица - это мощный инструмент для обобщения и представления данных.</div>
<div style="text-indent:30px; text-align:justify">Для преобразования DataFrame в сводную таблицу в стиле электронных таблиц Excel, используется метод <strong>pivot_table()</strong>.</div>

Параметры функции:

<div style=" margin-left:50px">
<li style="text-align:justify"><strong>values</strong> – аггригируемый столбец, его значения непосредственно определяют значения сводной таблицы;</li> 
<li style="text-align:justify"><strong>index</strong> – ключи для группировки, формируют индексы сводной таблицы;</li> 
<li style="text-align:justify"><strong>columns</strong> – ключи для группировки, формируют столбцы сводной таблицы;
<li style="text-align:justify"><strong>aggfunc</strong> – функция, которая будет применена к каждой группе значений <strong>values</strong>, сгруппированным по значениям <strong>index</strong> и <strong>columns</strong>. Результат вычисления по этой функции и есть значения сводной таблицы. Если передается список функций, то сводная таблица имеет иерархические имена колонок, верхние значения которых — имена функций.</li>     
</div>

<div style="text-indent:30px; text-align:justify; margin-top:20px">Давайте посмотрим на среднее количество дневных, вечерних и ночных звонков по кодам городов:</div>

In [39]:
df.pivot_table(
    values=["Total day calls", "Total eve calls", "Total night calls"],
    index="Area code",
    aggfunc=["mean","max","min"]
)

Unnamed: 0_level_0,mean,mean,mean,max,max,max,min,min,min
Unnamed: 0_level_1,Total day calls,Total eve calls,Total night calls,Total day calls,Total eve calls,Total night calls,Total day calls,Total eve calls,Total night calls
Area code,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2,Unnamed: 8_level_2,Unnamed: 9_level_2
408,100.49642,99.788783,99.039379,158,155,155,30,36,42
415,100.576435,100.503927,100.398187,165,170,175,0,0,33
510,100.097619,99.671429,100.60119,158,152,158,0,42,48


In [40]:
df.pivot_table(
    values=["Total day calls", "Total eve calls", "Total night calls"],
    index=["Area code"],
    aggfunc="mean",
)

Unnamed: 0_level_0,Total day calls,Total eve calls,Total night calls
Area code,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
408,100.49642,99.788783,99.039379
415,100.576435,100.503927,100.398187
510,100.097619,99.671429,100.60119
