## Объектно-ориентированное программирование и информационная безопасность

*Валерий Семенов, Самарский университет*  
<h1 style="text-align:center">Библиотека <strong>pandas</strong></h1>

<div style="text-align:center"><img src="pandas.gif"></div>

<div style="text-indent:30px; text-align:justify"><strong>Pandas</strong> – это программная библиотека, написанная на Python. Она активно применяется в <a href="https://education.yandex.ru/journal/chem-zanimaetsya-spetsialist-po-data-science-i-kak-nachat-rabotat-v-etoy-oblasti"><strong>Data Science</strong></a>, машинном обучении, научных вычислениях и многих других областях, связанных с активным использованием данных.</div>
<div style="text-indent:30px; text-align:justify">Каковы преимущества? Хорошие показатели скорости, интуитивно понятный интерфейс, интеграция с другими библиотеками для расширения функционала – все это делает <strong>Pandas</strong> одной из лучших программ для работы с данными.</div>
<div style="text-indent:30px; text-align:justify">Название библиотеки образовано сочетанием двух слов – <strong>PAN</strong>el <strong>DA</strong>ta. Она используется для анализа структурированных данных, размещенных в таблицах (панелях). Рandas упрощает анализ информации, тестирование приложений и другие действия, предоставляя разработчику готовые алгоритмы.</div>
<div style="text-indent:30px; text-align:justify">В связке с библиотеками <strong>Matplotlib</strong> и <strong>Seaborn</strong> появляется возможность удобного визуального анализа табличных данных.</div>

In [2]:
import numpy as np
import pandas as pd

<div style="text-indent:30px; text-align:justify">Данные, с которыми работают дата саентисты и аналитики, обычно хранятся в виде табличек — например, в форматах <strong>.csv</strong>, <strong>.tsv</strong> или <strong>.xlsx</strong>. Библиотека отлично подходит для считывания данных из таких файлов.</div>
<div style="text-indent:30px; text-align:justify">Основными структурами данных в Pandas являются классы <strong>Series</strong> и <strong>DataFrame</strong>.</div>

<h2 style="text-align:center">Тип данных <strong>Series</strong></h2>

<div style="text-indent:30px; text-align:justify"><strong>Series</strong> – Одномерный набор данных. Это объект, по виду напоминающий одномерный массив. В него могут входить любые типы данных. Как правило, представляет собой столбец таблицы с последовательностями тех или иных значений, каждое из которых наделено индексом – номером строки.</div>
<div style="text-indent:30px; text-align:justify">Часто при работе с большими наборами данных, особенно теми, которые были получены из внешних источников, могут возникать проблемы с пропущенными или недоступными данными. Такие данные обычно представлены значением <strong>NaN</strong> (<i>Not a Number</i>).</div>
<div style="text-indent:30px; text-align:justify">Отсутствующий данные записываются как <strong>np.nan</strong>. Например, в какой-то день термометр сломался или метеоролог был пьян. При вычислении среднего и других операций соответствующие функции не учитывают отсутствующие значения.</div>

In [5]:
t = [1, 3, 5, np.nan, 6, 8]  # Список
s = pd.Series(t)             # Объект Series
s

0    1.0
1    3.0
2    5.0
3    NaN
4    6.0
5    8.0
dtype: float64

<div style="text-indent:30px; text-align:justify"><strong>Полезно знать:</strong> Для поиска пропусков есть специальный метод <strong>.isna()</strong>. Он эквивалентен конструкции <strong>s != s</strong>.</div>

In [7]:
s.isna()

0    False
1    False
2    False
3     True
4    False
5    False
dtype: bool

<div style="text-indent:30px; text-align:justify">Метод <strong>describe()</strong> обеспечивает краткий обзор числовых данных (количество записей, среднее, стандартное отклонение, минимум, нижний квартиль, медиана, верхний квартиль, максимум, а так же тип данных).</div>

In [9]:
s.describe()

count    5.000000
mean     4.600000
std      2.701851
min      1.000000
25%      3.000000
50%      5.000000
75%      6.000000
max      8.000000
dtype: float64

<div style="text-indent:30px; text-align:justify">В данном примере используется обычная индексация.</div>

In [11]:
s[2]

5.0

In [12]:
s[2] = 7
s

0    1.0
1    3.0
2    7.0
3    NaN
4    6.0
5    8.0
dtype: float64

In [13]:
s[2:5]

2    7.0
3    NaN
4    6.0
dtype: float64

<div style="text-indent:30px; text-align:justify">При создании набора данных <strong>s</strong> мы не указали, что будет играть роль индекса. По умолчанию это последовательность неотрицательных целых чисел 0, 1, 2, ...</div>

In [15]:
s.index

RangeIndex(start=0, stop=6, step=1)

<div style="text-indent:30px; text-align:justify">Но можно создавать наборы данных с индексом, заданным списком.</div>

In [17]:
i = list('abcdef')  # Список для индексов
i

['a', 'b', 'c', 'd', 'e', 'f']

In [18]:
s = pd.Series(t, index=i)   # Объект Series с индексами из списка t
s

a    1.0
b    3.0
c    5.0
d    NaN
e    6.0
f    8.0
dtype: float64

In [19]:
s['c']

5.0

<div style="text-indent:30px; text-align:justify">Если индекс — строка, то вместо <strong>s['c']</strong> можно писать <strong>s.c</strong>:</div>

In [21]:
s.c

5.0

<div style="text-indent:30px; text-align:justify">Набор данных можно создать из словаря:</div>

In [23]:
s = pd.Series({'a':1, 'b':2, 'c':0})
s

a    1
b    2
c    0
dtype: int64

<div style="text-indent:30px; text-align:justify">Можно отсортировать набор данных:</div>

In [25]:
s.sort_values()

c    0
a    1
b    2
dtype: int64

In [26]:
s.sort_index()

a    1
b    2
c    0
dtype: int64

<div style="text-indent:30px; text-align:justify">Роль индекса может играть, скажем, последовательность дат или времен измерения и т.д.:</div>

In [28]:
d = pd.date_range('20240101', periods=10)
d

DatetimeIndex(['2024-01-01', '2024-01-02', '2024-01-03', '2024-01-04',
               '2024-01-05', '2024-01-06', '2024-01-07', '2024-01-08',
               '2024-01-09', '2024-01-10'],
              dtype='datetime64[ns]', freq='D')

In [29]:
s = pd.Series(np.random.normal(size=10), index=d)
s

2024-01-01    0.106628
2024-01-02    0.419115
2024-01-03   -0.450156
2024-01-04    1.004891
2024-01-05   -0.780152
2024-01-06    1.007296
2024-01-07   -0.382520
2024-01-08   -1.117148
2024-01-09    0.392589
2024-01-10   -2.427363
Freq: D, dtype: float64

<div style="text-indent:30px; text-align:justify">Операции сравнения возвращают наборы булевых данных:</div>

In [31]:
s > 0

2024-01-01     True
2024-01-02     True
2024-01-03    False
2024-01-04     True
2024-01-05    False
2024-01-06     True
2024-01-07    False
2024-01-08    False
2024-01-09     True
2024-01-10    False
Freq: D, dtype: bool

<div style="text-indent:30px; text-align:justify">Если такой булев набор использовать для индексации, получится поднабор только из тех данных, для которых условие есть <strong>True</strong>.</div>

In [33]:
s[s > 0]

2024-01-01    0.106628
2024-01-02    0.419115
2024-01-04    1.004891
2024-01-06    1.007296
2024-01-09    0.392589
dtype: float64

<div style="text-indent:30px; text-align:justify">Более подробно ознакомиться с методами можно <a href="https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.Series.html"><strong>в официальной документации</strong></a>.</div>

<h2 style="text-align:center">Тип данных <strong>DataFrame</strong></h2>

<div style="text-indent:30px; text-align:justify"><strong>DataFrame</strong> – основной тип информации в Pandas. Это двумерная информационная структура в виде таблицы с разными типами столбцов. Вся дальнейшая работа ведется на основе <strong>DataFrame</strong>.</div>
<div style="text-indent:30px; text-align:justify">Объект данных может выглядеть как обычная таблица, как, например, в Excel, и включать любое количество столбцов и строк. Содержимое ячеек может содержать данные разных типов.</div>
<div style="text-indent:30px; text-align:justify">В <strong>DataFrame</strong> индексы присваиваются не только столбцам, но и строкам. Такая особенность позволяет сортировать и фильтровать данные, а также ускоряет и упрощает процесс поиска нужных значений.</div>

<div style="text-align:center"><img src="DataFrame.png" width=600></div>

<div style="text-indent:30px; text-align:justify; margin-top: 30px">Таблицу можно построить, например, из словаря, значениями в котором являются одномерные наборы данных:</div>

In [36]:
# Создаем DataFrame из словаря
data = {'Имя': ['Егор', 'Анна', 'Никита', 'Марина'],
        'Возраст': [25, 30, 28, 35],
        'Город': ['Москва', 'Самара', 'Ростов', 'Нижний Новгород']}

df = pd.DataFrame(data)

# выводим DataFrame на экран 
df

Unnamed: 0,Имя,Возраст,Город
0,Егор,25,Москва
1,Анна,30,Самара
2,Никита,28,Ростов
3,Марина,35,Нижний Новгород


<h3 style="text-align:center">Датасет (dataset)</h3>

<div style="text-indent:30px; text-align:justify"><strong><a href="https://ru.wikipedia.org/wiki/%D0%9D%D0%B0%D0%B1%D0%BE%D1%80_%D0%B4%D0%B0%D0%BD%D0%BD%D1%8B%D1%85"><strong>Датасетом</strong> (<i>Dataset</i>)</strong></a> называется обработанная и структурированная информация, представленная в табличном виде. В такой таблице объектами называются строки, а признаками – столбцы. Совокупность этой информации называется размеченными данными, которые являются основой для машинного обучения, анализа данных и т.п. Такой набор данных используют, чтобы строить на его основе гипотезы, делать выводы или обучать нейросети.</div>

<div style="text-indent:30px; text-align:justify">Для примера возьмем набор фотографий разных животных. Сам по себе этот набор — просто массив данных, его невозможно использовать для аналитики или обучения нейросети. Чтобы он стал датасетом, в нем должно быть однозначно прописано, какое конкретно животное изображено на фотографии и по каким признакам оно отличается от других животных.</div>

<div style="text-align:center"><img src="Dataset.png" width=600></div>

<div style="text-indent:30px; text-align:justify">Данные в датасете могут быть разные, например:</div>
<div style=" margin-left:50px">
<li style="text-align:justify">статистика покупок в магазине;</li> 
<li style="text-align:justify">географическое расположение офисов;</li>
<li style="text-align:justify">демографические признаки населения;</li>    
<li style="text-align:justify">соответствие звуков аудиотексту;</li>
<li style="text-align:justify">заболевания с конкретными симптомами.</li>
</div>
<div style="text-indent:30px; text-align:justify">Данных в датасете должно быть достаточно много, особенно если для анализа используется несколько признаков. Если нейросети нужно отличать кошек от собак, попугаев, лошадей и рыб, то сотни объектов для датасета не хватит. Понадобятся десятки и сотни тысяч фотографий. Если нужно спрогнозировать, что именно купит конкретный клиент, то понадобятся данные о демографии и покупках десятков тысяч других клиентов. Только так прогноз будет точным.</div>

<h3 style="text-align:center">Чтение из файла и первичный анализ</h3>

<div style="text-indent:30px; text-align:justify">Рассмотрим основные методы работы, анализируя набор данных по коэффициенту оттока клиентов операторов связи. </div>
<div style="text-indent:30px; text-align:justify">Для загрузки датасета из <a href="https://ru.wikipedia.org/wiki/CSV"><strong>.csv</strong></a> файла с данными в pandas используется функция <strong>read_csv()</strong>.

<div style="text-indent:30px; text-align:justify; margin-top:20px">Простейший пример:</div>

In [38]:
df = pd.read_csv("Проба.csv")
df

Unnamed: 0,Имя,Рост,Вес,Цвет волос
0,Вася,156,86,Темный
1,Петя,176,74,Светлый
2,Таня,180,88,Рыжий


<div style="text-indent:30px; text-align:justify">В качестве примера рассмотрим набор данных некоторого телефонного оператора, в котором  рассматривается проблема оттока клиентов.</div>
<div style="text-indent:30px; text-align:justify; margin-top:20px">Прочитаем данные и посмотрим на первые 5 строк с помощью метода <strong>head()</strong>:</div>

In [40]:
df = pd.read_csv("http://vshot.ru/ssau/files/ooap/telecom_churn.csv")
df.head()

Unnamed: 0,State,Account length,Area code,International plan,Voice mail plan,Number vmail messages,Total day minutes,Total day calls,Total day charge,Total eve minutes,Total eve calls,Total eve charge,Total night minutes,Total night calls,Total night charge,Total intl minutes,Total intl calls,Total intl charge,Customer service calls,Churn
0,KS,128,415,No,Yes,25,265.1,110,45.07,197.4,99,16.78,244.7,91,11.01,10.0,3,2.7,1,False
1,OH,107,415,No,Yes,26,161.6,123,27.47,195.5,103,16.62,254.4,103,11.45,13.7,3,3.7,1,False
2,NJ,137,415,No,No,0,243.4,114,41.38,121.2,110,10.3,162.6,104,7.32,12.2,5,3.29,0,False
3,OH,84,408,Yes,No,0,299.4,71,50.9,61.9,88,5.26,196.9,89,8.86,6.6,7,1.78,2,False
4,OK,75,415,Yes,No,0,166.7,113,28.34,148.3,122,12.61,186.9,121,8.41,10.1,3,2.73,3,False


<div style="text-indent:30px; text-align:justify">В Jupyter-ноутбуках датафреймы Pandas выводятся в виде вот таких красивых табличек, и <strong>print(df.head())</strong> выглядит хуже.</div>
<div style="text-indent:30px; text-align:justify">Кстати, по умолчанию Pandas выводит всего 20 столбцов и 60 строк, поэтому если ваш датафрейм больше, воспользуйтесь функцией <strong>set_option()</strong>:</div>

In [42]:
pd.set_option("display.max_columns", 100)
pd.set_option("display.max_rows", 100)

<div style="text-indent:30px; text-align:justify">Можно указать значение параметра presicion равным 1, чтобы отображать один знак после запятой.</div>

In [44]:
pd.set_option("display.precision", 1)
df.head()

Unnamed: 0,State,Account length,Area code,International plan,Voice mail plan,Number vmail messages,Total day minutes,Total day calls,Total day charge,Total eve minutes,Total eve calls,Total eve charge,Total night minutes,Total night calls,Total night charge,Total intl minutes,Total intl calls,Total intl charge,Customer service calls,Churn
0,KS,128,415,No,Yes,25,265.1,110,45.1,197.4,99,16.8,244.7,91,11.0,10.0,3,2.7,1,False
1,OH,107,415,No,Yes,26,161.6,123,27.5,195.5,103,16.6,254.4,103,11.4,13.7,3,3.7,1,False
2,NJ,137,415,No,No,0,243.4,114,41.4,121.2,110,10.3,162.6,104,7.3,12.2,5,3.3,0,False
3,OH,84,408,Yes,No,0,299.4,71,50.9,61.9,88,5.3,196.9,89,8.9,6.6,7,1.8,2,False
4,OK,75,415,Yes,No,0,166.7,113,28.3,148.3,122,12.6,186.9,121,8.4,10.1,3,2.7,3,False


<div style="text-indent:30px; text-align:justify">Каждая строка датафрейма соответствует одному клиенту, а столбцы являются характеристиками.</div>
<div style="text-indent:30px; text-align:justify; margin-top:20px">Давайте рассмотрим размерность данных, имена и типы объектов:</div>

In [46]:
print(df.shape)

(3333, 20)


<div style="text-indent:30px; text-align:justify">Как видим, таблица содержит 3333 строки и 20 столбцов.</div>
<div style="text-indent:30px; text-align:justify; margin-top:20px">Выведем названия столбцов с помощью метода <strong>.columns</strong>:</div>

In [48]:
df.columns

Index(['State', 'Account length', 'Area code', 'International plan',
       'Voice mail plan', 'Number vmail messages', 'Total day minutes',
       'Total day calls', 'Total day charge', 'Total eve minutes',
       'Total eve calls', 'Total eve charge', 'Total night minutes',
       'Total night calls', 'Total night charge', 'Total intl minutes',
       'Total intl calls', 'Total intl charge', 'Customer service calls',
       'Churn'],
      dtype='object')

<div style="text-indent:30px; text-align:justify">Чтобы посмотреть общую информацию по датафрейму и всем признакам, воспользуемся методом <strong>.info()</strong>:</div>

In [50]:
print(df.info())

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3333 entries, 0 to 3332
Data columns (total 20 columns):
 #   Column                  Non-Null Count  Dtype  
---  ------                  --------------  -----  
 0   State                   3333 non-null   object 
 1   Account length          3333 non-null   int64  
 2   Area code               3333 non-null   int64  
 3   International plan      3333 non-null   object 
 4   Voice mail plan         3333 non-null   object 
 5   Number vmail messages   3333 non-null   int64  
 6   Total day minutes       3333 non-null   float64
 7   Total day calls         3333 non-null   int64  
 8   Total day charge        3333 non-null   float64
 9   Total eve minutes       3333 non-null   float64
 10  Total eve calls         3333 non-null   int64  
 11  Total eve charge        3333 non-null   float64
 12  Total night minutes     3333 non-null   float64
 13  Total night calls       3333 non-null   int64  
 14  Total night charge      3333 non-null   

<div style="text-indent:30px; text-align:justify"><strong>bool</strong>, <strong>int64</strong>, <strong>float64</strong> и <strong>object</strong> — это типы признаков. Видим, что 1 признак — логический (<strong>bool</strong>), 3 признака имеют тип <strong>object</strong> и 16 признаков — числовые.</div>
<div style="text-indent:30px; text-align:justify">Если в качестве индекса указать имя столбца, получится одномерный набор данных типа <strong>Series</strong>.</div>
<div style="text-indent:30px; text-align:justify">Изменить тип колонки можно с помощью метода <strong>astype</strong>. Применим этот метод к признаку <strong>Churn</strong> (<i>Отток</i>) и переведём его в <strong>int64</strong>:</div>

In [52]:
df["Churn"] = df["Churn"].astype("int64")
df

Unnamed: 0,State,Account length,Area code,International plan,Voice mail plan,Number vmail messages,Total day minutes,Total day calls,Total day charge,Total eve minutes,Total eve calls,Total eve charge,Total night minutes,Total night calls,Total night charge,Total intl minutes,Total intl calls,Total intl charge,Customer service calls,Churn
0,KS,128,415,No,Yes,25,265.1,110,45.1,197.4,99,16.8,244.7,91,11.0,10.0,3,2.7,1,0
1,OH,107,415,No,Yes,26,161.6,123,27.5,195.5,103,16.6,254.4,103,11.4,13.7,3,3.7,1,0
2,NJ,137,415,No,No,0,243.4,114,41.4,121.2,110,10.3,162.6,104,7.3,12.2,5,3.3,0,0
3,OH,84,408,Yes,No,0,299.4,71,50.9,61.9,88,5.3,196.9,89,8.9,6.6,7,1.8,2,0
4,OK,75,415,Yes,No,0,166.7,113,28.3,148.3,122,12.6,186.9,121,8.4,10.1,3,2.7,3,0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
3328,AZ,192,415,No,Yes,36,156.2,77,26.6,215.5,126,18.3,279.1,83,12.6,9.9,6,2.7,2,0
3329,WV,68,415,No,No,0,231.1,57,39.3,153.4,55,13.0,191.3,123,8.6,9.6,4,2.6,3,0
3330,RI,28,510,No,No,0,180.8,109,30.7,288.8,58,24.6,191.9,91,8.6,14.1,6,3.8,2,0
3331,CT,184,510,Yes,No,0,213.8,105,36.4,159.6,84,13.6,139.2,137,6.3,5.0,10,1.4,2,0


<div style="text-indent:30px; text-align:justify">Теперь вместо логического значения признак <strong>Churn</strong> (Отток) должен принимать значения 0 или 1.</div>

<div style="text-indent:30px; text-align:justify; margin-top:20px">Метод <strong>describe</strong> показывает основные статистические характеристики данных по каждому числовому признаку (типы <strong>int64</strong> и <strong>float64</strong>): число непропущенных значений, среднее, стандартное отклонение, диапазон, медиану, 0.25 и 0.75 квартили.</div>

In [55]:
df.describe()

Unnamed: 0,Account length,Area code,Number vmail messages,Total day minutes,Total day calls,Total day charge,Total eve minutes,Total eve calls,Total eve charge,Total night minutes,Total night calls,Total night charge,Total intl minutes,Total intl calls,Total intl charge,Customer service calls,Churn
count,3333.0,3333.0,3333.0,3333.0,3333.0,3333.0,3333.0,3333.0,3333.0,3333.0,3333.0,3333.0,3333.0,3333.0,3333.0,3333.0,3333.0
mean,101.1,437.2,8.1,179.8,100.4,30.6,201.0,100.1,17.1,200.9,100.1,9.0,10.2,4.5,2.8,1.6,0.1
std,39.8,42.4,13.7,54.5,20.1,9.3,50.7,19.9,4.3,50.6,19.6,2.3,2.8,2.5,0.8,1.3,0.4
min,1.0,408.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,23.2,33.0,1.0,0.0,0.0,0.0,0.0,0.0
25%,74.0,408.0,0.0,143.7,87.0,24.4,166.6,87.0,14.2,167.0,87.0,7.5,8.5,3.0,2.3,1.0,0.0
50%,101.0,415.0,0.0,179.4,101.0,30.5,201.4,100.0,17.1,201.2,100.0,9.1,10.3,4.0,2.8,1.0,0.0
75%,127.0,510.0,20.0,216.4,114.0,36.8,235.3,114.0,20.0,235.3,113.0,10.6,12.1,6.0,3.3,2.0,0.0
max,243.0,510.0,51.0,350.8,165.0,59.6,363.7,170.0,30.9,395.0,175.0,17.8,20.0,20.0,5.4,9.0,1.0


<div style="text-indent:30px; text-align:justify">Чтобы посмотреть статистику по нечисловым признакам, нужно явно указать интересующие нас типы в параметре <strong>include</strong>. </div>
<div style="text-indent:30px; text-align:justify">Можно также задать <strong>include='all'</strong>, чтоб вывести статистику по всем имеющимся признакам.</div>

In [57]:
df.describe(include=["object", "bool"])

Unnamed: 0,State,International plan,Voice mail plan
count,3333,3333,3333
unique,51,2,2
top,WV,No,No
freq,106,3010,2411


<div style="text-indent:30px; text-align:justify">Для категориальных (тип <strong>object</strong>) и логических (тип <strong>bool</strong>) признаков мы можем использовать метод <strong>value_counts()</strong>. </div>
<div style="text-indent:30px; text-align:justify; margin-top:20px">Давайте посмотрим на распределение <strong>Churn</strong>:</div>

In [59]:
df['Churn'].value_counts()

Churn
0    2850
1     483
Name: count, dtype: int64

<div style="text-indent:30px; text-align:justify">Как видно, 2850 пользователей (Churn=0) из 3333 являются лояльными. От оператора связи ушли 483 клиента.</div>
<div style="text-indent:30px; text-align:justify">Чтобы получить пропорции, используем параметр <strong>normalize=True</strong>:</div>

In [61]:
pd.set_option("display.precision", 3)    # Три знака послезапятой 
df["Churn"].value_counts(normalize=True)

Churn
0    0.855
1    0.145
Name: proportion, dtype: float64

<div style="text-indent:30px; text-align:justify">Посмотрим на распределение пользователей по переменной <strong>Area code</strong> (Код города). Укажем значение параметра <strong>normalize=True</strong>, чтобы посмотреть не абсолютные частоты, а относительные.</div>

In [63]:
df["Area code"].value_counts(normalize=True)

Area code
415    0.497
510    0.252
408    0.251
Name: proportion, dtype: float64

<h3 style="text-align:center">Сортировка</h3>

<div style="text-indent:30px; text-align:justify">DataFrame можно отсортировать по значению какого-нибудь из признаков. В нашем случае, например, по <strong>Total day charge</strong> (Общая дневная плата) (<strong>ascending=False</strong> для сортировки по убыванию):</div>

In [65]:
df.sort_values(by="Total day charge", ascending=False).head()

Unnamed: 0,State,Account length,Area code,International plan,Voice mail plan,Number vmail messages,Total day minutes,Total day calls,Total day charge,Total eve minutes,Total eve calls,Total eve charge,Total night minutes,Total night calls,Total night charge,Total intl minutes,Total intl calls,Total intl charge,Customer service calls,Churn
365,CO,154,415,No,No,0,350.8,75,59.64,216.5,94,18.4,253.9,100,11.43,10.1,9,2.73,1,1
985,NY,64,415,Yes,No,0,346.8,55,58.96,249.5,79,21.21,275.4,102,12.39,13.3,9,3.59,1,1
2594,OH,115,510,Yes,No,0,345.3,81,58.7,203.4,106,17.29,217.5,107,9.79,11.8,8,3.19,1,1
156,OH,83,415,No,No,0,337.4,120,57.36,227.4,116,19.33,153.9,114,6.93,15.8,7,4.27,0,1
605,MO,112,415,No,No,0,335.5,77,57.04,212.5,109,18.06,265.0,132,11.93,12.7,8,3.43,2,1


<div style="text-indent:30px; text-align:justify">Сортировать можно и по группе столбцов:</div>

In [67]:
df.sort_values(by=["Churn", "Total day charge"], ascending=[True, False]).head()

Unnamed: 0,State,Account length,Area code,International plan,Voice mail plan,Number vmail messages,Total day minutes,Total day calls,Total day charge,Total eve minutes,Total eve calls,Total eve charge,Total night minutes,Total night calls,Total night charge,Total intl minutes,Total intl calls,Total intl charge,Customer service calls,Churn
688,MN,13,510,No,Yes,21,315.6,105,53.65,208.9,71,17.76,260.1,123,11.7,12.1,3,3.27,3,0
2259,NC,210,415,No,Yes,31,313.8,87,53.35,147.7,103,12.55,192.7,97,8.67,10.1,7,2.73,3,0
534,LA,67,510,No,No,0,310.4,97,52.77,66.5,123,5.65,246.5,99,11.09,9.2,10,2.48,4,0
575,SD,114,415,No,Yes,36,309.9,90,52.68,200.3,89,17.03,183.5,105,8.26,14.2,2,3.83,1,0
2858,AL,141,510,No,Yes,28,308.0,123,52.36,247.8,128,21.06,152.9,103,6.88,7.4,3,2.0,1,0
