## Библиотека Pandas

Pandas - это высокоэффективная библиотека для обработки и анализа данных в языке программирования Python, которая предоставляет множество возможностей, аналогичных тем, что предоставляют Microsoft Excel или Google Sheets, но существенно более гибких и мощных. Однако, в отличие от Excel и Sheets, Pandas не имеет ограничений на количество строк или ячеек, что делает ее идеальным инструментом для работы с крупными датасетами. Единственным ограничением при использовании Pandas является объем оперативной памяти вашей компьютерной системы, на которой вы выполняете анализ данных.


In [1]:
# !pip install pandas

Defaulting to user installation because normal site-packages is not writeable



[notice] A new release of pip is available: 24.2 -> 25.0.1
[notice] To update, run: python.exe -m pip install --upgrade pip


In [2]:
import pandas as pd

### В библиотеке Pandas мы имеем дело с двумя основными структурами данных: Series и DataFrame.

**Series** можно рассматривать как аналог одной конкретной характеристики или переменной, представленной в виде одномерного массива с индексами. Например, если у нас есть данные о возрасте людей, участвующих в рекламной кампании, то возраст можно представить в виде Series, где каждому возрасту соответствует уникальный индекс.

**DataFrame**, в свою очередь, это более сложная и многомерная структура данных, представляющая собой полноценную таблицу. В ней можно хранить разнообразные данные, такие как возраст клиентов, время показа рекламы, заголовки рекламных материалов и многое другое. DataFrame предоставляет более гибкие возможности для организации и анализа данных в сравнении с одномерным Series.

Таким образом, в Pandas Series - это специализированная структура для представления одномерных данных, в то время как DataFrame предоставляет средство для работы с более сложными и многомерными данными, типичными для анализа и обработки данных в рекламных кампаниях и многих других сценариях.


### Pandas Series

Она представляет из себя объект, похожий на одномерный массив, но отличительной чертой является наличие индексов. Индекс находится слева, а сам элемент справа.

Синтаксис создания:
pandas.Series(input_data, index, data_type)
-	input_data: ввод в виде списка, константы, массива NumPy, Dict и т. д.
-	index: значения индексов.
-	data_type (опционально): тип данных.


In [4]:
a = pd.Series([4, 7, 6, 3, 9],
              index=['one', 'two', 'three', 'four', 'five'])
a

one      4
two      7
three    6
four     3
five     9
dtype: int64

In [6]:
a.index

Index(['one', 'two', 'three', 'four', 'five'], dtype='object')

Если индекс явно не задан, то pandas автоматически создаёт индексы от 0 до N-1, где N - общее количество элементов:

In [7]:
a = pd.Series([4, 7, 6, 3, 9])
a

0    4
1    7
2    6
3    3
4    9
dtype: int64

У объекта Series есть атрибуты, через которые можно получить список элементов и индексы, это values и index соответственно:

In [8]:
a.index

RangeIndex(start=0, stop=5, step=1)

In [9]:
a.values

array([4, 7, 6, 3, 9], dtype=int64)

In [9]:
a[1]

7

In [11]:
# a[7]

### DataFrame
Объект DataFrame является табличной структурой данных. В любой таблице всегда присутствуют строки и столбцы. При этом в столбцах можно хранить данные разных типов данных. Столбцами в объекте DataFrame выступают объекты Series, строки которых являются их элементами.
Синтаксис создания:
pandas.DataFrame(input_data, index)
-	input_data: ввод в виде Dict, 2D массива NumPy, Series и т. д.
-	index: значения индексов.


[Дополнительный материал](https://pythonru.com/biblioteki/struktury-dannyh-v-pandas#:~:text=%D0%A1%D0%BE%D0%B7%D0%B4%D0%B0%D0%BD%D0%B8%D0%B5-,Dataframe,-%D0%9F%D1%80%D0%BE%D1%81%D1%82%D0%B5%D0%B9%D1%88%D0%B8%D0%B9%20%D1%81%D0%BF%D0%BE%D1%81%D0%BE%D0%B1%20%D1%81%D0%BE%D0%B7%D0%B4%D0%B0%D0%BD%D0%B8%D1%8F)

In [12]:
df = pd.DataFrame({
    'Age': [46, 37, 44, 42, 42],
    'Country': ['Spain', 'Spain', 'Germany', 'Germany', 'France'],
    'Gender': ['Female', 'Female', 'Male', 'Male', 'Male']
})

df

Unnamed: 0,Age,Country,Gender
0,46,Spain,Female
1,37,Spain,Female
2,44,Germany,Male
3,42,Germany,Male
4,42,France,Male


Чтобы убедиться, что столбец в DataFrame это Series, можем извлечь любой столбец, используя квадратные скобки или точку:

In [13]:
df['Age']

0    46
1    37
2    44
3    42
4    42
Name: Age, dtype: int64

In [14]:
df.Country

0      Spain
1      Spain
2    Germany
3    Germany
4     France
Name: Country, dtype: object

А если захотим извлечь больше, чем один признак, то получим снова DataFrame:

In [14]:
df[['Country', 'Age']]

Unnamed: 0,Country,Age
0,Spain,46
1,Spain,37
2,Germany,44
3,Germany,42
4,France,42


In [15]:
df.columns.to_list()

['Age', 'Country', 'Gender']

In [19]:
df.index

RangeIndex(start=0, stop=5, step=1)

Индекс по строкам можно задать разными способами, например, при формировании самого объекта DataFrame:

In [20]:
df = pd.DataFrame({
    'Age': [46, 37, 44, 42, 42],
    'Country': ['Spain', 'Spain', 'Germany', 'Germany', 'France'],
    'Gender': ['Female', 'Female', 'Male', 'Male', 'Male']
}, index=[5, 4, 6, 3, 2])

df

Unnamed: 0,Age,Country,Gender
5,46,Spain,Female
4,37,Spain,Female
6,44,Germany,Male
3,42,Germany,Male
2,42,France,Male


Можно поменять атрибут index уже при работе с датафреймом:

In [21]:
df.index = [101, 102, 103, 104, 105]
df

Unnamed: 0,Age,Country,Gender
101,46,Spain,Female
102,37,Spain,Female
103,44,Germany,Male
104,42,Germany,Male
105,42,France,Male


Считывание данных
В целом, pandas поддерживает все самые популярные форматы хранения данных: csv, excel, sql, html и многое другое, но чаще всего приходится работать именно с csv файлами (comma separated values).

Будем работать с датасетом по оттоку клиентов из банка https://www.kaggle.com/datasets/shubh0799/churn-modelling.

Характеристики каждого клиента:

1. RowNumber - Номер строки
2. CustomerId - Уникальный идентификатор клиента
3. Surname - Фамилия клиента
4. CreditScore - Кредитная оценка клиента
5. Geography - Из какой страны клиент
6. Gender - Пол клиента
7. Age - Возраст клиента
8. Tenure - Сколько лет человек является клиентом банка
9. Balance - Баланс счета
10. NumOfProducts - Количество открытых продуктов
11. HasCrCard - Есть ли у клиента кредитная карта
12. IsActiveMember - Является ли клиент активные участником
13. EstimatedSalary - Предположительная зарплата клиента
14. Exited - Уйдет ли человек в отток

In [17]:
df = pd.read_csv('./Churn_Modelling.csv')
df

Unnamed: 0,RowNumber,CustomerId,Surname,CreditScore,Geography,Gender,Age,Tenure,Balance,NumOfProducts,HasCrCard,IsActiveMember,EstimatedSalary,Exited
0,1,15634602,Hargrave,619,France,Female,42,2,0.00,1,1,1,101348.88,1
1,2,15647311,Hill,608,Spain,Female,41,1,83807.86,1,0,1,112542.58,0
2,3,15619304,Onio,502,France,Female,42,8,159660.80,3,1,0,113931.57,1
3,4,15701354,Boni,699,France,Female,39,1,0.00,2,0,0,93826.63,0
4,5,15737888,Mitchell,850,Spain,Female,43,2,125510.82,1,1,1,79084.10,0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
9995,9996,15606229,Obijiaku,771,France,Male,39,5,0.00,2,1,0,96270.64,0
9996,9997,15569892,Johnstone,516,France,Male,35,10,57369.61,1,1,1,101699.77,0
9997,9998,15584532,Liu,709,France,Female,36,7,0.00,1,0,1,42085.58,1
9998,9999,15682355,Sabbatini,772,Germany,Male,42,3,75075.31,2,1,0,92888.52,1


Аргумент header указывает названия столбцов датафрейма, по умолчанию header=0, значит значения шапки таблицы формируются из нулевой строки файла, а если, к примеру, указать header=1, то  значения шапки таблицы будут формироваться из первой строки файла:

In [29]:
pd.read_csv('./data/Churn_Modelling.csv', header=1)

Unnamed: 0,1,15634602,Hargrave,619,France,Female,42,2,0,1.1,1.2,1.3,101348.88,1.4
0,2,15647311,Hill,608,Spain,Female,41,1,83807.86,1,0,1,112542.58,0
1,3,15619304,Onio,502,France,Female,42,8,159660.80,3,1,0,113931.57,1
2,4,15701354,Boni,699,France,Female,39,1,0.00,2,0,0,93826.63,0
3,5,15737888,Mitchell,850,Spain,Female,43,2,125510.82,1,1,1,79084.10,0
4,6,15574012,Chu,645,Spain,Male,44,8,113755.78,2,1,0,149756.71,1
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
9994,9996,15606229,Obijiaku,771,France,Male,39,5,0.00,2,1,0,96270.64,0
9995,9997,15569892,Johnstone,516,France,Male,35,10,57369.61,1,1,1,101699.77,0
9996,9998,15584532,Liu,709,France,Female,36,7,0.00,1,0,1,42085.58,1
9997,9999,15682355,Sabbatini,772,Germany,Male,42,3,75075.31,2,1,0,92888.52,1


Аргумент sep указывает разделитесь столбцов, поставим, к примеру sep=’;’, в этом случае pandas будет искать символ ;, чтобы разбить столбцы, но ничего не найдет, поэтому все значения сольются воедино:

In [19]:
# pd.read_csv('./data/Churn_Modelling.csv', sep=';')

#### Отображение данных

In [32]:
df

Unnamed: 0,RowNumber,CustomerId,Surname,CreditScore,Geography,Gender,Age,Tenure,Balance,NumOfProducts,HasCrCard,IsActiveMember,EstimatedSalary,Exited
0,1,15634602,Hargrave,619,France,Female,42,2,0.00,1,1,1,101348.88,1
1,2,15647311,Hill,608,Spain,Female,41,1,83807.86,1,0,1,112542.58,0
2,3,15619304,Onio,502,France,Female,42,8,159660.80,3,1,0,113931.57,1
3,4,15701354,Boni,699,France,Female,39,1,0.00,2,0,0,93826.63,0
4,5,15737888,Mitchell,850,Spain,Female,43,2,125510.82,1,1,1,79084.10,0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
9995,9996,15606229,Obijiaku,771,France,Male,39,5,0.00,2,1,0,96270.64,0
9996,9997,15569892,Johnstone,516,France,Male,35,10,57369.61,1,1,1,101699.77,0
9997,9998,15584532,Liu,709,France,Female,36,7,0.00,1,0,1,42085.58,1
9998,9999,15682355,Sabbatini,772,Germany,Male,42,3,75075.31,2,1,0,92888.52,1


In [23]:
df.head()

Unnamed: 0,RowNumber,CustomerId,Surname,CreditScore,Geography,Gender,Age,Tenure,Balance,NumOfProducts,HasCrCard,IsActiveMember,EstimatedSalary,Exited
0,1,15634602,Hargrave,619,France,Female,42,2,0.0,1,1,1,101348.88,1
1,2,15647311,Hill,608,Spain,Female,41,1,83807.86,1,0,1,112542.58,0
2,3,15619304,Onio,502,France,Female,42,8,159660.8,3,1,0,113931.57,1
3,4,15701354,Boni,699,France,Female,39,1,0.0,2,0,0,93826.63,0
4,5,15737888,Mitchell,850,Spain,Female,43,2,125510.82,1,1,1,79084.1,0


In [25]:
df.tail()

Unnamed: 0,RowNumber,CustomerId,Surname,CreditScore,Geography,Gender,Age,Tenure,Balance,NumOfProducts,HasCrCard,IsActiveMember,EstimatedSalary,Exited
9995,9996,15606229,Obijiaku,771,France,Male,39,5,0.0,2,1,0,96270.64,0
9996,9997,15569892,Johnstone,516,France,Male,35,10,57369.61,1,1,1,101699.77,0
9997,9998,15584532,Liu,709,France,Female,36,7,0.0,1,0,1,42085.58,1
9998,9999,15682355,Sabbatini,772,Germany,Male,42,3,75075.31,2,1,0,92888.52,1
9999,10000,15628319,Walker,792,France,Female,28,4,130142.79,1,1,0,38190.78,0


In [35]:
df.sample(10)

Unnamed: 0,RowNumber,CustomerId,Surname,CreditScore,Geography,Gender,Age,Tenure,Balance,NumOfProducts,HasCrCard,IsActiveMember,EstimatedSalary,Exited
4822,4823,15805704,Murphy,745,France,Female,32,2,0.0,4,0,1,179705.13,1
6575,6576,15651883,Genovesi,794,Germany,Female,55,6,115796.7,1,1,0,160526.36,1
6544,6545,15716218,Higgins,709,France,Female,45,3,104118.5,1,0,1,174032.0,0
9056,9057,15793311,Smith,765,Germany,Female,46,8,119492.88,2,0,1,166896.01,1
203,204,15727868,Onuora,711,France,Female,38,2,129022.06,2,1,1,14374.86,1
2440,2441,15790659,Sheets,701,Spain,Male,59,7,0.0,2,0,1,27597.59,0
3444,3445,15801699,Fishbourne,436,Spain,Male,43,5,0.0,2,1,1,35687.43,0
7043,7044,15704581,Robertson,595,Germany,Male,34,2,87967.42,2,0,1,156309.52,0
4920,4921,15615016,Maurer,515,France,Male,33,2,0.0,2,1,1,136028.97,0
129,130,15591607,Fernie,770,France,Male,24,9,101827.07,1,1,0,167256.35,0


А если в этот метод передать атрибут frac, то можно возвращать долю объектов в случайном порядке. Атрибут frac может принимать значения от 0 до 1. К примеру, можно поставить frac=1, тогда вернутся все объекты, но в случайном порядке:

In [38]:
df.sample(frac=0.1)

Unnamed: 0,RowNumber,CustomerId,Surname,CreditScore,Geography,Gender,Age,Tenure,Balance,NumOfProducts,HasCrCard,IsActiveMember,EstimatedSalary,Exited
9145,9146,15621768,Chukwuhaenye,712,Spain,Male,45,6,112994.65,1,0,0,198398.68,0
824,825,15603830,Palmer,600,Spain,Male,36,4,0.00,2,1,0,143635.36,0
7031,7032,15580914,Okechukwu,478,Spain,Male,48,0,83287.05,2,0,1,44147.95,1
9941,9942,15676869,T'ien,657,Spain,Male,36,8,0.00,2,0,1,123866.43,0
3760,3761,15734970,White,835,Spain,Male,38,7,86824.09,1,0,0,175905.97,0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
2570,2571,15611905,Warlow-Davies,513,Spain,Female,31,5,174853.46,1,1,0,84238.63,0
9857,9858,15779423,K?,716,France,Male,39,1,70657.61,2,1,1,76476.05,0
2312,2313,15724223,Bronner,545,France,Female,55,5,0.00,1,0,0,10034.77,1
1022,1023,15765014,Mai,547,France,Female,48,1,179380.74,2,0,1,69263.10,0


А если, к примеру, указать значение frac=0.5, то вернется половина значений (5000 записей):

In [39]:
df.sample(frac=0.5)

Unnamed: 0,RowNumber,CustomerId,Surname,CreditScore,Geography,Gender,Age,Tenure,Balance,NumOfProducts,HasCrCard,IsActiveMember,EstimatedSalary,Exited
7175,7176,15638983,Jara,684,France,Female,38,5,133189.40,1,0,0,127388.06,0
9819,9820,15813946,Duffy,637,Germany,Male,51,1,104682.83,1,1,0,55266.96,1
1575,1576,15636756,Marino,545,France,Male,23,2,0.00,2,1,0,189613.12,0
8228,8229,15632609,Burdekin,554,France,Female,39,10,160132.75,1,1,0,32824.15,0
6418,6419,15801924,Browne,754,Spain,Female,27,8,0.00,2,0,0,121821.16,0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
4266,4267,15673984,Daniels,536,France,Female,35,8,0.00,1,1,0,171840.24,1
2293,2294,15801265,Tang,689,Spain,Female,45,0,57784.22,1,1,0,197804.00,1
3486,3487,15630661,Vasilyev,614,Spain,Female,25,10,75212.28,1,1,0,58965.04,0
2297,2298,15797595,Greenhalgh,709,France,Female,40,9,131569.63,1,1,1,103970.58,0


Чтобы узнать, сколько есть строк и столбцов можно вызвать атрибут shape - это будет кортеж из двух значений, первое - количество строк, второе - количество столбцов:

In [40]:
df.shape

(10000, 14)

### Первичный анализ данных

Типы данных:
-	int: целочисленные значения. Пример: 9, 56, 30
-	float: вещественные значения (с плавающей точкой). Пример: 7.3, 9.0, 45.334
-	object/str: строковые значения. Пример: ‘hello, world’, ‘50 000’


In [50]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 10000 entries, 0 to 9999
Data columns (total 14 columns):
 #   Column           Non-Null Count  Dtype  
---  ------           --------------  -----  
 0   RowNumber        10000 non-null  int64  
 1   CustomerId       10000 non-null  int64  
 2   Surname          10000 non-null  object 
 3   CreditScore      10000 non-null  int64  
 4   Geography        10000 non-null  object 
 5   Gender           10000 non-null  object 
 6   Age              10000 non-null  int64  
 7   Tenure           10000 non-null  int64  
 8   Balance          10000 non-null  float64
 9   NumOfProducts    10000 non-null  int64  
 10  HasCrCard        10000 non-null  int64  
 11  IsActiveMember   10000 non-null  int64  
 12  EstimatedSalary  10000 non-null  float64
 13  Exited           10000 non-null  int64  
dtypes: float64(2), int64(9), object(3)
memory usage: 1.1+ MB


Основные статистики можно получить через метод describe():

Выводятся значения:
1.	Count - количество непропущенных объектов (там, где нет nan значений)
2.	mean - арифметическое среднее
3.	std - стандартное отклонение
4.	min - минимальное значение
5.	25% - квантиль 25 процентов
6.	50% - квантиль 50 процентов или же медиана
7.	75% - квантиль 75 процентов
8.	max - максимальное значение
	

In [41]:
df.describe()

Unnamed: 0,RowNumber,CustomerId,CreditScore,Age,Tenure,Balance,NumOfProducts,HasCrCard,IsActiveMember,EstimatedSalary,Exited
count,10000.0,10000.0,10000.0,10000.0,10000.0,10000.0,10000.0,10000.0,10000.0,10000.0,10000.0
mean,5000.5,15690940.0,650.5288,38.9218,5.0128,76485.889288,1.5302,0.7055,0.5151,100090.239881,0.2037
std,2886.89568,71936.19,96.653299,10.487806,2.892174,62397.405202,0.581654,0.45584,0.499797,57510.492818,0.402769
min,1.0,15565700.0,350.0,18.0,0.0,0.0,1.0,0.0,0.0,11.58,0.0
25%,2500.75,15628530.0,584.0,32.0,3.0,0.0,1.0,0.0,0.0,51002.11,0.0
50%,5000.5,15690740.0,652.0,37.0,5.0,97198.54,1.0,1.0,1.0,100193.915,0.0
75%,7500.25,15753230.0,718.0,44.0,7.0,127644.24,2.0,1.0,1.0,149388.2475,0.0
max,10000.0,15815690.0,850.0,92.0,10.0,250898.09,4.0,1.0,1.0,199992.48,1.0


При этом данные статистики можно выводить и по отдельности, к примеру возьмем минимальный возраст клиента:


In [53]:
a = df['Age'].min()
a

18

In [54]:
df['Balance'].max()

250898.09

In [55]:
df[['CreditScore', 'Age', 'Tenure']].mean()

CreditScore    650.5288
Age             38.9218
Tenure           5.0128
dtype: float64

Особо внимательные могли заметить, что в статистики describe не было некоторых признаков, а все так вышло, потому что describe() по умолчанию считает статистики только для вещественных признаков, а строковые игнорирует, чтобы describe посчитал на них статистики, нужно явно это указать:

In [56]:
df.describe(include='object')

Unnamed: 0,Surname,Geography,Gender
count,10000,10000,10000
unique,2932,3,2
top,Smith,France,Male
freq,32,5014,5457


Получаем 4 значения:
1.	count - количество непропущенных объектов
2.	unique - количество уникальных значений
3.	top - самое частотное значение (мода)
4.	freq - частота появления самого частотного значения

Если интересно поизучать типы данных, то воспользуйтесь атрибутом dtypes, который вызывается у датафрейма. Изучение типов данных помогает понять, с какими характеристиками имеем дело, есть ли здесь строковые характеристики или же мы работам только с численными показателями:


In [57]:
df.dtypes

RowNumber            int64
CustomerId           int64
Surname             object
CreditScore          int64
Geography           object
Gender              object
Age                  int64
Tenure               int64
Balance            float64
NumOfProducts        int64
HasCrCard            int64
IsActiveMember       int64
EstimatedSalary    float64
Exited               int64
dtype: object

In [58]:
df['Age'].dtype

dtype('int64')

Типы данных можно менять через атрибут astype():

In [42]:
df['HasCrCard']

0       1
1       0
2       1
3       0
4       1
       ..
9995    1
9996    1
9997    0
9998    1
9999    1
Name: HasCrCard, Length: 10000, dtype: int64

In [43]:
df['HasCrCard'].astype('bool')

0        True
1       False
2        True
3       False
4        True
        ...  
9995     True
9996     True
9997    False
9998     True
9999     True
Name: HasCrCard, Length: 10000, dtype: bool

In [44]:
df['HasCrCard'].astype('float')

0       1.0
1       0.0
2       1.0
3       0.0
4       1.0
       ... 
9995    1.0
9996    1.0
9997    0.0
9998    1.0
9999    1.0
Name: HasCrCard, Length: 10000, dtype: float64

Но если посмотрим на тип данных, то он не поменялся, остался int:

In [45]:
df['HasCrCard'].dtype

dtype('int64')

Чтобы изменения вступили в силу нужно переопределить признак:

In [46]:
df['HasCrCard'] = df['HasCrCard'].astype('bool')

In [47]:
df['HasCrCard'].dtype

dtype('bool')

In [48]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 10000 entries, 0 to 9999
Data columns (total 14 columns):
 #   Column           Non-Null Count  Dtype  
---  ------           --------------  -----  
 0   RowNumber        10000 non-null  int64  
 1   CustomerId       10000 non-null  int64  
 2   Surname          10000 non-null  object 
 3   CreditScore      10000 non-null  int64  
 4   Geography        10000 non-null  object 
 5   Gender           10000 non-null  object 
 6   Age              10000 non-null  int64  
 7   Tenure           10000 non-null  int64  
 8   Balance          10000 non-null  float64
 9   NumOfProducts    10000 non-null  int64  
 10  HasCrCard        10000 non-null  bool   
 11  IsActiveMember   10000 non-null  int64  
 12  EstimatedSalary  10000 non-null  float64
 13  Exited           10000 non-null  int64  
dtypes: bool(1), float64(2), int64(8), object(3)
memory usage: 1.0+ MB


Находим уникальные значения

In [49]:
df['Geography'].unique()

array(['France', 'Spain', 'Germany'], dtype=object)

In [53]:
list(df['Surname'].unique())

['Hargrave',
 'Hill',
 'Onio',
 'Boni',
 'Mitchell',
 'Chu',
 'Bartlett',
 'Obinna',
 'He',
 'H?',
 'Bearce',
 'Andrews',
 'Kay',
 'Chin',
 'Scott',
 'Goforth',
 'Romeo',
 'Henderson',
 'Muldrow',
 'Hao',
 'McDonald',
 'Dellucci',
 'Gerasimov',
 'Mosman',
 'Yen',
 'Maclean',
 'Young',
 'Nebechi',
 'McWilliams',
 'Lucciano',
 'Azikiwe',
 'Odinakachukwu',
 'Sanderson',
 'Maggard',
 'Clements',
 'Lombardo',
 'Watson',
 'Lorenzo',
 'Armstrong',
 'Cameron',
 'Hsiao',
 'Clarke',
 'Osborne',
 'Lavine',
 'Bianchi',
 'Tyler',
 'Martin',
 'Okagbue',
 'Yin',
 'Buccho',
 'Chidiebele',
 'Trevisani',
 "O'Brien",
 'Parkhill',
 'Yoo',
 'Phillipps',
 'Tsao',
 'Endrizzi',
 "T'ien",
 'Velazquez',
 'Hunter',
 'Clark',
 'Jeffrey',
 'Pirozzi',
 'Jackson',
 'Hammond',
 'Brownless',
 'Chibugo',
 'Glauert',
 'Pisano',
 'Konovalova',
 'McKee',
 'Palermo',
 'Ballard',
 'Wallace',
 'Cavenagh',
 'Hu',
 'Read',
 'Bushell',
 'Postle',
 'Buley',
 'Leonard',
 'Mills',
 'Onyeorulu',
 'Beit',
 'Ndukaku',
 'Gant',
 'Rowl

Количество уникальных значений

In [54]:
df['Geography'].nunique()

3

Уникальные значения и количество их появлений

In [58]:
df['Geography'].value_counts()

France     5014
Germany    2509
Spain      2477
Name: Geography, dtype: int64

с атрибутом normalize=True частотность будет нормированная:

In [57]:
df['Geography'].value_counts(normalize=True)

France     0.5014
Germany    0.2509
Spain      0.2477
Name: Geography, dtype: float64

In [59]:
df['Surname'].value_counts()

Smith       32
Scott       29
Martin      29
Walker      28
Brown       26
            ..
Izmailov     1
Bold         1
Bonham       1
Poninski     1
Burbidge     1
Name: Surname, Length: 2932, dtype: int64

### Фильтрация

Фильтрация в pandas основывается на булевых масках.
Булевая маска — бинарные данные, которые используются для выбора определенных объектов из структуры данных.
Ниже видим пример булевой маски, если стоит значение False, то значение в этой строке не ‘Male’, а если стоит значение True, то объект принимает значение ‘Male’:
 

In [61]:
df['Gender'] == 'Male'

0       False
1       False
2       False
3       False
4       False
        ...  
9995     True
9996     True
9997    False
9998     True
9999    False
Name: Gender, Length: 10000, dtype: bool

In [63]:
mask = df['Gender'] == 'Male'

Данную маску можно передать в датафрейм и на выходе мы получим только людей, у которых признак Gender == ‘Male’:
 

In [65]:
male = df[df['Gender'] == 'Male']
male

Unnamed: 0,RowNumber,CustomerId,Surname,CreditScore,Geography,Gender,Age,Tenure,Balance,NumOfProducts,HasCrCard,IsActiveMember,EstimatedSalary,Exited
5,6,15574012,Chu,645,Spain,Male,44,8,113755.78,2,True,0,149756.71,1
6,7,15592531,Bartlett,822,France,Male,50,7,0.00,2,True,1,10062.80,0
8,9,15792365,He,501,France,Male,44,4,142051.07,2,False,1,74940.50,0
9,10,15592389,H?,684,France,Male,27,2,134603.88,1,True,1,71725.73,0
10,11,15767821,Bearce,528,France,Male,31,6,102016.72,2,False,0,80181.12,0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
9992,9993,15657105,Chukwualuka,726,Spain,Male,36,2,0.00,1,True,0,195192.40,0
9993,9994,15569266,Rahman,644,France,Male,28,7,155060.41,1,True,0,29179.52,0
9995,9996,15606229,Obijiaku,771,France,Male,39,5,0.00,2,True,0,96270.64,0
9996,9997,15569892,Johnstone,516,France,Male,35,10,57369.61,1,True,1,101699.77,0


При этом условия можно объединять с помощью логических операторов.

#### Логическое И
При операторе & нужно, чтобы выполнялось два условия одновременно:
 

In [76]:
mask = (df['Gender'] == 'Female') & (df['NumOfProducts'] >= 3)

In [74]:
df[(df['Gender'] == 'Female') & (df['NumOfProducts'] >= 3)]

Unnamed: 0,RowNumber,CustomerId,Surname,CreditScore,Geography,Gender,Age,Tenure,Balance,NumOfProducts,HasCrCard,IsActiveMember,EstimatedSalary,Exited
2,3,15619304,Onio,502,France,Female,42,8,159660.80,3,True,0,113931.57,1
7,8,15656148,Obinna,376,Germany,Female,29,4,115046.74,4,True,0,119346.88,1
30,31,15589475,Azikiwe,591,Spain,Female,39,3,0.00,3,True,0,140469.38,1
88,89,15622897,Sharpe,646,France,Female,46,4,0.00,3,True,0,93251.42,1
90,91,15757535,Heap,647,Spain,Female,44,5,0.00,3,True,1,174205.22,1
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
9565,9566,15752294,Long,582,France,Female,38,9,135979.01,4,True,1,76582.95,1
9747,9748,15775761,Iweobiegbunam,610,Germany,Female,69,5,86038.21,3,False,0,192743.06,1
9800,9801,15640507,Li,762,Spain,Female,35,3,119349.69,3,True,1,47114.18,1
9877,9878,15572182,Onwuamaeze,505,Germany,Female,33,3,106506.77,3,True,0,45445.78,1


#### Логическое ИЛИ
При операторе | нужно, чтобы выполнялось хотя бы одно условие:
 

In [75]:
df[(df['Gender'] == 'Male') | (df['NumOfProducts'] >= 3)]

Unnamed: 0,RowNumber,CustomerId,Surname,CreditScore,Geography,Gender,Age,Tenure,Balance,NumOfProducts,HasCrCard,IsActiveMember,EstimatedSalary,Exited
2,3,15619304,Onio,502,France,Female,42,8,159660.80,3,True,0,113931.57,1
5,6,15574012,Chu,645,Spain,Male,44,8,113755.78,2,True,0,149756.71,1
6,7,15592531,Bartlett,822,France,Male,50,7,0.00,2,True,1,10062.80,0
7,8,15656148,Obinna,376,Germany,Female,29,4,115046.74,4,True,0,119346.88,1
8,9,15792365,He,501,France,Male,44,4,142051.07,2,False,1,74940.50,0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
9992,9993,15657105,Chukwualuka,726,Spain,Male,36,2,0.00,1,True,0,195192.40,0
9993,9994,15569266,Rahman,644,France,Male,28,7,155060.41,1,True,0,29179.52,0
9995,9996,15606229,Obijiaku,771,France,Male,39,5,0.00,2,True,0,96270.64,0
9996,9997,15569892,Johnstone,516,France,Male,35,10,57369.61,1,True,1,101699.77,0


#### Логическое НЕ
При операторе ~ булевая маска обращается: True меняется на False и наоборот:
 

In [76]:
df[~(df['Geography'] == 'Spain')]

Unnamed: 0,RowNumber,CustomerId,Surname,CreditScore,Geography,Gender,Age,Tenure,Balance,NumOfProducts,HasCrCard,IsActiveMember,EstimatedSalary,Exited
0,1,15634602,Hargrave,619,France,Female,42,2,0.00,1,True,1,101348.88,1
2,3,15619304,Onio,502,France,Female,42,8,159660.80,3,True,0,113931.57,1
3,4,15701354,Boni,699,France,Female,39,1,0.00,2,False,0,93826.63,0
6,7,15592531,Bartlett,822,France,Male,50,7,0.00,2,True,1,10062.80,0
7,8,15656148,Obinna,376,Germany,Female,29,4,115046.74,4,True,0,119346.88,1
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
9995,9996,15606229,Obijiaku,771,France,Male,39,5,0.00,2,True,0,96270.64,0
9996,9997,15569892,Johnstone,516,France,Male,35,10,57369.61,1,True,1,101699.77,0
9997,9998,15584532,Liu,709,France,Female,36,7,0.00,1,False,1,42085.58,1
9998,9999,15682355,Sabbatini,772,Germany,Male,42,3,75075.31,2,True,0,92888.52,1


Данное условие могли переписать через метод isin():
 

In [77]:
df[(df['Geography'] != 'Spain')]

Unnamed: 0,RowNumber,CustomerId,Surname,CreditScore,Geography,Gender,Age,Tenure,Balance,NumOfProducts,HasCrCard,IsActiveMember,EstimatedSalary,Exited
0,1,15634602,Hargrave,619,France,Female,42,2,0.00,1,True,1,101348.88,1
2,3,15619304,Onio,502,France,Female,42,8,159660.80,3,True,0,113931.57,1
3,4,15701354,Boni,699,France,Female,39,1,0.00,2,False,0,93826.63,0
6,7,15592531,Bartlett,822,France,Male,50,7,0.00,2,True,1,10062.80,0
7,8,15656148,Obinna,376,Germany,Female,29,4,115046.74,4,True,0,119346.88,1
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
9995,9996,15606229,Obijiaku,771,France,Male,39,5,0.00,2,True,0,96270.64,0
9996,9997,15569892,Johnstone,516,France,Male,35,10,57369.61,1,True,1,101699.77,0
9997,9998,15584532,Liu,709,France,Female,36,7,0.00,1,False,1,42085.58,1
9998,9999,15682355,Sabbatini,772,Germany,Male,42,3,75075.31,2,True,0,92888.52,1


In [79]:
df[~(df['Geography'].isin(['France', 'Germany']))]

Unnamed: 0,RowNumber,CustomerId,Surname,CreditScore,Geography,Gender,Age,Tenure,Balance,NumOfProducts,HasCrCard,IsActiveMember,EstimatedSalary,Exited
1,2,15647311,Hill,608,Spain,Female,41,1,83807.86,1,False,1,112542.58,0
4,5,15737888,Mitchell,850,Spain,Female,43,2,125510.82,1,True,1,79084.10,0
5,6,15574012,Chu,645,Spain,Male,44,8,113755.78,2,True,0,149756.71,1
11,12,15737173,Andrews,497,Spain,Male,24,3,0.00,2,True,0,76390.01,0
14,15,15600882,Scott,635,Spain,Female,35,7,0.00,2,True,1,65951.65,0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
9966,9967,15590213,Ch'en,479,Spain,Male,35,4,125920.98,1,True,1,20393.44,0
9980,9981,15719276,T'ao,741,Spain,Male,35,6,74371.49,1,False,0,99595.67,0
9987,9988,15588839,Mancini,606,Spain,Male,30,8,180307.73,2,True,1,1914.41,0
9989,9990,15605622,McMillan,841,Spain,Male,28,4,0.00,2,True,1,179436.60,0


### Индексация

Порой бывает полезно получать объект по его индексу, чтобы проверить правильность измененных данных, чтобы смотреть не на всю большую таблицу, а на один объект из таблицы и в pandas это можно сделать двумя способами.
Для наглядности возьмем датасет поменьше:
 

In [82]:
df_small = df[(df['Geography'] == 'Spain')][['Geography', 'Gender', 'Age']]
df_small.head()

Unnamed: 0,Geography,Gender,Age
1,Spain,Female,41
4,Spain,Female,43
5,Spain,Male,44
11,Spain,Male,24
14,Spain,Female,35


#### loc
Данный метод позволяет взять объект по конкретному ключу строки или столбца:
 

In [83]:
df_small.loc[1]

Geography     Spain
Gender       Female
Age              41
Name: 1, dtype: object

Если такого ключа нет в данных, то будет ошибка KeyError:
 

In [85]:
# df_small.loc[3]

Помимо ключей строки, можно передавать и ключи столбцов:
 

In [86]:
df_small.loc[[1, 4, 5], ['Gender', 'Age']]

Unnamed: 0,Gender,Age
1,Female,41
4,Female,43
5,Male,44


In [87]:
df_small.index

Int64Index([   1,    4,    5,   11,   14,   17,   18,   21,   22,   30,
            ...
            9951, 9955, 9959, 9961, 9962, 9966, 9980, 9987, 9989, 9992],
           dtype='int64', length=2477)

In [89]:
df_small.head()

Unnamed: 0,Geography,Gender,Age
1,Spain,Female,41
4,Spain,Female,43
5,Spain,Male,44
11,Spain,Male,24
14,Spain,Female,35


#### iloc

Данный метод позволяет взять объект по порядковому ключу строки или столбца. И без разницы, какие на самом деле лежат значения ключей в этих строках. В нашем примере есть ключи по индексам 1, 4, 5, но через iloc можем их достать по порядку: 0,1,2, не вдаваясь в подробности, какие именно индексы у этих объектов:
 

In [90]:
df_small.iloc[[0, 1, 2]]

Unnamed: 0,Geography,Gender,Age
1,Spain,Female,41
4,Spain,Female,43
5,Spain,Male,44


In [94]:
df_small.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 2477 entries, 1 to 9992
Data columns (total 3 columns):
 #   Column     Non-Null Count  Dtype 
---  ------     --------------  ----- 
 0   Geography  2477 non-null   object
 1   Gender     2477 non-null   object
 2   Age        2477 non-null   int64 
dtypes: int64(1), object(2)
memory usage: 141.9+ KB


Если такого порядкового индекса нет в данных, то будет ошибка IndexError (по аналогии с выходом за массив в списках):
 

In [89]:
# df_small.iloc[5100]

Помимо порядковых индексов строки, можно передавать и порядковые индексы столбцов:
 

In [90]:
df_small.iloc[0, [0, 2]]

Geography    Spain
Age             41
Name: 1, dtype: object

### Сортировки

Если хочется вывести данные в определенном порядке, то можно пользоваться методом sort_values(), который сортирует таблицу по признаку. Сортировка будет выполнена от меньшего к большему:
 

In [96]:
df.sort_values('Age')

Unnamed: 0,RowNumber,CustomerId,Surname,CreditScore,Geography,Gender,Age,Tenure,Balance,NumOfProducts,HasCrCard,IsActiveMember,EstimatedSalary,Exited
3512,3513,15657779,Boylan,806,Spain,Male,18,3,0.00,2,True,1,86994.54,0
1678,1679,15569178,Kharlamov,570,France,Female,18,4,82767.42,1,True,0,71811.90,0
3517,3518,15757821,Burgess,771,Spain,Male,18,1,0.00,2,False,0,41542.95,0
9520,9521,15673180,Onyekaozulu,727,Germany,Female,18,2,93816.70,2,True,0,126172.11,0
2021,2022,15795519,Vasiliev,716,Germany,Female,18,3,128743.80,1,False,0,197322.13,0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
3387,3388,15798024,Lori,537,Germany,Male,84,8,92242.34,1,True,1,186235.98,0
3033,3034,15578006,Yao,787,France,Female,85,10,0.00,2,True,1,116537.96,0
2458,2459,15813303,Rearick,513,Spain,Male,88,10,0.00,2,True,1,52952.24,0
6759,6760,15660878,T'ien,705,France,Male,92,1,126076.24,2,True,1,34436.83,0


Если хочется применить сортировку наоборот от большего к меньшему, то воспользуйтесь атрибутом ascending=False:
 

In [91]:
df.sort_values('Age', ascending=False)

Unnamed: 0,RowNumber,CustomerId,Surname,CreditScore,Geography,Gender,Age,Tenure,Balance,NumOfProducts,HasCrCard,IsActiveMember,EstimatedSalary,Exited
6443,6444,15764927,Rogova,753,France,Male,92,3,121513.31,1,False,1,195563.99,0
6759,6760,15660878,T'ien,705,France,Male,92,1,126076.24,2,True,1,34436.83,0
2458,2459,15813303,Rearick,513,Spain,Male,88,10,0.00,2,True,1,52952.24,0
3033,3034,15578006,Yao,787,France,Female,85,10,0.00,2,True,1,116537.96,0
3387,3388,15798024,Lori,537,Germany,Male,84,8,92242.34,1,True,1,186235.98,0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
9782,9783,15728829,Weigel,509,France,Male,18,7,102983.91,1,True,0,171770.58,0
2141,2142,15758372,Wallace,674,France,Male,18,7,0.00,2,True,1,55753.12,1
9501,9502,15634146,Hou,835,Germany,Male,18,2,142872.36,1,True,1,117632.63,0
9520,9521,15673180,Onyekaozulu,727,Germany,Female,18,2,93816.70,2,True,0,126172.11,0


А еще можно сортироваться по двум и более признакам. Сначала сортировка пройдет в первом признаке, а если встречаются одинаковые значения, то сортировка коснется и второго признака:

In [95]:
df.sort_values(['Age', 'Tenure'], ascending=[True, False]).head(30)

Unnamed: 0,RowNumber,CustomerId,Surname,CreditScore,Geography,Gender,Age,Tenure,Balance,NumOfProducts,HasCrCard,IsActiveMember,EstimatedSalary,Exited
1619,1620,15770309,McDonald,656,France,Male,18,10,151762.74,1,False,1,127014.32,0
4716,4717,15805764,Hallahan,646,France,Male,18,10,0.0,2,False,1,52795.15,0
7722,7723,15570086,Lynch,684,Germany,Male,18,9,90544.0,1,False,1,4777.23,0
8522,8523,15619892,Page,644,Spain,Male,18,8,0.0,2,True,0,59172.42,0
9932,9933,15813451,Fleetwood-Smith,677,Spain,Male,18,8,134796.87,2,True,1,114858.9,0
2141,2142,15758372,Wallace,674,France,Male,18,7,0.0,2,True,1,55753.12,1
9572,9573,15641688,Collier,644,Spain,Male,18,7,0.0,1,False,1,59645.24,1
9782,9783,15728829,Weigel,509,France,Male,18,7,102983.91,1,True,0,171770.58,0
7334,7335,15759133,Vaguine,616,France,Male,18,6,0.0,2,True,1,27308.58,0
9526,9527,15665521,Chiazagomekpele,642,Germany,Male,18,5,111183.53,2,False,1,10063.75,0
