                Лекция 2. Анализ данных с библиотекой Pandas                  

**Pandas** - наиболее продвинутая библиотека для обработки и анализа данных.
Это некий аналог Microsoft Excel или Google Sheets для языка программирования Python. Но в Excel и Sheets есть ограничения на количество строк/количество ячеек, поэтому большие датасеты там не проанализируешь, благо есть Python, на котором можно анализировать очень большие массивы данных, ограничение одно - оперативная память машины, на которой работаете.    

Чтобы начать работу с функциями и классами из библиотеки:   
-	В командной строке нужно написать pip install pandas (если работаете не через анаконду)
-	В командной строке нужно написать conda install pandas (если работаете через анаконду)
-	Импортировать себе в ноутбук библиотеку через import pandas as pd:

Чтобы импортировать **pandas** и **VSC** нужно для:  
**Windows:**    
1. Открыть cmd    
2. Вписать python -m pip install pandas    
3. Перезапустить Visual Studio Code    

**Linux or macOS:**
1. Открыть terminal    
2. Вписать pip install pandas    
3. Перезапустить Visual Studio Code    

![alt text](image.png)

В результата установятся следующие библиотеки: numpy, pandas,  pytz и tzdata

In [2]:
import pandas as pd
import numpy as np

                            Объекты Series и DataFrame                          
**Объект** — это набор данных (переменных) и методов (функций), которые с этими данными взаимодействуют. 

**DataFrame** и **Series** используются для эффективной работаты с pandas.

**Series** в pandas можно сравнить с одной характеристикой клиента/предмета/объекта. Н-р, у нас задача по анализу рекламной кампании и возраст людей, которые участвовали в ней - это и есть одна характеристика, которую можно представить через Series.

**DataFrame** - это уже полноценная таблица. Это все сведения, которые мы собирали на протяжении всей рекламной кампании: возраст клиентов, время показа рекламы, рекламный заголовок и многие другие.  

                                    Series                                      
Первый объект библиотеки Pandas - это pandas Series. Она представляет из себя объект, похожий на одномерный массив, но отличительной чертой является наличие индексов. Индекс находится слева, а сам элемент справа.

Синтаксис создания:    
*pandas.Series(input_data, index, data_type)*
-	input_data: ввод в виде списка, константы, массива NumPy, Dict и т. д.
-	index: значения индексов.
-	data_type (опционально): тип данных.

Создадим небольшую **Series** по синтаксису выше:

In [3]:
a = pd.Series([4, 7, 6, 3, 9],
              index=['one', 'two', 'three', 'four', 'five'])
a

one      4
two      7
three    6
four     3
five     9
dtype: int64

Если индекс явно не задан, то pandas автоматически создаёт индексы от 0 до N-1, где N - общее количество элементов:

In [4]:
a = pd.Series([4, 7, 6, 3, 9])
a

0    4
1    7
2    6
3    3
4    9
dtype: int64

In [5]:
# Получение индекса объекта Series
a.index

RangeIndex(start=0, stop=5, step=1)

In [6]:
# Получение элементов объекта Series
a.values

array([4, 7, 6, 3, 9], dtype=int64)

In [7]:
# Получить элемент из объекта Series можно по его индексу:
a[0]

4

In [8]:
a[1]

7

                                    DataFrame                                   

Объект **DataFrame** является табличной структурой данных. В любой таблице всегда присутствуют строки и столбцы. При этом в столбцах можно хранить данные разных типов данных.    
Столбцами в объекте DataFrame выступают объекты Series, строки которых являются их элементами.     

Синтаксис создания:    
*pandas.DataFrame(input_data, index)*
-	input_data: ввод в виде Dict, 2D массива NumPy, Series и т. д.
-	index: значения индексов.

DataFrame создаем с помощью словаря:

In [9]:
df = pd.DataFrame({
    'Age': [46, 37, 44, 42, 42],
    'Country': ['Spain', 'Spain', 'Germany', 'Germany', 'France'],
    # Female - женщина, male - мужчина
    'Gender': ['Female', 'Female', 'Male', 'Male', 'Male']  
})
# Запускаем функцию:
df

Unnamed: 0,Age,Country,Gender
0,46,Spain,Female
1,37,Spain,Female
2,44,Germany,Male
3,42,Germany,Male
4,42,France,Male


Чтобы убедиться, что столбец в DataFrame это Series, можем извлечь любой столбец, используя квадратные скобки или точку:

In [10]:
# квадратные скобки:
df['Age']

0    46
1    37
2    44
3    42
4    42
Name: Age, dtype: int64

In [11]:
# точка:
df.Country

0      Spain
1      Spain
2    Germany
3    Germany
4     France
Name: Country, dtype: object

А если захотим извлечь больше, чем один признак, то получим снова DataFrame:

In [12]:
df[['Country', 'Age']]

Unnamed: 0,Country,Age
0,Spain,46
1,Spain,37
2,Germany,44
3,Germany,42
4,France,42


In [13]:
# Получаем названия столбцов из объекта DataFrame:
df.columns

Index(['Age', 'Country', 'Gender'], dtype='object')

In [14]:
# Получаем названия индексов из объекта DataFrame:
df.index

RangeIndex(start=0, stop=5, step=1)

Индекс по строкам можно задать разными способами, например, при формировании самого объекта DataFrame:

In [15]:
df = pd.DataFrame({
    'Age': [46, 37, 44, 42, 42],
    'Country': ['Spain', 'Spain', 'Germany', 'Germany', 'France'],
    'Gender': ['Female', 'Female', 'Male', 'Male', 'Male']
}, index=[5, 4, 6, 3, 2])
df

Unnamed: 0,Age,Country,Gender
5,46,Spain,Female
4,37,Spain,Female
6,44,Germany,Male
3,42,Germany,Male
2,42,France,Male


Или же поменять атрибут index уже при работе с DataFrame:

In [16]:
df.index = [101, 102, 103, 104, 105]
df

Unnamed: 0,Age,Country,Gender
101,46,Spain,Female
102,37,Spain,Female
103,44,Germany,Male
104,42,Germany,Male
105,42,France,Male


                            Считывание данных                                   
Pandas поддерживает все самые популярные форматы хранения данных: csv, excel, sql, html и многое другое, но чаще всего приходится работать именно с csv файлами (comma separated values).

**ЗАДАЧА**   
Необходимо проанализировать набор данных по оттоку клиентов из банка. Необходимо выяснить, почему люди решают покинуть выбранный банк.

In [17]:
# 1. Считать данные из csv-файла и 
#    превратить в DataFrame можно функцией read_csv:
df = pd.read_csv('./Churn_Modelling.csv')
df

Unnamed: 0,RowNumber,CustomerId,Surname,CreditScore,Geography,Gender,Age,Tenure,Balance,NumOfProducts,HasCrCard,IsActiveMember,EstimatedSalary,Exited
0,1,15634602,Hargrave,619,France,Female,42,2,0.00,1,1,1,101348.88,1
1,2,15647311,Hill,608,Spain,Female,41,1,83807.86,1,0,1,112542.58,0
2,3,15619304,Onio,502,France,Female,42,8,159660.80,3,1,0,113931.57,1
3,4,15701354,Boni,699,France,Female,39,1,0.00,2,0,0,93826.63,0
4,5,15737888,Mitchell,850,Spain,Female,43,2,125510.82,1,1,1,79084.10,0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
9995,9996,15606229,Obijiaku,771,France,Male,39,5,0.00,2,1,0,96270.64,0
9996,9997,15569892,Johnstone,516,France,Male,35,10,57369.61,1,1,1,101699.77,0
9997,9998,15584532,Liu,709,France,Female,36,7,0.00,1,0,1,42085.58,1
9998,9999,15682355,Sabbatini,772,Germany,Male,42,3,75075.31,2,1,0,92888.52,1


Аргумент **header** - указывает на названия столбцов датафрейма, по умолчанию *header=0*, значит значения шапки таблицы формируются из нулевой строки файла.    Изменим *header=1*, то  значения шапки таблицы будут формироваться из первой строки файла:

In [18]:
pd.read_csv('./Churn_Modelling.csv', header=1)

Unnamed: 0,1,15634602,Hargrave,619,France,Female,42,2,0,1.1,1.2,1.3,101348.88,1.4
0,2,15647311,Hill,608,Spain,Female,41,1,83807.86,1,0,1,112542.58,0
1,3,15619304,Onio,502,France,Female,42,8,159660.80,3,1,0,113931.57,1
2,4,15701354,Boni,699,France,Female,39,1,0.00,2,0,0,93826.63,0
3,5,15737888,Mitchell,850,Spain,Female,43,2,125510.82,1,1,1,79084.10,0
4,6,15574012,Chu,645,Spain,Male,44,8,113755.78,2,1,0,149756.71,1
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
9994,9996,15606229,Obijiaku,771,France,Male,39,5,0.00,2,1,0,96270.64,0
9995,9997,15569892,Johnstone,516,France,Male,35,10,57369.61,1,1,1,101699.77,0
9996,9998,15584532,Liu,709,France,Female,36,7,0.00,1,0,1,42085.58,1
9997,9999,15682355,Sabbatini,772,Germany,Male,42,3,75075.31,2,1,0,92888.52,1


Аргумент **sep** - указывает на разделитель столбцов, укажем sep=’;’, в этом случае pandas будет искать символ ;, чтобы разбить столбцы, но ничего не найдет, поэтому все значения сольются воедино:

In [19]:
pd.read_csv('./Churn_Modelling.csv', sep=';')

Unnamed: 0,"RowNumber,CustomerId,Surname,CreditScore,Geography,Gender,Age,Tenure,Balance,NumOfProducts,HasCrCard,IsActiveMember,EstimatedSalary,Exited"
0,"1,15634602,Hargrave,619,France,Female,42,2,0,1..."
1,"2,15647311,Hill,608,Spain,Female,41,1,83807.86..."
2,"3,15619304,Onio,502,France,Female,42,8,159660...."
3,"4,15701354,Boni,699,France,Female,39,1,0,2,0,0..."
4,"5,15737888,Mitchell,850,Spain,Female,43,2,1255..."
...,...
9995,"9996,15606229,Obijiaku,771,France,Male,39,5,0,..."
9996,"9997,15569892,Johnstone,516,France,Male,35,10,..."
9997,"9998,15584532,Liu,709,France,Female,36,7,0,1,0..."
9998,"9999,15682355,Sabbatini,772,Germany,Male,42,3,..."


                            Отображение данных в pandas                         

In [20]:
# Отобразим весь датафрейм на экран:
df

Unnamed: 0,RowNumber,CustomerId,Surname,CreditScore,Geography,Gender,Age,Tenure,Balance,NumOfProducts,HasCrCard,IsActiveMember,EstimatedSalary,Exited
0,1,15634602,Hargrave,619,France,Female,42,2,0.00,1,1,1,101348.88,1
1,2,15647311,Hill,608,Spain,Female,41,1,83807.86,1,0,1,112542.58,0
2,3,15619304,Onio,502,France,Female,42,8,159660.80,3,1,0,113931.57,1
3,4,15701354,Boni,699,France,Female,39,1,0.00,2,0,0,93826.63,0
4,5,15737888,Mitchell,850,Spain,Female,43,2,125510.82,1,1,1,79084.10,0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
9995,9996,15606229,Obijiaku,771,France,Male,39,5,0.00,2,1,0,96270.64,0
9996,9997,15569892,Johnstone,516,France,Male,35,10,57369.61,1,1,1,101699.77,0
9997,9998,15584532,Liu,709,France,Female,36,7,0.00,1,0,1,42085.58,1
9998,9999,15682355,Sabbatini,772,Germany,Male,42,3,75075.31,2,1,0,92888.52,1


In [21]:
#  метод head() возвращает по умолчанию 5 строк с начала таблицы:
df.head()

Unnamed: 0,RowNumber,CustomerId,Surname,CreditScore,Geography,Gender,Age,Tenure,Balance,NumOfProducts,HasCrCard,IsActiveMember,EstimatedSalary,Exited
0,1,15634602,Hargrave,619,France,Female,42,2,0.0,1,1,1,101348.88,1
1,2,15647311,Hill,608,Spain,Female,41,1,83807.86,1,0,1,112542.58,0
2,3,15619304,Onio,502,France,Female,42,8,159660.8,3,1,0,113931.57,1
3,4,15701354,Boni,699,France,Female,39,1,0.0,2,0,0,93826.63,0
4,5,15737888,Mitchell,850,Spain,Female,43,2,125510.82,1,1,1,79084.1,0


In [22]:
# метод tail() возвращает по умолчанию 5 строк с конца таблицы:
df.tail()

Unnamed: 0,RowNumber,CustomerId,Surname,CreditScore,Geography,Gender,Age,Tenure,Balance,NumOfProducts,HasCrCard,IsActiveMember,EstimatedSalary,Exited
9995,9996,15606229,Obijiaku,771,France,Male,39,5,0.0,2,1,0,96270.64,0
9996,9997,15569892,Johnstone,516,France,Male,35,10,57369.61,1,1,1,101699.77,0
9997,9998,15584532,Liu,709,France,Female,36,7,0.0,1,0,1,42085.58,1
9998,9999,15682355,Sabbatini,772,Germany,Male,42,3,75075.31,2,1,0,92888.52,1
9999,10000,15628319,Walker,792,France,Female,28,4,130142.79,1,1,0,38190.78,0


In [23]:
#  метод sample() вернет один случайный объект:
df.sample()

Unnamed: 0,RowNumber,CustomerId,Surname,CreditScore,Geography,Gender,Age,Tenure,Balance,NumOfProducts,HasCrCard,IsActiveMember,EstimatedSalary,Exited
9702,9703,15687828,Gorshkov,644,Spain,Female,31,5,86006.3,1,1,1,73922.95,0


А если в метод **sample()** передать атрибут **frac**(принимать значения от 0 до 1), то можно возвращать долю объектов в случайном порядке.

In [24]:
# При frac=1 - вернутся все объекты, но в случайном порядке:
df.sample(frac=1)

Unnamed: 0,RowNumber,CustomerId,Surname,CreditScore,Geography,Gender,Age,Tenure,Balance,NumOfProducts,HasCrCard,IsActiveMember,EstimatedSalary,Exited
9613,9614,15737025,Roberts,635,France,Male,33,1,0.00,3,0,0,178067.33,1
921,922,15743411,Chiawuotu,609,Spain,Male,61,1,0.00,1,1,0,22447.85,1
1234,1235,15684865,Lucchesi,771,France,Female,66,7,143773.07,1,1,1,130827.88,0
646,647,15730830,Dale,752,France,Female,30,3,0.00,2,1,1,104991.28,0
7410,7411,15752344,She,714,Spain,Male,34,5,0.00,2,1,0,193040.32,0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
6897,6898,15650488,Bromley,492,France,Female,48,6,127253.98,1,1,1,92144.09,1
5361,5362,15719265,Feng,589,France,Male,46,9,0.00,2,1,0,170676.67,0
6861,6862,15665524,Savage,605,Spain,Male,41,5,103154.66,1,0,0,143203.78,0
1750,1751,15569410,Tang,601,Germany,Female,33,7,114430.18,2,1,1,153012.13,0


In [25]:
# При frac=0.5 - вернется половина значений (5000 записей) в случ порядке:
df.sample(frac=0.5)

Unnamed: 0,RowNumber,CustomerId,Surname,CreditScore,Geography,Gender,Age,Tenure,Balance,NumOfProducts,HasCrCard,IsActiveMember,EstimatedSalary,Exited
2672,2673,15630920,Du Cane,724,France,Male,34,2,154485.74,2,0,0,78560.64,0
5767,5768,15573284,Olisanugo,579,France,Female,45,2,0.00,2,0,0,11514.39,0
1634,1635,15735222,Ignatieff,705,Spain,Female,23,5,0.00,2,1,1,73131.73,0
6613,6614,15679991,Kennedy,524,France,Female,28,7,0.00,2,0,1,147100.72,0
2622,2623,15787026,Onwuatuegwu,627,Germany,Male,27,0,185267.45,2,1,1,77027.34,0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
3014,3015,15679297,Volkova,628,Spain,Male,43,3,184926.61,1,1,0,122937.57,0
7423,7424,15692430,Milano,699,Germany,Male,36,2,123601.56,2,1,0,103557.85,0
1283,1284,15609510,Gregory,669,France,Male,45,7,149364.58,1,0,1,173454.07,0
7797,7798,15774164,Coles,502,Germany,Male,33,5,174673.65,2,1,0,33300.56,0


Чтобы узнать, сколько есть строк и столбцов можно вызвать атрибут **shape** - это будет кортеж из двух значений, первое - количество строк, второе - количество столбцов:

In [26]:
df.shape

(10000, 14)

                                Первичный анализ данных                         
Выведем сводную таблицу по типам данных, по количеству непропущенных объектов и по потреблению памяти в таблице через метод **info()**.    
Типы данных:    
-	int: целочисленные значения. Пример: 9, 56, 30
-	float: вещественные значения (с плавающей точкой). Пример: 7.3, 9.0, 45.334
-	object/str: строковые значения. Пример: ‘hello, world’, ‘50 000’


In [27]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 10000 entries, 0 to 9999
Data columns (total 14 columns):
 #   Column           Non-Null Count  Dtype  
---  ------           --------------  -----  
 0   RowNumber        10000 non-null  int64  
 1   CustomerId       10000 non-null  int64  
 2   Surname          10000 non-null  object 
 3   CreditScore      10000 non-null  int64  
 4   Geography        10000 non-null  object 
 5   Gender           10000 non-null  object 
 6   Age              10000 non-null  int64  
 7   Tenure           10000 non-null  int64  
 8   Balance          10000 non-null  float64
 9   NumOfProducts    10000 non-null  int64  
 10  HasCrCard        10000 non-null  int64  
 11  IsActiveMember   10000 non-null  int64  
 12  EstimatedSalary  10000 non-null  float64
 13  Exited           10000 non-null  int64  
dtypes: float64(2), int64(9), object(3)
memory usage: 1.1+ MB


Воспользуемся методом **describe()**, чтобы получить основную статистику:
1.	Count - количество непропущенных объектов (там, где нет nan значений)
2.	mean - арифметическое среднее
3.	std - стандартное отклонение
4.	min - минимальное значение
5.	25% - квантиль 25 процентов
6.	50% - квантиль 50 процентов или же медиана
7.	75% - квантиль 75 процентов
8.	max - максимальное значение


In [28]:
df.describe()

Unnamed: 0,RowNumber,CustomerId,CreditScore,Age,Tenure,Balance,NumOfProducts,HasCrCard,IsActiveMember,EstimatedSalary,Exited
count,10000.0,10000.0,10000.0,10000.0,10000.0,10000.0,10000.0,10000.0,10000.0,10000.0,10000.0
mean,5000.5,15690940.0,650.5288,38.9218,5.0128,76485.889288,1.5302,0.7055,0.5151,100090.239881,0.2037
std,2886.89568,71936.19,96.653299,10.487806,2.892174,62397.405202,0.581654,0.45584,0.499797,57510.492818,0.402769
min,1.0,15565700.0,350.0,18.0,0.0,0.0,1.0,0.0,0.0,11.58,0.0
25%,2500.75,15628530.0,584.0,32.0,3.0,0.0,1.0,0.0,0.0,51002.11,0.0
50%,5000.5,15690740.0,652.0,37.0,5.0,97198.54,1.0,1.0,1.0,100193.915,0.0
75%,7500.25,15753230.0,718.0,44.0,7.0,127644.24,2.0,1.0,1.0,149388.2475,0.0
max,10000.0,15815690.0,850.0,92.0,10.0,250898.09,4.0,1.0,1.0,199992.48,1.0


In [29]:
# Выведем только минимальный возраст клиента:
df['Age'].min()

18

In [30]:
# Выведем только максимальный баланс на счету:
df['Balance'].max()

250898.09

In [31]:
# Выведем статистику по нескольким признакам:
df[['CreditScore', 'Age', 'Tenure']].mean()

CreditScore    650.5288
Age             38.9218
Tenure           5.0128
dtype: float64

Метод **describe()** по умолчанию считает статистики только для *вещественных признаков*, а строковые игнорирует, чтобы **describe** посчитал на них статистики, нужно **явно это указать**.    
На выходе получим 4 значения:    
1.	count - количество непропущенных объектов
2.	unique - количество уникальных значений
3.	top - самое частотное значение (мода)
4.	freq - частота появления самого частотного значения


In [32]:
df.describe(include=['object'])

Unnamed: 0,Surname,Geography,Gender
count,10000,10000,10000
unique,2932,3,2
top,Smith,France,Male
freq,32,5014,5457


Атрибут **dtypes** - укажет на то, какой тип данных имеет каждый столбец:

In [33]:
df.dtypes

RowNumber            int64
CustomerId           int64
Surname             object
CreditScore          int64
Geography           object
Gender              object
Age                  int64
Tenure               int64
Balance            float64
NumOfProducts        int64
HasCrCard            int64
IsActiveMember       int64
EstimatedSalary    float64
Exited               int64
dtype: object

In [34]:
# Хотим  узнать тип одного конкретного столбца:
df['Age'].dtype

dtype('int64')

In [35]:
# Типы данных можно менять через атрибут astype():
df['HasCrCard'].astype('bool')
# Чтобы изменения вступили в силу нужно переопределить признак:
df['HasCrCard'] = df['HasCrCard'].astype('bool')
# Проверяем:
df['HasCrCard'].dtype

dtype('bool')

In [36]:
# Чтобы найти уникальные значения в признаке можно вызвать метод unique():
df['Geography'].unique()

array(['France', 'Spain', 'Germany'], dtype=object)

In [37]:
# Чтобы найти количество уникальных значений через nunique():
df['Geography'].nunique()

3

Чтобы вывести уникальные значения и их частоту появления используют value_counts():

In [38]:
df['Geography'].value_counts()

Geography
France     5014
Germany    2509
Spain      2477
Name: count, dtype: int64

Если вызвать value_counts() с атрибутом normalize=True, то частотность будет нормированная:

In [39]:
df['Geography'].value_counts(normalize=True)

Geography
France     0.5014
Germany    0.2509
Spain      0.2477
Name: proportion, dtype: float64

                                Фильтрация                                      
Используется, чтобы изучать отдельные группы клиентов.    
Фильтрация в pandas основывается на булевых масках.    

**Булевая маска** — бинарные данные, которые используются для выбора определенных объектов из структуры данных.    

Ниже видим пример булевой маски, если стоит значение False, то значение в этой строке не ‘Male’, а если стоит значение True, то объект принимает значение ‘Male’:


In [40]:
df['Gender'] == 'Male'

0       False
1       False
2       False
3       False
4       False
        ...  
9995     True
9996     True
9997    False
9998     True
9999    False
Name: Gender, Length: 10000, dtype: bool

Данную маску можно передать в датафрейм и на выходе мы получим только людей, у которых признак Gender == ‘Male’:

In [41]:
male = df[df['Gender'] == 'Male']
male

Unnamed: 0,RowNumber,CustomerId,Surname,CreditScore,Geography,Gender,Age,Tenure,Balance,NumOfProducts,HasCrCard,IsActiveMember,EstimatedSalary,Exited
5,6,15574012,Chu,645,Spain,Male,44,8,113755.78,2,True,0,149756.71,1
6,7,15592531,Bartlett,822,France,Male,50,7,0.00,2,True,1,10062.80,0
8,9,15792365,He,501,France,Male,44,4,142051.07,2,False,1,74940.50,0
9,10,15592389,H?,684,France,Male,27,2,134603.88,1,True,1,71725.73,0
10,11,15767821,Bearce,528,France,Male,31,6,102016.72,2,False,0,80181.12,0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
9992,9993,15657105,Chukwualuka,726,Spain,Male,36,2,0.00,1,True,0,195192.40,0
9993,9994,15569266,Rahman,644,France,Male,28,7,155060.41,1,True,0,29179.52,0
9995,9996,15606229,Obijiaku,771,France,Male,39,5,0.00,2,True,0,96270.64,0
9996,9997,15569892,Johnstone,516,France,Male,35,10,57369.61,1,True,1,101699.77,0


                                Логическое И                                    
При **операторе &** нужно, чтобы выполнялось два условия одновременно:

In [42]:
df[(df['Gender'] == 'Female') & (df['NumOfProducts'] >= 3)]

Unnamed: 0,RowNumber,CustomerId,Surname,CreditScore,Geography,Gender,Age,Tenure,Balance,NumOfProducts,HasCrCard,IsActiveMember,EstimatedSalary,Exited
2,3,15619304,Onio,502,France,Female,42,8,159660.80,3,True,0,113931.57,1
7,8,15656148,Obinna,376,Germany,Female,29,4,115046.74,4,True,0,119346.88,1
30,31,15589475,Azikiwe,591,Spain,Female,39,3,0.00,3,True,0,140469.38,1
88,89,15622897,Sharpe,646,France,Female,46,4,0.00,3,True,0,93251.42,1
90,91,15757535,Heap,647,Spain,Female,44,5,0.00,3,True,1,174205.22,1
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
9565,9566,15752294,Long,582,France,Female,38,9,135979.01,4,True,1,76582.95,1
9747,9748,15775761,Iweobiegbunam,610,Germany,Female,69,5,86038.21,3,False,0,192743.06,1
9800,9801,15640507,Li,762,Spain,Female,35,3,119349.69,3,True,1,47114.18,1
9877,9878,15572182,Onwuamaeze,505,Germany,Female,33,3,106506.77,3,True,0,45445.78,1


                                Логические ИЛИ                                  
При **операторе |** нужно, чтобы выполнялось хотя бы одно условие:

In [43]:
df[(df['HasCrCard']) | (df['NumOfProducts'] >= 3)]

Unnamed: 0,RowNumber,CustomerId,Surname,CreditScore,Geography,Gender,Age,Tenure,Balance,NumOfProducts,HasCrCard,IsActiveMember,EstimatedSalary,Exited
0,1,15634602,Hargrave,619,France,Female,42,2,0.00,1,True,1,101348.88,1
2,3,15619304,Onio,502,France,Female,42,8,159660.80,3,True,0,113931.57,1
4,5,15737888,Mitchell,850,Spain,Female,43,2,125510.82,1,True,1,79084.10,0
5,6,15574012,Chu,645,Spain,Male,44,8,113755.78,2,True,0,149756.71,1
6,7,15592531,Bartlett,822,France,Male,50,7,0.00,2,True,1,10062.80,0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
9993,9994,15569266,Rahman,644,France,Male,28,7,155060.41,1,True,0,29179.52,0
9995,9996,15606229,Obijiaku,771,France,Male,39,5,0.00,2,True,0,96270.64,0
9996,9997,15569892,Johnstone,516,France,Male,35,10,57369.61,1,True,1,101699.77,0
9998,9999,15682355,Sabbatini,772,Germany,Male,42,3,75075.31,2,True,0,92888.52,1


                                Логические НЕ                                   
При **операторе ~** булевая маска обращается: True меняется на False и наоборот:

In [44]:
df[~(df['Geography'] == 'Spain')]

Unnamed: 0,RowNumber,CustomerId,Surname,CreditScore,Geography,Gender,Age,Tenure,Balance,NumOfProducts,HasCrCard,IsActiveMember,EstimatedSalary,Exited
0,1,15634602,Hargrave,619,France,Female,42,2,0.00,1,True,1,101348.88,1
2,3,15619304,Onio,502,France,Female,42,8,159660.80,3,True,0,113931.57,1
3,4,15701354,Boni,699,France,Female,39,1,0.00,2,False,0,93826.63,0
6,7,15592531,Bartlett,822,France,Male,50,7,0.00,2,True,1,10062.80,0
7,8,15656148,Obinna,376,Germany,Female,29,4,115046.74,4,True,0,119346.88,1
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
9995,9996,15606229,Obijiaku,771,France,Male,39,5,0.00,2,True,0,96270.64,0
9996,9997,15569892,Johnstone,516,France,Male,35,10,57369.61,1,True,1,101699.77,0
9997,9998,15584532,Liu,709,France,Female,36,7,0.00,1,False,1,42085.58,1
9998,9999,15682355,Sabbatini,772,Germany,Male,42,3,75075.31,2,True,0,92888.52,1


In [45]:
# Данное условие можно переписать через метод isin():
df[df['Geography'].isin(['France', 'Germany'])]

Unnamed: 0,RowNumber,CustomerId,Surname,CreditScore,Geography,Gender,Age,Tenure,Balance,NumOfProducts,HasCrCard,IsActiveMember,EstimatedSalary,Exited
0,1,15634602,Hargrave,619,France,Female,42,2,0.00,1,True,1,101348.88,1
2,3,15619304,Onio,502,France,Female,42,8,159660.80,3,True,0,113931.57,1
3,4,15701354,Boni,699,France,Female,39,1,0.00,2,False,0,93826.63,0
6,7,15592531,Bartlett,822,France,Male,50,7,0.00,2,True,1,10062.80,0
7,8,15656148,Obinna,376,Germany,Female,29,4,115046.74,4,True,0,119346.88,1
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
9995,9996,15606229,Obijiaku,771,France,Male,39,5,0.00,2,True,0,96270.64,0
9996,9997,15569892,Johnstone,516,France,Male,35,10,57369.61,1,True,1,101699.77,0
9997,9998,15584532,Liu,709,France,Female,36,7,0.00,1,False,1,42085.58,1
9998,9999,15682355,Sabbatini,772,Germany,Male,42,3,75075.31,2,True,0,92888.52,1


                                Индексация                                      
Если нужно получить объект по его индексу, чтобы проверить правильность измененных данных, то в pandas это можно сделать двумя способами.
Для наглядности возьмем датасет поменьше:

In [46]:
df_small = df[(df['Geography'] == 'Spain')][['Geography', 'Gender', 'Age']]
df_small.head()

Unnamed: 0,Geography,Gender,Age
1,Spain,Female,41
4,Spain,Female,43
5,Spain,Male,44
11,Spain,Male,24
14,Spain,Female,35


**Способ 1 -> loc**  
Данный метод позволяет взять объект по конкретному ключу строки или столбца.
Если такого ключа нет в данных, то будет ошибка KeyError.

In [55]:
df_small.loc[1]

Geography     Spain
Gender       Female
Age              41
Name: 1, dtype: object

In [48]:
#  Помимо ключей строки, можно передавать и ключи столбцов:
df_small.loc[[1, 4, 5], ['Gender', 'Age']]

Unnamed: 0,Gender,Age
1,Female,41
4,Female,43
5,Male,44


**Способ 2 -> iloc**  
Данный метод позволяет взять объект по порядковому ключу строки или столбца.  
И без разницы, какие на самом деле лежат значения ключей в этих строках. В нашем примере есть ключи по индексам 1, 4, 5, но через iloc можем их достать по порядку: 0,1,2, не вдаваясь в подробности, какие именно индексы у этих объектов:


In [49]:
df_small.iloc[[0, 1, 2]]

Unnamed: 0,Geography,Gender,Age
1,Spain,Female,41
4,Spain,Female,43
5,Spain,Male,44


In [50]:
#  Помимо порядковых индексов строки,
#  можно передавать и порядковые индексы столбцов:
df_small.iloc[0, [0, 2]]

Geography    Spain
Age             41
Name: 1, dtype: object

                                Сортировки                                      
Если требуется вывести данные в определенном порядке, то можно пользоваться методом **sort_values()**, который сортирует таблицу по признаку "от меньшего к большему":

In [51]:
df.sort_values('Age')

Unnamed: 0,RowNumber,CustomerId,Surname,CreditScore,Geography,Gender,Age,Tenure,Balance,NumOfProducts,HasCrCard,IsActiveMember,EstimatedSalary,Exited
3512,3513,15657779,Boylan,806,Spain,Male,18,3,0.00,2,True,1,86994.54,0
1678,1679,15569178,Kharlamov,570,France,Female,18,4,82767.42,1,True,0,71811.90,0
3517,3518,15757821,Burgess,771,Spain,Male,18,1,0.00,2,False,0,41542.95,0
9520,9521,15673180,Onyekaozulu,727,Germany,Female,18,2,93816.70,2,True,0,126172.11,0
2021,2022,15795519,Vasiliev,716,Germany,Female,18,3,128743.80,1,False,0,197322.13,0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
3387,3388,15798024,Lori,537,Germany,Male,84,8,92242.34,1,True,1,186235.98,0
3033,3034,15578006,Yao,787,France,Female,85,10,0.00,2,True,1,116537.96,0
2458,2459,15813303,Rearick,513,Spain,Male,88,10,0.00,2,True,1,52952.24,0
6759,6760,15660878,T'ien,705,France,Male,92,1,126076.24,2,True,1,34436.83,0


Если необходимо отсортировать "от большего к меньшему", то воспользуйтесь атрибутом **ascending=False**:

In [52]:
df.sort_values('Age', ascending=False)

Unnamed: 0,RowNumber,CustomerId,Surname,CreditScore,Geography,Gender,Age,Tenure,Balance,NumOfProducts,HasCrCard,IsActiveMember,EstimatedSalary,Exited
6443,6444,15764927,Rogova,753,France,Male,92,3,121513.31,1,False,1,195563.99,0
6759,6760,15660878,T'ien,705,France,Male,92,1,126076.24,2,True,1,34436.83,0
2458,2459,15813303,Rearick,513,Spain,Male,88,10,0.00,2,True,1,52952.24,0
3033,3034,15578006,Yao,787,France,Female,85,10,0.00,2,True,1,116537.96,0
3387,3388,15798024,Lori,537,Germany,Male,84,8,92242.34,1,True,1,186235.98,0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
9782,9783,15728829,Weigel,509,France,Male,18,7,102983.91,1,True,0,171770.58,0
2141,2142,15758372,Wallace,674,France,Male,18,7,0.00,2,True,1,55753.12,1
9501,9502,15634146,Hou,835,Germany,Male,18,2,142872.36,1,True,1,117632.63,0
9520,9521,15673180,Onyekaozulu,727,Germany,Female,18,2,93816.70,2,True,0,126172.11,0


Сортировать можно по двум и более признакам.    
Сначала сортировка пройдет в первом признаке, а если встречаются одинаковые значения, то сортировка коснется и второго признака:

In [53]:
df.sort_values(['Age', 'CreditScore'])

Unnamed: 0,RowNumber,CustomerId,Surname,CreditScore,Geography,Gender,Age,Tenure,Balance,NumOfProducts,HasCrCard,IsActiveMember,EstimatedSalary,Exited
9782,9783,15728829,Weigel,509,France,Male,18,7,102983.91,1,True,0,171770.58,0
1678,1679,15569178,Kharlamov,570,France,Female,18,4,82767.42,1,True,0,71811.90,0
9029,9030,15722701,Bruno,594,Germany,Male,18,1,132694.73,1,True,0,167689.56,0
7334,7335,15759133,Vaguine,616,France,Male,18,6,0.00,2,True,1,27308.58,0
9526,9527,15665521,Chiazagomekpele,642,Germany,Male,18,5,111183.53,2,False,1,10063.75,0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
3387,3388,15798024,Lori,537,Germany,Male,84,8,92242.34,1,True,1,186235.98,0
3033,3034,15578006,Yao,787,France,Female,85,10,0.00,2,True,1,116537.96,0
2458,2459,15813303,Rearick,513,Spain,Male,88,10,0.00,2,True,1,52952.24,0
6759,6760,15660878,T'ien,705,France,Male,92,1,126076.24,2,True,1,34436.83,0
