# Pandas

In [1]:
import pandas as pd
import numpy as np

### Series
**Объект** — это набор данных
(переменных) и методов (функций), которые с
этими данными взаимодействуют.

**Pandas Series** представляет из себя
объект, похожий на одномерный массив, но
отличительной чертой является наличие
индексов. Индекс находится слева, а сам
элемент справа.

Синтаксис:
- input_data: ввод в виде списка, константы,
- массива NumPy, Dict и т. д.
- index: значения индексов.
- data_type (опционально): тип данных.

In [2]:
a = pd.Series([1,2,3,4,5], index = ['one', 'two', 'three', 'four', 'five'])
a

one      1
two      2
three    3
four     4
five     5
dtype: int64

In [3]:
a = pd.Series([1,2,3,4,5])
a

0    1
1    2
2    3
3    4
4    5
dtype: int64

### DataFrame

Объект DataFrame является табличной
структурой данных. В любой таблице всегда
присутствуют строки и столбцы. При этом в
столбцах можно хранить данные разных типов
данных.
Столбцами в объекте DataFrame
выступают объекты Series, строки которых
являются их элементами.

Синтаксис:
- input_data: ввод в виде Dict, 2D массива NumPy, Series и т. д.
- index: значения индексов.

In [4]:
df = pd.DataFrame({'Age': [10, 52,17], 'Gender': ['Male', 'Female', 'Male'], 'Country': ['Rus', 'Fra', 'Ger']})
df

Unnamed: 0,Age,Gender,Country
0,10,Male,Rus
1,52,Female,Fra
2,17,Male,Ger


In [5]:
df['Age']

0    10
1    52
2    17
Name: Age, dtype: int64

In [6]:
df.Country

0    Rus
1    Fra
2    Ger
Name: Country, dtype: object

In [7]:
df[['Country', 'Age']]

Unnamed: 0,Country,Age
0,Rus,10
1,Fra,52
2,Ger,17


In [8]:
df.columns

Index(['Age', 'Gender', 'Country'], dtype='object')

In [9]:
df.index

RangeIndex(start=0, stop=3, step=1)

In [10]:
df = pd.DataFrame({
    'Age': [46, 37, 44, 42, 42],
    'Country': ['Spain', 'Spain', 'Germany', 'Germany', 'France'],
    'Gender': ['Female', 'Female', 'Male', 'Male', 'Male']
}, index=[5, 4, 6, 3, 2])

df

Unnamed: 0,Age,Country,Gender
5,46,Spain,Female
4,37,Spain,Female
6,44,Germany,Male
3,42,Germany,Male
2,42,France,Male


### Считывание данных
В целом, pandas поддерживает все самые популярные форматы хранения данных: csv, excel, sql, html и многое другое, но чаще всего приходится работать именно с csv файлами (comma separated values).

Будем работать с датасетом по оттоку клиентов из банка https://www.kaggle.com/datasets/shubh0799/churn-modelling.

Характеристики каждого клиента:

RowNumber - Номер строки
CustomerId - Уникальный идентификатор клиента
Surname - Фамилия клиента
CreditScore - Кредитная оценка клиента
Geography - Из какой страны клиент
Gender - Пол клиента
Age - Возраст клиента
Tenure - Сколько лет человек является клиентом банка
Balance - Баланс счета
NumOfProducts - Количество открытых продуктов
HasCrCard - Есть ли у клиента кредитная карта
IsActiveMember - Является ли клиент активные участником
EstimatedSalary - Предположительная зарплата клиента
Exited - Уйдет ли человек в отток

In [11]:
df = pd.read_csv('./Churn_Modelling.csv')
df

Unnamed: 0,RowNumber,CustomerId,Surname,CreditScore,Geography,Gender,Age,Tenure,Balance,NumOfProducts,HasCrCard,IsActiveMember,EstimatedSalary,Exited
0,1,15634602,Hargrave,619,France,Female,42,2,0.00,1,1,1,101348.88,1
1,2,15647311,Hill,608,Spain,Female,41,1,83807.86,1,0,1,112542.58,0
2,3,15619304,Onio,502,France,Female,42,8,159660.80,3,1,0,113931.57,1
3,4,15701354,Boni,699,France,Female,39,1,0.00,2,0,0,93826.63,0
4,5,15737888,Mitchell,850,Spain,Female,43,2,125510.82,1,1,1,79084.10,0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
9995,9996,15606229,Obijiaku,771,France,Male,39,5,0.00,2,1,0,96270.64,0
9996,9997,15569892,Johnstone,516,France,Male,35,10,57369.61,1,1,1,101699.77,0
9997,9998,15584532,Liu,709,France,Female,36,7,0.00,1,0,1,42085.58,1
9998,9999,15682355,Sabbatini,772,Germany,Male,42,3,75075.31,2,1,0,92888.52,1


In [12]:
pd.read_csv('./Churn_Modelling.csv', sep=',')

Unnamed: 0,RowNumber,CustomerId,Surname,CreditScore,Geography,Gender,Age,Tenure,Balance,NumOfProducts,HasCrCard,IsActiveMember,EstimatedSalary,Exited
0,1,15634602,Hargrave,619,France,Female,42,2,0.00,1,1,1,101348.88,1
1,2,15647311,Hill,608,Spain,Female,41,1,83807.86,1,0,1,112542.58,0
2,3,15619304,Onio,502,France,Female,42,8,159660.80,3,1,0,113931.57,1
3,4,15701354,Boni,699,France,Female,39,1,0.00,2,0,0,93826.63,0
4,5,15737888,Mitchell,850,Spain,Female,43,2,125510.82,1,1,1,79084.10,0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
9995,9996,15606229,Obijiaku,771,France,Male,39,5,0.00,2,1,0,96270.64,0
9996,9997,15569892,Johnstone,516,France,Male,35,10,57369.61,1,1,1,101699.77,0
9997,9998,15584532,Liu,709,France,Female,36,7,0.00,1,0,1,42085.58,1
9998,9999,15682355,Sabbatini,772,Germany,Male,42,3,75075.31,2,1,0,92888.52,1


In [13]:
pd.read_csv('./Churn_Modelling.csv', header=1)

Unnamed: 0,1,15634602,Hargrave,619,France,Female,42,2,0,1.1,1.2,1.3,101348.88,1.4
0,2,15647311,Hill,608,Spain,Female,41,1,83807.86,1,0,1,112542.58,0
1,3,15619304,Onio,502,France,Female,42,8,159660.80,3,1,0,113931.57,1
2,4,15701354,Boni,699,France,Female,39,1,0.00,2,0,0,93826.63,0
3,5,15737888,Mitchell,850,Spain,Female,43,2,125510.82,1,1,1,79084.10,0
4,6,15574012,Chu,645,Spain,Male,44,8,113755.78,2,1,0,149756.71,1
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
9994,9996,15606229,Obijiaku,771,France,Male,39,5,0.00,2,1,0,96270.64,0
9995,9997,15569892,Johnstone,516,France,Male,35,10,57369.61,1,1,1,101699.77,0
9996,9998,15584532,Liu,709,France,Female,36,7,0.00,1,0,1,42085.58,1
9997,9999,15682355,Sabbatini,772,Germany,Male,42,3,75075.31,2,1,0,92888.52,1


In [14]:
df.head()

Unnamed: 0,RowNumber,CustomerId,Surname,CreditScore,Geography,Gender,Age,Tenure,Balance,NumOfProducts,HasCrCard,IsActiveMember,EstimatedSalary,Exited
0,1,15634602,Hargrave,619,France,Female,42,2,0.0,1,1,1,101348.88,1
1,2,15647311,Hill,608,Spain,Female,41,1,83807.86,1,0,1,112542.58,0
2,3,15619304,Onio,502,France,Female,42,8,159660.8,3,1,0,113931.57,1
3,4,15701354,Boni,699,France,Female,39,1,0.0,2,0,0,93826.63,0
4,5,15737888,Mitchell,850,Spain,Female,43,2,125510.82,1,1,1,79084.1,0


In [15]:
df.head(2)

Unnamed: 0,RowNumber,CustomerId,Surname,CreditScore,Geography,Gender,Age,Tenure,Balance,NumOfProducts,HasCrCard,IsActiveMember,EstimatedSalary,Exited
0,1,15634602,Hargrave,619,France,Female,42,2,0.0,1,1,1,101348.88,1
1,2,15647311,Hill,608,Spain,Female,41,1,83807.86,1,0,1,112542.58,0


In [16]:
df.tail()

Unnamed: 0,RowNumber,CustomerId,Surname,CreditScore,Geography,Gender,Age,Tenure,Balance,NumOfProducts,HasCrCard,IsActiveMember,EstimatedSalary,Exited
9995,9996,15606229,Obijiaku,771,France,Male,39,5,0.0,2,1,0,96270.64,0
9996,9997,15569892,Johnstone,516,France,Male,35,10,57369.61,1,1,1,101699.77,0
9997,9998,15584532,Liu,709,France,Female,36,7,0.0,1,0,1,42085.58,1
9998,9999,15682355,Sabbatini,772,Germany,Male,42,3,75075.31,2,1,0,92888.52,1
9999,10000,15628319,Walker,792,France,Female,28,4,130142.79,1,1,0,38190.78,0


In [17]:
df.sample()

Unnamed: 0,RowNumber,CustomerId,Surname,CreditScore,Geography,Gender,Age,Tenure,Balance,NumOfProducts,HasCrCard,IsActiveMember,EstimatedSalary,Exited
4621,4622,15698664,Liang,567,Spain,Male,43,2,115643.58,2,0,0,174606.35,0


In [18]:
df.sample(frac=1)

Unnamed: 0,RowNumber,CustomerId,Surname,CreditScore,Geography,Gender,Age,Tenure,Balance,NumOfProducts,HasCrCard,IsActiveMember,EstimatedSalary,Exited
3181,3182,15663249,Howells,575,Spain,Female,37,9,133292.45,1,1,0,111175.09,0
9022,9023,15694995,O'Sullivan,712,France,Male,23,2,0.00,2,0,1,66795.78,0
1187,1188,15719302,Brennan,765,France,Female,50,9,126547.80,1,1,1,79579.94,1
8110,8111,15751524,Chigozie,677,Germany,Female,36,10,68806.84,1,1,0,33075.24,0
6810,6811,15642996,Tsai,546,Germany,Female,42,9,86351.85,2,1,0,57380.13,0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
514,515,15682048,Pisano,605,France,Female,51,3,136188.78,1,1,1,67110.59,1
703,704,15566292,Okwuadigbo,574,Spain,Male,36,1,0.00,2,0,1,71709.12,0
3101,3102,15809347,Fanucci,763,Germany,Male,32,9,160680.41,1,1,0,30886.35,0
2874,2875,15733581,Duncan,831,Germany,Male,32,9,80262.66,1,1,0,194867.78,0


In [19]:
df.sample(frac=0.5)

Unnamed: 0,RowNumber,CustomerId,Surname,CreditScore,Geography,Gender,Age,Tenure,Balance,NumOfProducts,HasCrCard,IsActiveMember,EstimatedSalary,Exited
3732,3733,15689598,Dean,722,France,Male,46,6,0.00,1,1,1,93917.68,1
6245,6246,15722083,Ch'ang,591,Spain,Male,39,8,0.00,2,0,0,42392.24,0
9638,9639,15662337,Baldwin,744,Germany,Female,50,1,121498.11,2,0,1,106061.47,1
5192,5193,15607884,Wallace,663,France,Female,39,8,0.00,2,1,1,101168.90,0
9909,9910,15773338,Endrizzi,739,France,Male,58,2,101579.28,1,1,1,72168.53,0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
8864,8865,15599124,Miller,832,France,Female,29,5,0.00,2,1,0,178779.52,0
5744,5745,15776850,Smith,749,Spain,Female,43,1,124209.02,1,1,1,167179.48,0
5083,5084,15660679,Chimaobim,653,Spain,Female,38,9,149571.94,1,1,0,118383.18,0
6366,6367,15677324,Botts,683,Germany,Male,73,9,124730.26,1,1,1,51999.50,0


In [20]:
df.shape

(10000, 14)

### Первичный анализ данных
Типы данных:

- int: целочисленные значения. Пример: 9, 56, 30
- float: вещественные значения (с плавающей точкой). Пример: 7.3, 9.0, 45.334
- object/str: строковые значения. Пример: ‘hello, world’, ‘50 000’

In [21]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 10000 entries, 0 to 9999
Data columns (total 14 columns):
 #   Column           Non-Null Count  Dtype  
---  ------           --------------  -----  
 0   RowNumber        10000 non-null  int64  
 1   CustomerId       10000 non-null  int64  
 2   Surname          10000 non-null  object 
 3   CreditScore      10000 non-null  int64  
 4   Geography        10000 non-null  object 
 5   Gender           10000 non-null  object 
 6   Age              10000 non-null  int64  
 7   Tenure           10000 non-null  int64  
 8   Balance          10000 non-null  float64
 9   NumOfProducts    10000 non-null  int64  
 10  HasCrCard        10000 non-null  int64  
 11  IsActiveMember   10000 non-null  int64  
 12  EstimatedSalary  10000 non-null  float64
 13  Exited           10000 non-null  int64  
dtypes: float64(2), int64(9), object(3)
memory usage: 1.1+ MB


Выводятся значения:

Count - количество непропущенных объектов (там, где нет nan значений)

mean - арифметическое среднее

std - стандартное отклонение

min - минимальное значение

25% - квантиль 25 процентов

50% - квантиль 50 процентов или же медиана

75% - квантиль 75 процентов

max - максимальное значение


In [22]:
df['Age'].min()

18

In [23]:
df['Balance'].max()

250898.09

In [24]:
df[['CreditScore', 'Age', 'Tenure']].mean()

CreditScore    650.5288
Age             38.9218
Tenure           5.0128
dtype: float64

Получаем 4 значения:

- count - количество непропущенных объектов
- unique - количество уникальных значений
- top - самое частотное значение (мода)
- freq - частота появления самого частотного значения

In [25]:
df.describe(include=['object'])

Unnamed: 0,Surname,Geography,Gender
count,10000,10000,10000
unique,2932,3,2
top,Smith,France,Male
freq,32,5014,5457


In [26]:
df.dtypes

RowNumber            int64
CustomerId           int64
Surname             object
CreditScore          int64
Geography           object
Gender              object
Age                  int64
Tenure               int64
Balance            float64
NumOfProducts        int64
HasCrCard            int64
IsActiveMember       int64
EstimatedSalary    float64
Exited               int64
dtype: object

In [27]:
df['Age'].dtype

dtype('int64')

In [28]:
df['HasCrCard'].astype('bool')

0        True
1       False
2        True
3       False
4        True
        ...  
9995     True
9996     True
9997    False
9998     True
9999     True
Name: HasCrCard, Length: 10000, dtype: bool

In [29]:
df['HasCrCard'].dtype

dtype('int64')

In [30]:
df['HasCrCard'] = df['HasCrCard'].astype('bool')

In [31]:
df['HasCrCard'].dtype

dtype('bool')

In [32]:
df['Geography'].unique()

array(['France', 'Spain', 'Germany'], dtype=object)

In [33]:
df['Geography'].nunique()

3

In [34]:
df['Geography'].value_counts()

Geography
France     5014
Germany    2509
Spain      2477
Name: count, dtype: int64

In [35]:
df['Geography'].value_counts(normalize=True)

Geography
France     0.5014
Germany    0.2509
Spain      0.2477
Name: proportion, dtype: float64

### Фильтрация
Фильтрация в pandas основывается на булевых масках.

 - Булевая маска — бинарные данные, которые используются для выбора определенных объектов из структуры данных.

In [36]:
df['Gender'] == 'Male'

0       False
1       False
2       False
3       False
4       False
        ...  
9995     True
9996     True
9997    False
9998     True
9999    False
Name: Gender, Length: 10000, dtype: bool

In [37]:
male = df[df['Gender'] == 'Male']
male

Unnamed: 0,RowNumber,CustomerId,Surname,CreditScore,Geography,Gender,Age,Tenure,Balance,NumOfProducts,HasCrCard,IsActiveMember,EstimatedSalary,Exited
5,6,15574012,Chu,645,Spain,Male,44,8,113755.78,2,True,0,149756.71,1
6,7,15592531,Bartlett,822,France,Male,50,7,0.00,2,True,1,10062.80,0
8,9,15792365,He,501,France,Male,44,4,142051.07,2,False,1,74940.50,0
9,10,15592389,H?,684,France,Male,27,2,134603.88,1,True,1,71725.73,0
10,11,15767821,Bearce,528,France,Male,31,6,102016.72,2,False,0,80181.12,0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
9992,9993,15657105,Chukwualuka,726,Spain,Male,36,2,0.00,1,True,0,195192.40,0
9993,9994,15569266,Rahman,644,France,Male,28,7,155060.41,1,True,0,29179.52,0
9995,9996,15606229,Obijiaku,771,France,Male,39,5,0.00,2,True,0,96270.64,0
9996,9997,15569892,Johnstone,516,France,Male,35,10,57369.61,1,True,1,101699.77,0


#### Логические И
При операторе & нужно, чтобы выполнялось два условия одновременно:

In [38]:
df[(df['Gender'] == 'Female') & (df['NumOfProducts'] >= 3)]

Unnamed: 0,RowNumber,CustomerId,Surname,CreditScore,Geography,Gender,Age,Tenure,Balance,NumOfProducts,HasCrCard,IsActiveMember,EstimatedSalary,Exited
2,3,15619304,Onio,502,France,Female,42,8,159660.80,3,True,0,113931.57,1
7,8,15656148,Obinna,376,Germany,Female,29,4,115046.74,4,True,0,119346.88,1
30,31,15589475,Azikiwe,591,Spain,Female,39,3,0.00,3,True,0,140469.38,1
88,89,15622897,Sharpe,646,France,Female,46,4,0.00,3,True,0,93251.42,1
90,91,15757535,Heap,647,Spain,Female,44,5,0.00,3,True,1,174205.22,1
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
9565,9566,15752294,Long,582,France,Female,38,9,135979.01,4,True,1,76582.95,1
9747,9748,15775761,Iweobiegbunam,610,Germany,Female,69,5,86038.21,3,False,0,192743.06,1
9800,9801,15640507,Li,762,Spain,Female,35,3,119349.69,3,True,1,47114.18,1
9877,9878,15572182,Onwuamaeze,505,Germany,Female,33,3,106506.77,3,True,0,45445.78,1


#### Логические ИЛИ
При операторе | нужно, чтобы выполнялось хотя бы одно условие:

In [39]:
df[(df['HasCrCard']) | (df['NumOfProducts'] >= 3)]

Unnamed: 0,RowNumber,CustomerId,Surname,CreditScore,Geography,Gender,Age,Tenure,Balance,NumOfProducts,HasCrCard,IsActiveMember,EstimatedSalary,Exited
0,1,15634602,Hargrave,619,France,Female,42,2,0.00,1,True,1,101348.88,1
2,3,15619304,Onio,502,France,Female,42,8,159660.80,3,True,0,113931.57,1
4,5,15737888,Mitchell,850,Spain,Female,43,2,125510.82,1,True,1,79084.10,0
5,6,15574012,Chu,645,Spain,Male,44,8,113755.78,2,True,0,149756.71,1
6,7,15592531,Bartlett,822,France,Male,50,7,0.00,2,True,1,10062.80,0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
9993,9994,15569266,Rahman,644,France,Male,28,7,155060.41,1,True,0,29179.52,0
9995,9996,15606229,Obijiaku,771,France,Male,39,5,0.00,2,True,0,96270.64,0
9996,9997,15569892,Johnstone,516,France,Male,35,10,57369.61,1,True,1,101699.77,0
9998,9999,15682355,Sabbatini,772,Germany,Male,42,3,75075.31,2,True,0,92888.52,1


#### Логические НЕ
При операторе ~ булевая маска обращается: True меняется на False и наоборот:

In [40]:
df[~(df['Geography'] == 'Spain')]

Unnamed: 0,RowNumber,CustomerId,Surname,CreditScore,Geography,Gender,Age,Tenure,Balance,NumOfProducts,HasCrCard,IsActiveMember,EstimatedSalary,Exited
0,1,15634602,Hargrave,619,France,Female,42,2,0.00,1,True,1,101348.88,1
2,3,15619304,Onio,502,France,Female,42,8,159660.80,3,True,0,113931.57,1
3,4,15701354,Boni,699,France,Female,39,1,0.00,2,False,0,93826.63,0
6,7,15592531,Bartlett,822,France,Male,50,7,0.00,2,True,1,10062.80,0
7,8,15656148,Obinna,376,Germany,Female,29,4,115046.74,4,True,0,119346.88,1
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
9995,9996,15606229,Obijiaku,771,France,Male,39,5,0.00,2,True,0,96270.64,0
9996,9997,15569892,Johnstone,516,France,Male,35,10,57369.61,1,True,1,101699.77,0
9997,9998,15584532,Liu,709,France,Female,36,7,0.00,1,False,1,42085.58,1
9998,9999,15682355,Sabbatini,772,Germany,Male,42,3,75075.31,2,True,0,92888.52,1


In [41]:
df[df['Geography'].isin(['France', 'Germany'])]

Unnamed: 0,RowNumber,CustomerId,Surname,CreditScore,Geography,Gender,Age,Tenure,Balance,NumOfProducts,HasCrCard,IsActiveMember,EstimatedSalary,Exited
0,1,15634602,Hargrave,619,France,Female,42,2,0.00,1,True,1,101348.88,1
2,3,15619304,Onio,502,France,Female,42,8,159660.80,3,True,0,113931.57,1
3,4,15701354,Boni,699,France,Female,39,1,0.00,2,False,0,93826.63,0
6,7,15592531,Bartlett,822,France,Male,50,7,0.00,2,True,1,10062.80,0
7,8,15656148,Obinna,376,Germany,Female,29,4,115046.74,4,True,0,119346.88,1
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
9995,9996,15606229,Obijiaku,771,France,Male,39,5,0.00,2,True,0,96270.64,0
9996,9997,15569892,Johnstone,516,France,Male,35,10,57369.61,1,True,1,101699.77,0
9997,9998,15584532,Liu,709,France,Female,36,7,0.00,1,False,1,42085.58,1
9998,9999,15682355,Sabbatini,772,Germany,Male,42,3,75075.31,2,True,0,92888.52,1


## Индексация
взятие объекта по индексу

In [42]:
df_small = df[(df['Geography'] == 'Spain')][['Geography', 'Gender', 'Age']]
df_small.head()

Unnamed: 0,Geography,Gender,Age
1,Spain,Female,41
4,Spain,Female,43
5,Spain,Male,44
11,Spain,Male,24
14,Spain,Female,35


##### loc

In [43]:
df_small.loc[1]

Geography     Spain
Gender       Female
Age              41
Name: 1, dtype: object

In [44]:
df_small.loc[[1, 4, 5], ['Gender', 'Age']]

Unnamed: 0,Gender,Age
1,Female,41
4,Female,43
5,Male,44


In [45]:
df_small.head()

Unnamed: 0,Geography,Gender,Age
1,Spain,Female,41
4,Spain,Female,43
5,Spain,Male,44
11,Spain,Male,24
14,Spain,Female,35


##### iloc

In [46]:
df_small.head()

Unnamed: 0,Geography,Gender,Age
1,Spain,Female,41
4,Spain,Female,43
5,Spain,Male,44
11,Spain,Male,24
14,Spain,Female,35


In [47]:
df_small.iloc[[0, 1, 2]]

Unnamed: 0,Geography,Gender,Age
1,Spain,Female,41
4,Spain,Female,43
5,Spain,Male,44


In [48]:
df_small.iloc[0, [0, 2]]

Geography    Spain
Age             41
Name: 1, dtype: object

## Сортировки

In [49]:
df.sort_values('Age')

Unnamed: 0,RowNumber,CustomerId,Surname,CreditScore,Geography,Gender,Age,Tenure,Balance,NumOfProducts,HasCrCard,IsActiveMember,EstimatedSalary,Exited
3512,3513,15657779,Boylan,806,Spain,Male,18,3,0.00,2,True,1,86994.54,0
1678,1679,15569178,Kharlamov,570,France,Female,18,4,82767.42,1,True,0,71811.90,0
3517,3518,15757821,Burgess,771,Spain,Male,18,1,0.00,2,False,0,41542.95,0
9520,9521,15673180,Onyekaozulu,727,Germany,Female,18,2,93816.70,2,True,0,126172.11,0
2021,2022,15795519,Vasiliev,716,Germany,Female,18,3,128743.80,1,False,0,197322.13,0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
3387,3388,15798024,Lori,537,Germany,Male,84,8,92242.34,1,True,1,186235.98,0
3033,3034,15578006,Yao,787,France,Female,85,10,0.00,2,True,1,116537.96,0
2458,2459,15813303,Rearick,513,Spain,Male,88,10,0.00,2,True,1,52952.24,0
6759,6760,15660878,T'ien,705,France,Male,92,1,126076.24,2,True,1,34436.83,0


In [50]:
df.sort_values('Age', ascending=False)

Unnamed: 0,RowNumber,CustomerId,Surname,CreditScore,Geography,Gender,Age,Tenure,Balance,NumOfProducts,HasCrCard,IsActiveMember,EstimatedSalary,Exited
6443,6444,15764927,Rogova,753,France,Male,92,3,121513.31,1,False,1,195563.99,0
6759,6760,15660878,T'ien,705,France,Male,92,1,126076.24,2,True,1,34436.83,0
2458,2459,15813303,Rearick,513,Spain,Male,88,10,0.00,2,True,1,52952.24,0
3033,3034,15578006,Yao,787,France,Female,85,10,0.00,2,True,1,116537.96,0
3387,3388,15798024,Lori,537,Germany,Male,84,8,92242.34,1,True,1,186235.98,0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
9782,9783,15728829,Weigel,509,France,Male,18,7,102983.91,1,True,0,171770.58,0
2141,2142,15758372,Wallace,674,France,Male,18,7,0.00,2,True,1,55753.12,1
9501,9502,15634146,Hou,835,Germany,Male,18,2,142872.36,1,True,1,117632.63,0
9520,9521,15673180,Onyekaozulu,727,Germany,Female,18,2,93816.70,2,True,0,126172.11,0


In [51]:
df.sort_values(['Age', 'CreditScore'])

Unnamed: 0,RowNumber,CustomerId,Surname,CreditScore,Geography,Gender,Age,Tenure,Balance,NumOfProducts,HasCrCard,IsActiveMember,EstimatedSalary,Exited
9782,9783,15728829,Weigel,509,France,Male,18,7,102983.91,1,True,0,171770.58,0
1678,1679,15569178,Kharlamov,570,France,Female,18,4,82767.42,1,True,0,71811.90,0
9029,9030,15722701,Bruno,594,Germany,Male,18,1,132694.73,1,True,0,167689.56,0
7334,7335,15759133,Vaguine,616,France,Male,18,6,0.00,2,True,1,27308.58,0
9526,9527,15665521,Chiazagomekpele,642,Germany,Male,18,5,111183.53,2,False,1,10063.75,0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
3387,3388,15798024,Lori,537,Germany,Male,84,8,92242.34,1,True,1,186235.98,0
3033,3034,15578006,Yao,787,France,Female,85,10,0.00,2,True,1,116537.96,0
2458,2459,15813303,Rearick,513,Spain,Male,88,10,0.00,2,True,1,52952.24,0
6759,6760,15660878,T'ien,705,France,Male,92,1,126076.24,2,True,1,34436.83,0


In [52]:
# Импорт данных
df = pd.read_csv('file') – импорт файла
df = pd.read_csv('file', sep=",") – импорт файла с разделителем «запятая»

# Экспорт данных
save_file.to_csv('file.csv', encoding='utf8') – сохранение датафрейма в csv-файл с кодировкой utf8

# Вывод на экран
df – вывести весь датафрейм
df.info – информация о датафрейме
df.head(5) – первые пять строчек
df.tail(5) – последние пять строчек
df.sample(5) – случайные пять строчек
df.shape – количество строк и столбцов
df.dtypes – типы данных в столбцах
df.columns – названия столбцов
f['col1'] – значения столбца col1
df['col1'][0:20] – срез столбца col1
df[['col1', 'col2']] – значения нескольких столбцов
df.loc['index_name'] – строки и/или столбцы по нечисловому значению индекса
df.iloc[0] – строки и/или столбцы по числовому индексу
df.iloc[2,4] – значение ячейки в третьей строчке и пятом столбце

# Объединение датафреймов
df1 = pd.concat([df1, df2], axis=0) – к df1 добавляем строчки df2
df1 = pd.concat([df1, df2], axis=1) – к df1 добавляем столбцы df2
df1 = df1.append(df2) – к df1 добавляем строчки df2

# Копирование датафрейма
df2 = df1.copy – создает глубокую копию датафрейма

# Добавление строчек и столбцов
new_row = {'col1': 'Hello', 'col2': 123}
df = df.append(new_row, ignore_index=True) – добавляет в конец df строчку new_row
df.loc[2] = ['Hello', 123] – добвляет строчку на третье место с начала фрейма
df['new_column'] = 'abcd' – создает столбец со значениями abcd

# Удаление строчек и столбцов
df.drop(26954, 0) – удаляет строчку номер 26954
df.drop('col', 1) – удаляет столбец col

# Переименование столбцов
df.rename(columns={'col1': 'new_col1'}) – меняет имя столбца с col1 на new_col1

# Изменение значения в ячейке
df['col'] = df['col'].replace(to_replace=2020, value=2021) – меняем все значения с 2020 на 2021
df['col'] = df['col'].mask(df['col'] == 2001, 2021) – аналогично, меняем все значения с 2020 на 2021

# Сортировка
df.sort_values('col', ascending=False) – сортировка в обратном алфавитном порядке
df.sort_values(['col1', 'col2']) – сортировка по двум столбцам. col1 – в приоритете, так как первый

# Изменение типов
df['col'] = df['col'].astype(str) – меняет тип переменных на str
df['col'] = df['col'].astype(float) – на float
df['col'] = df['col'].astype('int32') – на int32
df['col'] = df['col'].astype('int64') – на int64
df['col'] = pd.to_numeric(df['col1']) –  на int64

# Удаление и замена NaN-значений
df.dropna() – удаляет строчки с отсутствующими значениями
df.dropna(axis=1) – удаляет столбцы с отсутствующими значениями
df.fillna('abcd') – меняет NaN на abcd

# Удаление лишних пробелов
df['col'] = df['col'].map(str.strip) – удаляет пробелы слева и справа

# Обработка дат
df['col'] = pd.to_datetime(df['col']) – меняет тип на datetime64[ns]
df['col'].dt.day – вытаскивает из столбца col только значение дня
df['col'].dt.month – только месяц
df['col'].dt.year – только год

# Фильтрация и поиск
df['col'].str.startswith('a') – ищет совпадение по первому символу строки, не поддерживает regex
df['col'].str.endswith('a') – ищет совпадение по последнему символу строки, не поддерживает regex
df['col'].str.match('a') – определяет, начинается ли каждая строка с шаблона
df['col'].str.findall('a') – возвращает совпадения шаблонов
df['col'].str.contains('a') – в результате поиска возвращает булево значение
df['col'].str.extractall('a') – вернет столбец с поисковым шаблоном
df.loc[df['col'].isin(['a', 'b'])] – ищет совпадения в столбцах

# Статистические данные
df.describe() – статистическая сводка по численным значениями

# Подсчет количества повторов
df['col'].value_counts() – показывает сколько раз значения повторяются в столбце
df['col_result'] = df.groupby('col')['col'].transform('count') – создает столбец с количеством повторов значений

SyntaxError: invalid character '–' (U+2013) (418664012.py, line 2)