In [1]:
import pandas as pd

# Модификация таблиц с Pandas

Работа с признаками

В процессе работы с данными, особенно в анализе данных и машинном обучении, важную роль играют признаки (англ.feature). Признаки представляют собой конкретные аспекты или характеристики объектов, которые мы рассматриваем.

Каждый признак представляет собой некоторое индивидуальное свойство или характеристику объекта. Например, возраст клиентов в базе данных является признаком, так же как и их пол. Признаки могут быть разнообразными и включать в себя данные о числе, тексте, категориях, времени и других аспектах объектов, которые могут быть измерены или описаны.

Исследование и анализ признаков - это важная часть работы с данными, так как именно признаки позволяют нам выявлять закономерности, делать прогнозы и принимать информированные решения на основе имеющейся информации.

In [3]:
df = pd.read_csv('Churn_Modelling.csv')
df.head()

Unnamed: 0,RowNumber,CustomerId,Surname,CreditScore,Geography,Gender,Age,Tenure,Balance,NumOfProducts,HasCrCard,IsActiveMember,EstimatedSalary,Exited
0,1,15634602,Hargrave,619,France,Female,42,2,0.0,1,1,1,101348.88,1
1,2,15647311,Hill,608,Spain,Female,41,1,83807.86,1,0,1,112542.58,0
2,3,15619304,Onio,502,France,Female,42,8,159660.8,3,1,0,113931.57,1
3,4,15701354,Boni,699,France,Female,39,1,0.0,2,0,0,93826.63,0
4,5,15737888,Mitchell,850,Spain,Female,43,2,125510.82,1,1,1,79084.1,0


In [4]:
users = df[['CustomerId', 'Surname', 'Geography', 'Gender', 'Age', 'EstimatedSalary']]
users.sample()

Unnamed: 0,CustomerId,Surname,Geography,Gender,Age,EstimatedSalary
1987,15758606,Yamamoto,France,Male,54,55725.04


In [5]:
bank = df[['CustomerId', 'Tenure', 'Balance', 'NumOfProducts', 'HasCrCard', 'IsActiveMember', 'Exited']]
bank.tail(1)

Unnamed: 0,CustomerId,Tenure,Balance,NumOfProducts,HasCrCard,IsActiveMember,Exited
9999,15628319,4,130142.79,1,1,0,0


In [6]:
users.shape

(10000, 6)

Создание признака


In [7]:
users['new_feature'] = 0
users.head()

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  users['new_feature'] = 0


Unnamed: 0,CustomerId,Surname,Geography,Gender,Age,EstimatedSalary,new_feature
0,15634602,Hargrave,France,Female,42,101348.88,0
1,15647311,Hill,Spain,Female,41,112542.58,0
2,15619304,Onio,France,Female,42,113931.57,0
3,15701354,Boni,France,Female,39,93826.63,0
4,15737888,Mitchell,Spain,Female,43,79084.1,0


In [15]:
%%timeit
users['Age (days)'] = users['Age'] * 365

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy


146 µs ± 799 ns per loop (mean ± std. dev. of 7 runs, 10,000 loops each)


In [8]:
users.head()

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  users['Age (days)'] = users['Age'] * 365


Unnamed: 0,CustomerId,Surname,Geography,Gender,Age,EstimatedSalary,new_feature,Age (days)
0,15634602,Hargrave,France,Female,42,101348.88,0,15330
1,15647311,Hill,Spain,Female,41,112542.58,0,14965
2,15619304,Onio,France,Female,42,113931.57,0,15330
3,15701354,Boni,France,Female,39,93826.63,0,14235
4,15737888,Mitchell,Spain,Female,43,79084.1,0,15695


In [11]:
for i, row in users.iloc[:2].iterrows():
    print(row)
#     print(row['EstimatedSalary'])
    print('__' * 30)

CustomerId          15634602
Surname             Hargrave
Geography             France
Gender                Female
Age                       42
EstimatedSalary    101348.88
new_feature                0
Age (days)             15330
Name: 0, dtype: object
101348.88
____________________________________________________________
CustomerId          15647311
Surname                 Hill
Geography              Spain
Gender                Female
Age                       41
EstimatedSalary    112542.58
new_feature                0
Age (days)             14965
Name: 1, dtype: object
112542.58
____________________________________________________________


In [16]:
%%timeit
age_days = []

for i, row in users.iterrows():
    age_days.append(row['Age'] * 365)

290 ms ± 3.16 ms per loop (mean ± std. dev. of 7 runs, 1 loop each)


In [12]:
age_days[:10]

[15330, 14965, 15330, 14235, 15695, 16060, 18250, 10585, 16060, 9855]

In [13]:
len(age_days) == users.shape[0]

True

In [14]:
users['Age (days) 2'] = age_days
users.head()

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  users['Age (days) 2'] = age_days


Unnamed: 0,CustomerId,Surname,Geography,Gender,Age,EstimatedSalary,new_feature,Age (days),Age (days) 2
0,15634602,Hargrave,France,Female,42,101348.88,0,15330,15330
1,15647311,Hill,Spain,Female,41,112542.58,0,14965,14965
2,15619304,Onio,France,Female,42,113931.57,0,15330,15330
3,15701354,Boni,France,Female,39,93826.63,0,14235,14235
4,15737888,Mitchell,Spain,Female,43,79084.1,0,15695,15695


In [18]:
def age_to_days(x):
    return x * 365

In [19]:
%%timeit
users['Age (days) 3'] = users['Age'].apply(age_to_days)

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy


2.76 ms ± 11.3 µs per loop (mean ± std. dev. of 7 runs, 100 loops each)


In [20]:
users.head()

Unnamed: 0,CustomerId,Surname,Geography,Gender,Age,EstimatedSalary,new_feature,Age (days),Age (days) 2,Age (days) 3
0,15634602,Hargrave,France,Female,42,101348.88,0,15330,15330,15330
1,15647311,Hill,Spain,Female,41,112542.58,0,14965,14965,14965
2,15619304,Onio,France,Female,42,113931.57,0,15330,15330,15330
3,15701354,Boni,France,Female,39,93826.63,0,14235,14235,14235
4,15737888,Mitchell,Spain,Female,43,79084.1,0,15695,15695,15695


In [22]:
import time
from tqdm import tqdm
tqdm.pandas()

In [25]:
def age_to_days(x):
#     time.sleep(0.001)
    return x * 365

users['Age'].progress_apply(age_to_days)

100%|████████████████████████████████████████████████████████████████████████| 10000/10000 [00:00<00:00, 897599.73it/s]


0       15330
1       14965
2       15330
3       14235
4       15695
        ...  
9995    14235
9996    12775
9997    13140
9998    15330
9999    10220
Name: Age, Length: 10000, dtype: int64

## Удаление признаков

In [28]:
users.drop(columns='new_feature')
users.head()

Unnamed: 0,CustomerId,Surname,Geography,Gender,Age,EstimatedSalary,new_feature,Age (days),Age (days) 2,Age (days) 3
0,15634602,Hargrave,France,Female,42,101348.88,0,15330,15330,15330
1,15647311,Hill,Spain,Female,41,112542.58,0,14965,14965,14965
2,15619304,Onio,France,Female,42,113931.57,0,15330,15330,15330
3,15701354,Boni,France,Female,39,93826.63,0,14235,14235,14235
4,15737888,Mitchell,Spain,Female,43,79084.1,0,15695,15695,15695


In [29]:
users = users.drop(columns='new_feature')
users.head()

Unnamed: 0,CustomerId,Surname,Geography,Gender,Age,EstimatedSalary,Age (days),Age (days) 2,Age (days) 3
0,15634602,Hargrave,France,Female,42,101348.88,15330,15330,15330
1,15647311,Hill,Spain,Female,41,112542.58,14965,14965,14965
2,15619304,Onio,France,Female,42,113931.57,15330,15330,15330
3,15701354,Boni,France,Female,39,93826.63,14235,14235,14235
4,15737888,Mitchell,Spain,Female,43,79084.1,15695,15695,15695


In [30]:
users['new_feature'] = 0

In [31]:
users.drop(columns='new_feature', inplace=True)
users.head()

Unnamed: 0,CustomerId,Surname,Geography,Gender,Age,EstimatedSalary,Age (days),Age (days) 2,Age (days) 3
0,15634602,Hargrave,France,Female,42,101348.88,15330,15330,15330
1,15647311,Hill,Spain,Female,41,112542.58,14965,14965,14965
2,15619304,Onio,France,Female,42,113931.57,15330,15330,15330
3,15701354,Boni,France,Female,39,93826.63,14235,14235,14235
4,15737888,Mitchell,Spain,Female,43,79084.1,15695,15695,15695


In [32]:
users.drop(columns=['Age (days)', 'Age (days) 2', 'Age (days) 3'], inplace=True)
users.head()

Unnamed: 0,CustomerId,Surname,Geography,Gender,Age,EstimatedSalary
0,15634602,Hargrave,France,Female,42,101348.88
1,15647311,Hill,Spain,Female,41,112542.58
2,15619304,Onio,France,Female,42,113931.57
3,15701354,Boni,France,Female,39,93826.63
4,15737888,Mitchell,Spain,Female,43,79084.1


## Изменение признаков 

In [33]:
users['target'] = 0
users.head()

Unnamed: 0,CustomerId,Surname,Geography,Gender,Age,EstimatedSalary,target
0,15634602,Hargrave,France,Female,42,101348.88,0
1,15647311,Hill,Spain,Female,41,112542.58,0
2,15619304,Onio,France,Female,42,113931.57,0
3,15701354,Boni,France,Female,39,93826.63,0
4,15737888,Mitchell,Spain,Female,43,79084.1,0


In [36]:
users.loc[users['Geography'] == 'France']

Unnamed: 0,CustomerId,Surname,Geography,Gender,Age,EstimatedSalary,target
0,15634602,Hargrave,France,Female,42,101348.88,0
2,15619304,Onio,France,Female,42,113931.57,0
3,15701354,Boni,France,Female,39,93826.63,0
6,15592531,Bartlett,France,Male,50,10062.80,0
8,15792365,He,France,Male,44,74940.50,0
...,...,...,...,...,...,...,...
9994,15719294,Wood,France,Female,29,167773.55,0
9995,15606229,Obijiaku,France,Male,39,96270.64,0
9996,15569892,Johnstone,France,Male,35,101699.77,0
9997,15584532,Liu,France,Female,36,42085.58,0


In [38]:
users.loc[users['Geography'] == 'France', 'target']

0       0
2       0
3       0
6       0
8       0
       ..
9994    0
9995    0
9996    0
9997    0
9999    0
Name: target, Length: 5014, dtype: int64

In [39]:
users[users['Geography'] == 'France']['target'] = 1
users.head()

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  users[users['Geography'] == 'France']['target'] = 1


Unnamed: 0,CustomerId,Surname,Geography,Gender,Age,EstimatedSalary,target
0,15634602,Hargrave,France,Female,42,101348.88,0
1,15647311,Hill,Spain,Female,41,112542.58,0
2,15619304,Onio,France,Female,42,113931.57,0
3,15701354,Boni,France,Female,39,93826.63,0
4,15737888,Mitchell,Spain,Female,43,79084.1,0


In [40]:
users.loc[users['Geography'] == 'France', 'target'] = 1
users.head()

Unnamed: 0,CustomerId,Surname,Geography,Gender,Age,EstimatedSalary,target
0,15634602,Hargrave,France,Female,42,101348.88,1
1,15647311,Hill,Spain,Female,41,112542.58,0
2,15619304,Onio,France,Female,42,113931.57,1
3,15701354,Boni,France,Female,39,93826.63,1
4,15737888,Mitchell,Spain,Female,43,79084.1,0


### replace

In [41]:
users['Gender'].replace({'Female': 'F', 'Male': 'M'}, inplace=True)
users.head()

Unnamed: 0,CustomerId,Surname,Geography,Gender,Age,EstimatedSalary,target
0,15634602,Hargrave,France,F,42,101348.88,1
1,15647311,Hill,Spain,F,41,112542.58,0
2,15619304,Onio,France,F,42,113931.57,1
3,15701354,Boni,France,F,39,93826.63,1
4,15737888,Mitchell,Spain,F,43,79084.1,0


## Методы агрегации

Методы агрегации представляют собой инструменты для обобщения данных, при котором несколько элементов объединяются в одно, более общее значение.

Процесс агрегации данных играет важную роль в анализе и обработке информации. Он позволяет нам вычислить различные статистические показатели в наборе данных, такие как средний возраст клиентов или максимальная сумма платежа, сведя множество отдельных значений к более компактному и информативному обобщению.

Эффективное использование методов агрегации способствует лучшему пониманию данных и помогает в выявлении ключевых трендов и показателей, что важно при принятии бизнес-решений и проведении анализа данных.

1. **Сводка и обзор данных:** Агрегация позволяет получить ключевые метрики, которые дают общее представление о состоянии данных. Например, вместо анализа каждого отдельного заказа или транзакции, можно агрегировать данные, посчитав средние значения, суммы или медианы. Это помогает быстро понять основные тенденции.

2. **Уменьшение объема данных:** В больших наборах данных, особенно в больших данных (Big Data), может быть слишком много информации для анализа на уровне каждой записи. Агрегация позволяет уменьшить объем данных, сохраняя при этом ключевую информацию. Например, можно агрегировать данные по дням или месяцам вместо анализа поминутных данных.

2. **Идентификация трендов:** Агрегированные данные позволяют выявить долгосрочные тренды и паттерны, которые могут быть незаметны при детальном анализе. Например, можно агрегировать продажи по месяцам и выявить сезонные изменения.

2. **Сравнение категорий:** При анализе категорий (например, продуктов, регионов или демографических групп) агрегация помогает сравнивать их по ключевым метрикам. Например, агрегирование данных по регионам позволяет увидеть, где продажи наиболее успешны.

2. **Оптимизация вычислений:** Агрегация помогает ускорить вычислительные процессы. Когда нужно работать с большими объемами данных, обработка каждой записи может быть слишком затратной по времени и ресурсам. Агрегация сводит объем работы к минимуму, сохраняя при этом важные показатели.

2. **Подготовка данных для визуализации:** Агрегация упрощает подготовку данных для визуализации. Визуализация сводных данных (суммы, средние значения) часто является более понятной и наглядной для анализа, чем визуализация всех сырых данных.

2. **Использование в машинном обучении:** Для некоторых моделей машинного обучения может потребоваться агрегировать данные для создания признаков (features). Например, можно рассчитать среднюю сумму покупок клиента за последние три месяца для предсказания его будущего поведения.

2. **Устранение шума и аномалий:** Агрегация может помочь минимизировать влияние шума и случайных аномалий в данных. Например, если данные сильно колеблются в течение дня, агрегация по неделям или месяцам может сгладить эти колебания и показать истинные тренды.

In [42]:
users['Age'].agg(['min', 'max'])

min    18
max    92
Name: Age, dtype: int64

In [43]:
users.agg({
    'Age': ['min', 'max'],
    'EstimatedSalary': 'mean'
})

Unnamed: 0,Age,EstimatedSalary
min,18.0,
max,92.0,
mean,,100090.239881


In [44]:
users.agg(
    min_age=('Age', 'min'),
    max_age=('Age', 'max'),
    mean_salary=('EstimatedSalary', 'mean')
)

Unnamed: 0,Age,EstimatedSalary
min_age,18.0,
max_age,92.0,
mean_salary,,100090.239881


## Методы объединения

 

In [45]:
bank.head(10)

Unnamed: 0,CustomerId,Tenure,Balance,NumOfProducts,HasCrCard,IsActiveMember,Exited
0,15634602,2,0.0,1,1,1,1
1,15647311,1,83807.86,1,0,1,0
2,15619304,8,159660.8,3,1,0,1
3,15701354,1,0.0,2,0,0,0
4,15737888,2,125510.82,1,1,1,0
5,15574012,8,113755.78,2,1,0,1
6,15592531,7,0.0,2,1,1,0
7,15656148,4,115046.74,4,1,0,1
8,15792365,4,142051.07,2,0,1,0
9,15592389,2,134603.88,1,1,1,0


In [46]:
bank.shape

(10000, 7)

In [47]:
bank = bank.iloc[1:6] 
bank

Unnamed: 0,CustomerId,Tenure,Balance,NumOfProducts,HasCrCard,IsActiveMember,Exited
1,15647311,1,83807.86,1,0,1,0
2,15619304,8,159660.8,3,1,0,1
3,15701354,1,0.0,2,0,0,0
4,15737888,2,125510.82,1,1,1,0
5,15574012,8,113755.78,2,1,0,1


In [48]:
bank.shape

(5, 7)

In [49]:
users = users.drop(index=range(2, 5))

In [52]:
users = users.head(5)
users

Unnamed: 0,CustomerId,Surname,Geography,Gender,Age,EstimatedSalary,target
0,15634602,Hargrave,France,F,42,101348.88,1
1,15647311,Hill,Spain,F,41,112542.58,0
5,15574012,Chu,Spain,M,44,149756.71,0
6,15592531,Bartlett,France,M,50,10062.8,1
7,15656148,Obinna,Germany,F,29,119346.88,0


In [63]:
merged = users.merge(bank, on='CustomerId', how='outer')
merged

Unnamed: 0,CustomerId,Surname,Geography,Gender,Age,EstimatedSalary,target,Tenure,Balance,NumOfProducts,HasCrCard,IsActiveMember,Exited
0,15634602,Hargrave,France,F,42.0,101348.88,1.0,,,,,,
1,15647311,Hill,Spain,F,41.0,112542.58,0.0,1.0,83807.86,1.0,0.0,1.0,0.0
2,15574012,Chu,Spain,M,44.0,149756.71,0.0,8.0,113755.78,2.0,1.0,0.0,1.0
3,15592531,Bartlett,France,M,50.0,10062.8,1.0,,,,,,
4,15656148,Obinna,Germany,F,29.0,119346.88,0.0,,,,,,
5,15619304,,,,,,,8.0,159660.8,3.0,1.0,0.0,1.0
6,15701354,,,,,,,1.0,0.0,2.0,0.0,0.0,0.0
7,15737888,,,,,,,2.0,125510.82,1.0,1.0,1.0,0.0


In [64]:
users_id = users.set_index('CustomerId')
users_id.head()

Unnamed: 0_level_0,Surname,Geography,Gender,Age,EstimatedSalary,target
CustomerId,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
15634602,Hargrave,France,F,42,101348.88,1
15647311,Hill,Spain,F,41,112542.58,0
15574012,Chu,Spain,M,44,149756.71,0
15592531,Bartlett,France,M,50,10062.8,1
15656148,Obinna,Germany,F,29,119346.88,0


In [65]:
bank_id = bank.set_index('CustomerId')
bank_id.head()

Unnamed: 0_level_0,Tenure,Balance,NumOfProducts,HasCrCard,IsActiveMember,Exited
CustomerId,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
15647311,1,83807.86,1,0,1,0
15619304,8,159660.8,3,1,0,1
15701354,1,0.0,2,0,0,0
15737888,2,125510.82,1,1,1,0
15574012,8,113755.78,2,1,0,1


In [67]:
bank_id.join(users_id)

Unnamed: 0_level_0,Tenure,Balance,NumOfProducts,HasCrCard,IsActiveMember,Exited,Surname,Geography,Gender,Age,EstimatedSalary,target
CustomerId,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1
15647311,1,83807.86,1,0,1,0,Hill,Spain,F,41.0,112542.58,0.0
15619304,8,159660.8,3,1,0,1,,,,,,
15701354,1,0.0,2,0,0,0,,,,,,
15737888,2,125510.82,1,1,1,0,,,,,,
15574012,8,113755.78,2,1,0,1,Chu,Spain,M,44.0,149756.71,0.0


In [68]:
bank_id.join(users_id).reset_index().head()

Unnamed: 0,CustomerId,Tenure,Balance,NumOfProducts,HasCrCard,IsActiveMember,Exited,Surname,Geography,Gender,Age,EstimatedSalary,target
0,15647311,1,83807.86,1,0,1,0,Hill,Spain,F,41.0,112542.58,0.0
1,15619304,8,159660.8,3,1,0,1,,,,,,
2,15701354,1,0.0,2,0,0,0,,,,,,
3,15737888,2,125510.82,1,1,1,0,,,,,,
4,15574012,8,113755.78,2,1,0,1,Chu,Spain,M,44.0,149756.71,0.0


In [69]:
toy_df1 = pd.DataFrame({
    'col_1': [1, 2, 3],
    'col_2': [9, 9, 9]
})

toy_df2 = pd.DataFrame({
    'col_1': [3, 4],
    'col_3': [0, 0]
})

display(toy_df1, toy_df2)

Unnamed: 0,col_1,col_2
0,1,9
1,2,9
2,3,9


Unnamed: 0,col_1,col_3
0,3,0
1,4,0


In [70]:
toy_df1.merge(toy_df2, how='left')

Unnamed: 0,col_1,col_2,col_3
0,1,9,
1,2,9,
2,3,9,0.0


In [71]:
toy_df1.merge(toy_df2, how='right')

Unnamed: 0,col_1,col_2,col_3
0,3,9.0,0
1,4,,0


In [72]:
toy_df1.merge(toy_df2, how='inner')

Unnamed: 0,col_1,col_2,col_3
0,3,9,0


In [73]:
toy_df1.merge(toy_df2, how='outer')

Unnamed: 0,col_1,col_2,col_3
0,1,9.0,
1,2,9.0,
2,3,9.0,0.0
3,4,,0.0


Левое объединение 

In [74]:
merged_left = bank.merge(users, on='CustomerId', how='left')
merged_left.shape


(5, 13)

In [75]:
merged_left.isna().sum()

CustomerId         0
Tenure             0
Balance            0
NumOfProducts      0
HasCrCard          0
IsActiveMember     0
Exited             0
Surname            3
Geography          3
Gender             3
Age                3
EstimatedSalary    3
target             3
dtype: int64

In [76]:
merged_left[merged_left['Age'].isna()]

Unnamed: 0,CustomerId,Tenure,Balance,NumOfProducts,HasCrCard,IsActiveMember,Exited,Surname,Geography,Gender,Age,EstimatedSalary,target
1,15619304,8,159660.8,3,1,0,1,,,,,,
2,15701354,1,0.0,2,0,0,0,,,,,,
3,15737888,2,125510.82,1,1,1,0,,,,,,


In [77]:
users[users['CustomerId'] == 15682355]

Unnamed: 0,CustomerId,Surname,Geography,Gender,Age,EstimatedSalary,target


Правое объединение


In [78]:
merged_right = bank.merge(users, on='CustomerId', how='right')
merged_right.shape

(5, 13)

In [79]:
merged_right.isna().sum()

CustomerId         0
Tenure             3
Balance            3
NumOfProducts      3
HasCrCard          3
IsActiveMember     3
Exited             3
Surname            0
Geography          0
Gender             0
Age                0
EstimatedSalary    0
target             0
dtype: int64

In [81]:
merged_right[merged_right['NumOfProducts'].isna()]

Unnamed: 0,CustomerId,Tenure,Balance,NumOfProducts,HasCrCard,IsActiveMember,Exited,Surname,Geography,Gender,Age,EstimatedSalary,target
0,15634602,,,,,,,Hargrave,France,F,42,101348.88,1
3,15592531,,,,,,,Bartlett,France,M,50,10062.8,1
4,15656148,,,,,,,Obinna,Germany,F,29,119346.88,0


In [82]:
bank[bank['CustomerId'] == 15161325]

Unnamed: 0,CustomerId,Tenure,Balance,NumOfProducts,HasCrCard,IsActiveMember,Exited


Внутреннее объединение

In [83]:
merged_inner = bank.merge(users, on='CustomerId', how='inner')
merged_inner.shape

(2, 13)

In [84]:
merged_inner.isna().sum()

CustomerId         0
Tenure             0
Balance            0
NumOfProducts      0
HasCrCard          0
IsActiveMember     0
Exited             0
Surname            0
Geography          0
Gender             0
Age                0
EstimatedSalary    0
target             0
dtype: int64

In [85]:
merged_outer = bank.merge(users, on='CustomerId', how='outer')
merged_outer.shape

(8, 13)

In [86]:
merged_outer.isna().sum()

CustomerId         0
Tenure             3
Balance            3
NumOfProducts      3
HasCrCard          3
IsActiveMember     3
Exited             3
Surname            3
Geography          3
Gender             3
Age                3
EstimatedSalary    3
target             3
dtype: int64

## [Группировки](https://www.codecamp.ru/blog/pandas-groupby-aggregate-multiple-columns/)

Группировка данных — это важная техника в анализе, которая позволяет сегментировать данные на подмножества для более глубокого и структурированного анализа. Она полезна в следующих ситуациях:

1. **Сравнение категорий**: Группировка позволяет сравнивать данные по различным категориям. Например, можно сгруппировать данные о продажах по регионам или продуктам и проанализировать, в каком регионе или для какого продукта продажи были выше.

2. **Анализ по сегментам**: Группировка помогает разбить данные на сегменты, что делает их более управляемыми и понятными. Например, в маркетинге можно сгруппировать клиентов по возрастным группам, чтобы анализировать их поведение и разрабатывать таргетированные стратегии.

3. **Обнаружение закономерностей и трендов**: Сгруппировав данные, можно выявить закономерности, которые не были видны на уровне отдельных записей. Например, сгруппировав данные по месяцам, можно увидеть сезонные колебания в продажах или поведении клиентов.

4. **Сводка данных**: Группировка помогает сводить данные в более агрегированный вид, что упрощает анализ. Например, можно сгруппировать данные по дате и подсчитать количество транзакций за каждый день или месяц, чтобы увидеть динамику.

5. **Упрощение визуализации**: Группировка данных делает визуализацию более эффективной и понятной. Например, при построении графиков, диаграмм или таблиц группировка по категориям позволяет создать более наглядное и понятное представление данных.

6. **Объединение с агрегацией**: Группировка часто используется в комбинации с агрегацией для вычисления различных статистических показателей внутри групп. Например, можно сгруппировать данные по типам продуктов и рассчитать средние или суммарные продажи для каждого продукта.

7. **Глубокий анализ и принятие решений**: Группировка позволяет детализировать данные и получить информацию для принятия более точных и обоснованных решений. Например, компании могут сгруппировать данные по клиентам и изучить их поведение в зависимости от демографических характеристик, что помогает при сегментации рынка и разработке стратегий.

8. **Идентификация аномалий**: Сгруппировав данные, можно легче выявить аномалии или выбросы, которые могут быть замаскированы в общем массиве данных. Например, можно сгруппировать данные по регионам и увидеть, что в одном регионе продажи значительно выше или ниже, чем в остальных.

9. **Упрощение сложных вычислений**: Группировка помогает структурировать данные для проведения сложных вычислений или анализа. Например, при расчете доли рынка для каждого региона или продукта проще сначала сгруппировать данные по этим категориям.

Таким образом, группировка данных позволяет разбивать данные на более управляемые части, что облегчает их анализ, выявление закономерностей и принятие обоснованных решений на основе этих данных.

In [87]:
toy_df = pd.DataFrame({
    'client_id': [1, 2, 2, 3, 1, 1],
    'item': ['chocolate', 'cheese', 'ham', 'candy', 'chair', 'book'],
    'price': [68, 280, 302, 39, 2099, 1089]
})

toy_df

Unnamed: 0,client_id,item,price
0,1,chocolate,68
1,2,cheese,280
2,2,ham,302
3,3,candy,39
4,1,chair,2099
5,1,book,1089


In [88]:
grouped = toy_df.groupby('client_id')
grouped

<pandas.core.groupby.generic.DataFrameGroupBy object at 0x00000233F86A1F10>

In [89]:
grouped.groups

{1: [0, 4, 5], 2: [1, 2], 3: [3]}

In [90]:
grouped.agg({'price': ['sum', 'min', 'max']})

Unnamed: 0_level_0,price,price,price
Unnamed: 0_level_1,sum,min,max
client_id,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2
1,3256,68,2099
2,582,280,302
3,39,39,39


In [91]:
grouped.agg({'price': ['sum', 'min', 'max']}).reset_index()

Unnamed: 0_level_0,client_id,price,price,price
Unnamed: 0_level_1,Unnamed: 1_level_1,sum,min,max
0,1,3256,68,2099
1,2,582,280,302
2,3,39,39,39


In [92]:
users.groupby('Geography').agg({'Age': ['mean'], 'EstimatedSalary': ['min']})

Unnamed: 0_level_0,Age,EstimatedSalary
Unnamed: 0_level_1,mean,min
Geography,Unnamed: 1_level_2,Unnamed: 2_level_2
France,46.0,10062.8
Germany,29.0,119346.88
Spain,42.5,112542.58


#### pivot_table

`pivot_table` — это мощный инструмент в анализе данных, который используется для обобщения, сворачивания и перестановки данных в таблице. Это одна из ключевых функций для анализа и обработки данных в библиотеках вроде Pandas в Python или в электронных таблицах, таких как Excel. Вот подробное объяснение того, что такое `pivot_table` и зачем он нужен:

### Что такое `pivot_table`?

`pivot_table` (сводная таблица) — это таблица, которая позволяет агрегировать данные по одной или нескольким категориям (группировать), а также применять к этим категориям различные функции, такие как сумма, среднее, минимум, максимум и другие. В процессе использования `pivot_table` вы определяете, по каким столбцам сгруппировать данные, и какие метрики или агрегаты вычислить для каждой группы.

Основные элементы сводной таблицы:
- **Индексы (rows)**: Категории или значения, по которым осуществляется группировка по строкам.
- **Колонки (columns)**: Дополнительные категории, по которым можно сделать разбиение по столбцам.
- **Значения (values)**: Это те данные, которые агрегируются (например, сумма продаж, количество заказов).
- **Функции агрегации**: Это функции, которые применяются к значениям для сводки (сумма, среднее, количество и т.д.).

### Зачем использовать `pivot_table`?

1. **Анализ данных по категориям**: Сводная таблица позволяет легко сравнивать различные категории данных. Например, можно сгруппировать данные по регионам, продуктам или клиентам и увидеть суммарные продажи или количество заказов в каждой категории.

2. **Быстрая сводка данных**: Если у вас есть большой набор данных, `pivot_table` позволяет свести его к ключевым метрикам для получения быстрого обзора. Например, вы можете создать таблицу, которая показывает средние продажи по месяцам или регионам.

3. **Простота обработки данных**: Сводные таблицы упрощают анализ данных, особенно когда нужно агрегировать данные по нескольким критериям. Например, можно увидеть одновременно сводку по продуктам и регионам, применяя несколько функций агрегации.

4. **Вычисление сложных метрик**: С помощью `pivot_table` можно легко вычислять сложные метрики, например, средний чек по каждому продукту или долю продаж в каждом регионе.

5. **Визуализация трендов и закономерностей**: Создание сводных таблиц помогает выявлять тренды или паттерны в данных. Например, можно увидеть сезонные изменения продаж или различия в поведении клиентов по разным категориям.

6. **Удобство и гибкость**: Сводные таблицы позволяют легко изменять критерии группировки и функции агрегации. Это даёт возможность быстро изменять и адаптировать анализ под различные задачи.

### Пример использования `pivot_table` в Pandas:

Предположим, у вас есть данные о продажах:

In [4]:
data = {'Product': ['A', 'A', 'B', 'B', 'C', 'C'],
        'Region': ['North', 'South', 'North', 'South', 'North', 'South'],
        'Sales': [100, 200, 150, 250, 300, 400]}

df = pd.DataFrame(data)
df

Unnamed: 0,Product,Region,Sales
0,A,North,100
1,A,South,200
2,B,North,150
3,B,South,250
4,C,North,300
5,C,South,400


Вы можете создать сводную таблицу, которая показывает суммарные продажи по каждому продукту и региону:

In [3]:
pivot = pd.pivot_table(df, values='Sales', index='Product', columns='Region', aggfunc='sum')
pivot

Region,North,South
Product,Unnamed: 1_level_1,Unnamed: 2_level_1
A,100,200
B,150,250
C,300,400


Здесь `pivot_table` сгруппировал данные по продуктам и регионам и показал суммарные продажи для каждой группы.

In [93]:
toy_df.pivot_table(index='client_id',
                   values='price',
                   aggfunc='sum')

Unnamed: 0_level_0,price
client_id,Unnamed: 1_level_1
1,3256
2,582
3,39


In [94]:
users.pivot_table(index='Geography',
                  aggfunc={'Age': ['mean'], 'EstimatedSalary': 'min'})

Unnamed: 0_level_0,Age,EstimatedSalary
Unnamed: 0_level_1,mean,min
Geography,Unnamed: 1_level_2,Unnamed: 2_level_2
France,46.0,10062.8
Germany,29.0,119346.88
Spain,42.5,112542.58


In [95]:
users.pivot_table(index='Geography',
                  columns='Gender', 
                  values='EstimatedSalary',
                  aggfunc='mean',
                  margins=True,
                  margins_name='Total')

Gender,F,M,Total
Geography,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
France,101348.88,10062.8,55705.84
Germany,119346.88,,119346.88
Spain,112542.58,149756.71,131149.645
Total,111079.446667,79909.755,98611.57


#### crosstab

`crosstab` — это функция для построения перекрестных таблиц (или таблиц сопряженности), которая используется для анализа взаимосвязей между двумя или более категориями данных. Она показывает, как часто определенные комбинации значений встречаются в наборе данных. В Python функция `crosstab` доступна в библиотеке Pandas, и она очень похожа на `pivot_table`, но с более узким фокусом на частотные распределения и категориальный анализ.

### Зачем нужна `crosstab`?

1. **Анализ взаимосвязей между переменными**: `crosstab` позволяет понять, как две или более переменных связаны между собой. Это часто используется для изучения категориальных данных. Например, можно посмотреть, как распределяются продажи продуктов по разным регионам или как пол связан с уровнем образования.

2. **Частотный анализ**: `crosstab` позволяет увидеть частотное распределение данных. Например, можно узнать, сколько раз определенные категории данных встречаются в наборе. Это полезно для анализа распределений по возрастным группам, продуктовым категориям и другим категориальным переменным.

3. **Сравнение категорий**: Эта функция помогает легко и наглядно сравнить различные категории данных. Например, можно увидеть, сколько людей из разных возрастных групп имеют разные уровни дохода.

4. **Анализ таблиц сопряженности в статистике**: В статистике таблицы сопряженности используются для анализа зависимости между переменными, а `crosstab` помогает быстро создать такие таблицы. Это полезно, например, для проведения теста хи-квадрат на независимость, чтобы проверить, связаны ли две переменные.

5. **Обобщение категориальных данных**: `crosstab` помогает агрегировать данные по двум и более категориям, что упрощает выявление ключевых паттернов в данных. Например, можно агрегировать данные о покупках по продуктам и месяцам, чтобы увидеть, как меняются продажи со временем.

6. **Подсчет комбинаций значений**: Если у вас есть несколько категориальных переменных, `crosstab` позволяет посчитать, сколько раз встречается каждая комбинация этих значений. Например, можно подсчитать, сколько мужчин и женщин купили продукты в разных категориях (например, еда, одежда, электроника).

### Пример использования `crosstab` в Pandas:

Допустим, у вас есть данные о покупках клиентов, включая их пол и категорию покупок:

In [5]:
data = {'Gender': ['Male', 'Female', 'Female', 'Male', 'Female', 'Male'],
        'Product_Category': ['Electronics', 'Clothing', 'Electronics', 'Clothing', 'Clothing', 'Electronics']}

df = pd.DataFrame(data)
df

Unnamed: 0,Gender,Product_Category
0,Male,Electronics
1,Female,Clothing
2,Female,Electronics
3,Male,Clothing
4,Female,Clothing
5,Male,Electronics


Вы можете использовать `crosstab`, чтобы увидеть распределение покупок по полу и категориям продуктов:

In [6]:
crosstab_result = pd.crosstab(df['Gender'], df['Product_Category'])

crosstab_result

Product_Category,Clothing,Electronics
Gender,Unnamed: 1_level_1,Unnamed: 2_level_1
Female,2,1
Male,1,2


Здесь `crosstab` показывает, что женщины купили 2 единицы одежды и 1 единицу электроники, а мужчины купили 1 единицу одежды и 2 единицы электроники.

### Основные параметры `crosstab`:
- **rows (строки)**: Категории, по которым будут распределены строки таблицы.
- **columns (столбцы)**: Категории, по которым будут распределены столбцы таблицы.
- **values**: Значения, которые нужно агрегировать (например, суммы или средние).
- **aggfunc**: Функция агрегации (например, `sum`, `mean`), которая применяется к значениям.
- **normalize**: Приводит данные к относительным величинам (доли, проценты), что помогает сравнивать данные между собой.

### В каких случаях использовать `crosstab`?

1. **Анализ категориальных данных**: Если вы анализируете данные, которые содержат категориальные переменные, например, пол, возраст, регион, категории продуктов и т.д.
2. **Анализ двух или более категориальных переменных**: Когда вам нужно увидеть, как одна категория зависит от другой. Например, как пол влияет на выбор категории продукта.
3. **Частотный анализ и статистика**: Когда требуется подсчитать количество вхождений категорий и их комбинаций, что помогает в статистическом анализе, особенно для проверки гипотез на зависимости.
4. **Простота визуализации**: `crosstab` выводит результаты в виде таблицы, которую легко интерпретировать или визуализировать в виде тепловых карт или других графиков.


In [96]:
pd.crosstab(index=users['Geography'],
            columns=users['Gender'])

Gender,F,M
Geography,Unnamed: 1_level_1,Unnamed: 2_level_1
France,1,1
Germany,1,0
Spain,1,1


In [97]:
pd.crosstab(index=users['Geography'],
            columns=users['Gender'],
            values=users['EstimatedSalary'],
            aggfunc='mean')

Gender,F,M
Geography,Unnamed: 1_level_1,Unnamed: 2_level_1
France,101348.88,10062.8
Germany,119346.88,
Spain,112542.58,149756.71


In [98]:
pd.crosstab(index=users['Geography'],
            columns=users['Gender'],
            normalize='all')

Gender,F,M
Geography,Unnamed: 1_level_1,Unnamed: 2_level_1
France,0.2,0.2
Germany,0.2,0.0
Spain,0.2,0.2


In [99]:
pd.crosstab(index=users['Geography'],
            columns=users['Gender'],
            normalize='index')

Gender,F,M
Geography,Unnamed: 1_level_1,Unnamed: 2_level_1
France,0.5,0.5
Germany,1.0,0.0
Spain,0.5,0.5


In [100]:
pd.crosstab(index=users['Geography'],
            columns=users['Gender'],
            normalize='columns')

Gender,F,M
Geography,Unnamed: 1_level_1,Unnamed: 2_level_1
France,0.333333,0.5
Germany,0.333333,0.0
Spain,0.333333,0.5
