In [None]:
import pandas as pd
import numpy as np

##### Будем работать с датасетом по оттоку клиентов из банка https://www.kaggle.com/datasets/shubh0799/churn-modelling, но датасет из себя будет представлять две таблицы:

1. Личные данные клиента

  A. CustomerId - Уникальный идентификатор клиента

  B. Surname - Фамилия клиента

  C. Geography - Из какой страны клиент

  D. Gender - Пол клиента

  E. Age - Возраст клиента

  F. EstimatedSalary - Предположительная зарплата клиента

2. Данные по поведению клиента в банке

  A. CustomerId - Уникальный идентификатор клиента

  B. CustomerId - Уникальный идентификатор клиента

  C. Tenure - Сколько лет человек является клиентом банка

  D. Balance - Баланс счета

  E. NumOfProducts - Количество открытых продуктов

  F. HasCrCard - Есть ли у клиента кредитная карта

  G. IsActiveMember - Является ли клиент активные участником
  
  H. Exited - Уйдет ли человек в отток

In [None]:
df = pd.readf = pd.read_csv('Churn_Modelling.csv')  #считать исходную таблицу
df

In [None]:
users = df[['CustomerId', 'Surname', 'Geography', 'Gender', 'Age', 'EstimatedSalary']]  #создать таблицу с полями данных пользователей
users 

In [None]:
bank = df[['CustomerId', 'Tenure', 'Balance', 'NumOfProducts', 'HasCrCard', 'IsActiveMember', 'Exited']]  #создать таблицу с банковскими даннымиd_csv('Churn_Modelling.csv')  #считать исходную таблицу
bank

In [None]:
#users = pd.read_csv('users.csv', sep=';')
#users.head()

In [None]:
users.shape

#### Создание новых признаков

In [None]:
users['new_feature'] = 0
users.head()

In [None]:
users['Age (days)'] = users['Age'] * 365
users.head()

In [None]:
for i, row in users.iloc[:2].iterrows():
    print(row)
    print('__' * 30)

In [None]:
age_days = []

for i, row in users.iterrows():
    age_days.append(row['Age'] * 365)

age_days[:10]

In [None]:
users['Age (days) 2'] = age_days
users.head()

In [None]:
def age_to_days(x):
    return x * 365

users['Age (days) 3'] = users['Age'].apply(age_to_days)
users.head()

In [None]:
import time
from tqdm import tqdm
tqdm.pandas()


In [None]:
import time
from tqdm import tqdm
tqdm.pandas()


def age_to_days(x):
    time.sleep(0.001)
    return x * 365

users['Age'].progress_apply(age_to_days)

#### Удаление признаков

In [None]:
users.drop(columns='new_feature')
users.head()

In [None]:
users = users.drop(columns='new_feature')
users.head()

In [None]:
users['new_feature'] = 0

In [None]:
users.drop(columns='new_feature', inplace=True)
users.head()

In [None]:
users.drop(columns=['Age (days)', 'Age (days) 2', 'Age (days) 3'], inplace=True)
users.head()

#### Изменение существующих признаков
#### .loc

In [None]:
users['target'] = 0
users.head()

In [None]:
users.loc[users['Geography'] == 'France']

In [None]:
users.loc[users['Geography'] == 'France', 'target']

In [None]:
users[users['Geography'] == 'France']['target'] = 1
users.head()

In [None]:
users.loc[users['Geography'] == 'France', 'target'] = 1
users.head()

##### .replace

In [None]:
users['Gender'].replace({'Female': 'F', 'Male': 'M'}, inplace=True)
users.head()

### Методы агрегации

In [None]:
users['Age'].agg(['min', 'max'])

In [None]:
users.agg({
    'Age': ['min', 'max'],
    'EstimatedSalary': 'mean'
})

In [None]:
users.agg(
    min_age=('Age', 'min'),
    max_age=('Age', 'max'),
    mean_salary=('EstimatedSalary', 'mean')
)

#### Методы объединения

In [None]:
#bank = pd.read_csv('bank.csv', sep=';')
#bank.head()

In [None]:
bank.shape

In [None]:
merged = users.merge(bank, left_on='CustomerId', right_on='CustomerId')
merged.head()

In [None]:
users_id = users.set_index('CustomerId')
users_id.head()

In [None]:
bank_id = bank.set_index('CustomerId')
bank_id.head()

In [None]:
bank_id.join(users_id).head()

In [None]:
bank_id.join(users_id).reset_index().head()

In [None]:
bank.shape

### Атрибут how


In [None]:
toy_df1 = pd.DataFrame({
    'col_1': [1, 2, 3],
    'col_2': [9, 9, 9]
})

toy_df2 = pd.DataFrame({
    'col_1': [3, 4],
    'col_3': [0, 0]
})

display(toy_df1, toy_df2)

In [None]:
toy_df1.merge(toy_df2, how='left')

In [None]:
toy_df1.merge(toy_df2, how='right')

In [None]:
toy_df1.merge(toy_df2, how='inner')

In [None]:
toy_df1.merge(toy_df2, how='outer')

In [None]:
merged_left = bank.merge(users, on='CustomerId', how='left')
merged_left.shape

In [None]:
merged_left.isna().sum()

In [None]:
merged_left[merged_left['Age'].isna()]

In [None]:
users[users['CustomerId'] == 15682355]

#### right

In [None]:
merged_right = bank.merge(users, on='CustomerId', how='right')
merged_right.shape

In [None]:
merged_right.isna().sum()

In [None]:
merged_right[merged_right['CreditScore'].isna()]

In [None]:
bank[bank['CustomerId'] == 15611325]

#### inner

In [None]:
merged_inner = bank.merge(users, on='CustomerId', how='inner')
merged_inner.shape

In [None]:
merged_inner.isna().sum()

#### outer

In [None]:
merged_outer = bank.merge(users, on='CustomerId', how='outer')
merged_outer.shape

In [None]:
merged_outer.isna().sum()

#### Методы группировок
##### groupby

In [None]:
toy_df = pd.DataFrame({
    'client_id': [1, 2, 2, 3, 1, 1],
    'item': ['chocolate', 'cheese', 'ham', 'candy', 'chair', 'book'],
    'price': [68, 280, 302, 39, 2099, 1089]
})

toy_df

In [None]:
grouped = toy_df.groupby('client_id')
grouped

In [None]:
grouped.groups

In [None]:
grouped.agg({'price': ['sum', 'min', 'max']})

In [None]:
users.groupby('Geography').agg({'Age': ['mean'], 'EstimatedSalary': ['min']})

#### pivot_table

In [None]:
toy_df.pivot_table(index='client_id',
                   values='price',
                   aggfunc='sum')

In [None]:
users.pivot_table(index='Geography',
                  aggfunc={'Age': ['mean'], 'EstimatedSalary': 'min'})

In [None]:
users.pivot_table(index='Geography',
                  columns='Gender', 
                  values='EstimatedSalary',
                  aggfunc='mean',
                  margins=True,
                  margins_name='Total')

#### crosstab

In [None]:
pd.crosstab(index=users['Geography'],
            columns=users['Gender'])

In [None]:
pd.crosstab(index=users['Geography'],
            columns=users['Gender'],
            values=users['EstimatedSalary'],
            aggfunc='mean')

In [None]:
pd.crosstab(index=users['Geography'],
            columns=users['Gender'],
            normalize='all')

In [None]:
pd.crosstab(index=users['Geography'],
            columns=users['Gender'],
            normalize='index')

In [None]:
pd.crosstab(index=users['Geography'],
            columns=users['Gender'],
            normalize='columns')

#### Встроенные визуализации

In [None]:
import matplotlib.pyplot as plt # some imports to set up plotting
import seaborn as sns # pip install seaborn

import warnings
warnings.filterwarnings('ignore')


In [None]:
import matplotlib

In [None]:
users['Age'].hist()

In [None]:
data = users.groupby('Gender').count()['Age']
data.name = 'Gender'
data

In [None]:
data.plot.pie(y='Gender')

In [None]:
users.iloc[:100].plot.scatter(x='Age', y='EstimatedSalary')

In [None]:
data = bank.groupby('Tenure').count()['Balance']
data.name = 'num_clients'
data

In [None]:
data.plot.bar(width=0.8)

#### Seminar3

In [2]:
df = pd.read_csv('./laptops.csv')
df

FileNotFoundError: [Errno 2] No such file or directory: './laptops.csv'

### 1.1 Создать новый признак Cpu_Company, который будет содержать только название фирмы, которая произвела CPU


In [None]:
df['Cpu_Company'] = df['Cpu'].apply(lambda x: x.split(' ')[0])
df.head()


1.2 Создать новый признак Memory_Amount, который будет содержать только количество Gb памяти без указания типа носителя


In [None]:
def convert_to_gb(x):
    memory = x.split(' ')[0]
    if memory.endswith('GB'):
        res = memory.replace('GB', '')
    elif memory.endswith('TB'):
        res = float(memory.replace('TB', '')) * 1024
    return int(res)


In [None]:
df['Memory_Amount'] = df['Memory'].apply(convert_to_gb)
df.head()


1.3 Создать новый признак Memory_Type, который будет содержать только тип носителя (HDD/SDD/др.)


In [None]:
def conver_to_type(x):
    if '+' in x:
        memory1 = x.split('B')[1][:x.split('B')[1].find('+')].strip()
        memory2 = x.split('B')[-1].strip()
        res = memory1 + ' ' + memory2
    else: res = x.split('B')[-1].strip()
    return res

df['Memory_Type'] = df['Memory'].apply(conver_to_type)
df.head()


1.4 Удалите признаки Memory и ScreenResolution


In [None]:
df.drop(columns=['Memory', 'ScreenResolution'], inplace=True)
df.head()


2.1 Создайте признак SSD, который изначально равен 0


In [None]:
df['SSD'] = 0
df.head()


2.2 Поставьте в признаке SSD 1, если ноутбук действительно с типом носителя SSD


In [None]:
df.loc[df['Memory_Type'] == 'SSD', 'SSD'] = 1
df.head()


2.3 Уберите в признаке Weight значения 'kg' и поменяйте его тип данных на вещественный


In [None]:
df['Weight'] = df['Weight'].str.replace('kg', '').astype('float')
df.head()
df['Weight'].dtype


3.1 Присоедините к таблице clients данные по ноутбукам через метод join
Это нужно, чтобы понимать, какие ноутбуки покупались клиентами

laptop_id - это индексы датафрейма с ноутбуками


In [None]:
clients = pd.DataFrame({
    'client_id': [45, 32, 67, 33, 43],
    'laptop_id': [506, 398, 710, 120, 1999]
})


In [None]:
clients

In [None]:
clints_lap_id = clients.set_index('laptop_id')
clints_lap_id


In [None]:
joined = clints_lap_id.join(df)
joined

3.2 Присоедините к таблице clients данные по ноутбукам через метод merge
Это нужно, чтобы понимать, какие ноутбуки покупались клиентами

laptop_id - это индексы датафрейма с ноутбуками


In [None]:
clints_lap_id = clients
clints_lap_id


In [None]:
df['laptop_id'] = df.index
df.head()


In [None]:
merged = clints_lap_id.merge(df, on='laptop_id')
merged

4.1 Найдите среднюю стоимость ноутбуков в зависимости от компании производителя
Отсортируйте от меньшей стоимости к большей


In [None]:
df.groupby('Company').agg({'Price_euros': 'mean'}).sort_values('Price_euros')


4.2 Найдите минимальную, среднюю и максимальную стоимости ноутбуков в зависимости от производителя процессора


In [None]:
df.groupby('Cpu_Company').agg({'Price_euros': ['min', 'mean', 'max']})


4.3 Постройте таблицу с подсчетом количества ноутбуков в данных в зависимости от производителя CPU и ОЗУ


In [None]:
df.pivot_table(index='Cpu_Company', columns='Ram', aggfunc='count', values='Price_euros', fill_value=0)


4.4 Постройте таблицу с подсчетом средней стоимости ноутбуков в данных в зависимости от операционной системы и GB памяти


In [None]:
df.pivot_table(index='OpSys', columns='Memory_Amount', aggfunc='mean', values='Price_euros', fill_value='-')


5.1 Ноутбуков каких компаний и с каким процессором больше?


In [None]:
pd.crosstab(index=df['Company'], columns=df['Cpu_Company'])


5.2 С каким типом памяти и с каким объемом памяти больше ноутбуков?


In [None]:
pd.crosstab(index=df['Memory_Type'], columns=df['Memory_Amount'])
