## **Задача №2.**
Для заданного набора данных проведите обработку пропусков в данных для одного категориального и одного количественного признака. Какие способы обработки пропусков в данных для категориальных и количественных признаков Вы использовали? Какие признаки Вы будете использовать для дальнейшего построения моделей машинного обучения и почему?


### **Загрузка библиотек и датасета**

Набор данных: [датасет 3](https://www.kaggle.com/datasets/fivethirtyeight/fivethirtyeight-comic-characters-dataset)

In [3]:
import numpy as np
import pandas as pd
import seaborn as sns
from sklearn.impute import SimpleImputer
import matplotlib.pyplot as plt
%matplotlib inline 
sns.set(style="ticks")

In [4]:
filename = '../datasets/marvel-wikia-data.csv'
data = pd.read_csv(filename)
data.head()

Unnamed: 0,page_id,name,urlslug,ID,ALIGN,EYE,HAIR,SEX,GSM,ALIVE,APPEARANCES,FIRST APPEARANCE,Year
0,1678,Spider-Man (Peter Parker),\/Spider-Man_(Peter_Parker),Secret Identity,Good Characters,Hazel Eyes,Brown Hair,Male Characters,,Living Characters,4043.0,Aug-62,1962.0
1,7139,Captain America (Steven Rogers),\/Captain_America_(Steven_Rogers),Public Identity,Good Characters,Blue Eyes,White Hair,Male Characters,,Living Characters,3360.0,Mar-41,1941.0
2,64786,"Wolverine (James \""Logan\"" Howlett)",\/Wolverine_(James_%22Logan%22_Howlett),Public Identity,Neutral Characters,Blue Eyes,Black Hair,Male Characters,,Living Characters,3061.0,Oct-74,1974.0
3,1868,"Iron Man (Anthony \""Tony\"" Stark)",\/Iron_Man_(Anthony_%22Tony%22_Stark),Public Identity,Good Characters,Blue Eyes,Black Hair,Male Characters,,Living Characters,2961.0,Mar-63,1963.0
4,2460,Thor (Thor Odinson),\/Thor_(Thor_Odinson),No Dual Identity,Good Characters,Blue Eyes,Blond Hair,Male Characters,,Living Characters,2258.0,Nov-50,1950.0


### **Обработка пропусков**

In [5]:
data.shape

(16376, 13)

In [6]:
# пропущенные значения
data.isnull().sum()

page_id                 0
name                    0
urlslug                 0
ID                   3770
ALIGN                2812
EYE                  9767
HAIR                 4264
SEX                   854
GSM                 16286
ALIVE                   3
APPEARANCES          1096
FIRST APPEARANCE      815
Year                  815
dtype: int64

In [7]:
data.dtypes

page_id               int64
name                 object
urlslug              object
ID                   object
ALIGN                object
EYE                  object
HAIR                 object
SEX                  object
GSM                  object
ALIVE                object
APPEARANCES         float64
FIRST APPEARANCE     object
Year                float64
dtype: object

In [8]:
data_clean = data

**Категориальные признаки:**

In [9]:
# Импьютация константой NA колонки ID
imp_id = SimpleImputer(missing_values=np.nan, strategy='constant', fill_value='NA')
data_clean[['ID']] = imp_id.fit_transform(data_clean[['ID']])

In [10]:
# Импьютация константой NA колонки ALIGN
imp_ALIGN = SimpleImputer(missing_values=np.nan, strategy='constant', fill_value='NA')
data_clean[['ALIGN']] = imp_ALIGN.fit_transform(data_clean[['ALIGN']])

In [11]:
# Импьютация самым частым колонки EYE
imp_EYE = SimpleImputer(missing_values=np.nan, strategy='most_frequent')
data_clean[['EYE']] = imp_EYE.fit_transform(data_clean[['EYE']])

In [12]:
# Импьютация самым частым колонки HAIR
imp_HAIR = SimpleImputer(missing_values=np.nan, strategy='most_frequent')
data_clean[['HAIR']] = imp_HAIR.fit_transform(data_clean[['HAIR']])

In [13]:
# Импьютация константой NA колонки SEX
imp_SEX = SimpleImputer(missing_values=np.nan, strategy='constant', fill_value='NA')
data_clean[['SEX']] = imp_SEX.fit_transform(data_clean[['SEX']])

In [14]:
# Удалим колонку GSM, т.к. она почти пустая
data_clean = data_clean.drop(columns = ['GSM'], axis = 1)

In [15]:
# Импьютация константой NA колонки ALIVE
imp_ALIVE = SimpleImputer(missing_values=np.nan, strategy='constant', fill_value='NA')
data_clean[['ALIVE']] = imp_ALIVE.fit_transform(data_clean[['ALIVE']])

In [16]:
# Импьютация константой NA колонки FIRST APPEARANCE
imp_FIRST_APPEARANCE = SimpleImputer(missing_values=np.nan, strategy='constant', fill_value='NA')
data_clean[['FIRST APPEARANCE']] = imp_FIRST_APPEARANCE.fit_transform(data_clean[['FIRST APPEARANCE']])

**Количественные признаки:**

In [17]:
strategies=['median', 'most_frequent']

In [18]:
# импьютация нужной колонки с помощью нужной стратегии
def func_impute_col(dataset, column, strategy_param):
    temp_data = dataset[[column]]
    
    imp_num = SimpleImputer(strategy=strategy_param)
    data_num_imp = imp_num.fit_transform(temp_data)
    
    return data_num_imp

In [19]:
# замена медианой APPEARANCES
col_APPEARANCES_imp = func_impute_col(data_clean, 'APPEARANCES', strategies[0])
data_clean[['APPEARANCES']] = col_APPEARANCES_imp

In [20]:
# замена часто встречаемым Year
col_Year_imp = func_impute_col(data_clean, 'Year', strategies[1])
data_clean[['Year']] = col_Year_imp

In [21]:
data_clean.isnull().sum()

page_id             0
name                0
urlslug             0
ID                  0
ALIGN               0
EYE                 0
HAIR                0
SEX                 0
ALIVE               0
APPEARANCES         0
FIRST APPEARANCE    0
Year                0
dtype: int64

### **Ответы на вопросы**

Какие способы обработки пропусков в данных для категориальных и количественных признаков Вы использовали? 
 - замена константой (constant) - для категориальных
 - замена самым часто встречаемым значением (most_frequent) - для категориальных и количественных
 - замена медианой - для количественных

Какие признаки Вы будете использовать для дальнейшего построения моделей машинного обучения и почему?
 - колонка GSM использоваться не будет, т.к. содержит очень много пропущенных значений
 - столбец EYE тоже бы удалила из-за большого количества пропусков
 - остальные признаки необходимы для описания датасета, поэтому их бы я отставила
 - большинство признаков являются строковыми, а не числовыми, поэтому по корреляционной матрице отсеивать не будем