# Обработка пропусков в данных, кодирование категориальных признаков, масштабирование данных


In [None]:
import numpy as np
import pandas as pd
import seaborn as sns

import matplotlib.pyplot as plt

%matplotlib inline 

sns.set(style="ticks")

In [None]:
data = pd.read_csv('data/laptops_train.csv', sep=",")

In [None]:
data.shape

In [None]:
data.dtypes

In [None]:
data.isnull().sum()

In [None]:
data.head()

In [None]:
total_count = data.shape[0]

print('Всего строк: {}'.format(total_count))

## Обработка пропусков в данных

In [None]:
dataWithoutNull = data.dropna(axis=1, how='any')

(data.shape, dataWithoutNull.shape)

In [None]:
data = dataWithoutNull.dropna(axis=0, how='any')

(data.shape)

In [None]:
data.head()

In [None]:
num_cols = []

for col in data.columns:
    temp_null_count = data[data[col].isnull()].shape[0]
    
    dt = str(data[col].dtype)
    
    if temp_null_count > 0:
        num_cols.append(col)
        
        temp_perc = round((temp_null_count / total_count) * 100.0, 2)
        
        print('Колонка {}. Тип данных {}. Количество пустых значений {}, {}%.'.format(col, dt, temp_null_count, temp_perc))
    else:
        print('Колонка {}. Тип данных {}. Количество пустых значений {}, {}%.'.format(col, dt, temp_null_count, 0))

In [None]:
cat_cols = []

for col in data.columns:
    temp_null_count = data[data[col].isnull()].shape[0]
    
    dt = str(data[col].dtype)
    
    if temp_null_count > 0 and (dt=='object'):
        cat_cols.append(col)
        
        temp_perc = round((temp_null_count / total_count) * 100.0, 2)
        
        print('Колонка {}. Тип данных {}. Количество пустых значений {}, {}%.'.format(col, dt, temp_null_count, temp_perc))
    else:
        print('Колонка {}. Тип данных {}. Количество пустых значений {}, {}%.'.format(col, dt, temp_null_count, 0))

## Преобразование категориальных признаков в числовые

In [None]:
cat_enc = pd.DataFrame({'c1':data.T[0]})

cat_enc

## Кодирование категорий целочисленными значениями

In [None]:
from sklearn.preprocessing import LabelEncoder

In [None]:
cat_enc['c1'].unique()

In [None]:
le = LabelEncoder()

cat_enc_le = le.fit_transform(cat_enc['c1'])

In [None]:
# Наименования категорий в соответствии с порядковыми номерами

# Свойство называется classes, потому что предполагается что мы решаем 
# задачу классификации и каждое значение категории соответствует 
# какому-либо классу целевого признака

le.classes_

In [None]:
cat_enc_le

In [None]:
np.unique(cat_enc_le)

In [None]:
# В этом примере видно, что перед кодированием 
# уникальные значения признака сортируются в лексикографиеском порядке

le.inverse_transform([0, 1, 2, 3])