## Компьютерный практикум №1. Предобработка данных

<p style="text-indent: 25px;">
    Доброго времени суток, <b>Елена Константиновна</b>! С вашего позволения, текст к данной лабораторной работе будет на русском языке.
</p>
<p style="text-indent: 25px;">
    Темой лабораторной является <b>предобработка данных</b>. В <i>машинном обучении</i> это считается первым (и одним из важнейших) шагом при <i>анализе и обработке данных</i>. Это важно, поскольку в реальном мире базы данных, с которыми приходится работать специалисту, не всегда предоставляются в идеальном, а главное, в читаемом для машины виде. Обычно в данных могут присутствовать <i>пропущенные значения</i>, <i>аномалии</i>, <i>текстовые данные</i> (которые тоже нужно заранее обрабатывать, прежде чем приступать к дальнейшей работе) и т.д. Всё это нужно и необходимо и устранять, чтобы и машина смогла понимать, что это за данные, и человеку, который будет работать с этими данными, было комфортно.
</p>
<p style="text-indent: 25px;">
    Собственно, давайте же приступим к тому, какие методы используют для предобработки данных.
</p>
<p style="text-indent: 25px;">
    Задания в данной лабораторной следующие:
    <ol>
        <li><i>Провести бинаризацию данных.</i></li>
        <li><i>Реализовать кодирование текстовых данных.</i></li>
        <li><i>Заполнить пропущенные значения.</i></li>
        <li><i>Реализовать процедуру нормализации данных.</i></li>
    </ol>
</p>
<p style="text-indent: 25px;">
    Прежде чем приступить к заданиям, для начала импортируем необходимые библиотеки.
</p>

### 1. Импортирование библиотек

In [1]:
import pandas as pd
import numpy as np
pd.options.mode.chained_assignment = None  # default='warn'

<p style="text-indent: 25px;">
    Затем загрузим наши данные. В данной лабораторной будут использоваться данные о Титанике, которые используют в качестве задания для новичков на <i>kaggle.com</i> (этим заданием является построить классификатор, который максимально точно определит по имеющимся входным данным, выживет ли человек в катастрофе, или нет).
</p>

### 2. Загрузка данных

In [2]:
url = 'https://raw.githubusercontent.com/mwaskom/seaborn-data/master/titanic.csv'
init_data = pd.read_csv(url)
init_data.head()

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone
0,0,3,male,22.0,1,0,7.25,S,Third,man,True,,Southampton,no,False
1,1,1,female,38.0,1,0,71.2833,C,First,woman,False,C,Cherbourg,yes,False
2,1,3,female,26.0,0,0,7.925,S,Third,woman,False,,Southampton,yes,True
3,1,1,female,35.0,1,0,53.1,S,First,woman,False,C,Southampton,yes,False
4,0,3,male,35.0,0,0,8.05,S,Third,man,True,,Southampton,no,True


<p style="text-indent: 25px;">
    Из вывода видно, что датафрейм имеет пропущенные значения (помечены как <b>NaN</b>) и текстовые значения (столбцы <i>sex</i>, <i>embarked</i>, <i>who</i>, <i>adult_male</i>, <i>deck</i>, <i>embark_town</i>, <i>alive</i> и <i>alone</i>). Посмотрим также на то, в каких диапазонах лежат столбцы <i>age</i> и <i>fare</i>. 
</p>

In [3]:
init_data.describe()[['age', 'fare']]  # describe - статистическое описание данных

Unnamed: 0,age,fare
count,714.0,891.0
mean,29.699118,32.204208
std,14.526497,49.693429
min,0.42,0.0
25%,20.125,7.9104
50%,28.0,14.4542
75%,38.0,31.0
max,80.0,512.3292


<p style="text-indent: 25px;">
    Четко видно, что данные столбцы несоизмеримы, соответственно необходимо (как и сказано в задании) эти данные нормализовать.
</p>
<p style="text-indent: 25px;">
    Реализуем функции, исходя из заданий к лабораторной, по порядку. 
</p>

### 3. Бинаризация данных

In [4]:
def binarization(df, col_name, threshold, side, new_col_name):
    # side необходим, чтобы определить, в какую сторону будет смотреть порог (side может быть либо 1, либо 2)
    if side == 1:
        df[new_col_name] = np.where(df[col_name] < threshold, 1, 0)
    else:
        df[new_col_name] = np.where(df[col_name] < threshold, 0, 1)
    return df

In [5]:
transformed_data = binarization(init_data.copy(), 'age', 40, 1, 'age<40')  # copy() - чтобы не делать изменений в исходных данных
transformed_data.head()

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone,age<40
0,0,3,male,22.0,1,0,7.25,S,Third,man,True,,Southampton,no,False,1
1,1,1,female,38.0,1,0,71.2833,C,First,woman,False,C,Cherbourg,yes,False,1
2,1,3,female,26.0,0,0,7.925,S,Third,woman,False,,Southampton,yes,True,1
3,1,1,female,35.0,1,0,53.1,S,First,woman,False,C,Southampton,yes,False,1
4,0,3,male,35.0,0,0,8.05,S,Third,man,True,,Southampton,no,True,1


In [6]:
transformed_data.tail()

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone,age<40
886,0,2,male,27.0,0,0,13.0,S,Second,man,True,,Southampton,no,True,1
887,1,1,female,19.0,0,0,30.0,S,First,woman,False,B,Southampton,yes,True,1
888,0,3,female,,1,2,23.45,S,Third,woman,False,,Southampton,no,False,0
889,1,1,male,26.0,0,0,30.0,C,First,man,True,C,Cherbourg,yes,True,1
890,0,3,male,32.0,0,0,7.75,Q,Third,man,True,,Queenstown,no,True,1


### 4. Кодирование данных

In [7]:
def coding(df, col_name):
    obj_list = df[col_name].unique()
    obj_list = list(filter(lambda v: v==v, obj_list))
    mask_dict = {}
    for i in range(len(obj_list)):
        mask_dict[obj_list[i]] = i
    df[col_name] = df[col_name].map(mask_dict)
    return df

In [8]:
transformed_data = coding(init_data.copy(), 'deck')
transformed_data.head()

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone
0,0,3,male,22.0,1,0,7.25,S,Third,man,True,,Southampton,no,False
1,1,1,female,38.0,1,0,71.2833,C,First,woman,False,0.0,Cherbourg,yes,False
2,1,3,female,26.0,0,0,7.925,S,Third,woman,False,,Southampton,yes,True
3,1,1,female,35.0,1,0,53.1,S,First,woman,False,0.0,Southampton,yes,False
4,0,3,male,35.0,0,0,8.05,S,Third,man,True,,Southampton,no,True


### 5. Замена пропущенных значений

In [9]:
def replacing(df, col_name, method):
    if method == 'indicator':
        df[col_name+'ind'] = np.zeros((df.shape[0], ))
    mean_val = np.mean(df[col_name])
    for i in range(df.shape[0]):
        if np.isnan(df.iloc[i][col_name]):
            if method == 'mean':
                df[col_name][i] = mean_val
            elif method == 'locf':
                if i > 0:
                    df[col_name][i] = df.iloc[i-1][col_name]
                else:
                    df[col_name][i] = df.iloc[i+1][col_name]
            elif method == 'indicator':
                df[col_name][i] = mean_val
                df[col_name+'ind'][i] = 1
    return df

In [10]:
transformed_data = replacing(init_data.copy(), 'age', 'mean')
transformed_data.tail()

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone
886,0,2,male,27.0,0,0,13.0,S,Second,man,True,,Southampton,no,True
887,1,1,female,19.0,0,0,30.0,S,First,woman,False,B,Southampton,yes,True
888,0,3,female,29.699118,1,2,23.45,S,Third,woman,False,,Southampton,no,False
889,1,1,male,26.0,0,0,30.0,C,First,man,True,C,Cherbourg,yes,True
890,0,3,male,32.0,0,0,7.75,Q,Third,man,True,,Queenstown,no,True


In [11]:
transformed_data = replacing(init_data.copy(), 'age', 'locf')
transformed_data.tail()

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone
886,0,2,male,27.0,0,0,13.0,S,Second,man,True,,Southampton,no,True
887,1,1,female,19.0,0,0,30.0,S,First,woman,False,B,Southampton,yes,True
888,0,3,female,19.0,1,2,23.45,S,Third,woman,False,,Southampton,no,False
889,1,1,male,26.0,0,0,30.0,C,First,man,True,C,Cherbourg,yes,True
890,0,3,male,32.0,0,0,7.75,Q,Third,man,True,,Queenstown,no,True


In [12]:
transformed_data = replacing(init_data.copy(), 'age', 'indicator')
transformed_data.tail()

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone,ageind
886,0,2,male,27.0,0,0,13.0,S,Second,man,True,,Southampton,no,True,0.0
887,1,1,female,19.0,0,0,30.0,S,First,woman,False,B,Southampton,yes,True,0.0
888,0,3,female,29.699118,1,2,23.45,S,Third,woman,False,,Southampton,no,False,1.0
889,1,1,male,26.0,0,0,30.0,C,First,man,True,C,Cherbourg,yes,True,0.0
890,0,3,male,32.0,0,0,7.75,Q,Third,man,True,,Queenstown,no,True,0.0


### 6. Нормализация данных

In [13]:
def normalization(df, col_name, method):
    if method == 'min-max':
        df[col_name] = (df[col_name] - np.min(df[col_name])) / (np.max(df[col_name]) - np.min(df[col_name]))
    elif method == 'standartization':
        df[col_name] = (df[col_name] - np.mean(df[col_name])) / np.std(df[col_name])
    return df

In [14]:
transformed_data = normalization(init_data.copy(), 'fare', 'min-max')
transformed_data.head()

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone
0,0,3,male,22.0,1,0,0.014151,S,Third,man,True,,Southampton,no,False
1,1,1,female,38.0,1,0,0.139136,C,First,woman,False,C,Cherbourg,yes,False
2,1,3,female,26.0,0,0,0.015469,S,Third,woman,False,,Southampton,yes,True
3,1,1,female,35.0,1,0,0.103644,S,First,woman,False,C,Southampton,yes,False
4,0,3,male,35.0,0,0,0.015713,S,Third,man,True,,Southampton,no,True


In [15]:
transformed_data = normalization(init_data.copy(), 'fare', 'standartization')
transformed_data.head()

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone
0,0,3,male,22.0,1,0,-0.502445,S,Third,man,True,,Southampton,no,False
1,1,1,female,38.0,1,0,0.786845,C,First,woman,False,C,Cherbourg,yes,False
2,1,3,female,26.0,0,0,-0.488854,S,Third,woman,False,,Southampton,yes,True
3,1,1,female,35.0,1,0,0.42073,S,First,woman,False,C,Southampton,yes,False
4,0,3,male,35.0,0,0,-0.486337,S,Third,man,True,,Southampton,no,True


<p style="text-indent: 25px;">
    Опробуем реализованные функции на практике
</p>

### 7. Использование написанных функций

In [16]:
transformed_data = init_data.copy()

# кодировка текстовых данных
col_list = ['sex', 'embarked', 'class', 'who', 'adult_male', 'deck', 'embark_town', 'alive', 'alone']
for col_name in col_list:
    transformed_data = coding(transformed_data, col_name)

# заполнение пропущенных значений (используем locf)
for col_name in transformed_data.columns:
    if np.sum(np.isnan(transformed_data[col_name])) > 0:
        transformed_data = replacing(transformed_data, col_name, 'locf')

# бинаризация данных
transformed_data = binarization(transformed_data, 'age', 40, 1, 'age<40')
transformed_data = binarization(transformed_data, 'fare', 50, 2, 'fare>50')

# нормализация данных (мин-макс)
col_list = ['age', 'fare']
for col_name in col_list:
    transformed_data = normalization(transformed_data, col_name, 'min-max')
transformed_data.head(10)

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone,age<40,fare>50
0,0,3,0,0.271174,1,0,0.014151,0.0,0,0,0,0.0,0.0,0,0,1,0
1,1,1,1,0.472229,1,0,0.139136,1.0,1,1,1,0.0,1.0,1,0,1,1
2,1,3,1,0.321438,0,0,0.015469,0.0,0,1,1,0.0,0.0,1,1,1,0
3,1,1,1,0.434531,1,0,0.103644,0.0,1,1,1,0.0,0.0,1,0,1,1
4,0,3,0,0.434531,0,0,0.015713,0.0,0,0,0,0.0,0.0,0,1,1,0
5,0,3,0,0.434531,0,0,0.01651,2.0,0,0,0,0.0,2.0,0,1,1,0
6,0,1,0,0.673285,0,0,0.101229,0.0,1,0,0,1.0,0.0,0,1,0,1
7,0,3,0,0.019854,3,1,0.041136,0.0,0,2,1,1.0,0.0,0,0,1,0
8,1,3,1,0.334004,0,2,0.021731,0.0,0,1,1,1.0,0.0,1,0,1,0
9,1,2,1,0.170646,1,0,0.058694,1.0,2,2,1,1.0,1.0,1,0,1,0


<p style="text-indent: 25px;">
    Сравним с исходными данными
</p>

In [17]:
init_data.head(10)

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone
0,0,3,male,22.0,1,0,7.25,S,Third,man,True,,Southampton,no,False
1,1,1,female,38.0,1,0,71.2833,C,First,woman,False,C,Cherbourg,yes,False
2,1,3,female,26.0,0,0,7.925,S,Third,woman,False,,Southampton,yes,True
3,1,1,female,35.0,1,0,53.1,S,First,woman,False,C,Southampton,yes,False
4,0,3,male,35.0,0,0,8.05,S,Third,man,True,,Southampton,no,True
5,0,3,male,,0,0,8.4583,Q,Third,man,True,,Queenstown,no,True
6,0,1,male,54.0,0,0,51.8625,S,First,man,True,E,Southampton,no,True
7,0,3,male,2.0,3,1,21.075,S,Third,child,False,,Southampton,no,False
8,1,3,female,27.0,0,2,11.1333,S,Third,woman,False,,Southampton,yes,False
9,1,2,female,14.0,1,0,30.0708,C,Second,child,False,,Cherbourg,yes,False


### Выводы

<p style="text-indent: 25px;">
    В результате выполненной лабораторной работы были получены написанные функции на языке Python для предварительной обработки данных, а именно: для кодировки, заполнения пропущенных значений, нормализации и бинаризации. Данные функции можно будет использовать в дальнейших лабораторных работах, а также при непосредственной профессиональной работе с данными в качестве Дата Аналитика, Дата Саентиста и т.п.
</p>