## Предобработка данных
Автор: Хужина Вария   
Репозиторий курса: https://github.com/VariyaKh/ML_21school

In [1]:
import pandas as pd

In [2]:
data = pd.read_csv("data/who_suicide_statistics.csv", sep=',')

In [3]:
data.head()

Unnamed: 0,country,year,sex,age,suicides_no,population
0,Albania,1985,female,15-24 years,,277900.0
1,Albania,1985,female,25-34 years,,246800.0
2,Albania,1985,female,35-54 years,,267500.0
3,Albania,1985,female,5-14 years,,298300.0
4,Albania,1985,female,55-74 years,,138700.0


## Классификация признаков

Предложим мы хотим решить задачу регрессии и предсказать число самоубийств. Прежде чем решать эту задачу с помощью алгоритма машинного обучения, нужно подготовить данные. Исходные данные не однородны по типу, где-то тест, где-то числа. Для начала нужно понять к какому классу относится тот или иной признак. 

** Посмотрите на признаки выделите категориальные и количественные признаки. Подумайте как их лучше обработать**

Например можем ли мы считать признак age количественным? Видно, что для age это категориальный признак, так как представлены всего несколько категорий возрастов:

In [4]:
data['age'].unique()

array(['15-24 years', '25-34 years', '35-54 years', '5-14 years',
       '55-74 years', '75+ years'], dtype=object)

## LebelEncoding и OneHotEncoding

Видно, что признак age хоть и по смыслу числовой, но в данной задаче это категория возраста. Всего таких категорий 6. Причем очевидно, что категории имеют некий порядок, 75+ больше чем 15-24 по возрасту. Здесь можно применить LebelEncoding.

Посмотрите как это можно сделать:

## LebelEncoding с помощью словаря
Способ 1

In [5]:
# скопируем данные оставив исходные без изменений
data_1 = data.copy()

In [6]:
data_1['age'] = data_1['age'].map({'5-14 years' : 0, 
                               '15-24 years' : 1 ,
                               '25-34 years' : 2, 
                               '35-54 years' : 3, 
                               '55-74 years' : 4,
                               '75+ years' : 5})

In [7]:
data_1.head()

Unnamed: 0,country,year,sex,age,suicides_no,population
0,Albania,1985,female,1,,277900.0
1,Albania,1985,female,2,,246800.0
2,Albania,1985,female,3,,267500.0
3,Albania,1985,female,0,,298300.0
4,Albania,1985,female,4,,138700.0


Очевидно, что для бинарного признака sex (пол) можно сделать тоже самое:

In [8]:
data_1['sex'] = data_1['sex'].map({'female': 1, 'male': 0})

In [9]:
data_1.head(7)

Unnamed: 0,country,year,sex,age,suicides_no,population
0,Albania,1985,1,1,,277900.0
1,Albania,1985,1,2,,246800.0
2,Albania,1985,1,3,,267500.0
3,Albania,1985,1,0,,298300.0
4,Albania,1985,1,4,,138700.0
5,Albania,1985,1,5,,34200.0
6,Albania,1985,0,1,,301400.0


## LebelEncoding с помщью библиотеки sklearn
Способ 2

In [10]:
from sklearn.preprocessing import LabelEncoder, OneHotEncoder

In [11]:
# скопируем данные оставив исходные без изменений
data_2 = data.copy()

In [12]:
data_2.head()

Unnamed: 0,country,year,sex,age,suicides_no,population
0,Albania,1985,female,15-24 years,,277900.0
1,Albania,1985,female,25-34 years,,246800.0
2,Albania,1985,female,35-54 years,,267500.0
3,Albania,1985,female,5-14 years,,298300.0
4,Albania,1985,female,55-74 years,,138700.0


In [13]:
encoder = LabelEncoder()
data_2['age'] = encoder.fit_transform(data_2['age'])

In [14]:
data_2.head()

Unnamed: 0,country,year,sex,age,suicides_no,population
0,Albania,1985,female,0,,277900.0
1,Albania,1985,female,1,,246800.0
2,Albania,1985,female,2,,267500.0
3,Albania,1985,female,3,,298300.0
4,Albania,1985,female,4,,138700.0


Как назначаются лэйблы категориям, сохранилась ли идея порядка в возрастных группах?

Для бинарных признаков лучше использовать словарь, так проще и нагляднее

In [15]:
data_2['sex'] = data_2['sex'].map({'female': 1, 'male': 0})

In [16]:
data_2.head()

Unnamed: 0,country,year,sex,age,suicides_no,population
0,Albania,1985,1,0,,277900.0
1,Albania,1985,1,1,,246800.0
2,Albania,1985,1,2,,267500.0
3,Albania,1985,1,3,,298300.0
4,Albania,1985,1,4,,138700.0


## OneHot Encoding

Для стран применим OneHot Encoding. То есть расширим признаковое пространство в соотвтсвии количесву стран и получим бинарные признаки по странам.

OneHot Encoding можно сделать с помощью метода pandas get_dummies:

In [17]:
data_1 = pd.get_dummies(data_1, columns=['country'])

In [18]:
data_1.head()

Unnamed: 0,year,sex,age,suicides_no,population,country_Albania,country_Anguilla,country_Antigua and Barbuda,country_Argentina,country_Armenia,...,country_Turks and Caicos Islands,country_Ukraine,country_United Arab Emirates,country_United Kingdom,country_United States of America,country_Uruguay,country_Uzbekistan,country_Venezuela (Bolivarian Republic of),country_Virgin Islands (USA),country_Zimbabwe
0,1985,1,1,,277900.0,1,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
1,1985,1,2,,246800.0,1,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
2,1985,1,3,,267500.0,1,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
3,1985,1,0,,298300.0,1,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
4,1985,1,4,,138700.0,1,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0


In [19]:
data_1.shape

(43776, 146)

В итоге мы расширили пространство признаков и получили новые признаки с префиксом country_. Выясните, как сделать тоже самое с помощью OneHotEncoder библиотеки sklearn

## Заполнение пропусков

В даных есть пропущенные значения по признаку suicides_no и population

In [20]:
data.isnull().sum()

country           0
year              0
sex               0
age               0
suicides_no    2256
population     5460
dtype: int64

Простой способ избавится от пропусков просто выкинуть эти значения, но их довольно много. По признаку suicides_no логичнее заполнить пропуски нулями

In [21]:
data_1['suicides_no'] = data_1['suicides_no'].fillna(0)

Страны, у которых есть пропуски по признаку population

In [22]:
len(data['country'].unique()) # всего стран

141

In [23]:
len(data[data['population'].isnull()]['country'].unique()) # страны с пропусками по признаку population

30

In [24]:
data[data['population'].isnull()]['country'].unique()

array(['Anguilla', 'Bermuda', 'Bolivia', 'British Virgin Islands',
       'Cayman Islands', 'Dominica', 'Dominican Republic',
       'Falkland Islands (Malvinas)', 'Haiti', 'Honduras', 'Iraq',
       'Jordan', 'Malaysia', 'Monaco', 'Montserrat', 'Morocco',
       'Netherlands Antilles', 'Nicaragua',
       'Occupied Palestinian Territory', 'Peru', 'Rodrigues',
       'Saint Kitts and Nevis', 'Saint Pierre and Miquelon', 'San Marino',
       'Saudi Arabia', 'Syrian Arab Republic', 'Tajikistan', 'Tunisia',
       'Turks and Caicos Islands', 'Zimbabwe'], dtype=object)

Можно найти недостающие данные их других источников, можно просто грубо заполнить пропуски средним значением по этим странам или не брать их в расчет

Для простоты, просто не будем учитывать эти страны. Выкинем данные с пропусками

In [25]:
data_1.dropna(inplace=True)

In [26]:
data_1.head()

Unnamed: 0,year,sex,age,suicides_no,population,country_Albania,country_Anguilla,country_Antigua and Barbuda,country_Argentina,country_Armenia,...,country_Turks and Caicos Islands,country_Ukraine,country_United Arab Emirates,country_United Kingdom,country_United States of America,country_Uruguay,country_Uzbekistan,country_Venezuela (Bolivarian Republic of),country_Virgin Islands (USA),country_Zimbabwe
0,1985,1,1,0.0,277900.0,1,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
1,1985,1,2,0.0,246800.0,1,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
2,1985,1,3,0.0,267500.0,1,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
3,1985,1,0,0.0,298300.0,1,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
4,1985,1,4,0.0,138700.0,1,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0


In [27]:
data_1.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 38316 entries, 0 to 43763
Columns: 146 entries, year to country_Zimbabwe
dtypes: float64(2), int64(3), uint8(141)
memory usage: 6.9 MB


## Запись в файл

Запишем предобработанные данные в файл:

In [28]:
data_1.to_csv("data/who_suicide_statistics_train.csv", sep='\t', index=False)