# Desafio 6

Neste desafio, vamos praticar _feature engineering_, um dos processos mais importantes e trabalhosos de ML. Utilizaremos o _data set_ [Countries of the world](https://www.kaggle.com/fernandol/countries-of-the-world), que contém dados sobre os 227 países do mundo com informações sobre tamanho da população, área, imigração e setores de produção.

> Obs.: Por favor, não modifique o nome das funções de resposta.

## _Setup_ geral

In [3]:
import pandas as pd
pd.set_option('display.max_columns', 200)
import numpy as np
import seaborn as sns
import sklearn as sk
from sklearn.preprocessing import KBinsDiscretizer
from sklearn.preprocessing import StandardScaler
from sklearn.pipeline import Pipeline
from sklearn.impute import SimpleImputer
from sklearn.datasets import load_digits, fetch_20newsgroups
from sklearn.feature_extraction.text import CountVectorizer

from sklearn.feature_extraction.text import TfidfTransformer
from sklearn.feature_extraction.text import TfidfVectorizer

In [4]:
# Algumas configurações para o matplotlib.
# %matplotlib inline

# from IPython.core.pylabtools import figsize


# figsize(12, 8)

sns.set()

In [5]:
countries = pd.read_csv("countries.csv")

In [6]:
new_column_names = [
    "Country", "Region", "Population", "Area", "Pop_density", "Coastline_ratio",
    "Net_migration", "Infant_mortality", "GDP", "Literacy", "Phones_per_1000",
    "Arable", "Crops", "Other", "Climate", "Birthrate", "Deathrate", "Agriculture",
    "Industry", "Service"
]

countries.columns = new_column_names

countries.head(5)

Unnamed: 0,Country,Region,Population,Area,Pop_density,Coastline_ratio,Net_migration,Infant_mortality,GDP,Literacy,Phones_per_1000,Arable,Crops,Other,Climate,Birthrate,Deathrate,Agriculture,Industry,Service
0,Afghanistan,ASIA (EX. NEAR EAST),31056997,647500,480,0,2306,16307,700.0,360,32,1213,22,8765,1,466,2034,38.0,24.0,38.0
1,Albania,EASTERN EUROPE,3581655,28748,1246,126,-493,2152,4500.0,865,712,2109,442,7449,3,1511,522,232.0,188.0,579.0
2,Algeria,NORTHERN AFRICA,32930091,2381740,138,4,-39,31,6000.0,700,781,322,25,9653,1,1714,461,101.0,6.0,298.0
3,American Samoa,OCEANIA,57794,199,2904,5829,-2071,927,8000.0,970,2595,10,15,75,2,2246,327,,,
4,Andorra,WESTERN EUROPE,71201,468,1521,0,66,405,19000.0,1000,4972,222,0,9778,3,871,625,,,


## Observações

Esse _data set_ ainda precisa de alguns ajustes iniciais. Primeiro, note que as variáveis numéricas estão usando vírgula como separador decimal e estão codificadas como strings. Corrija isso antes de continuar: transforme essas variáveis em numéricas adequadamente.

Além disso, as variáveis `Country` e `Region` possuem espaços a mais no começo e no final da string. Você pode utilizar o método `str.strip()` para remover esses espaços.

## Inicia sua análise a partir daqui

### Características principais do dataset

In [7]:
print('O dataset contém {} linhas e {} colunas.'.format(countries.shape[0], countries.shape[1]))

O dataset contém 227 linhas e 20 colunas.


In [8]:
countries.columns

Index(['Country', 'Region', 'Population', 'Area', 'Pop_density',
       'Coastline_ratio', 'Net_migration', 'Infant_mortality', 'GDP',
       'Literacy', 'Phones_per_1000', 'Arable', 'Crops', 'Other', 'Climate',
       'Birthrate', 'Deathrate', 'Agriculture', 'Industry', 'Service'],
      dtype='object')

In [9]:
countries.head()

Unnamed: 0,Country,Region,Population,Area,Pop_density,Coastline_ratio,Net_migration,Infant_mortality,GDP,Literacy,Phones_per_1000,Arable,Crops,Other,Climate,Birthrate,Deathrate,Agriculture,Industry,Service
0,Afghanistan,ASIA (EX. NEAR EAST),31056997,647500,480,0,2306,16307,700.0,360,32,1213,22,8765,1,466,2034,38.0,24.0,38.0
1,Albania,EASTERN EUROPE,3581655,28748,1246,126,-493,2152,4500.0,865,712,2109,442,7449,3,1511,522,232.0,188.0,579.0
2,Algeria,NORTHERN AFRICA,32930091,2381740,138,4,-39,31,6000.0,700,781,322,25,9653,1,1714,461,101.0,6.0,298.0
3,American Samoa,OCEANIA,57794,199,2904,5829,-2071,927,8000.0,970,2595,10,15,75,2,2246,327,,,
4,Andorra,WESTERN EUROPE,71201,468,1521,0,66,405,19000.0,1000,4972,222,0,9778,3,871,625,,,


In [10]:
countries.Infant_mortality

0      163,07
1       21,52
2          31
3        9,27
4        4,05
5      191,19
6       21,03
7       19,46
8       15,18
9       23,28
10       5,89
11       4,69
12       4,66
13      81,74
14      25,21
15      17,27
16       62,6
17       12,5
18      13,37
19       4,68
20      25,69
21         85
22       8,53
23     100,44
24      53,11
25      21,05
26      54,58
27      29,61
28      18,05
29      12,61
        ...  
197     29,53
198       6,4
199    110,76
200     98,54
201     20,48
202     66,61
203     12,62
204     24,31
205     24,77
206     41,04
207     73,08
208     15,67
209     20,03
210     67,83
211     20,34
212     14,51
213      5,16
214       6,5
215     11,95
216      71,1
217     55,16
218      22,2
219     25,95
220      8,03
221       NaN
222     19,62
223       NaN
224      61,5
225     88,29
226     67,69
Name: Infant_mortality, Length: 227, dtype: object

In [11]:
countries.dtypes

Country              object
Region               object
Population            int64
Area                  int64
Pop_density          object
Coastline_ratio      object
Net_migration        object
Infant_mortality     object
GDP                 float64
Literacy             object
Phones_per_1000      object
Arable               object
Crops                object
Other                object
Climate              object
Birthrate            object
Deathrate            object
Agriculture          object
Industry             object
Service              object
dtype: object

In [12]:
countries.isnull().sum()

Country              0
Region               0
Population           0
Area                 0
Pop_density          0
Coastline_ratio      0
Net_migration        3
Infant_mortality     3
GDP                  1
Literacy            18
Phones_per_1000      4
Arable               2
Crops                2
Other                2
Climate             22
Birthrate            3
Deathrate            4
Agriculture         15
Industry            16
Service             15
dtype: int64

### Correção das colunas numéricas

Algumas das colunas numéricas estão com vírgulas como separador decimal e são do tipo string. Devemos transfomar essas variáveis para float.

As colunas são as seguintes:

* Birthrate, Deathrate, Agriculture, Industry, Service, Literacy, Phones_per_1000, Arable, Crops, Other, Pop_density, Coastline_ratio, Net_migration, Infant_mortality.

In [13]:
def to_float(string):
    if string is not np.nan:
        string = string.replace(',', '.')
        string = float(string)
    return string

In [14]:
cols = ['Climate',
        'Birthrate',
        'Deathrate',
        'Agriculture',
        'Industry',
        'Service',
        'Literacy',
        'Phones_per_1000',
        'Arable',
        'Crops',
        'Other',
        'Pop_density',
        'Coastline_ratio',
        'Net_migration',
        'Infant_mortality']
countries[cols] = countries[cols].applymap(to_float)

In [15]:
countries.dtypes

Country              object
Region               object
Population            int64
Area                  int64
Pop_density         float64
Coastline_ratio     float64
Net_migration       float64
Infant_mortality    float64
GDP                 float64
Literacy            float64
Phones_per_1000     float64
Arable              float64
Crops               float64
Other               float64
Climate             float64
Birthrate           float64
Deathrate           float64
Agriculture         float64
Industry            float64
Service             float64
dtype: object

### Correção das colunas de strings

Como mencionado, algumas strings possuem espaços extras e estes espaços devem ser removidos.

In [16]:
countries.Country

0               Afghanistan 
1                   Albania 
2                   Algeria 
3            American Samoa 
4                   Andorra 
5                    Angola 
6                  Anguilla 
7         Antigua & Barbuda 
8                 Argentina 
9                   Armenia 
10                    Aruba 
11                Australia 
12                  Austria 
13               Azerbaijan 
14             Bahamas, The 
15                  Bahrain 
16               Bangladesh 
17                 Barbados 
18                  Belarus 
19                  Belgium 
20                   Belize 
21                    Benin 
22                  Bermuda 
23                   Bhutan 
24                  Bolivia 
25     Bosnia & Herzegovina 
26                 Botswana 
27                   Brazil 
28       British Virgin Is. 
29                   Brunei 
               ...          
197                   Syria 
198                  Taiwan 
199              Tajikistan 
200           

In [44]:
countries[['Country','Region']] = countries[['Country','Region']].applymap(lambda x: x.strip()) 

## Questão 1

Quais são as regiões (variável `Region`) presentes no _data set_? Retorne uma lista com as regiões únicas do _data set_ com os espaços à frente e atrás da string removidos (mas mantenha pontuação: ponto, hífen etc) e ordenadas em ordem alfabética.

In [45]:
def q1():
    result = sorted(countries.Region.unique().tolist())
    return result

## Questão 2

Discretizando a variável `Pop_density` em 10 intervalos com `KBinsDiscretizer`, seguindo o encode `ordinal` e estratégia `quantile`, quantos países se encontram acima do 90º percentil? Responda como um único escalar inteiro.

In [46]:
def q2():
    discretizer = KBinsDiscretizer(n_bins=10, encode="ordinal", strategy="quantile")
    pop_bins = discretizer.fit_transform(countries[['Pop_density']])
    return pop_bins[pop_bins==9].shape[0]

In [47]:
q2()

23

# Questão 3

Se codificarmos as variáveis `Region` e `Climate` usando _one-hot encoding_, quantos novos atributos seriam criados? Responda como um único escalar.

In [54]:
def q3():
    # Cada valor único de cada coluna gera um novo atributo
    # Soma-se 1 devido a presença de nulos em Climate
    result = countries.Region.nunique() + countries.Climate.nunique() + 1
    return result

In [55]:
q3()

18

## Questão 4

Aplique o seguinte _pipeline_:

1. Preencha as variáveis do tipo `int64` e `float64` com suas respectivas medianas.
2. Padronize essas variáveis.

Após aplicado o _pipeline_ descrito acima aos dados (somente nas variáveis dos tipos especificados), aplique o mesmo _pipeline_ (ou `ColumnTransformer`) ao dado abaixo. Qual o valor da variável `Arable` após o _pipeline_? Responda como um único float arredondado para três casas decimais.

In [23]:
num_pipeline = Pipeline(steps=[
    ("imputer", SimpleImputer(strategy="median")),
    ("minmax_scaler", StandardScaler())
])

In [24]:
test_country = [
    'Test Country', 'NEAR EAST', -0.19032480757326514,
    -0.3232636124824411, -0.04421734470810142, -0.27528113360605316,
    0.13255850810281325, -0.8054845935643491, 1.0119784924248225,
    0.6189182532646624, 1.0074863283776458, 0.20239896852403538,
    -0.043678728558593366, -0.13929748680369286, 1.3163604645710438,
    -0.3699637766938669, -0.6149300604558857, -0.854369594993175,
    0.263445277972641, 0.5712416961268142
]

test_country = np.asarray([test_country[2:]])

test_country

array([[-0.19032481, -0.32326361, -0.04421734, -0.27528113,  0.13255851,
        -0.80548459,  1.01197849,  0.61891825,  1.00748633,  0.20239897,
        -0.04367873, -0.13929749,  1.31636046, -0.36996378, -0.61493006,
        -0.85436959,  0.26344528,  0.5712417 ]])

In [72]:
def q4():
    # Filtrando somente as colunas numéricas
    numericals = []
    for col in countries.columns:
        if countries[col].dtypes!='object':
            numericals.append(col)
    num_pipeline = Pipeline(steps=[
        ("imputer", SimpleImputer(strategy="median")),
        ("minmax_scaler", StandardScaler())])
    countries_pipe = countries.copy()
    countries_pipe = num_pipeline.fit_transform(countries_pipe[numericals])
    # Aplica o pipeline na lista
    result = num_pipeline.transform(test_country)
    # Encontra índice da coluna Arable
    idx = countries.columns.get_loc('Arable')
    return float(round(result[0, idx-2], 3))

In [73]:
q4()

-1.047

## Questão 5

Descubra o número de _outliers_ da variável `Net_migration` segundo o método do _boxplot_, ou seja, usando a lógica:

$$x \notin [Q1 - 1.5 \times \text{IQR}, Q3 + 1.5 \times \text{IQR}] \Rightarrow x \text{ é outlier}$$

que se encontram no grupo inferior e no grupo superior.

Você deveria remover da análise as observações consideradas _outliers_ segundo esse método? Responda como uma tupla de três elementos `(outliers_abaixo, outliers_acima, removeria?)` ((int, int, bool)).

Devemos remover estes outliers de nossa análise? Vamos observar alguns dos países que tem valores altos e baixos de migração.

In [51]:
quart1 = countries.Net_migration.quantile(0.25)
quart3 = countries.Net_migration.quantile(0.75)
iqr = quart1-quart3
out_down = countries[countries.Net_migration < quart1-1.5*iqr][['Country', 'Net_migration']]
out_up = countries[countries.Net_migration > quart3+1.5*iqr][['Country', 'Net_migration']]

In [52]:
out_down

Unnamed: 0,Country,Net_migration
1,Albania,-4.93
2,Algeria,-0.39
3,American Samoa,-20.71
5,Angola,0.00
7,Antigua & Barbuda,-6.15
8,Argentina,0.61
9,Armenia,-6.47
10,Aruba,0.00
13,Azerbaijan,-4.90
14,"Bahamas, The",-2.20


In [29]:
out_up

Unnamed: 0,Country,Net_migration
0,Afghanistan,23.06
4,Andorra,6.6
6,Anguilla,10.76
11,Australia,3.98
28,British Virgin Is.,10.01
36,Canada,5.96
38,Cayman Islands,18.75
70,French Guiana,6.27
91,Hong Kong,5.24
98,Ireland,4.99


Primeiramente, definimos a variável Net_migration: é a diferença na taxa de imigrantes e emigrantes (pessoas saindo do país) durante um ano. Ou seja, quando há mais pessoas entrando no país, a taxa é positiva, já quando há mais pessoas saindo do país, a taxa é negativa.

Sabemos que geralmente países ricos, principalmente países europeus, recebem muitos imigrantes buscando condições melhores de vida, nestes países a taxa de migração provavelmente será positiva. Já em países pobres ocorre o contrário: pessoas saindo do país em busca de melhores condições, portanto provavelmente a taxa de migração será negativa.

Fazendo uma análise rápida, verificamos alguns pontos:

* Nos outliers superiores, onde a taxa de migração é fortemente positiva, verifica-se a presença de diversos países ricos.

* Nos outliers inferiores verifica-se a presença de diversos países com condições socioecnômicas piores.

Portanto, concluímos que esses outliers não podem ser retirados sem uma análise prévia, pois podem indicar dados reais que devem ser considerados na análise, mesmo se afastando muito do padrão dos demais dados.

Este tipo de decisão deve ser tomada com conhecimento do problema, não somente com códigos computacionais.

In [30]:
def q5():
    quart1 = countries.Net_migration.quantile(0.25)
    quart3 = countries.Net_migration.quantile(0.75)
    iqr = quart3-quart1
    out_down = countries[countries.Net_migration < quart1-1.5*iqr].shape[0]
    out_up = countries[countries.Net_migration > quart3+1.5*iqr].shape[0]
    return (out_down, out_up, False)

In [31]:
q5()

(24, 26, False)

## Questão 6
Para as questões 6 e 7 utilize a biblioteca `fetch_20newsgroups` de datasets de test do `sklearn`

Considere carregar as seguintes categorias e o dataset `newsgroups`:

```
categories = ['sci.electronics', 'comp.graphics', 'rec.motorcycles']
newsgroup = fetch_20newsgroups(subset="train", categories=categories, shuffle=True, random_state=42)
```


Aplique `CountVectorizer` ao _data set_ `newsgroups` e descubra o número de vezes que a palavra _phone_ aparece no corpus. Responda como um único escalar.

In [134]:
def q6():
    categories = ["sci.electronics", "comp.graphics", "rec.motorcycles"]
    newsgroups = fetch_20newsgroups(subset="train", categories=categories,
                                    shuffle=True, random_state=42)
    count_vectorizer = CountVectorizer()
    x = count_vectorizer.fit_transform(newsgroups.data).toarray()
    c = count_vectorizer.vocabulary_['phone']
    # Encontrar forma mais elegante de fazer este exercício
    # Utilizando os métodos do módulo de vetorização
    teste = []
    for i, item in enumerate(x):
        if item[c] != 0:
            teste.append(item[c])
    return sum(teste)

In [135]:
q6()

213

## Questão 7

Aplique `TfidfVectorizer` ao _data set_ `newsgroups` e descubra o TF-IDF da palavra _phone_. Responda como um único escalar arredondado para três casas decimais.

In [210]:
def q7():
    categories = ["sci.electronics", "comp.graphics", "rec.motorcycles"]
    newsgroups = fetch_20newsgroups(subset="train", categories=categories,
                                    shuffle=True, random_state=42)
    vectorizer = TfidfVectorizer()
    x = vectorizer.fit_transform(newsgroups.data)
    c = vectorizer.vocabulary_['phone']
    # Retornamos a soma dos valores de tfidf em cada documento
    return float(round(np.sum(x[:, c]), 3))

In [211]:
q7()

8.888