# Desafio 6

Neste desafio, vamos praticar _feature engineering_, um dos processos mais importantes e trabalhosos de ML. Utilizaremos o _data set_ [Countries of the world](https://www.kaggle.com/fernandol/countries-of-the-world), que contém dados sobre os 227 países do mundo com informações sobre tamanho da população, área, imigração e setores de produção.

> Obs.: Por favor, não modifique o nome das funções de resposta.

## _Setup_ geral

In [1]:
import pandas as pd
import numpy as np
import seaborn as sns
import sklearn as sk
from sklearn.preprocessing import KBinsDiscretizer      
from sklearn.preprocessing import StandardScaler    
from sklearn.datasets import fetch_20newsgroups
from sklearn.feature_extraction.text import CountVectorizer
from sklearn.datasets import fetch_20newsgroups
from sklearn.feature_extraction.text import TfidfVectorizer

In [3]:
countries = pd.read_csv("countries.csv")

In [4]:
new_column_names = [
    "Country", "Region", "Population", "Area", "Pop_density", "Coastline_ratio",
    "Net_migration", "Infant_mortality", "GDP", "Literacy", "Phones_per_1000",
    "Arable", "Crops", "Other", "Climate", "Birthrate", "Deathrate", "Agriculture",
    "Industry", "Service"
]

countries.columns = new_column_names

countries.head(5)

Unnamed: 0,Country,Region,Population,Area,Pop_density,Coastline_ratio,Net_migration,Infant_mortality,GDP,Literacy,Phones_per_1000,Arable,Crops,Other,Climate,Birthrate,Deathrate,Agriculture,Industry,Service
0,Afghanistan,ASIA (EX. NEAR EAST),31056997,647500,480,0,2306,16307,700.0,360,32,1213,22,8765,1,466,2034,38.0,24.0,38.0
1,Albania,EASTERN EUROPE,3581655,28748,1246,126,-493,2152,4500.0,865,712,2109,442,7449,3,1511,522,232.0,188.0,579.0
2,Algeria,NORTHERN AFRICA,32930091,2381740,138,4,-39,31,6000.0,700,781,322,25,9653,1,1714,461,101.0,6.0,298.0
3,American Samoa,OCEANIA,57794,199,2904,5829,-2071,927,8000.0,970,2595,10,15,75,2,2246,327,,,
4,Andorra,WESTERN EUROPE,71201,468,1521,0,66,405,19000.0,1000,4972,222,0,9778,3,871,625,,,


## Observações

Esse _data set_ ainda precisa de alguns ajustes iniciais. Primeiro, note que as variáveis numéricas estão usando vírgula como separador decimal e estão codificadas como strings. Corrija isso antes de continuar: transforme essas variáveis em numéricas adequadamente.

Além disso, as variáveis `Country` e `Region` possuem espaços a mais no começo e no final da string. Você pode utilizar o método `str.strip()` para remover esses espaços.

## Inicia sua análise a partir daqui

In [6]:
countries.info()  # verificando os tipos das colunas 

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 227 entries, 0 to 226
Data columns (total 20 columns):
Country             227 non-null object
Region              227 non-null object
Population          227 non-null int64
Area                227 non-null int64
Pop_density         227 non-null object
Coastline_ratio     227 non-null object
Net_migration       224 non-null object
Infant_mortality    224 non-null object
GDP                 226 non-null float64
Literacy            209 non-null object
Phones_per_1000     223 non-null object
Arable              225 non-null object
Crops               225 non-null object
Other               225 non-null object
Climate             205 non-null object
Birthrate           224 non-null object
Deathrate           223 non-null object
Agriculture         212 non-null object
Industry            211 non-null object
Service             212 non-null object
dtypes: float64(1), int64(2), object(17)
memory usage: 35.5+ KB


## Conventendo as colunas do tipo stringes em float

In [14]:
def converter_string_to_float(value):
    if isinstance(value,str):
        return float(value.replace(',','.'))
    else:
        return value    

In [8]:
data = countries.copy()  # criando uma copia do dataset

In [9]:
# colunas para transformar 

cols_transform = ['Pop_density','Coastline_ratio', 'Net_migration',
                     'Infant_mortality','Literacy','Phones_per_1000',
                     'Arable','Crops','Other','Birthrate','Deathrate',
                     'Climate','Agriculture','Industry','Service']

In [16]:
# função para tranformar coluna tipo string para float

for col in cols_transform:
    data[col] = data[col].apply(lambda x: converter_string_to_float(x)) 

In [17]:
data.info()  # verificando as colunas transformadas em strings

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 227 entries, 0 to 226
Data columns (total 20 columns):
Country             227 non-null object
Region              227 non-null object
Population          227 non-null int64
Area                227 non-null int64
Pop_density         227 non-null float64
Coastline_ratio     227 non-null float64
Net_migration       224 non-null float64
Infant_mortality    224 non-null float64
GDP                 226 non-null float64
Literacy            209 non-null float64
Phones_per_1000     223 non-null float64
Arable              225 non-null float64
Crops               225 non-null float64
Other               225 non-null float64
Climate             205 non-null float64
Birthrate           224 non-null float64
Deathrate           223 non-null float64
Agriculture         212 non-null float64
Industry            211 non-null float64
Service             212 non-null float64
dtypes: float64(16), int64(2), object(2)
memory usage: 35.5+ KB


In [20]:
data[['Country','Region']].head() # essa duas colunas ainda precisam ser transformadas 

Unnamed: 0,Country,Region
0,Afghanistan,ASIA (EX. NEAR EAST)
1,Albania,EASTERN EUROPE
2,Algeria,NORTHERN AFRICA
3,American Samoa,OCEANIA
4,Andorra,WESTERN EUROPE


In [21]:
cols_to_transform = ['Country','Region']

## Questão 1

Quais são as regiões (variável `Region`) presentes no _data set_? Retorne uma lista com as regiões únicas do _data set_ com os espaços à frente e atrás da string removidos (mas mantenha pontuação: ponto, hífen etc) e ordenadas em ordem alfabética.

In [24]:
def q1():
    # Retorne aqui o resultado da questão 1.
    return sorted(data['Region'].unique())

## Questão 2

Discretizando a variável `Pop_density` em 10 intervalos com `KBinsDiscretizer`, seguindo o encode `ordinal` e estratégia `quantile`, quantos países se encontram acima do 90º percentil? Responda como um único escalar inteiro.

In [31]:
def q2():
    # Criar copia de dataset para evitar transtornos ...
    data2 = data.copy()
    # Criar instancia para discretizar
    binner = KBinsDiscretizer(n_bins=10, encode='ordinal', strategy='quantile')
    # Aplicar transformação
    data2['Pop_density_cat'] = binner.fit_transform(np.array(data2['Pop_density']).reshape(-1, 1))
    # Pegar percentile
    p90_value = np.percentile(data2['Pop_density_cat'], 90)
    # Pegar paises acima desse valor
    return int(data2.loc[data2['Pop_density_cat'] > p90_value, 'Country'].nunique())

# Questão 3

Se codificarmos as variáveis `Region` e `Climate` usando _one-hot encoding_, quantos novos atributos seriam criados? Responda como um único escalar.

In [37]:
def q3():
    return int(data['Region'].nunique() + len(data['Climate'].unique()))

## Questão 4

Aplique o seguinte _pipeline_:

1. Preencha as variáveis do tipo `int64` e `float64` com suas respectivas medianas.
2. Padronize essas variáveis.

Após aplicado o _pipeline_ descrito acima aos dados (somente nas variáveis dos tipos especificados), aplique o mesmo _pipeline_ (ou `ColumnTransformer`) ao dado abaixo. Qual o valor da variável `Arable` após o _pipeline_? Responda como um único float arredondado para três casas decimais.

In [39]:
test_country = [
    'Test Country', 'NEAR EAST', -0.19032480757326514,
    -0.3232636124824411, -0.04421734470810142, -0.27528113360605316,
    0.13255850810281325, -0.8054845935643491, 1.0119784924248225,
    0.6189182532646624, 1.0074863283776458, 0.20239896852403538,
    -0.043678728558593366, -0.13929748680369286, 1.3163604645710438,
    -0.3699637766938669, -0.6149300604558857, -0.854369594993175,
    0.263445277972641, 0.5712416961268142
]

In [43]:
def q4():
    # Criar copia de dataset para evitar transtornos ...
    data2 = data.copy()
    # Define the columns to impute
    cols = data2.columns[2:len(data2.columns)]
    # Pipeline - Imputar
    for col in cols:
        data2[col].fillna(data2[col].median(), inplace=True)
    # Pipeline - Transformar as variaveis
    std = StandardScaler()
    data2[cols] = std.fit_transform(data2[cols])
    # Resolucao
    amostra = np.array(test_country[2:]).reshape(1,-1)
    # Return
    return float(std.transform(amostra)[0][9].round(3))

## Questão 5

Descubra o número de _outliers_ da variável `Net_migration` segundo o método do _boxplot_, ou seja, usando a lógica:

$$x \notin [Q1 - 1.5 \times \text{IQR}, Q3 + 1.5 \times \text{IQR}] \Rightarrow x \text{ é outlier}$$

que se encontram no grupo inferior e no grupo superior.

Você deveria remover da análise as observações consideradas _outliers_ segundo esse método? Responda como uma tupla de três elementos `(outliers_abaixo, outliers_acima, removeria?)` ((int, int, bool)).

In [45]:
def q5():
    # Pegar os valores
    coluna = np.array(data['Net_migration'].dropna())
    # Calcular intervalos
    q1, q3 = np.quantile(coluna, [0.25, 0.75])
    itv_menor = q1 - 1.5*(q3-q1)
    itv_maior = q3 + 1.5*(q3-q1)
    # Verificar presenca de outliers
    outliers_abaixo = (coluna < itv_menor).sum()
    outilers_acima = (coluna > itv_maior).sum()
    # Retorno
    return (int(outliers_abaixo), int(outilers_acima), False)

## Questão 6
Para as questões 6 e 7 utilize a biblioteca `fetch_20newsgroups` de datasets de test do `sklearn`

Considere carregar as seguintes categorias e o dataset `newsgroups`:

```
categories = ['sci.electronics', 'comp.graphics', 'rec.motorcycles']
newsgroup = fetch_20newsgroups(subset="train", categories=categories, shuffle=True, random_state=42)
```


Aplique `CountVectorizer` ao _data set_ `newsgroups` e descubra o número de vezes que a palavra _phone_ aparece no corpus. Responda como um único escalar.

In [64]:
newsgroup = fetch_20newsgroups(subset="train", categories=categories, shuffle=True, random_state=42)

Downloading 20news dataset. This may take a few minutes.
Downloading dataset from https://ndownloader.figshare.com/files/5975967 (14 MB)


In [68]:
def q6():
    # Define instancia
    countVec = CountVectorizer()
    # Aplica fit transform para adquirir as frequencias
    freqs = countVec.fit_transform(newsgroup.data)
    # Adquirir idx referente a nossa palavra
    idx = countVec.get_feature_names().index('phone')
    # Gerar resultado
    frequencia = freqs[:, idx].sum()
    # Retornar
    return int(frequencia)

## Questão 7

Aplique `TfidfVectorizer` ao _data set_ `newsgroups` e descubra o TF-IDF da palavra _phone_. Responda como um único escalar arredondado para três casas decimais.

In [74]:
def q7():
    # Definir instancia
    tfidfVec = TfidfVectorizer()
    # Aplicar fit transform nos dados
    results = tfidfVec.fit_transform(newsgroup.data)
    # Pegar index referente a nossa palavra
    idx = tfidfVec.get_feature_names().index('phone')
    # Gerar resultado
    tfidf_val = results[:, idx].sum()
    # Retornar
    return float(tfidf_val.round(3))