# Introdução à Data Science e Machine Learning - Data ICMC-USP

## Prática Aula 04 - Técnicas de Data Science

Esse material foi desenvolvido pelo **Data**, grupo de extensão de aprendizado e ciência de dados compostos por alunos do Instituto de Ciências Matemáticas e de Computação da USP

Para saber mais sobre as atividades do Data entre no nosso site e nos siga e nossas redes sociais:
- [Site](http://data.icmc.usp.br/)
- [Twitter](https://twitter.com/data_icmc)
- [LinkedIn](https://www.linkedin.com/school/data-icmc/)
- [Facebook](https://www.facebook.com/dataICMC/)

Aproveite o material!

# Trabalhando com features numéricas

## Carregando as bibliotecas utilizadas

In [5]:
# Importando as bibliotecas
import numpy as np
import pandas as pd
from sklearn.datasets import load_iris

# Importanto o dataset
iris = load_iris()

df = pd.DataFrame(data=np.c_[iris['data'], iris['target']], columns=iris['feature_names'] + ['target'])

In [6]:
df.head()

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm),target
0,5.1,3.5,1.4,0.2,0.0
1,4.9,3.0,1.4,0.2,0.0
2,4.7,3.2,1.3,0.2,0.0
3,4.6,3.1,1.5,0.2,0.0
4,5.0,3.6,1.4,0.2,0.0


## Divisão entre conjunto de treino e de teste

Realize a divisão entre conjunto de treino e conjunto de validação, utilizando a biblioteca sklearn.

Procure pelo método train_test_split da biblioteca.

In [7]:
################################################################
#                       PREENCHA AQUI:                         #
#  - Realize a divisão do dataset em treino e test             #
#  - Realize o split com test_size = 0.33 e random_state = 42  #
################################################################

X, y = None, None

################################################################

## Escala dos dados numéricos

Como vimos na aula 04 do curso introdutório, em diversos modelos, as escalas de cada uma das features do nosso conjunto de dados são levadas em conta (o algoritmo KNN é um destes exemplos).

Para deixar mais claro, temos o seguinte exemplo: um conjunto de dados composto por duas features - número de propriedades, faturamento anual e uma coluna target.

O número de propriedades de uma pessoa não costuma passar das dezenas ou centenas, enquanto o faturamento anual pode variar centenas de milhares ou mais.

Neste caso, qualquer variação no número de propriedades é infima em relação a variação no faturamento anual. Logo estaríamos ponderando o faturamento e quase que desconsiderando a primeira feature.

### Aplicando escalonamento
Aplique o escalonamento e a normalização nos dados do iris dataset.

Procure por ***MinMaxScaler*** e ***StandardScaler***

In [8]:
##############################################################
#                       PREENCHA AQUI:                       #
#  - Realize o escalonameno e a normalização dos dados       #
##############################################################

# Escalonamento 

scaler_min_max = None

X_train_min_max = None
X_test_min_max = None

# Normalização

scaler_standardization = None

X_train_standardized = None
X_test_standardized = None

##############################################################

## Utilizando KNN

Verifique os resultados obtidos utilizando um conjunto de dados escalonados e outro normalizados, comparando seus resultados.

In [9]:
from sklearn.neighbors import KNeighborsClassifier
from sklearn.metrics import accuracy_score
from sklearn.metrics import f1_score

In [10]:
###############################################################
#                       PREENCHA AQUI:                        #
#  - Crie dois classificadores, um para dados escalonados e   #
# outro para os dados normalizados (n_neighbors=5 para ambos) #
###############################################################

clf_min_max = None
clf_standardized = None

##############################################################

In [11]:
###############################################################
#                       PREENCHA AQUI:                        #
#  - Realize a predição e imprima a acurácia e o f1_score     #
###############################################################


##############################################################

In [12]:
from sklearn.metrics import plot_confusion_matrix

# Dentro desta tarefa utilizamos dois dataset, então guardaremos y_test em uma outra variável para 
# evitar confusão rode tudo sequencialmente, célula à célula (ou rodando tudo de uma vez utilizando 
# crtl + f9)

###############################################################
#                       PREENCHA AQUI:                        #
#  - Imprima a matriz de confusão sobre qualquer um dos       #
# classificadores criados                                     #
###############################################################


##############################################################

 # Trabalhando com features categóricas

## Carregando os recursos necessários

Crie um dataframe a partir do dataset "car_details", utilizando a biblioteca pandas.

In [13]:
###############################################################
#                       PREENCHA AQUI:                        #
#  - Realize a leitura do dataset "car_details.csv"           #
###############################################################

df = None

##############################################################

Cheque as colunas categóricas.

Dica: 
- Use o método value_counts -> df["feature name"].value_counts()
- Para verificar todos possíveis valores de uma feature, utilize o método unique na coluna desejada -> df["feature name"].unique()

In [14]:
# Explore seus dados aqui

## Simplificando categorias 

Neste dataset existem várias features com muitas categorias. Entretanto, essas categorias tem poucas instancias, então podem ser simplificadas.

### Exemplo - coluna Fuel

In [15]:
df["fuel"].value_counts() / df.shape[0]

TypeError: ignored

Como podemos ver, a categoria Diesel e Petrol correspondem a mais do que 98% do conjunto de dados, enquanto CNG e LPG representam uma quantidade ínfima de linhas deste dataframe.

Iremos então considerar tanto CNG quanto LPG como uma única nova categoria, denominada "other".

obs: é interessante ter uma classe other, pois caso aparecesse outro tipo de combustível (como carros elétricos) o nosso modelo poderia facilmente se adaptar, sem precisar ser treinado novamente.

obs2: caso esta nova classe teórica comece a ser relevante, teríamos que treinar novamente o modelo para considerar a nova representativade desta categoria.

In [None]:
def merge_fuel(df):
  dic = {'CNG': 'Other', 'LPG': 'Other'}
  df = df.replace({'fuel': dic})
  return df

df = merge_fuel(df)

Tente fazer o mesmo para a feature owner, transformando a classe menos representativa em uma das outras que permanecerão no dataframe.

In [None]:
df["owner"].value_counts()

In [None]:
#################################################################
#                       PREENCHA AQUI:                          #
#  - Crie uma função para inserir a classe menos representativa #
# da feature owner em uma outra que faça sentido                #
#################################################################

def merge_owner(df):
    
#################################################################

Agora com a coluna "name", também aplicaremos o mesmo processo

In [None]:
name_count = df["name"].value_counts() / df.shape[0]
name_count

In [None]:
name_count[:10].sum()

Podemos observar na coluna "name" que a representatividade dos 10 mais frequentes nomes de carros somam aproximadamente 90% de todas as classes.

Assim, iremos mesclar as categorias menos frequentes em uma única classe denominada "others".

In [None]:
##################################################################
#                       PREENCHA AQUI:                           #
#  - Mescle todas os valores da feature "name" que menos         #
# representativas em uma nova categoria chamada "others"         #
#  - Imprima as marcas para entender o que deve fazer            #
#  - Dica: utilize o método replace de pandas com um dicionário  #
# para relizar a troca de valores                                #
##################################################################


##################################################################

## Discretizando o dataset

- One Hot Encoding: procure sobre OneHotEncoder na biblioteca sklearn
- Label encoding: procure sobre LabelEncoder na bibliote sklearn
- Target encoding: este é necessário realizar manualmente 

In [None]:
df.head()

In [None]:
#####################################################################
#                       PREENCHA AQUI:                              #
#  - Realize o one-hot encoding nas features 'fuel', 'seller_type'  #
# 'trasmission', 'owner'                                            #
#  - Lembre de dropar as colunas que foram encodadas                #
#  - Dica: utilizem OneHotEncoder da biblioteca sklearn             #
#####################################################################
one_hot_features = ["fuel", "seller_type", "transmission", "owner"]

encoder = None

#####################################################################

### Lidando com a feature "name"
Agora iremos lidar com a coluna "name", em que aplicaremos target encoding. 

Podemos utilizar o valor médio da feature "selling price" de dada categoria de carro.

Dica: procure utilizar o método groupby de pandas para facilitar o código

In [None]:
##################################################################
#                       PREENCHA AQUI:                           #
#  - Realize o target encoding com a feature name, substituindo  #
# pelo valor médio da categoria/marca do carro                   #
#  - Neste caso, teremos que fazer na mão                        #
#  - Dica: utilize o método groupby de pandas                    #
##################################################################
target_encoding_features = ["name"]

##################################################################

### Aplicando um modelo de regressão

Agora iremos aplicar um modelo de regressão (que muitos de vocês ainda não viram) para avaliar as técnicas utilizadas até então.

Não é necessário entender o que o modelo de regressão utilizado faz, mas sim os motivos pelos quais as técnicas de encoding e scaling foram utilizados no decorrer da prática.

Este modelo será explicado em uma das futuras aulas do curso.

In [None]:
from sklearn.ensemble import RandomForestRegressor
from sklearn.metrics import r2_score

In [None]:
##################################################################
#                       PREENCHA AQUI:                           #
#  - Realize a divisão dos dados de treino e de teste            #
#  - Considere test_size = 0.33 e random_state = 42              #
##################################################################

X_train, X_test, y_train, y_test = None, None, None, None

##################################################################

Iremos realizar a regressão utilizando o modelo 

In [None]:
regressor = RandomForestRegressor(max_depth = 10, random_state=42)

regressor.fit(X_train, y_train)

pred = regressor.predict(X_test)

r2_score(pred, y_test)

## Otimizando os hiperparâmetros

Buscaremos agora com o gridsearch os hiperparâmetros que melhoram nossos modelos.

obs: hiperparâmetros correspondem a valores que são alterados na criação do modelo, por exemplo no algoritmo KNN, o número de vizinhos era o seu hiperparâmetro. 

obs2: realizar a otimização requer um tempo, uma vez que são testadas cada combinação de hiperparâmetro.

In [None]:
from sklearn.model_selection import GridSearchCV

# Criando um dicionario com os valores que queremos testar de cada hiperparâmetro 
# (podemos acrescentar outros parâmetros e mais valores, aumentando o número de testes)
param_grid = {
    'max_depth': np.arange(10,50,5),
    'random_state': [42],
}

# Criando a base do modelo
regressor = RandomForestRegressor()

# Realizando a busca pela melhor combinação entre os hiperparâmetros
grid_search = GridSearchCV(regressor, param_grid=param_grid, cv = 3, n_jobs = -1, verbose = 2)
grid_search.fit(X_train, y_train)

# Imprimindo os melhores parâmetros
grid_search.best_params_