# PMR3508 - Aprendizado de Máquina e Reconhecimento de Padrões

Teste do classificador kNN na base da competição "Costa Rican Household Poverty Level Prediction". Inicilamente é feito o carregamento da base e análise de alguns dos atributos que serão selecionados para aplicar o classificador.

Autor: Vinicius A. C. Miquelin Data: 19/08/18

## 1. Bibliotecas

In [None]:
import pandas as pd
import sklearn
import matplotlib.pyplot as plt
import numpy as np

## 2. Base de treino - Análises e Adaptação

In [None]:
df = pd.read_csv('../input/train.csv')
pd.set_option('display.max_rows', 200)  # para visualizar todas as linhas das análises
pd.set_option('display.max_columns', 200) # para visualizar todas as colunas da tabela 

df

In [None]:
df.shape

Agora serão encontrados os atributos que possuem valores faltantes.

In [None]:
df.columns[df.isna().any()].tolist()

Os atributos que possuem valores faltantes são: "v2a1", "v18q1", "rez_esc", "meaneduc" e "SQBmeaned".

Agora serão encontrados os atributos com valores não numéricos.

In [None]:
df.dtypes == object

Os atributos que possuem valores não numéricos são: "Id", "idhogar", "dependency", "edjefe" e "edjefa".

### 2.1. Analisando e gerando gráficos

Os atributos selecionados para implementar o classificador foram "hacdor", "rooms", "hacapo", "v14a", "refrig", "r4h1", "r4h2", "r4h3", "r4m1", "r4m2", "r4m3", "r4t1", "r4t2", "r4t3", "tamhog", "tamviv", "escolari", "hhsize", "paredblolad", "paredzocalo", "paredpreb", "pareddes", "paredmad", "paredzinc", "paredfibras", "paredother", "pisomoscer", "pisocemento", "pisoother", "pisonatur", "pisonotiene", "pisomadera", "techozinc", "techoentrepiso", "techocane", "techootro", "cielorazo", "abastaguadentro", "abastaguafuera", "abastaguano", "public", "planpri", "noelec", "coopele", "sanitario1", "sanitario2", "sanitario3", "sanitario5", "sanitario6", "energcocinar1", "energcocinar2", "energcocinar3", "energcocinar4", "elimbasu1", "elimbasu2", "elimbasu3", "elimbasu4", "elimbasu5", "elimbasu6", "epared1", "epared2", "epared3", "etecho1", "etecho2", "etecho3", "eviv1", "eviv2", "eviv3", "dis", "male", "female", "estadocivil1", "estadocivil2", "estadocivil3", "estadocivil4", "estadocivil5", "estadocivil6", "estadocivil7", "parentesco1", "parentesco2", "parentesco3", "parentesco4", "parentesco5", "parentesco6", "parentesco7", "parentesco8", "parentesco9", "parentesco10", "parentesco11", "parentesco12", "hogar_nin", "hogar_adul", "hogar_mayor", "hogar_total", "instlevel1", "instlevel2", "instlevel3", "instlevel4", "instlevel5", "instlevel6", "instlevel7", "instlevel8", "instlevel9", "bedrooms", "overcrowding", "tipovivi1", "tipovivi2", "tipovivi3", "tipovivi4", "tipovivi5", "computer", "television", "mobilephone", "qmobilephone", "lugar1", "lugar2", "lugar3", "lugar4", "lugar5", "lugar6", "area1", "area2", "age", "SQBescolari", "SQBage", "SQBhogar_total", "SQBedjefe", "SQBhogar_nin", "SQBovercrowding", "SQBdependency" e "agesq". Abaixo seguem as análises feitas para alguns destes atributos.

In [None]:
df["rooms"].value_counts().plot(kind="bar")

In [None]:
df["estadocivil1"].value_counts().plot(kind="pie")

In [None]:
df["parentesco1"].value_counts().plot(kind="pie")

In [None]:
df["overcrowding"].value_counts().plot(kind="pie")

In [None]:
df["mobilephone"].value_counts().plot(kind="bar")

In [None]:
df["SQBescolari"].value_counts().plot(kind="bar")

In [None]:
df["SQBhogar_total"].value_counts().plot(kind="bar")

In [None]:
df["SQBdependency"].value_counts().plot(kind="pie")

### 2.2. Removendo valores faltantes

Agora serão retiradas da base de treino as linhas que possuem "NaN", ou seja, nas quais faltam dados.

In [None]:
nadf = df.dropna()
nadf


In [None]:
nadf.shape

Número de linhas removidas:

In [None]:
len(df) - len(nadf)

Nota-se que boa parte dos dados é disperdiçada ao remover os valores faltantes. Portanto, o treino do classificador será feito em cima do dataframe com valores faltantes, só que com atributos que não faltam valores.

## 3. Base de teste - Adaptação

Como foi feito para a base treino, serão retiradas da base e teste as linhas que possuem "NaN", ou seja, nas quais faltam dados. 

In [None]:
tdf = pd.read_csv('../input/test.csv')
tdf

In [None]:
tdf.shape

### 3.1. Removendo valores faltantes

In [None]:
natdf = tdf.dropna()
natdf

In [None]:
natdf.shape

Número de linhas removidas:

In [None]:
len(tdf) - len(natdf)

Assim como ocorreu na base de treino,boa parte dos dados é disperdiçada ao remover os valores faltantes. 
Portanto, o teste do classificador será feito em cima do dataframe com valores faltantes, só que com atributos 
que não faltam valores.

## 4. Conversão de categoria para número

Não será necessário converter atributos categóricos para numéricos visto que todos os atributos selecionados são numéricos. 

## 5. Aplicando o classificador kNN 

O classificador k - Nearest Neighbors (kNN) será aplicado na base de teste com k=20 e cv=20. Após calcular a taxa de acurácia obtida na validação cruzada, será gerado um vetor de predição da coluna "Target" para a base de teste. Por fim, este vetor será convertido em ".csv" e enviado para o Kaggle de forma a computar qual foi a taxa de acurácia atingida com relação aos dados reais.


In [None]:
Xdf = df[["hacdor", "rooms", "hacapo", "v14a", "refrig", "r4h1", "r4h2", "r4h3", "r4m1", "r4m2", "r4m3", "r4t1", "r4t2", "r4t3", "tamhog", "tamviv", "escolari", "hhsize", "paredblolad", "paredzocalo", "paredpreb", "pareddes", "paredmad", "paredzinc", "paredfibras", "paredother", "pisomoscer", "pisocemento", "pisoother", "pisonatur", "pisonotiene", "pisomadera", "techozinc", "techoentrepiso", "techocane", "techootro", "cielorazo", "abastaguadentro", "abastaguafuera", "abastaguano", "public", "planpri", "noelec", "coopele", "sanitario1", "sanitario2", "sanitario3", "sanitario5", "sanitario6", "energcocinar1", "energcocinar2", "energcocinar3", "energcocinar4", "elimbasu1", "elimbasu2", "elimbasu3", "elimbasu4", "elimbasu5", "elimbasu6", "epared1", "epared2", "epared3", "etecho1", "etecho2", "etecho3", "eviv1", "eviv2", "eviv3", "dis", "male", "female", "estadocivil1", "estadocivil2", "estadocivil3", "estadocivil4", "estadocivil5", "estadocivil6", "estadocivil7", "parentesco1", "parentesco2", "parentesco3", "parentesco4", "parentesco5", "parentesco6", "parentesco7", "parentesco8", "parentesco9", "parentesco10", "parentesco11", "parentesco12", "hogar_nin", "hogar_adul", "hogar_mayor", "hogar_total", "instlevel1", "instlevel2", "instlevel3", "instlevel4", "instlevel5", "instlevel6", "instlevel7", "instlevel8", "instlevel9", "bedrooms", "overcrowding", "tipovivi1", "tipovivi2", "tipovivi3", "tipovivi4", "tipovivi5", "computer", "television", "mobilephone", "qmobilephone", "lugar1", "lugar2", "lugar3", "lugar4", "lugar5", "lugar6", "area1", "area2", "age", "SQBescolari", "SQBage", "SQBhogar_total", "SQBedjefe", "SQBhogar_nin", "SQBovercrowding", "SQBdependency", "agesq"]]
Ydf = df.Target

Xtdf = tdf[["hacdor", "rooms", "hacapo", "v14a", "refrig", "r4h1", "r4h2", "r4h3", "r4m1", "r4m2", "r4m3", "r4t1", "r4t2", "r4t3", "tamhog", "tamviv", "escolari", "hhsize", "paredblolad", "paredzocalo", "paredpreb", "pareddes", "paredmad", "paredzinc", "paredfibras", "paredother", "pisomoscer", "pisocemento", "pisoother", "pisonatur", "pisonotiene", "pisomadera", "techozinc", "techoentrepiso", "techocane", "techootro", "cielorazo", "abastaguadentro", "abastaguafuera", "abastaguano", "public", "planpri", "noelec", "coopele", "sanitario1", "sanitario2", "sanitario3", "sanitario5", "sanitario6", "energcocinar1", "energcocinar2", "energcocinar3", "energcocinar4", "elimbasu1", "elimbasu2", "elimbasu3", "elimbasu4", "elimbasu5", "elimbasu6", "epared1", "epared2", "epared3", "etecho1", "etecho2", "etecho3", "eviv1", "eviv2", "eviv3", "dis", "male", "female", "estadocivil1", "estadocivil2", "estadocivil3", "estadocivil4", "estadocivil5", "estadocivil6", "estadocivil7", "parentesco1", "parentesco2", "parentesco3", "parentesco4", "parentesco5", "parentesco6", "parentesco7", "parentesco8", "parentesco9", "parentesco10", "parentesco11", "parentesco12", "hogar_nin", "hogar_adul", "hogar_mayor", "hogar_total", "instlevel1", "instlevel2", "instlevel3", "instlevel4", "instlevel5", "instlevel6", "instlevel7", "instlevel8", "instlevel9", "bedrooms", "overcrowding", "tipovivi1", "tipovivi2", "tipovivi3", "tipovivi4", "tipovivi5", "computer", "television", "mobilephone", "qmobilephone", "lugar1", "lugar2", "lugar3", "lugar4", "lugar5", "lugar6", "area1", "area2", "age", "SQBescolari", "SQBage", "SQBhogar_total", "SQBedjefe", "SQBhogar_nin", "SQBovercrowding", "SQBdependency", "agesq"]]

In [None]:
from sklearn.neighbors import KNeighborsClassifier
knn = KNeighborsClassifier(n_neighbors=20)

from sklearn.model_selection import cross_val_score
scores = cross_val_score(knn, Xdf, Ydf, cv=20)
scores


Acurácia obtida na validação cruzada com cv=20.

In [None]:
np.mean(scores)

In [None]:
knn.fit(Xdf,Ydf)

In [None]:
YtPred = knn.predict(Xtdf)
YtPred

Criando umda dataframe para armezenar a predição realizada e preenchendo-o.

In [None]:
df_YtPred = pd.DataFrame(index=tdf.Id,columns=['Target'])
df_YtPred['Target'] = YtPred
df_YtPred

In [None]:
df_YtPred.shape

Exportando o dataframe com predição para o formato ".csv".

Obs.: A coluna de 'Id' não foi criada da mesma maneira que a de 'Target', pois no momento de exportar para o formato ".csv", o índice das colunas aparece na tabela. Adicionando a coluna de 'Id', acaba ficando duplicada a coluna de valores dos índices.

In [None]:
df_YtPred.to_csv('myPred2.csv')