# Naive Bayes

Aplicando modelo Naive Bayes para determinar os continentes de diversos países baseados em fatos demográficos e econômicos

Dataset obtido no Kaggle (https://www.kaggle.com/fernandol/countries-of-the-world/version/1)

In [None]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

In [None]:
dados = pd.read_csv('countries_of_the_world.csv')

In [None]:
dados.head()

Observações importantes:

1) Os continentes de cada país estão muito detalhados e devem ser simplicados para facilitar a convergência do modelo

2) Os valores estão separados por vírgula devendo ser substituídos por ponto

In [None]:
colunas = dados.columns

In [None]:
colunas = colunas.drop(['Country','Region'])

In [None]:
colunas

In [None]:
dados['Pop. Density (per sq. mi.)'] = dados['Pop. Density (per sq. mi.)'].str.replace(",",".").astype(float)
dados['Coastline (coast/area ratio)'] = dados['Coastline (coast/area ratio)'].str.replace(",",".").astype(float)
dados['Net migration'] = dados['Net migration'].str.replace(",",".").astype(float)
dados['Infant mortality (per 1000 births)'] = dados['Infant mortality (per 1000 births)'].str.replace(",",".").astype(float)
dados['Literacy (%)'] = dados['Literacy (%)'].str.replace(",",".").astype(float)
dados['Phones (per 1000)'] = dados['Phones (per 1000)'].str.replace(",",".").astype(float)
dados['Arable (%)'] = dados['Arable (%)'].str.replace(",",".").astype(float)
dados['Crops (%)'] = dados['Crops (%)'].str.replace(",",".").astype(float)
dados['Other (%)'] = dados['Other (%)'].str.replace(",",".").astype(float)
dados['Birthrate'] = dados['Birthrate'].str.replace(",",".").astype(float)
dados['Deathrate'] = dados['Deathrate'].str.replace(",",".").astype(float)
dados['Agriculture'] = dados['Agriculture'].str.replace(",",".").astype(float)
dados['Industry'] = dados['Industry'].str.replace(",",".").astype(float)
dados['Service'] = dados['Service'].str.replace(",",".").astype(float)
dados['Climate'] = dados['Climate'].str.replace(",",".").astype(float)

In [None]:
dados.head()

Determinando os nomes de todos os continentes presentes na amostra

In [None]:
dados['Region'].unique()

In [None]:
dados = dados.replace({'Region':{'ASIA (EX. NEAR EAST)         ': 'Asia',
                                   'C.W. OF IND. STATES': 'Asia',
                                   'C.W. OF IND. STATES ': 'Asia',
                                   'ASIA (EX. NEAR EAST)         ': 'Asia',
                                   'NEAR EAST                          ': 'Asia',
                                   'EASTERN EUROPE                     ': 'Europe',
                                   'WESTERN EUROPE                     ': 'Europe',
                                   'BALTICS                            ':'Europe',
                                   'LATIN AMER. & CARIB    ': 'S. America',
                                   'NORTHERN AFRICA                    ': 'Africa',
                                   'SUB-SAHARAN AFRICA                 ': 'Africa',
                                   'OCEANIA                            ': 'Oceania',
                                   'NORTHERN AMERICA                   ': 'N. America'
                                   
    
}})

In [None]:
dados.head()

Determinando a quantidade de NaNs

In [None]:
dados.isna().sum()

Observamos que existem valores do tipo NaN na amostra e os mesmos serão removidos

In [None]:
dados = dados.dropna()

Nesta amostra existem várias características para cada país. Demos nos perguntar se todas as variáveis são necessárias para o modelo

Normalizando os dados

In [None]:
from sklearn.preprocessing import MinMaxScaler

In [None]:
normalizador = MinMaxScaler(feature_range=(0,1)) 

In [None]:
for col in colunas:
    dados[col] = normalizador.fit_transform(dados[col].values.reshape(-1, 1))

In [None]:
dados.head()

Convertendo a variável categórica Region para numérica

In [None]:
from sklearn.preprocessing import LabelEncoder, label_binarize

In [None]:
enconder = LabelEncoder()

In [None]:
dados['Region'] = enconder.fit_transform(dados['Region'])

In [None]:
lista_region = dados['Region'].unique()

In [None]:
n_classes = len(lista_region)

In [None]:
dados.head()

In [None]:
X = dados.drop(['Country','Region'],axis=1).values
Y = dados['Region'].values

Separando em amostra de treino e teste

In [None]:
from sklearn.model_selection import train_test_split

In [None]:
X_treino,X_teste,Y_treino,Y_teste=train_test_split(X,Y,test_size=0.25,random_state=0)

Aplicando modelo Naive-Bayes

In [None]:
from sklearn.naive_bayes import GaussianNB, BernoulliNB,MultinomialNB

Modelo Gaussiano

In [None]:
modelo1 = GaussianNB()

In [None]:
modelo1.fit(X_treino,Y_treino)

Realizando previsões na amostra de teste

In [None]:
Y_previsto = modelo1.predict(X_teste)

Gerando matriz de confusão

In [None]:
from sklearn.metrics import confusion_matrix

In [None]:
cm1=confusion_matrix(Y_teste,Y_previsto)

In [None]:
sns.heatmap(cm1,annot=True, fmt="d")

In [None]:
modelo1.score(X_treino,Y_treino)

In [None]:
modelo1.score(X_teste,Y_teste)

Modelo Bernoulli

In [None]:
modelo2 = BernoulliNB()

In [None]:
modelo2.fit(X_treino,Y_treino)

In [None]:
Y_previsto2 = modelo2.predict(X_teste)

In [None]:
cm2=confusion_matrix(Y_teste,Y_previsto2)

In [None]:
sns.heatmap(cm2,annot=True, fmt="d")

In [None]:
modelo2.score(X_treino,Y_treino)

In [None]:
modelo2.score(X_teste,Y_teste)

Modelo Multinomial

In [None]:
modelo3 = MultinomialNB()

In [None]:
modelo3.fit(X_treino,Y_treino)

In [None]:
Y_previsto3 = modelo3.predict(X_teste)

In [None]:
cm3=confusion_matrix(Y_teste,Y_previsto3)

In [None]:
sns.heatmap(cm3,annot=True, fmt="d")

In [None]:
modelo3.score(X_treino,Y_treino)

In [None]:
modelo3.score(X_teste,Y_teste)

Métricas de classificação para modelo Gaussiano

In [None]:
from sklearn.metrics import classification_report,f1_score,precision_score,average_precision_score,recall_score,accuracy_score

Relatório de classificação

In [None]:
cr = classification_report(Y_teste,Y_previsto,labels=lista_region)
print(cr)

F1-score

In [None]:
f1 = f1_score(Y_teste,Y_previsto,average='macro')
print("F1 score = {:0.2f}%".format(f1*100))

Precision score

In [None]:
precisao = precision_score(Y_teste,Y_previsto,average='macro')
print("Precision score = {:0.2f}%".format(precisao*100))

Recall score

In [None]:
rec = recall_score(Y_teste,Y_previsto,average='macro')
print("Recall score = {:0.2f}%".format(rec*100))

Accuracy score

In [None]:
acc = accuracy_score(Y_teste,Y_previsto)
print("Accuracy score = {:0.2f}%".format(acc*100))