<h1 align="center"> Trabalho II - Inteligência de Negócios </h1>

<h3 align="center"> Integrantes: Camila Moser, Júlia Dorneles, Lucas Freitas e Tamires Domingues </h3>

<h1 align="center"> Descrição Geral do Trabalho </h1>

<p>
    A base de dados coletado sobre expectativa de vida, possui fatores relacionados a saúde, disponibilizados pela <i>Global Health Observatotory</i> (GHO), sob a Organização Mundial de Saúde (OMS). Foi considerado dados registrados em 15 anos (2000 a 2015) para 193 países, os dados consideram fatores relacionados a imunização, mortalidade, econômicos e sociais. O conjunto de dados possui 2938 registros e 22 atributos. Optamos por escolher esta base de dados por considerar de grande importância descobrir as relações entre fatores sociais, econômicos e saúde, com a expectativa de vida em diferentes lugares no mundo, além de poder prever a expectativa de vida baseada nesses fatores.
</p>

<h3> Importação das bibliotecas em python </h3>

In [None]:
import pandas as pd
import numpy as np
import seaborn as sn
import matplotlib.pyplot as plt
import graphviz 
from sklearn.preprocessing import LabelBinarizer
from sklearn.neural_network import MLPClassifier
from sklearn.ensemble import RandomForestClassifier
from sklearn.svm import SVC
from sklearn import svm
from sklearn.neighbors import KNeighborsClassifier
from sklearn.tree import DecisionTreeClassifier, export_graphviz
from sklearn import tree
from sklearn.metrics import confusion_matrix, classification_report, accuracy_score
from sklearn.preprocessing import StandardScaler, LabelEncoder
from sklearn.model_selection import train_test_split, cross_val_score, KFold
%matplotlib inline


<h3>Descrição geral das variáveis</h3>

| Variável | Descrição |
| --- | --- |
| País | 193 - Países |
| Continentes | América do Sul, América do Norte, Europa, África, Ásia, Oceania |
| Ano | Anos 2000 - 2015 |
| Status | Desenvolvido e em desenvolvimento |
| Expectativa de vida | Expectativa de vida em idade, será transformado em categórico (Classificação) |
| Mortalidade Adulta | Taxa de mortalidade de adultos de ambos os sexos (probabilidade de morrer entre 15 e 60 anos por 1000 habitantes) |
| Mortes infantis | Número de Mortes Infantis por 1000 habitantes |
| Álcool | Álcool, consumo per capita (15+) registrado (em litros de álcool puro) Porcentagem de gasto |
| Porcentagem de gasto | Despesas com saúde em percentagem do Produto Interno Bruto per capita (%) |
| Hepatite B | Cobertura vacinal contra hepatite B (HepB) em crianças de 1 ano (%) |
| Sarampo | Sarampo - número de casos notificados por mil habitantes |
| BMI | Índice de massa corporal médio da população total |
| Mortes abaixo dos cinco anos | Número de mortes abaixo de cinco por mil habitantes |
| Poliomielite | Cobertura de imunização contra a poliomielite (Pol3) em crianças de 1 ano (%) |
| Despesa total | Despesa das administrações públicas em saúde como percentagem da despesa total do governo (%) de 1 ano (%) |
| Difteria | Cobertura de imunização contra toxóide tetânico da difteria e coqueluche (DTP3) em crianças de 1 ano de idade (%) |
| HIV/AIDS  | Mortes por 1.000 nascidos vivos VIH / SIDA (0-4 anos) |
| GDP | Produto Interno Bruto per capita (em USD) |
| População | População de um país |
| Magreza entre adolescentes entre 10 e 19 anos | Prevalência de magreza entre crianças e adolescentes entre 10 e 19 anos (%) |
| Magreza entre crianças entre 5 e 9 anos | Prevalência de magreza entre crianças de 5 a 9 anos (%) |
| Composição de renda dos recursos | Índice de Desenvolvimento Humano em termos de composição de renda dos recursos (índice variando de 0 a 1) |
| Escolaridade | Número de anos de escolaridade (anos) |

<p> A base de dados foi coletada no site <a href="https://www.kaggle.com"> Kaggle</a>, disponível neste <a href="https://www.kaggle.com/kumarajarshi/life-expectancy-who"> link</a> em formato csv </p>

In [None]:
df = pd.read_csv('Life-Expectancy-Data.csv')

<p> Na tabela gerada abaixo é possível visualizar os 5 primeiros registros do arquivo csv </p>

In [None]:
df.head()

<p> Esta base dados possui 2938 registros (linhas) e 23 atributos (colunas) </p>

In [None]:
np.shape(df)

<p> Nesta base de dados é possível visualizar a informação da quantidade total de registros preenchidos em cada atributo e seu tipo.</p>

In [None]:
df.info()

 <p> Abaixo é possível visualizar a soma total de cada atributo onde seu registro não foi preenchido. </p>

In [None]:
df.isnull().sum()

<h1 align="center"> Análise e pré-processamento dos dados </h1>

<p> Após descobrirmos qual tipo cada atributo pertence (numérico ou categórico), e se há valores ausentes. Começamos a utilizar as técnicas de pré-processamento para normalizar os dados. </p>

<p> Para a coluna alvo 'expectativa de vida' em que seus valores estiverem ausentes, optamos por remover toda linha deste registro. </p>

In [None]:
df = df[np.isfinite(df['expectativa_vida'])]

<p> Os atributos numéricos que seu valor estiver ausente, optamos por preencher com a média total dos valores deste atributo que foram preenchidos. </p>

In [None]:
alcool_mean = df['alcool'].mean()
hepatiteB_mean = df['hepatiteB'].mean()
BMI_mean = df['BMI'].mean()
poliomielite_mean = df['poliomielite'].mean()
despesa_total_mean = df['despesa_total'].mean()
difteria_mean = df['difteria'].mean()
GDP_mean = df['GDP'].mean()
populacao_mean = df['populacao'].mean()
magreza_10_19_idade_mean = df['magreza_10_19_idade'].mean()
magreza_5_9_idade_mean = df['magreza_5_9_idade'].mean()
composicao_renda_recurso_mean = df['composicao_renda_recurso'].mean()
escolaridade_mean = df['escolaridade'].mean()

df['alcool'].fillna(alcool_mean, inplace=True)
df['hepatiteB'].fillna(hepatiteB_mean, inplace=True)
df['BMI'].fillna(BMI_mean, inplace=True)
df['poliomielite'].fillna(poliomielite_mean, inplace=True)
df['despesa_total'].fillna(despesa_total_mean, inplace=True)
df['difteria'].fillna(difteria_mean, inplace=True)
df['GDP'].fillna(GDP_mean, inplace=True)
df['populacao'].fillna(populacao_mean, inplace=True)
df['magreza_10_19_idade'].fillna(magreza_10_19_idade_mean, inplace=True)
df['magreza_5_9_idade'].fillna(magreza_5_9_idade_mean, inplace=True)
df['composicao_renda_recurso'].fillna(composicao_renda_recurso_mean, inplace=True)
df['escolaridade'].fillna(escolaridade_mean, inplace=True)


<p> Decidimos por criar o atributo "continente" baseada nas informações do atributo "país" após isso decidimos remover o atributo "país" e utilizar o atributo "continente". Caso aplicássemos a técnica de normalização "one hot encoding" nos valores do atributo "país", teriámos que criar a mais 193 atributos (193 países), isso iria ocasionar o problema de alta dimensionalidade (aumento da complexidade do processamento) </p>

In [None]:
df.drop(labels='pais', axis=1, inplace=True)

<p> Decidimos também por remover o atributo 'mortes_abaixo_5_anos, pois possui ambiguidade com o atributo 'mortes_infantis' </p>

In [None]:
df.drop(labels='mortes_abaixo_5_anos', axis=1, inplace=True)

<p> Separamos todos nosso conjunto de dados em <font color="blue">categóricos</font>, <font color="blue">numéricos</font> e <font color="blue">alvo</font> para realizar a análise e a preparação dos dados para cada tipo de atributo.</p>

In [None]:
categoricos = ['continente', 'status']
numericos = [  
    'ano',
    'mortalidade_adulta',
    'mortes_infantis',
    'alcool',
    'porcentagem_gasto',
    'hepatiteB',
    'sarampo',
    'BMI',    
    'poliomielite',
    'despesa_total',
    'difteria',
    'hiv/aids',
    'GDP',
    'populacao',
    'magreza_10_19_idade',
    'magreza_5_9_idade',
    'composicao_renda_recurso',
    'escolaridade'
]
alvo = 'expectativa_vida'

<p> Dados do tipo numéricos </p>

In [None]:
X = df[numericos]
X.head()

<p> Dados do tipo categórico </p>

In [None]:
df[categoricos].head()

<h2 align="center"> Análise e Descoberta de Conhecimento </h2>

<p> Nesta etapa é realizada a análise dos valores do nosso conjunto de dados, a partir desta análise é possível descobrir correlação entre valores dos diferentes atributos através de percentuais, indíces e gráficos. </p>
<p> Na tabela abaixo é possivel visualizar uma representação da nossa base de dados com informações relevantes para
 análise dos atributos. Entre as informações contidas nessa representação estão a média dos valores, o desvio padrão,
o valor mínimo e máximo e percentual </p>

<p> A partir desta análise observamos que a idade mínima e máxima registrada na coluna "expectativa_vida" da nossa base de dados é de 36,3 e 89 anos de idade respectivamente e a média de idade 69 anos. Estas descobertas foram importantes pois elas influenciaram na decisão da discretização dos valores da coluna "expectativa_vida" em intervalos categorizados em <font color="blue">muito baixa</font>, <font color="blue">baixa</font>, <font color="blue">média</font> e <font color="blue">alta</font> </p>

In [None]:
df.describe()

<h3> Correlação (de Pearson) </h3>

<p> A correlação indica a força e a direção de um relacionamento linear entre 2 variáveis, ela varia entre [-1, 1] onde as extremidades indicam um relacionamento linear perfeito, onde 1 (positivo perfeito) e -1 (negativo perfeito) e 0 significa que não existe relacionamento linear entre duas variáveis </p>
<p> A seguir é apresentado uma matriz de correlação com os atributos e seus relacionamentos, cada relacionamento é representado por uma escala de cor verde, onde quanto mais escuro maior é a correlação entre dois atributos.</p>

In [None]:
corr = df[numericos + [alvo]].corr()
cm = sn.light_palette("green", as_cmap=True)

s = corr.style.background_gradient(cmap=cm)
s

<p> Ao analisar a matriz de correlação, foi possível descobrir conhecimentos intríseco nos dados, como por exemplo: quanto maior a escolaridade, maior a expectativa de vida (correlaçao linear positiva).</p>
<p> Além desta descoberta, também conseguimos notar que quanto maior O IDH (Índice de Desenvolvimento Humano) maior a expectativa de vida e maior a escolaridade. Também foi possível validar algumas correlações evidentes como a relação entre mortalidade adulta com a expectativa de vida.</p>

<p> Abaixo é apresentado os gráficos de correlação linear das análises descritas anteriomente. </p>

In [None]:
plt.scatter(df['escolaridade'],df['expectativa_vida'])
plt.title("Expectativa de vida vs Escolaridade")
plt.xlabel('Escolaridade')
plt.ylabel('Expectativa de vida')

In [None]:
plt.scatter(df['composicao_renda_recurso'],df['expectativa_vida'])
plt.title("Expectativa de vida vs IDH")
plt.xlabel('IDH')
plt.ylabel('Expectativa de vida')

In [None]:
plt.scatter(df['mortalidade_adulta'],df['expectativa_vida'])
plt.title("Expectativa de vida vs Mortalidade adulta")
plt.xlabel('Mortalidade adulta')
plt.ylabel('Expectativa de vida')

<h3> IDH vs Escolaridade </h3>

In [None]:
plt.scatter(df['composicao_renda_recurso'],df['escolaridade'])
plt.title("IDH vs Escolaridade")
plt.xlabel('IDH')
plt.ylabel('Escolaridade')

<h3> Discretização do atributo classe "expectativa de vida" </h3>

<p> Como neste trabalho iremos utilizar algoritmos de classificação para prever a coluna "expectativa_vida", se fez  necessário transformar os valores deste atributo numérico na forma de atributos categóricos.
A transformação deste atributo numérico em categórico envolveu duas subtarefas:
<p> Decidir quantas categorias este atributo irá ter, neste passo, após os valores numéricos deste atributo estarem ordenados eles são divididos em <i>n</i> intervalos especificando-se <i>n</i> pontos de divisão, no segundo e trivial  passo, todos os valores de um intervalo são mapeados para o mesmo valor de categoria. Utilizamos 4 categorias divididas em <font color="blue">muito baixa</font> menor ou igual a 50 anos, <font color="blue">baixa</font> maior que 50 e menor ou igual a 60 anos, <font color="blue">média</font> maior que 60 e menor ou igual a 75 anos e <font color="blue">alta</font> maior que 75 anos.</p>

In [None]:
bins = (0, 50, 60, 75, 100)
category_expectiva_vida = ['muito baixa', 'baixa', 'média', 'alta']
df['expectativa_vida'] = pd.cut(df['expectativa_vida'], bins = bins, labels = category_expectiva_vida)
df['expectativa_vida'].unique()

<h3> Distribuição da Expectativa de Vida Global </h3>

<p> O gráfico a seguir apresenta a distribuição total e a porcentagem dos registros em cada categoria, a partir desta análise podemos observar que a expectivativa de vida categorizada como <font color="blue">média</font> possui metade do predomínio do conjunto de dados, e a categoria <font color="blue">muito baixa</font> possui o menor número de registros. </p>

In [None]:
muito_baixa = (df['expectativa_vida'] == 'muito baixa').sum()
baixa = (df['expectativa_vida'] == 'baixa').sum()
media = (df['expectativa_vida'] == 'média').sum()
alta = (df['expectativa_vida'] == 'alta').sum()

total = muito_baixa + baixa + media + alta
percent_muito_baixa = muito_baixa/total
percent_baixa = baixa/total
percent_media =  media/total
percent_alta =  alta/total

print('Muito Baixa =', muito_baixa)
print('Baixa =', baixa)
print('Média =', media)
print('Alta =', alta)
print('Percentual Muito Baixa: ', percent_muito_baixa * 100, '%')
print('Percentual Baixa: ', percent_baixa * 100, '%')
print('Percentual Média: ', percent_media * 100, '%')
print('Percentual Alta: ', percent_alta * 100, '%')

objects = ('muito baixa', 'baixa', 'média', 'alta')
y_pos = np.arange(len(objects))
performance = [muito_baixa, baixa, media, alta]

plt.barh(y_pos, performance, align='center', alpha=0.5)
plt.yticks(y_pos, objects)
plt.xlabel('Total de registros')
plt.title('Distribuição total dos registros em categorias')

plt.show()

<h3> Distribuição da expectativa de vida por continentes </h3>

<p> No gráfico a seguir é possível analisar com maior detalhamento a distribuição dos registros em gráficos de barras com valores de 0 a 100, onde cada barra representa um continente, cada barra é dividida em cores que representam as categorias do atributo alvo expectativa de vida. Neste gráfico é possível observar que a expectativa de vida <font color="blue">média</font> é predominante nos continentes: América do Norte, América do Sul, Oceania e Ásia.</p>
<p> Os continentes Europa e África foram os únicos que não tiveram expectativa de vida média como predominantes, a Europa teve maior número de registros classificados como Alta, a Áfria teve mais registros classificados como baixa, sendo o único continente com registros classificados como muito baixa. </p>

In [None]:
x_chart = df.pivot_table(values=['status'], index=['continente'], columns=['expectativa_vida'], aggfunc='count')
x_chart = x_chart.apply(lambda c: c / c.sum() * 100, axis=1)
x_chart.plot(kind="bar",stacked=True)
plt.legend(loc='center left', bbox_to_anchor=(1.0, 0.5))

<h1 align="center"> Transformação dos Dados </h1>

<p> A etapa de preparação dos dados tem por objetivo converter os valores dos atributos categóricos em valores numéricos, normalizá-los e re-escalar. Esta etapa é necessária para os algoritmos de classificação que trabalham apenas com variáveis númericas. A conversão dos atributos nominais podem ser feitas por meio de <b>binarização</b> e <b>codificação 1-de-n<b> <i>(one-hot-enconding)</i></p>

In [None]:
df['mortes_infantis'] = df['mortes_infantis'].astype(float)
df['sarampo'] = df['sarampo'].astype(float)

<h3> Re-escalar valores dos atributos numéricos </h3>

In [None]:
scaler = StandardScaler()
X = scaler.fit_transform(X)

In [None]:
X

<h3> Normalização do atributo 'continente' utilizando a codificação 1-de-n (<i>one-hot encoding</i>) </h3>

In [None]:
lb_continente = LabelBinarizer()
continente = lb_continente.fit_transform(df['continente'].values)
print("Classes aprendidas: ",lb_continente.classes_)
print("Dados: ", continente)
X = np.c_[X, continente ]
X
numericos = np.append(numericos,lb_continente.classes_)
numericos

<h3> Normalização do atributo 'status' utilizando a codificação 1-de-n (<i>one-hot encoding</i>) </h3>

In [None]:
lb_status = LabelBinarizer()
status = lb_status.fit_transform(df['status'].values)
print("Classes aprendidas: ",lb_status.classes_)
print("Dados: ", status)
X = np.c_[X, status ]
X
numericos = np.append(numericos,lb_status.classes_)
numericos

<h3> O número de colunas após a normalização dos dados utilizando <i>one-hot enconding</i> </h3>

In [None]:
np.shape(X)

<h1 align="center"> Avaliação de Desempenho dos Classificadores </h1>

<p> Calcular o desempenho preditivo em termos de taxa de acerto ou de erro utilizando a mesma base de dados acaba ocasionando modelos viciados chamados de <i>overfitting</i>, devem-se então utilizar métodos de amostragem alternativos para obter estimativas de desempenho preditivo mais confiáveis, definindo conjuntos de treino e teste. Os dados de treinamento são empregados na indução e no ajuste do modelo, enquanto os exemplos de testes simulam a apresentação de objetos novos ao preditor, os quais não foram vistos antes em sua indução.</p>
<p> Dois dos principais métodos de amostragem existentes foram utilizados neste trabalho, <i>Holdout</i> e Validação Cruzada (<i>cross validation</i>) </p>

<p> Atribuir a variável 'y' a classe alvo 'expectativa_vida' </p>

In [None]:
y = df['expectativa_vida']

In [None]:
y.head()

<h3> Método Hold Out </h3>

<p> Neste método, os dados são divididos em dois conjuntos disjuntos, chamados de treinamento e teste, um modelo de classificação é então induzido a partir do conjunto de treinamento e seu desempenho é avaliada no conjunto de teste. A proporção dos dados reservados para treinamento geralmente fica em 2/3 e para teste 1/3. O modelo <i>holdout</i> possui diversas limitações pois devido aos conjuntos de treinamento e teste serem suconjuntos de dados originais, uma classe que esteja representada em excesso em um subconjunto estará representada de menos na outra e vice-versa.</p>
<p> A solução que utilizamos poderá mitigar este problema é crar sbuconjuntos de treinamento e teste de registros aleatoriamente (random_state=42) como o exemplo a seguir. Separando o treinamento (X_train) em 70% (2049 registros), e 30% para o subconjunto teste (X_test) (879 registros) a separação dos registros.</p>

In [None]:
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)

In [None]:
X_train.shape

In [None]:
X_test.shape

<h3> Método Validação Cruzada (<i>Cross Validation</i>)

<p> Outra alteranativa é o uso do método validação cruzada, neste trabalho utilizaremos <i>k</i> partições de tamanhos iguais, durante cada execução, uma das partições é escolhida para teste, enquanto outras são usadas para treinamento, este procedimento é repetido <i>k</i> vezes de modo que cada partição seja utilizada para teste exatamente uma vez. A desvantagem desta abordagem que computacionalmente é custuso repetir <i>k</i> vezes este procedimento.</p>

<h1 align="center"> Modelos Preditivos (Classificação) </h1>

<h1 align="center"> K-Nearest Neighbours </h1>

<p> Este algoritmo é o mais simples entre todos os algoritmos de aprendizagem de máquina, possui como parâmetro de entrada o número de vizinhos mais próximos <i>k</i>, definida pelo usuário. Este parâmetro influencia diretamente na taxa de acerto do algoritmo, por exemplo, quando inserimos um valor de <i>k</i> baixo, ele é mais propício a errar a classificação por causa de <i>outliers</i>. Este algoritmo utiliza o método baseado na distância entre dois pontos, geralmente usado pelo cálculo da distância Euclidiana, onde, quanto menor a distância entre dois pontos maior a chance deste ponto fazer parte desta classe.  </p>

<p> Para analisarmos qual melhor valor de <i>k</i> para o algoritmo, fizemos um teste com valores de k entre 1 a 19, apenas com valores ímpares para evitar empates, criamos o modelo preditivo para cada <i>k</i> e aplicamos o conjunto de teste ao modelo, com isso obtemos o resultado da acurácia para cada modelo e aplicamos em um gráfico para analisarmos melhor.</p>

In [None]:
results = []
lista_n = [1,3,5,7,9,11,13,15,17,19]
for n in lista_n:
    modelo_knn = KNeighborsClassifier(n_neighbors=n)
    modelo_knn.fit(X_train,y_train)
    pred_knn = modelo_knn.predict(X_test)    
    accuracy = accuracy_score(y_test,pred_knn)
    results.append(accuracy)    
    
plt.figure(figsize=(8,4))
pd.Series(results, lista_n).plot(color="darkred",marker="o")

<p> Ao Analisarmos o gráfico notamos que <i>k</i> igual a 3 obteve melhor acurácia </p>

<h3> Criando Modelo K-NN </h3>

In [None]:
modelo_knn = KNeighborsClassifier(n_neighbors=3)
modelo_knn.fit(X_train,y_train)

<h3> Aplicando Modelo de Aprendizagem ao conjunto de teste </h3>

In [None]:
pred_knn = modelo_knn.predict(X_test)

<h3> Medidas de Desempenho </h3>

In [None]:
print('matrix de confusão')
print(confusion_matrix(y_test, pred_knn))
print(classification_report(y_test, pred_knn))
print('Acurácia', accuracy_score(y_test,pred_knn))
print('Taxa de erro', np.mean(pred_knn != y_test))

<h3> Cross Validation </h3>

<p> Analisamos através de um gráfico qual o melhor valor de <i>k</i> (vizinhos próximos) com melhor acurácia </p>

In [None]:
results = []
lista_n = [1,3,5,7,9,11,13,15,17,19]
for n in lista_n:    
    knn = KNeighborsClassifier(n_neighbors=n)
    scores = cross_val_score(knn, X_train, y_train, cv=5)
    results.append(scores.mean())        
plt.figure(figsize=(8,4))
pd.Series(results, lista_n).plot(color="darkred",marker="o")

<p> Melhor <i>k</i> encontrado foi igual a 1</p> 

In [None]:
knn = KNeighborsClassifier(n_neighbors=1)
scores = cross_val_score(knn, X_train, y_train, cv=5)
print("Scores:", scores)
print("Accuracy: %0.2f Desvio Padrão: (+/- %0.2f)" % (scores.mean(), scores.std() * 2))

<h1 align="center"> Decision Tree </h1>

<p>O algoritmo <i>Decision Tree</i> ou Árvore de Decisão. Ele utiliza a estratégia de dividir para conquistar para resolver um problema de decisão, este algoritmo geralmente empregam uma estratégia que cresce uma árvore de decisão tomando uma série de decisões localmente ótimas sobre qual atributo usar para particionar os dados. Um desses algoritmos é o algoritmo de <i>Hunt</i>. Em uma árvore de decisão, cada nodo folha recebe um rótulo de classe, os nodos internos e o nodo raiz, contém condições de testes de atributos para separar registros que possuem características diferentes.</p>

<p> Para analisarmos qual melhor valor para o parâmetro de entrada relacionada a profundidade máxima da árvore, fizemos um teste com valores entre 2 a 20, apenas com valores pares, criamos o modelo preditivo para cada profundidade máxima e aplicamos o conjunto de teste ao modelo, com isso obtemos o resultado da acurácia para cada modelo e aplicamos em um gráfico para analisarmos melhor.</p>

In [None]:
results = []
max_depth_options = [2,4,6,8,10,12,14,16,18,20]
for trees in max_depth_options:
    modelo_dtree = DecisionTreeClassifier(max_depth=trees, random_state=101, max_features = None, min_samples_leaf = 4)
    modelo_dtree.fit(X_train, y_train)
    pred_tree = modelo_dtree.predict(X_test)
    accuracy = accuracy_score(y_test,pred_tree)
    results.append(accuracy)

plt.figure(figsize=(8,4))
pd.Series(results, max_depth_options).plot(color="darkred",marker="o")

<h3> Gerando gráfico com o modelo da árvore de decisão </h3>

In [None]:
feature_names = ['mortalidade_adulta', 'mortes_infantis', 'alcool',
       'porcentagem_gasto', 'hepatiteB', 'sarampo', 'BMI',
       'poliomielite', 'despesa_total', 'difteria', 'hiv/aids', 
       'GDP', 'populacao', 'magreza_10_19_idade', 'magreza_5_9_idade',
       'composicao_renda_recurso', 'escolaridade',       
       'América do Norte', 'América do Sul', 'Europa', 'Oceania',
       'África', 'Ásia', 'Desenvolvido', 'Em Desenvolvimento'];

In [None]:
target_names = ['muito baixa', 'baixa', 'média', 'alta']

In [None]:
modelo_dtree = DecisionTreeClassifier(max_depth=8, random_state=101, max_features = None, min_samples_leaf = 4)
modelo_dtree = modelo_dtree.fit(X_train, y_train)
dot_data = tree.export_graphviz(modelo_dtree, out_file=None, 
                     feature_names=feature_names,  
                     class_names=target_names,  
                     filled=True, rounded=True,  
                     special_characters=True)  
graph = graphviz.Source(dot_data)  
# Salvo um arquivo no formato pdf 
graph.render("modelo_arvore_decisao") 
# Exibe o gráfico da árvore gerada
graph

<h3> Aplicando modelo de aprendizagem ao conjunto de teste </h3>

In [None]:
pred_dtree = modelo_dtree.predict(X_test)

<h3> Medidas de Desempenho </h3>

In [None]:
print('matrix de confusão')
print(confusion_matrix(y_test, pred_dtree))
print(classification_report(y_test, pred_dtree))
print('Acurácia', accuracy_score(y_test,pred_dtree))
print('Taxa de erro', np.mean(pred_dtree != y_test))

<h3> Cross Validation </h3>

<p> Analisamos através de um gráfico qual o melhor valor da profundida máxima da árvore de decisão para obter uma melhor acurácia </p>

In [None]:
results = []
max_depth_options = [2,4,6,8,10,12,14,16,18,20]
for trees in max_depth_options:
    dtree = DecisionTreeClassifier(max_depth=trees, random_state=101, max_features = None, min_samples_leaf = 4)
    scores = cross_val_score(dtree, X_train, y_train, cv=5)
    results.append(scores.mean())
plt.figure(figsize=(8,4))
pd.Series(results, max_depth_options).plot(color="darkred",marker="o")

<p> O melhor valor de profundidade máxima da árvore encontrado foi igual a 6</p> 

In [None]:
dtree = DecisionTreeClassifier(max_depth=6, random_state=101, max_features = None, min_samples_leaf = 4)
scores = cross_val_score(dtree, X_train, y_train, cv=5)
print("Scores:", scores)
print("Accuracy: %0.2f Desvio Padrão: (+/- %0.2f)" % (scores.mean(), scores.std() * 2))

<h1 align="center"> Conclusões sobre as Descobertas </h1>

<p>
As etapas de análise e pré-processamento dos dados foram importantes para a realização deste trabalho pois através delas conseguimos descobrir padrões nos dados que estavam ocultos, além de prepará-los para o melhor desempenho dos algoritmos de classificação. Através de técnicas de pré-processamento, conseguimos contornar problemas de valores ausentes, converter valores nominais em tipos numéricos e padronizar valores em escalas de pesos.
</p>

<p>
Ao analisar os resultados dos modelos preditivos de classificação <i>k-Nearest Neighbours</i> (<i>k</i>-NN) e <i>Decision Tree</i> (Árvore de Decisão), podemos notar que os dois algoritmos de predição obtiveram diferentes resultados nas suas medidas de desempenho, sendo o algoritmo por árvore de decisão que obteve melhor desempenho. Além disso, a escolha dos métodos para particionar os conjuntos em treinamento e teste, influenciaram diretamente nos resultados dos algoritmos.
</p>

<p>
Através dos modelos preditivos de classificação gerados neste trabalho e com posse de dados desconhecidos que contenham os mesmos atributos relacionados a fatores de imunização, mortalidade, sociais e econômicos, conseguimos prever se um determinado registro será classificado como expectativa de vida: <font color="blue">muito baixa</font>, <font color="blue">baixa</font>, <font color="blue">média</font> e <font color="blue">alta</font>. Essa descoberta de conhecimento é de grande importância para que organizações mundiais de saúde e governamentais consigam identificar fatores que influenciem na expectativa de vida.    
</p>