___
# Projeto 2 - Ciência dos Dados 2020.2
Grupo: Lucas Kang, Lucas Franco Florentino
___

# Descrição do projeto



O aumento no número de suícios de 200% a 400% nos últimos 20 anos vem se tornando um problema de saúde pública em vários países ao redor do mundo. Dessa forma, várias pesquisas foram desenvolvidas com a intenção de entender esse problema e suas relações externas. Quando relacionado a idade e o sexo com a frequência dos casos de suicídio, existe uma variação interessante de país para país, além disso, no caso dos homens, ocorrem geralmente entre 25 e 35 anos, já nas mulheres entre 18 e 30 anos. Existem alguns indicadores de suicídio, porém, a maioria deles referem ao desemprego, situação financeira do país e consequentemente a presença de doenças psiquiátricas e crônicas. 

   Dessa forma, o projeto tem como função principal observar o relacionamento entre vários indicadores como idade, sexo, situação econômica do país e a geração, com o número de suicídios de um país. Dessa forma, será examinado os resultados e as conexões com o número de suicídios. 

## Objetivo do projeto:

- A partir de diversos fatores como o ano, sexo, faixa etária e situação econômica de um país, é possível prever a quantidade de pessoas que irão cometer suicídio neste ano?  
- O target é quantitativo, já que o objetivo é prever uma informação numérica.

### Importando as bibliotecas:

In [26]:
import pandas as pd  
import matplotlib.pyplot as plt
import numpy as np
from math import *
from scipy import *
from sklearn import linear_model
from sklearn.model_selection import train_test_split
from scipy import stats
from sklearn.ensemble import RandomForestRegressor 
from sklearn.metrics import r2_score
from pprint import pprint
from sklearn.model_selection import RandomizedSearchCV
from sklearn.model_selection import GridSearchCV
from sklearn.metrics import mean_absolute_error



### Importando a base de dados:

In [13]:
suicidios = pd.read_csv('suicide_rates.csv')

# Explicando o dataset:

A base de dados suicide_rates.csv contém um conjunto de informações com cerca de 102 países ao passar de 33 anos. Dessa forma, o código irá analisar uma base de treinamento, e depois, aplicar um teste nos classificadores, onde um deles tem como princípio a regressão múltipla e o outro de #aaaaaa, para então provar sua eficiência em prever a quantidade de suicídios em um ano. 
A base de dados contém os seguintes dados:

- Country: País
- Year: Ano
- Sex: Sexo
- Age: Idade
- Suicides_no: Número de suicídios no país, no ano, no sexo e na faixa etária presente na mesma linha
- Population: População do país, do ano, do sexo e da faixa etária presente na mesma linha
- Suicides/100kpop: Taxa de suicideos a cada 100.000 pessoas com os filtros presentes na mesma linha
- Country-year: País e ano
- HDI for year: Índice de desenvolvimento humano por ano
- Gdp_for_year (): Produto interno bruto por ano em dolar
- Gdp_per_capita (): Produto interno bruto per capita em dolar
- Generation: Geração do indivíduo


Nossa base de dados:
- 

In [14]:
suicidios.head(5)

Unnamed: 0,country,year,sex,age,suicides_no,population,suicides/100k pop,country-year,HDI for year,gdp_for_year ($),gdp_per_capita ($),generation
0,Albania,1987,male,15-24 years,21,312900,6.71,Albania1987,,2156624900,796,Generation X
1,Albania,1987,male,35-54 years,16,308000,5.19,Albania1987,,2156624900,796,Silent
2,Albania,1987,female,15-24 years,14,289700,4.83,Albania1987,,2156624900,796,Generation X
3,Albania,1987,male,75+ years,1,21800,4.59,Albania1987,,2156624900,796,G.I. Generation
4,Albania,1987,male,25-34 years,9,274300,3.28,Albania1987,,2156624900,796,Boomers


---
# Organizando os dados

Os dados foram organizados em novas colunas e alguns valores foram traduzidos para números que possa ser utilizados pelo modelo para realizar a predição.
Algumas destas novas colunas foram:
- criação de dummies para armazenar a faixa etária de cada linha;
- criação da coluna de classificação econômica;
- traduzir a coluna de geração de valores categóricos para valores numéricos;
- traduzir a coluna de sexo de valores categóricos para valores numéricos.

In [15]:
faixa_etaria = pd.get_dummies(suicidios['age'])
suicidios = pd.concat([suicidios, faixa_etaria], axis = 1)
suicidios.head()

Unnamed: 0,country,year,sex,age,suicides_no,population,suicides/100k pop,country-year,HDI for year,gdp_for_year ($),gdp_per_capita ($),generation,15-24 years,25-34 years,35-54 years,5-14 years,55-74 years,75+ years
0,Albania,1987,male,15-24 years,21,312900,6.71,Albania1987,,2156624900,796,Generation X,1,0,0,0,0,0
1,Albania,1987,male,35-54 years,16,308000,5.19,Albania1987,,2156624900,796,Silent,0,0,1,0,0,0
2,Albania,1987,female,15-24 years,14,289700,4.83,Albania1987,,2156624900,796,Generation X,1,0,0,0,0,0
3,Albania,1987,male,75+ years,1,21800,4.59,Albania1987,,2156624900,796,G.I. Generation,0,0,0,0,0,1
4,Albania,1987,male,25-34 years,9,274300,3.28,Albania1987,,2156624900,796,Boomers,0,1,0,0,0,0


## Criando classificação econômica:

Com a finalidade de analizar o efeito da situação econômica na mortalidade de pessoas por suicídio, foi criada uma classificação que compara a variável 'gdp_per_capita' e determina se o país, no ano analisado, era considerado Rico, Em desenvolvimento ou Pobre. Para gerar tal arranjo, foi utilizado a base de dados do IMF(International Monetary Fund) para formar categorias a partir da divisão do gdp do país observado, pelo gdp de Luxemburgo do ano de 2020 (109602 dólares). 
Assim, os países que se encontraram na porcentagem abaixo de 30% foram classificados Pobres, de 31% a 60% Em desenvolvimento, e acima de 61% o país é considerado Rico.

In [31]:
'''
Legenda:
    Pobre: 3
    Em Desenvolvimento: 2
    Rico: 1
'''
suicidios['classificação econômica'] = np.where((suicidios['gdp_per_capita ($)']/109602)>0.61, 'rico', 
    (np.where((suicidios['gdp_per_capita ($)']/109602)<0.3, 'pobre','em desenvolvimento')))


### Aplicando dummies

- A fim de categorizar todas as variáveis como quantitativas, foi aplicado o método dummies, que armazena a informação em forma numérica.

In [17]:
#dummies da classificação econômica
suicidios = pd.concat([suicidios, pd.get_dummies(suicidios['classificação econômica'])], axis = 1)
suicidios.head()

Unnamed: 0,country,year,sex,age,suicides_no,population,suicides/100k pop,country-year,HDI for year,gdp_for_year ($),...,15-24 years,25-34 years,35-54 years,5-14 years,55-74 years,75+ years,classificação econômica,em desenvolvimento,pobre,rico
0,Albania,1987,male,15-24 years,21,312900,6.71,Albania1987,,2156624900,...,1,0,0,0,0,0,pobre,0,1,0
1,Albania,1987,male,35-54 years,16,308000,5.19,Albania1987,,2156624900,...,0,0,1,0,0,0,pobre,0,1,0
2,Albania,1987,female,15-24 years,14,289700,4.83,Albania1987,,2156624900,...,1,0,0,0,0,0,pobre,0,1,0
3,Albania,1987,male,75+ years,1,21800,4.59,Albania1987,,2156624900,...,0,0,0,0,0,1,pobre,0,1,0
4,Albania,1987,male,25-34 years,9,274300,3.28,Albania1987,,2156624900,...,0,1,0,0,0,0,pobre,0,1,0


In [18]:
# dummies da geração
gen = pd.get_dummies(suicidios['generation'])
suicidios = pd.concat([suicidios, gen], axis = 1)
suicidios.head()

Unnamed: 0,country,year,sex,age,suicides_no,population,suicides/100k pop,country-year,HDI for year,gdp_for_year ($),...,classificação econômica,em desenvolvimento,pobre,rico,Boomers,G.I. Generation,Generation X,Generation Z,Millenials,Silent
0,Albania,1987,male,15-24 years,21,312900,6.71,Albania1987,,2156624900,...,pobre,0,1,0,0,0,1,0,0,0
1,Albania,1987,male,35-54 years,16,308000,5.19,Albania1987,,2156624900,...,pobre,0,1,0,0,0,0,0,0,1
2,Albania,1987,female,15-24 years,14,289700,4.83,Albania1987,,2156624900,...,pobre,0,1,0,0,0,1,0,0,0
3,Albania,1987,male,75+ years,1,21800,4.59,Albania1987,,2156624900,...,pobre,0,1,0,0,1,0,0,0,0
4,Albania,1987,male,25-34 years,9,274300,3.28,Albania1987,,2156624900,...,pobre,0,1,0,1,0,0,0,0,0


In [19]:
# dummies do sexo
suicidios.loc[suicidios['sex']=='male','sexo'] = 1
suicidios.loc[suicidios['sex']=='female','sexo'] = 0
suicidios['sexo'] = suicidios['sexo'].astype('int64')
suicidios.head()

Unnamed: 0,country,year,sex,age,suicides_no,population,suicides/100k pop,country-year,HDI for year,gdp_for_year ($),...,em desenvolvimento,pobre,rico,Boomers,G.I. Generation,Generation X,Generation Z,Millenials,Silent,sexo
0,Albania,1987,male,15-24 years,21,312900,6.71,Albania1987,,2156624900,...,0,1,0,0,0,1,0,0,0,1
1,Albania,1987,male,35-54 years,16,308000,5.19,Albania1987,,2156624900,...,0,1,0,0,0,0,0,0,1,1
2,Albania,1987,female,15-24 years,14,289700,4.83,Albania1987,,2156624900,...,0,1,0,0,0,1,0,0,0,0
3,Albania,1987,male,75+ years,1,21800,4.59,Albania1987,,2156624900,...,0,1,0,0,1,0,0,0,0,1
4,Albania,1987,male,25-34 years,9,274300,3.28,Albania1987,,2156624900,...,0,1,0,1,0,0,0,0,0,1


In [20]:
#deletar colunas que não serão utilizadas
suicidios.drop('age', inplace = True, axis = 1)
suicidios.drop('year', inplace = True, axis = 1)
suicidios.drop('country-year', inplace = True, axis = 1)
suicidios.drop('HDI for year', inplace = True, axis = 1)
suicidios.drop('generation', inplace = True, axis = 1)
suicidios.drop('sex', inplace = True, axis = 1)
suicidios.drop('suicides/100k pop', inplace = True, axis = 1)

In [21]:
suicidios.head(10)

Unnamed: 0,country,suicides_no,population,gdp_for_year ($),gdp_per_capita ($),15-24 years,25-34 years,35-54 years,5-14 years,55-74 years,...,em desenvolvimento,pobre,rico,Boomers,G.I. Generation,Generation X,Generation Z,Millenials,Silent,sexo
0,Albania,21,312900,2156624900,796,1,0,0,0,0,...,0,1,0,0,0,1,0,0,0,1
1,Albania,16,308000,2156624900,796,0,0,1,0,0,...,0,1,0,0,0,0,0,0,1,1
2,Albania,14,289700,2156624900,796,1,0,0,0,0,...,0,1,0,0,0,1,0,0,0,0
3,Albania,1,21800,2156624900,796,0,0,0,0,0,...,0,1,0,0,1,0,0,0,0,1
4,Albania,9,274300,2156624900,796,0,1,0,0,0,...,0,1,0,1,0,0,0,0,0,1
5,Albania,1,35600,2156624900,796,0,0,0,0,0,...,0,1,0,0,1,0,0,0,0,0
6,Albania,6,278800,2156624900,796,0,0,1,0,0,...,0,1,0,0,0,0,0,0,1,0
7,Albania,4,257200,2156624900,796,0,1,0,0,0,...,0,1,0,1,0,0,0,0,0,0
8,Albania,1,137500,2156624900,796,0,0,0,0,1,...,0,1,0,0,1,0,0,0,0,1
9,Albania,0,311000,2156624900,796,0,0,0,1,0,...,0,1,0,0,0,1,0,0,0,0


In [32]:
suicidios.describe()

Unnamed: 0,suicides_no,population,gdp_per_capita ($),15-24 years,25-34 years,35-54 years,5-14 years,55-74 years,75+ years,em desenvolvimento,pobre,rico,Boomers,G.I. Generation,Generation X,Generation Z,Millenials,Silent,sexo
count,27820.0,27820.0,27820.0,27820.0,27820.0,27820.0,27820.0,27820.0,27820.0,27820.0,27820.0,27820.0,27820.0,27820.0,27820.0,27820.0,27820.0,27820.0,27820.0
mean,242.574407,1844794.0,16866.464414,0.166858,0.166858,0.166858,0.165708,0.166858,0.166858,0.135945,0.841625,0.02243,0.179367,0.098634,0.230338,0.05284,0.210065,0.228756,0.5
std,902.047917,3911779.0,18887.576472,0.372856,0.372856,0.372856,0.371825,0.372856,0.372856,0.342737,0.365099,0.14808,0.383667,0.298175,0.421057,0.223717,0.407362,0.42004,0.500009
min,0.0,278.0,251.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
25%,3.0,97498.5,3447.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,1.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
50%,25.0,430150.0,9372.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,1.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.5
75%,131.0,1486143.0,24874.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,1.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,1.0
max,22338.0,43805210.0,126352.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0


---
---
# Multiple Regression

Tendo a preparação da base de dados completa, podemos iniciar o estudo da relação das variáveis e assim, prever o número de pessoas a cometer suicídio em um ano.

---
Para iniciar a aplicação, é necessário separar os dados independentes dos dados dependentes.

Para isto, "X" foi declarado como sendo as variáveis independentes, e "y" foi definido como o valor dependente. 

In [23]:
X = suicidios[['15-24 years', '25-34 years', '35-54 years', '5-14 years', '55-74 years', '75+ years', 'em desenvolvimento', 'pobre', 'rico', 'Boomers', 'G.I. Generation', 'Generation X', 'Generation Z', 'Millenials', 'Silent', 'sexo']]
y = suicidios['suicides_no']

#fazer X_train e y_train
# Separar o dataset para ser utilizado no teste e no treinamento
x_train, x_test, y_train, y_test = train_test_split(X,y)

In [29]:
modelo = linear_model.LinearRegression().fit(x_train,y_train)
modelo.score(x_train,y_train)

0.06877745995614393

In [30]:
y_pred= modelo.predict (x_test)
mean_absolute_error(y_test, y_pred)

332.85900768332135

In [14]:
print(modelo.coef_)

[9.31732428e+13 9.31732428e+13 9.31732428e+13 9.31732428e+13
 9.31732428e+13 9.31732428e+13 1.22022807e+16 1.22022807e+16
 1.22022807e+16 3.49990155e+14 3.49990155e+14 3.49990155e+14
 3.49990155e+14 3.49990155e+14 3.49990155e+14 2.59728888e+02]


---
---
# Random Forest Regression

Continuamos a utilizar o "X" e "y" do modelo passado e também a separação do dataset de teste e de treino.
 
Descrever como foi implementado

In [16]:
#n_estimators = número de árvores que serão criadas para o random forest
regressor = RandomForestRegressor(n_estimators = 1000, random_state = 0)
regressor.fit(x_train, y_train)

RandomForestRegressor(n_estimators=1000, random_state=0)

In [17]:
y_pred = regressor.predict(x_test)
y_pred
r2_score(y_test,y_pred)

0.07671572435060348

---
Como pode ser observado na célula anterior, o resultado obtido não é satisfatório, o valor do score é somente 0,101, enquanto que um bom score estaria perto de 1.

Para melhorar os resultados do modelo, foi necessário conduzir um hyperparameter tuning. O hyperparameter tuning é feito para ajustar as configurações do algoritmo e assim melhorar sua performance. 

Normalmente, os parâmetros a serem utilizados são aprendidos durante o treinamento do modelo, mas em hyperparameter tuning, os parâmetros devem ser definidos antes do teste. Alguns destes parâmetros são:
- número de árvores a serem criadas
- número de recursos que serão considerados para cada árvore quando forem dividir um nó

## Aplicando o Hyperparameter Tuning

O Hyperparameter Tuning foi utilizado para otimizar o modelo e obter resultados mais precisos. 

### Um dos métodos utilizados para realizar a busca de parâmetros é através do Random Search Cross Validation

O Random Search Cross Validation consegue utilizar parâmetros diferentes gerados em uma tabela com uma variedade de valores de hiperparâmetros, realizando o K-Fold CV com cada combinação de valores.

K-Fold CV sendo uma técnica em que os dados de treinamento são divididos em K vezes, que são divididas novamente em dobras. O modelo é, então, ajustado K vezes, cada vez treinando o dado de treino em K-1 das dobras e avaliando sua performance de até Kn. 

In [19]:
# Parâmetros que estão sendo utilizados atualmente
regressor.get_params()

{'bootstrap': True,
 'ccp_alpha': 0.0,
 'criterion': 'mse',
 'max_depth': None,
 'max_features': 'auto',
 'max_leaf_nodes': None,
 'max_samples': None,
 'min_impurity_decrease': 0.0,
 'min_impurity_split': None,
 'min_samples_leaf': 1,
 'min_samples_split': 2,
 'min_weight_fraction_leaf': 0.0,
 'n_estimators': 1000,
 'n_jobs': None,
 'oob_score': False,
 'random_state': 0,
 'verbose': 0,
 'warm_start': False}

Observando a documentação do Random Forest Regressor no Scikit-learn, foi possível diminuir o número de parâmetros significantes para apenas 2:
- n_estimators
- max_features
- max_depth
- min_samples_split
- min_samples_leaf
- boostrap



In [20]:
#Criando o Random Hyperparameter Grid para utilizar o RandomizedSearchCV depois
# número de árvores
n_estimators = [int(x) for x in np.linspace(start = 200, stop = 2000, num = 10)]
# número de features a serem consideradas para cada split
max_features = ['auto','sqrt']
# máximo número de níveis em cada árvore
max_depth = [int(x) for x in np.linspace(10, 110, num =11)]
max_depth.append(None)
# mínimo número de amostras que são exigidos para cada nó
min_samples_split = [2, 5, 10]
# mínimo número de amostras que são exigidas para cada leaf node
min_samples_leaf = [1, 2, 4]
# método de selecionamento para treinamento de cada árvore
bootstrap = [True, False]

#criando o Random Grid
random_grid = {'n_estimators' : n_estimators, 'max_features' : max_features, 'max_depth' : max_depth, 'min_samples_split' : min_samples_split, 'min_samples_leaf' : min_samples_leaf, 'bootstrap': bootstrap}

pprint(random_grid)

{'bootstrap': [True, False],
 'max_depth': [10, 20, 30, 40, 50, 60, 70, 80, 90, 100, 110, None],
 'max_features': ['auto', 'sqrt'],
 'min_samples_leaf': [1, 2, 4],
 'min_samples_split': [2, 5, 10],
 'n_estimators': [200, 400, 600, 800, 1000, 1200, 1400, 1600, 1800, 2000]}


In [21]:
# Treinando o modelo com o RandomSearchCV
novo_regressor = RandomForestRegressor()

# Busca por parâmetros randomizada, utilizando 3 dobras
# Busca em 100 diferentes combinações
regressor_random = RandomizedSearchCV(estimator = novo_regressor, param_distributions = random_grid, n_iter = 100, cv = 3, verbose = 2, random_state = 42, n_jobs = -1)

regressor_random.fit(x_train, y_train)

Fitting 3 folds for each of 100 candidates, totalling 300 fits
[Parallel(n_jobs=-1)]: Using backend LokyBackend with 8 concurrent workers.
[Parallel(n_jobs=-1)]: Done  25 tasks      | elapsed:   59.9s
[Parallel(n_jobs=-1)]: Done 146 tasks      | elapsed:  4.3min
[Parallel(n_jobs=-1)]: Done 300 out of 300 | elapsed:  9.2min finished


RandomizedSearchCV(cv=3, estimator=RandomForestRegressor(), n_iter=100,
                   n_jobs=-1,
                   param_distributions={'bootstrap': [True, False],
                                        'max_depth': [10, 20, 30, 40, 50, 60,
                                                      70, 80, 90, 100, 110,
                                                      None],
                                        'max_features': ['auto', 'sqrt'],
                                        'min_samples_leaf': [1, 2, 4],
                                        'min_samples_split': [2, 5, 10],
                                        'n_estimators': [200, 400, 600, 800,
                                                         1000, 1200, 1400, 1600,
                                                         1800, 2000]},
                   random_state=42, verbose=2)

In [22]:
# melhores parâmetros a serem utilizados
regressor_random.best_params_

{'n_estimators': 1200,
 'min_samples_split': 5,
 'min_samples_leaf': 2,
 'max_features': 'sqrt',
 'max_depth': 10,
 'bootstrap': False}

In [23]:
# Avaliar se os parâmetros utilizados no Random Search foram as melhores para resultarem em um modelo melhor
def evaluate(model, test_features, test_labels):
    predictions = model.predict(test_features)
    errors = abs(predictions - test_labels)
    mape = 100 * np.mean(errors / test_labels)
    accuracy = 100 - mape
    print('Model Performance')
    print('Average Error: {:0.4f} degrees.'.format(np.mean(errors)))
    print('Accuracy = {:0.2f}%.'.format(accuracy))
    return accuracy

### Avaliar o modelo padrão

In [24]:
base = RandomForestRegressor(n_estimators = 10, random_state = 42)
base.fit(x_train,y_train)
base_accuracy = evaluate(base, x_test, y_test)

Model Performance
Average Error: 294.0987 degrees.
Accuracy = -inf%.


### Avaliar o melhor modelo de acordo com o Random Search Model

In [25]:
melhor_random = regressor_random.best_estimator_
melhor_accuracy = evaluate(melhor_random, x_test, y_test)

Model Performance
Average Error: 293.8791 degrees.
Accuracy = -inf%.


In [26]:
melhor_pred = melhor_random.predict(x_test)
melhor_pred

array([ 63.98679985, 625.04153712, 625.04153712, ..., 158.33086894,
       202.50790776, 131.14069199])

In [27]:
r2_score(y_test,melhor_pred)

0.07702007825392554

### Grid Search

In [28]:
# Criar a grade de parâmetros baseado nos resultados do random search
param_grade = {
    'bootstrap': [True],
    'max_depth': [30, 40, 50, 80, 100, 110],
    'max_features': [2, 3],
    'min_samples_leaf': [3, 4, 5],
    'min_samples_split': [4, 10, 12],
    'n_estimators': [200, 500, 1000, 2000]
}

random_forest = RandomForestRegressor(random_state = 42)

# Instantiate the grid search model
procura_grade = GridSearchCV(estimator = random_forest, param_grid = param_grade, 
                          cv = 3, n_jobs = -1, verbose = 2, return_train_score=True)

In [29]:
procura_grade.fit(x_train, y_train)

Fitting 3 folds for each of 432 candidates, totalling 1296 fits
[Parallel(n_jobs=-1)]: Using backend LokyBackend with 8 concurrent workers.
[Parallel(n_jobs=-1)]: Done  25 tasks      | elapsed:   23.7s
[Parallel(n_jobs=-1)]: Done 146 tasks      | elapsed:  2.9min
[Parallel(n_jobs=-1)]: Done 349 tasks      | elapsed:  7.0min
[Parallel(n_jobs=-1)]: Done 632 tasks      | elapsed: 12.8min
[Parallel(n_jobs=-1)]: Done 997 tasks      | elapsed: 20.1min
[Parallel(n_jobs=-1)]: Done 1296 out of 1296 | elapsed: 26.3min finished


GridSearchCV(cv=3, estimator=RandomForestRegressor(random_state=42), n_jobs=-1,
             param_grid={'bootstrap': [True],
                         'max_depth': [30, 40, 50, 80, 100, 110],
                         'max_features': [2, 3], 'min_samples_leaf': [3, 4, 5],
                         'min_samples_split': [4, 10, 12],
                         'n_estimators': [200, 500, 1000, 2000]},
             return_train_score=True, verbose=2)

In [30]:
procura_grade.best_params_

{'bootstrap': True,
 'max_depth': 30,
 'max_features': 2,
 'min_samples_leaf': 4,
 'min_samples_split': 12,
 'n_estimators': 500}

In [31]:
novo_melhor = procura_grade.best_estimator_
novo_accuracy = evaluate(novo_melhor, x_test, y_test)

Model Performance
Average Error: 293.7833 degrees.
Accuracy = -inf%.


---
---
# Conclusão

## Objetivo do projeto

O objetivo do projeto era criar um modelo que conseguisse predizer o número de pessoas que iriam cometer suicídios em dado ano levando em conta a sua idade, geração, sexo, e a classificação econômica de seu país naquele ano.

---

## Resultados

A criação do modelo preditivo foi feita através de dois métodos, uma sendo a regressão múltipla, e a outra sendo o random forest regression.

Em ambos os modelos foram obtidos resultados insatisfatórios, obtendo um R2 score e uma acurácia muito baixa. 

Os resultados ruins podem ser justificados por vários motivos, sendo uma destas, a ausência de relação entre as varáveis e o nosso target. Pode ser que não havia uma relação entre, por exemplo, a geração da pessoa com o número de pessoas a cometer suicídio em um ano.


O modelo criado através da regressão múltipla pode não ter dado certo por causa da extensa quantidade de variáveis que o modelo teria que levar em conta.

O uso do random forest regression resultou em um aumento na performance do modelo, mas mesmo assim, o R2 score não conseguiu ultrapassar de 0,1.
Apesar de ter realizado o Hyperparameter Tuning para encontrar os melhores parâmetros para o modelo preditivo utilizando o random forest regression, o resultado R2 continuava abaixo de 0,1. 

---

## Melhorias
Para as próximas iterações, deverá ser verificado se há uma correlação entre todas as variáveis que serão estudadas. Não somente isso, mas também é essencial a obtenção de um dataset mais detalhado, que apresente informações ao nível individual, com o objetivo de filtrar casos independentes ou casos em que a pessoa sofre algum tipo de doença crônica ou mental. Outra sugestão seria, ao invés de utilizar do PIB (Produto Interno Bruto) do país, um outro possível indicador seria o FIB (Felicidade Interna Bruta), um novo indicador da ONU que complementa o PIB para medir o desenvolvimento de uma nação.

# Bibliografia

_links utilizados:_

- https://www.dataquest.io/blog/tutorial-add-column-pandas-dataframe-based-on-if-else-condition/
- https://www.imf.org/en/Publications/WEO/weo-database/2021/April/weo-report?c=512,914,612,614,311,213,911,314,193,122,912,313,419,513,316,913,124,339,638,514,218,963,616,223,516,918,748,618,624,522,622,156,626,628,228,924,233,632,636,634,238,662,960,423,935,128,611,321,243,248,469,253,642,643,939,734,644,819,172,132,646,648,915,134,652,174,328,258,656,654,336,263,268,532,944,176,534,536,429,433,178,436,136,343,158,439,916,664,826,542,967,443,917,544,941,446,666,668,672,946,137,546,674,676,548,556,678,181,867,682,684,273,868,921,948,943,686,688,518,728,836,558,138,196,278,692,694,962,142,449,564,565,283,853,288,293,566,964,182,359,453,968,922,714,862,135,716,456,722,942,718,724,576,936,961,813,726,199,733,184,524,361,362,364,732,366,144,146,463,528,923,738,578,537,742,866,369,744,186,925,869,746,926,466,112,111,298,927,846,299,582,487,474,754,698,&s=NGDPD,PPPGDP,NGDPDPC,PPPPC,&sy=2010&ey=2021&ssm=0&scsm=1&scc=0&ssd=1&ssc=0&sic=1&sort=subject&ds=.&br=1
- https://www.w3schools.com/python/python_ml_multiple_regression.asp
- https://towardsdatascience.com/the-dummys-guide-to-creating-dummy-variables-f21faddb1d40
- https://towardsdatascience.com/hyperparameter-tuning-the-random-forest-in-python-using-scikit-learn-28d2aa77dd74