## PREDICT PRISON POPULATION WITH EDUCATION AND POVERTY DATA

Equipe :
    * Jéssica Villar - 1613176
    * Fernando Tancini - 1711799
    * Andrea Mourelo - 1820000

# Considerações iniciais

A ideia deste trabalho é criar um modelo de regressao linear que permita, através dos dados de probreza e educaçao disponiveis em : http://hdr.undp.org/en/data, prever população carcerária de cada país.

Cabe destacar que as colunas do dataset nao tem sempre o mesmo numero de respostas. Além disso, a coluna '9999' agrupa em geral o ultimo resultado dado por um pais no indicador em questao, o que afeta os resultados pois nem sempre esses resultados foram iguais no tempo. 

Durante este trabalho, fizemos o seguinte:
* Preparar os dados para analise (veja-se T1.1 para comprensao das etapas)
* Criamos varios modelos de regressao linear com features diferentes, sempre usando os dados mais 'recentes' (coluna 9999)
* Depois, criamos varios modelos usando uma média dos dados das colunas onde tinha resultados.

# Set Up

In [None]:
import numpy as np
import pandas as pd

# plotting libraries
import matplotlib.pyplot as plt
import seaborn as sns

# machine learning libraries and functions
import sklearn as sk
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_squared_error, r2_score, mean_absolute_error

In [None]:
# Set a seed value: 
seed_value= 12321  
# 1. Set PYTHONHASHSEED environment variable at a fixed value: 
import os
os.environ['PYTHONHASHSEED']=str(seed_value) 
# 2. Set python built-in pseudo-random generator at a fixed value:
import random
random.seed(seed_value) 
# 3. Set numpy pseudo-random generator at a fixed value:
np.random.seed(seed_value) 

## Preparaçao dos dados

In [None]:
# Dados incompletos coletados do site http://hdr.undp.org/en/content/developing-regions  (menu esquerda 'Download DB 2018')
filename = 'Dados/HDR_2018_all_indicators.xlsx'
file_with_sheets = pd.ExcelFile(filename)
first_data = pd.read_excel(file_with_sheets, 'Data')
sheet_9999 = pd.read_excel(file_with_sheets, '9999') # para verificar os significados da coluna 9999

# Dados coletados a partir de outra fonte para categorizar os países por região e tipo de renda
metadata_filename = 'Dados/HDR_2018_country_metadata.xlsx'
country_metadata = pd.read_excel(metadata_filename)

# Fazemos merge para poder categorizar os dados por região e tipo de renda
data = pd.merge(left=first_data, right=country_metadata, how='left', left_on='iso3', right_on='Code')

# Evitamos redundâncias
data.drop('Code', axis=1, inplace=True) # 1 is the axis number (0 for rows and 1 for columns) & inplace to not have to reassign a new df

# Mudando o nome de algumas colunas
data.rename(columns={'dimension':'category','iso3':'code','Long Name':'long_name','Income Group':'income_group','Region':'region'},inplace=True)

# Criamos uma linha por pais, indicador e ano
data_per_year = pd.melt(frame=data, id_vars=['category','indicator_id','indicator_name','code', 'country_name','long_name','income_group','region'], var_name = 'year')

data_per_year.drop('indicator_id', axis=1, inplace=True)
data_per_year.drop('long_name', axis=1, inplace=True)

# Depois desse comando, vamos ter um MultiIndex com uma linha por pais e ano e todos os indicadores em colunas
data_tidy = data_per_year.pivot_table(index=['code', 'country_name','income_group','region','year'],
                                     columns = 'indicator_name', values = 'value')

# Isso vai permitir voltar a um DataFrame normal
data_tidy.reset_index(inplace=True)

# Lidando com dados reais (Abordagem 1)#
Como os países não tiveram pesquisas nos mesmos anos, nossa fonte de dados agrupou alguns anos (ou um ano) na coluna 9999. 

Nessa primeira abordagem, iremos usar os dados da coluna 9999 de cada país e checar os resultados.

In [None]:
# Função para visualizar os agrupamentos do ano 9999
def get9999Meaning (categories):
    indicators = data[data.category.isin(categories)].indicator_name.unique()
    return sheet_9999[sheet_9999.indicator_name.isin(indicators)]

In [None]:
# Dados de pobreza
get9999Meaning(['Poverty'])

In [None]:
# Dados de Educação
get9999Meaning(['Education'])

In [None]:
# Dados de pobreza
sheet_9999[sheet_9999.indicator_name.isin(['Prison population (per 100,000 people)'])]

In [None]:
# Função para criar um df com dados de uma ou mais categorias

data = data[data.indicator_name != 'MPI 2018: Year of MPI'] # Jogamos fora essa categoria pois nao tem dado nenhum

def data_categorias(categorias):  # categorias sendo uma lista
    indicators = data[data.category.isin(categorias)].indicator_name.unique()
    other_columns = np.array(['country_name','income_group','region', 'year'])
    columns_to_return = np.concatenate((other_columns,indicators))
    return data_tidy[columns_to_return]

In [None]:
# Extraindo dados para regressao

# Dados pobreza
data_poverty_allyears = data_categorias(['Poverty'])
data_poverty = data_poverty_allyears[data_poverty_allyears.year == 9999]

# Dados educacao
data_education_allyears = data_categorias(['Education'])
data_education = data_education_allyears[data_education_allyears.year == 9999]

# Dados prisao
data_prison_allyears = data_tidy[['country_name','income_group','region','year','Prison population (per 100,000 people)']]
data_prison = data_prison_allyears[data_prison_allyears.year == 9999] # Dados estao no ano 9999

# Modificando indexes poverty

data_poverty.drop(['year','income_group','region'],axis=1, inplace=True)
data_poverty.reset_index(drop=True,inplace=True)

data_education.drop(['year','income_group','region'],axis=1, inplace=True)
data_education.reset_index(drop=True,inplace=True)

data_prison.drop(['year'],axis=1, inplace=True)
data_prison.reset_index(drop=True,inplace=True)

In [None]:
data_between = pd.merge(left=data_prison, right=data_education, how='inner', left_on='country_name', right_on='country_name')
data = pd.merge(left=data_between, right=data_poverty, how='inner', left_on='country_name', right_on='country_name')
data

In [None]:
# Modificando nomes das colunas para que estejam mais compactadas

# Jogamos fora as partes de (% of ...)
new_cols = []
for element in data.columns:
    if '(%' in element : 
        element = element.split(' (%')[0]
    if '(years)' in element : 
        element = element.split(' (years)')[0]
    new_cols.append(element)
data.columns = new_cols

# Modificando alguns na mão
data.rename(columns={'Prison population (per 100,000 people)':'Prison population'},inplace=True)

data

In [None]:
print(data_education.shape, data_poverty.shape, data.shape)
# Temos bem 195 linhas (paises) e 40 colunas (2 de descripcao do pais + 1 de prison + 24 de education + 13 de poverty)
# O indice nao conta na contagem de colunas

In [None]:
data.info()

Todas as colunas estao em float, OK!

In [None]:
data.describe()

## Algoritmos usados

In [None]:
def regressaoLinear(data,colunaX,colunaY,test_size):
    dfTrain, dfTest = train_test_split(data, test_size=test_size,  random_state = seed_value)
    X_train = dfTrain[colunaX][:, np.newaxis]
    y_train = dfTrain[colunaY]

    X_test = dfTest[colunaX][:, np.newaxis]
    y_test = dfTest[colunaY]

    # Create linear regression object
    regr = sk.linear_model.LinearRegression()

    # Train the model using the training sets
    regr.fit(X_train, y_train)

    # Make predictions using the testing set
    y_pred = regr.predict(X_test)

    # The coefficients
    print('Coefficients:     ', regr.coef_)
    print('Intercept:        ', regr.intercept_)

    # The mean squared error (MSE)
    print('Mean squared error: %.2f' % mean_squared_error(y_test, y_pred))

    # Explained variance score: 1 is perfect prediction
    print('Variance score:     %.2f' % r2_score(y_test, y_pred))

    # Plot outputs
    plt.scatter(X_test, y_test, alpha=0.3)
    plt.plot(X_test, y_pred, color='k', linewidth=3)

    # plt.xticks(())
    # plt.yticks(())

    plt.xlabel(colunaX)
    plt.ylabel('Prison population')
    title = 'Prison population x ' + colunaX
    plt.title(title)

    plt.show()
    return regr

In [None]:
# Modelo
def modeloRegressao(data,predictors):
    # Separacao em grupos de teste e de treino
    dfTrain, dfTest = train_test_split(data, test_size=0.1, random_state = seed_value)

    X_train = np.array(dfTrain[predictors])
    y_train = np.array(dfTrain[prison])

    X_test = np.array(dfTest[predictors])
    y_test = np.array(dfTest[prison])

    # Create linear regression object
    regr = sk.linear_model.LinearRegression(normalize=True)

    # Train the model using the training sets
    regr.fit(X_train, y_train)

    # Make predictions using the testing set
    y_pred = regr.predict(X_test)

    # Dados preditos
    df_predicted = pd.DataFrame(data = y_test)
    df_predicted['pred'] = y_pred
    df_predicted.columns = ['test','pred']
    print(df_predicted)

    # The coefficients
    print('Coefficients:     ', regr.coef_)
    print('Intercept:        ', regr.intercept_)

    # The mean squared error (MSE)
    print('Mean Absolute Error: %.2f'% mean_absolute_error(y_test, y_pred))  
    print('Mean Squared Error: %.2f'% mean_squared_error(y_test, y_pred))  
    print('Root Mean Squared Error: %.2f' % np.sqrt(mean_squared_error(y_test, y_pred)) + ' # Mean of Population Prison is 165.33')
    print('Root Mean Squared Error in Percentage: %.2f' % (100*np.sqrt(mean_squared_error(y_test, y_pred))/165.33))

    # Explained variance score: 1 is perfect prediction
    print('Variance score:     %.2f' % r2_score(y_test, y_pred))

    # R^2 (coefficient of determination) regression score function.
    # Best possible score is 1.0 and it can be negative (because the model can be arbitrarily worse). 

    # A constant model that always predicts the expected value of y, disregarding the input features, 
    # would get a R^2 score of 0.0.

    # considering only the mean values of y_train
    print('Variance score (baseline): %.2f' % r2_score(y_test, [np.mean(y_train) for i in range(len(y_test))]))
    return regr

## Analise (1 variavel)

Vamos plotar alguns dados para ver se parece existir correlaçao

## Education

In [None]:
fig, ((ax1,ax2,ax3,ax4),(ax5,ax6,ax7,ax8)) = plt.subplots(nrows=2, ncols=4, figsize=(20,8))
x1 = data['Expected years of schooling']
x2 = data['Government expenditure on education']
x3 = data['Literacy rate, adult']
x4 = data['Mean years of schooling']
x5 = data['Population with at least some secondary education']
x6 = data['Primary school dropout rate']
x7 = data['Pupil-teacher ratio, primary school (pupils per teacher)']
x8 = data['Survival rate to the last grade of lower secondary general education']
y = data['Prison population']

ax1.scatter(x1, y)
ax1.set(xlabel='Expected years of schooling', ylabel='Prison population')
ax2.scatter(x2, y)
ax2.set(xlabel='Government expenditure on education', ylabel='Prison population')
ax3.scatter(x3, y)
ax3.set(xlabel='Literacy rate, adult', ylabel='Prison population')
ax4.scatter(x4, y)
ax4.set(xlabel='Mean years of schooling', ylabel='Prison population')
ax5.scatter(x5, y)
ax5.set(xlabel='Population with at least some secondary education', ylabel='Prison population')
ax6.scatter(x6, y)
ax6.set(xlabel='Primary school dropout rate', ylabel='Prison population')
ax7.scatter(x7, y)
ax7.set(xlabel='Pupil-teacher ratio, primary school (pupils per teacher)', ylabel='Prison population')
ax8.scatter(x8, y)
ax8.set(xlabel='Survival rate to the last grade\n of lower secondary general education', ylabel='Prison population')


Poderia ter uma regressao em :
* Literacy rate, adult 
* Mean years of schooling

### Literacy rate adult x Prison population

In [None]:
data_literacy = data[['Prison population', 'Literacy rate, adult']].dropna()
coluna = 'Literacy rate, adult'
regr1 = regressaoLinear(data_literacy,coluna,'Prison population', 0.2)

=> Bastante ruim

### Mean years of schooling x Prison population

In [None]:
data_schooling = data[['Prison population', 'Mean years of schooling']].dropna()
coluna = 'Mean years of schooling'
regr2 = regressaoLinear(data_schooling,coluna,'Prison population', 0.2)

=> Ainda pior...

## Poverty

In [None]:
fig, ((ax1,ax2,ax3),(ax4,ax5,ax6)) = plt.subplots(nrows=2, ncols=3, figsize=(20,8))
x1 = data['Population in multidimensional poverty, headcount']
x2 = data['Population in severe multidimensional poverty']
x3 = data['Population living below income poverty line, national poverty line']
x4 = data['Population living below income poverty line, PPP $1.90 a day']
x5 = data['Population vulnerable to multidimensional poverty']
x6 = data['Working poor at PPP$3.10 a day']
y = data['Prison population']

ax1.scatter(x1, y)
ax1.set(xlabel='Population in multidimensional poverty, headcount', ylabel='Prison population')
ax2.scatter(x2, y)
ax2.set(xlabel='Population in severe multidimensional poverty', ylabel='Prison population')
ax3.scatter(x3, y)
ax3.set(xlabel='Population living below income poverty line, national poverty line', ylabel='Prison population')
ax4.scatter(x4, y)
ax4.set(xlabel='Population living below income poverty line, PPP $1.90 a day', ylabel='Prison population')
ax5.scatter(x5, y)
ax5.set(xlabel='Population vulnerable to multidimensional poverty', ylabel='Prison population')
ax6.scatter(x6, y)
ax6.set(xlabel='Working poor at PPP$3.10 a day', ylabel='Prison population')


Poderia ter uma regressao em :
* Population living below income poverty line, PPP $1.90 a day

(nao muito, mas...por tentar...)

In [None]:
data_povertyline = data[['Prison population', 'Population living below income poverty line, PPP $1.90 a day']].dropna()
coluna = 'Population living below income poverty line, PPP $1.90 a day'
regr3 = regressaoLinear(data_povertyline,coluna,'Prison population', 0.2)

=> Ruim também...

## Modelo 1
### Features 'Education Index' e 'Multidimensional poverty index (MPI)'

In [None]:
# Dados que usaremos
columns = ['Prison population', 'Education index', 'Multidimensional poverty index (MPI)']
prison = [columns[0]]
predictors = columns[1:]
data_model1 = data[['country_name', 'income_group'] + columns]
data_model1 = data_model1.dropna()  # Da # 102 linhas somente
data_model1

In [None]:
model1 = modeloRegressao(data_model1,predictors)

Variance score muito perto de 0 => ruim, né ?

In [None]:
sns.set(style="ticks")
sns.pairplot(data_model1, hue='income_group')

#### Parece que nao tem correlaçao entre esses dois indicadores e o indicador de 'Prison population'

## Modelo 2
### Features 'Education Index', 'Multidimensional poverty index (MPI)' e 'Literacy rate, adult'

In [None]:
# Dados que usaremos
columns = ['Prison population', 'Education index', 'Multidimensional poverty index (MPI)', 'Literacy rate, adult']
prison = [columns[0]]
predictors = columns[1:]
data_model2 = data[['country_name', 'income_group'] + columns]
data_model2 = data_model2.dropna()  # Da # 102 linhas somente
data_model2

In [None]:
model2 = modeloRegressao(data_model2,predictors)

=> Parece que o modelo melhora (variance score aumentou), mesmo que o fator de 'Literacy rate, adult' nao tenha um peso (coeficiente) muito elevado

In [None]:
sns.set(style="ticks")
sns.pairplot(data_model2, hue='income_group')

## Modelo 3
### Features 'Education Index', 'Multidimensional poverty index (MPI)', 'Literacy rate, adult' e 'Population living below income poverty line, PPP $1.90 a day'

In [None]:
# Dados que usaremos
columns = ['Prison population', 'Education index', 'Multidimensional poverty index (MPI)',
           'Literacy rate, adult', 'Population living below income poverty line, PPP $1.90 a day']
prison = [columns[0]]
predictors = columns[1:]
data_model3 = data[['country_name', 'income_group'] + columns]
data_model3 = data_model3.dropna()  # Da # 102 linhas somente
model3 = modeloRegressao(data_model3,predictors)

=> Aumentando o numero de features, diminuiu muito a qualidade do modelo

Vamos trocar os indicadores para ver se obtemos um melhor modelo

## Modelo 4
### Features 'Mean years of schooling', 'Primary school dropout rate' e 'Population in severe multidimensional poverty'

In [None]:
# Dados que usaremos
columns = ['Prison population', 'Mean years of schooling', 'Primary school dropout rate',
           'Population in severe multidimensional poverty']
prison = [columns[0]]
predictors = columns[1:]
data_model4 = data[['country_name', 'income_group'] + columns]
data_model4 = data_model4.dropna()  # Da # 102 linhas somente
model4 = modeloRegressao(data_model4,predictors)

=> Nao obtemos um modelo muito bom, mas vemos que o indicador de 'Mean years of schooling' tem um peso maior do que os outros

In [None]:
sns.set(style="ticks")
sns.pairplot(data_model4, hue='income_group')

### Evaluating Model 4 with Cross Validation

In [None]:
from sklearn.model_selection import cross_val_score, cross_val_predict
import sklearn.metrics

predictors = ['Mean years of schooling', 'Primary school dropout rate',
           'Population in severe multidimensional poverty']

X = data_model4[predictors]
y = data_model4['Prison population']
N_FOLDS = 5

scores = cross_val_score(model4, X, y, cv = N_FOLDS)
predicted = cross_val_predict(model4, X, y, cv = N_FOLDS)
sklearn.metrics.r2_score(y, predicted) 

print ('Cross-validated scores:', scores)


=> Seguem sendo valores nao muito altos (< 0.5)

## Modelo 5 - Ridge Regression com as features do modelo 4 

In [None]:
# Dados que usaremos
data_model5 = data_model4

dfTrain, dfTest = train_test_split(data_model5, test_size=0.1, random_state = seed_value)

X_train = np.array(dfTrain[predictors])
y_train = np.array(dfTrain[prison])

X_test = np.array(dfTest[predictors])
y_test = np.array(dfTest[prison])

# Create linear regression object
regr = sk.linear_model.Ridge(normalize=True, alpha=0.8)

# Train the model using the training sets
regr.fit(X_train, y_train)

# Make predictions using the testing set
y_pred = regr.predict(X_test)

print('Predictors:       ', predictors)

# The coefficients
print('Coefficients:     ', regr.coef_)
print('Intercept:        ', regr.intercept_)

# The mean squared error (MSE)
print('Mean squared error: %.2f' % mean_squared_error(y_test, y_pred))

# Explained variance score: 1 is perfect prediction
print('Variance score:     %.2f' % r2_score(y_test, y_pred))

=> Diminui a variance score ao penalizar as features

## Modelo 6 - Lasso Regression com as features do modelo 4 

In [None]:
# Dados que usaremos
data_model6 = data_model4

dfTrain, dfTest = train_test_split(data_model6, test_size=0.1, random_state = seed_value)

X_train = np.array(dfTrain[predictors])
y_train = np.array(dfTrain[prison])

X_test = np.array(dfTest[predictors])
y_test = np.array(dfTest[prison])

# Create linear regression object
regr = sk.linear_model.Lasso(normalize=True)

# Train the model using the training sets
regr.fit(X_train, y_train)

# Make predictions using the testing set
y_pred = regr.predict(X_test)

print('Predictors:       ', predictors)

# The coefficients
print('Coefficients:     ', regr.coef_)
print('Intercept:        ', regr.intercept_)

# The mean squared error (MSE)
print('Mean squared error: %.2f' % mean_squared_error(y_test, y_pred))

# Explained variance score: 1 is perfect prediction
print('Variance score:     %.2f' % r2_score(y_test, y_pred))

# Feature selection

Vamos tentar seleccionar as nossas features através de bibliotecas que nos ajudam a ver as correlaçoes entre variaveis

In [None]:
from sklearn.model_selection import train_test_split
from sklearn import neighbors
from sklearn import tree
from sklearn import svm
from sklearn import metrics

# Calculando a matriz de correlação
corr = data.corr()

sns.set(font_scale=1.5)
#print(corr)
# Analisando as correlações de 'status' com as outras variáveis
c = corr['Prison population'].drop('Prison population')
c.plot(kind='barh', title = 'Correlação com Prison Population', figsize = (14,10), color = '#5499C7', grid = True)

As variaveis com mais correlaçao positiva com o indicador 'Prison population' parecem ser:
* 'Literacy rate, adult'
* 'MPI 2018: Contribution of Health'

As variaveis com mais correlaçao negativa com o indicador 'Prison population' parecem ser:
* 'Population in multidimensional poverty, headcount'
* 'Population in multidimensional poverty, intensity of deprivation'
* 'Multidimensional poverty index (MPI)'
* 'Working poor at PPP$3.10 a day'

## Modelo 7
### Features com correlaçao positiva

In [None]:
# Dados que usaremos
columns = ['Prison population', 'Literacy rate, adult', 'MPI 2018: Contribution of Health']
prison = [columns[0]]
predictors = columns[1:]
data_model7 = data[['country_name', 'income_group'] + columns]
data_model7 = data_model7.dropna()  # Da # 102 linhas somente
model7 = modeloRegressao(data_model7,predictors)

## Modelo 8
### Features com correlaçao negativa

In [None]:
# Dados que usaremos
columns = ['Prison population','Population in multidimensional poverty, headcount'
           ,'Population in multidimensional poverty, intensity of deprivation',
           'Multidimensional poverty index (MPI)',
           'Working poor at PPP$3.10 a day']
prison = [columns[0]]
predictors = columns[1:]
data_model8 = data[['country_name', 'income_group'] + columns]
data_model8 = data_model8.dropna()  # Da # 102 linhas somente
model8 = modeloRegressao(data_model8,predictors)

## Modelo 9
### Features com correlaçao positiva e negativa

In [None]:
# Dados que usaremos
columns = ['Prison population','Literacy rate, adult', 'MPI 2018: Contribution of Health',
           'Population in multidimensional poverty, headcount'
           ,'Population in multidimensional poverty, intensity of deprivation',
           'Multidimensional poverty index (MPI)',
           'Working poor at PPP$3.10 a day']
prison = [columns[0]]
predictors = columns[1:]
data_model9 = data[['country_name', 'income_group'] + columns]
data_model9 = data_model9.dropna()  # Da # 102 linhas somente
model9 = modeloRegressao(data_model9,predictors)

Parece ser o melhor modelo em quanto ao variance score

# Lidando com dados reais (Abordagem 2)#
Percebemos que os dados, do jeito que foram agrupados não geram resultados satisfatórios de análise quando usamos a primeira abordagem acima. Vamos então trabalhar com outra abordagem agora para verificar se encontramos resultados melhores.

Obs: observando os nossos dados, percebemos que o indicador de prison population só tem dados na coluna 9999. Mas há indicadores de educação e/ou pobreza que possuem dados em mais de um ano e pode-se obervar que a coluna 9999 muitas vezes é apenas uma repetição do ano mais recente. Ou seja, Se nós pegarmos um indicador desses que tenha dados em mais de um ano e fizermos a média dele para usar nos modelos de regressão, vamos encontrar resultados diferentes...
Vamos checar se serão mais coerentes ou não!


In [None]:
def meanIndicatorXPrisonPopulation(col):
    data_education = data_tidy[['country_name', 'year', col]]
    data_education = data_education.groupby(['country_name'])
    data_education = data_education.mean().drop(columns=['year'])

    prison_data = data_tidy[['country_name', 'year', 'Prison population (per 100,000 people)']]
    prison_data = prison_data[prison_data.year == 9999]
    prison_data = prison_data.drop(columns=['year'])

    data_to_use = pd.merge(left=data_education, right=prison_data, how='left', left_on='country_name', right_on='country_name')
    data_to_use = data_to_use.dropna()
    return data_to_use

In [None]:
myData = meanIndicatorXPrisonPopulation('Expected years of schooling (years)')
colunaX = 'Expected years of schooling (years)'
colunaY = 'Prison population (per 100,000 people)'
regressaoLinear(myData,colunaX,colunaY,0.2)

In [None]:
myData = meanIndicatorXPrisonPopulation('Working poor at PPP$3.10 a day (% of total employment)')
colunaX = 'Working poor at PPP$3.10 a day (% of total employment)'
colunaY = 'Prison population (per 100,000 people)'
regressaoLinear(myData,colunaX,colunaY,0.2)

Percebe-se que os resultados dessa segunda abordagem não apresentaram uma melhora significativa em relação à coerência das conclusões.
Por isso, podemos abortar essa segunda abordagem e manter as análises com base no que foi encontrado usando a primeira abordagem.
O dataset não parece muito confiável para se tirar conclusões acerca do assunto. Pois, ao que tudo indica, as tendências analisadas neste DataSet são tão absurdas quanto a ideia que, quanto mais as pessoas frêquentam escolas, mais população carcerária há num país.

Observação: mesmo havendo a possibilidade deste DataSet pecar nos quesitos qualidade e organização, não podemos descartar a hipótese dos dados terem sido relacionados corretamente. Nesse caso, talvez seja verdade que nos paises em que mais se frequênta a escola há menos presos. Porêm, isso não nescessariamente significa que, se um país escolarizado acabar com todas escolas de seu país,a população carcerária vai decrescer. Talvez essa relação entre escolaridade e presos esteja relacionada a pobreza do país e sua capacidade de prender criminosos também (apenas uma hipótese).

Conclusão: cabe aos cientistas de dados sempre cogitar esse tipo de possibilidade e não concluir ou vender uma concluão acerca de um assunto tão complexo como esse apenas com base num DataSet assim. Afinal de contas, é bastante grande a autoridade que a sociedade dá a uma pesquisa de Data Science, pricipalmente quando colocada em gráficos e regreções lineares... Logo, deve-se ter cuidado e responsabilidade ao tentar chegar em certas conclusões.
Por isso, nossa resposta final ao desafio que foi proposto é: as análises alcançadas a partir desses dados utilizados são inconclusivas.