# MC886 - Machine Learning

## Project 4 - Sustainable Development Goal - Education

André Soranzzo Mota RA: 166404 \
Diego André Pedro RA: 166542 \
Gabriel Akahoshi Collado RA: 197141 \
Rebecca Moreira Messias RA: 186416

## I - Ideia do Projeto e Conjunto de Dados

Para este projeto, nós decidimos desenvolver uma solução a fim de melhor a qualidade da educação no Brasil. Para determinar os fatores que compõe essa qualidade, nós pesquisamos dados do IBGE para as medidas quantitativas, e nisso encontramos uma infinidade de valores.
Para lidar com os valores de medição da educação, optamos por dividir os dados em grupos, baseado em sua semelhança, que constituiria na seguinte pontuação:

- **Governança:** grupo formado por valores que medem a competência do governo em prover recursos e tomar decisões voltadas para a melhoria geral do sistema educacional brasileiro. \
- **Inserção Populacional:** Valores que abrangem o envolvimento populacional e intenção de aprendizagem direta no ambiente educacional, incluindo evasão escolar do aluno e frequência das aulas. \
- **Capacitação Educacional:** Neste grupo colocamos valores que medem a eficácia do sistema educacional atual, em termos de combate ao analfabetismo e formação da população.

O cálculo dos scores baseou-se na escala dos próprios valores. Uma vez que nossos valores usados foram todos em formato de porcentagem, a soma desses valores daria uma pontuação cumulativa ao longo dos anos avaliados (de 2000 a 2020), contribuindo positiva ou negativamente com base no fato de ter sido uma melhoria ou não para o sistema educacional. \
A princípio, decidimos apontar nossa solução para medir a conclusão do ensino fundamental e médio e a taxa de analfabetismo de adolescentes e adultos, pois são pontos retratados no artigo da ONU a respeito do objetivo do nosso projeto.

As bibliotecas utilizadas foram:
- **numpy**: manipular arrays
- **pandas**: manipular os dados
- **matplotlib**: plotar os gráficos
- **math**: cálculo de operações matemáticas

In [1]:
import numpy as np
import pandas as pd
import math

Todos os dados pesquisados foram inseridos na tabela *features.csv* e abreviações e siglas foram utilizadas nos nomes das colunas. Segue abaixo a legenda para cada sigla:
- Partido_Pres = Partido do Presidente
- Min_Educacao = Ministro da Educação
- Partido_Min = Partido do Ministro da Educação
- Pop_Total = População Total
- TFEB = Taxa de Frequência Escolar Bruta. \
Exemplo 1: TFEB_0_3 = Taxa de Frequência Escolar Bruta de 0 a 3 anos. \
Exemplo 2: TFEB_25_Mais = Taxa de Frequência Escolar Bruta de 25 anos ou mais.
- NI25M = Nível de Instrução de pessoas com 25 anos ou mais \
- Sem = Sem instrução
- En_Fun = Ensino Fundamental
- En_Med = Ensino Médio
- En_Sup = Ensino Superior
- In = Incompleto
- Com = Completo
- TA15M = Taxa de Analfabetismo de pessoas com 15 anos ou mais
- Ger = Geral
- Urb = Urbano
- Rur = Rural
- H = Homem
- M = Mulher
- Bra = Brancos
- Pre_Par = Pretos ou pardos
- GI = Grupos de idade
Exemplo 1: TA15M_GI_15_19 = Taxa de Analfabetismo de pessoas do grupo de idade entre 15 a 19 anos.
Exemplo 2: TA15M_GI_65_M = Taxa de Analfabetismo de pessoas do grupo de idade de 65 anos ou mais.
- IPDPE = Investimento Público Direto por Estudante
- TodosNiveis = Todos os níveis de ensino
- EB = Educação Básica
- EI = Educação Infantil
Exemplo 1: IPDPE_1_4_Serie = Investimento Público Direto por Estudante de 1ª a 4ª Séries ou Anos Iniciais
- IPDPE_Prop_ES_Sobre_EB = Proporção da Educação Superior sobre a Educação Básica (Estudante)
- TRE = Taxa de Rendimento Escolar
- TAP = Taxa de Aprovação
- TRE = Taxa de Reprovação
- TAB = Taxa de Abandono

In [2]:
df = pd.read_csv('features.csv', encoding='latin-1')
df

Unnamed: 0,Ano,Presidente,Partido_Pres,Min_Educacao,Partido_Min,Pop_Total,Desemprego,TFEB_Total,TFEB_0_3,TFEB_4_5,...,IPDPE_5_8_Series,IPDPE_EM,IPDPE_ES,IPDPE_Prop_ES_Sobre_EB,TRE_TAP_EF,TRE_TAP_EM,TRE_TRE_EF,TRE_TRE_EM,TRE_TAB_EF,TRE_TAB_EM
0,2000,Fernando Henrique Cardoso,PSDB,Paulo Renato Souza,PSDB,,,,,,...,2367.0,2274.0,25845.0,11.0,,,,,,
1,2001,Fernando Henrique Cardoso,PSDB,Paulo Renato Souza,PSDB,,,,,,...,2579.0,2557.0,25539.0,10.5,,,,,,
2,2002,Fernando Henrique Cardoso,PSDB,Paulo Renato Souza,PSDB,,,,,,...,2484.0,1723.0,23653.0,9.8,,,,,,
3,2003,Fernando Henrique Cardoso,PSDB,Cristovam Buarque,PT,,,,,,...,2395.0,1911.0,20669.0,8.6,,,,,,
4,2004,Luiz InÃ¡cio Lula da Silva,PT,Tarso Genro,PT,,,31.7,13.4,61.5,...,2670.0,1745.0,19567.0,7.6,78.7,73.3,13.0,10.4,8.3,16.0
5,2005,Luiz InÃ¡cio Lula da Silva,PT,Fernando Haddad,PT,,,31.2,13.0,62.8,...,2880.0,1850.0,21083.0,7.7,79.5,73.2,13.0,11.5,7.5,15.3
6,2006,Luiz InÃ¡cio Lula da Silva,PT,Fernando Haddad,PT,,,31.2,15.4,67.5,...,3785.0,2571.0,21826.0,6.6,,,,,,
7,2007,Luiz InÃ¡cio Lula da Silva,PT,Fernando Haddad,PT,,,30.7,17.0,70.0,...,4301.0,3119.0,23062.0,5.9,83.1,74.1,12.1,12.7,4.8,13.2
8,2008,Luiz InÃ¡cio Lula da Silva,PT,Fernando Haddad,PT,,,30.2,18.1,72.7,...,5007.0,3609.0,21317.0,4.8,83.8,74.9,11.8,12.3,4.4,12.8
9,2009,Luiz InÃ¡cio Lula da Silva,PT,Fernando Haddad,PT,,,29.8,18.4,74.8,...,5530.0,3805.0,23941.0,4.9,85.2,75.9,11.1,12.6,3.7,11.5


In [3]:
df['TDsp'] = (df['Desemprego']/df['Pop_Total']) * 100
df = df.drop(columns=['Desemprego', 'Pop_Total'])
old_df = df.copy()

In [4]:
print(df.columns[5:14])
print(df.columns[14:35])
print(df.columns[35:])

Index(['TFEB_Total', 'TFEB_0_3', 'TFEB_4_5', 'TFEB_6_10', 'TFEB_11_14',
       'TFEB_6_14', 'TFEB_15_17', 'TFEB_18_24', 'TFEB_25_Mais'],
      dtype='object')
Index(['NI25M_Sem', 'NI25M_En_Fun_In', 'NI25M_En_Fun_Com', 'NI25M_En_Med_In',
       'NI25M_En_Med_Com', 'NI25M_En_Sup_In ', 'NI25M_En_Sup_Com', 'TA15M_Ger',
       'TA15M_Urb', 'TA15M_Rur', 'TA15M_H', 'TA15M_M', 'TA15M_Bra',
       'TA15M_Pre_Par', 'TA15M_GI_15_19', 'TA15M_GI_20_24', 'TA15M_GI_25_34',
       'TA15M_GI_35_44', 'TA15M_GI_45_54', 'TA15M_GI_55_64', 'TA15M_GI_65_M'],
      dtype='object')
Index(['IPDPE_TodosNiveis', 'IPDPE_EB', 'IPDPE_EI', 'IPDPE_1_4_Serie',
       'IPDPE_5_8_Series', 'IPDPE_EM', 'IPDPE_ES', 'IPDPE_Prop_ES_Sobre_EB',
       'TRE_TAP_EF', 'TRE_TAP_EM', 'TRE_TRE_EF', 'TRE_TRE_EM', 'TRE_TAB_EF',
       'TRE_TAB_EM', 'TDsp'],
      dtype='object')


In [5]:
# Pesos por dado pro cálculo da métrica
IPDPE = 0.005
TRE = 1
w = {
    'TDsp': 10,
    'TFEB_Total': 1,
    'TFEB_0_3': 1,
    'TFEB_4_5': 1,
    'TFEB_6_10': 1,
    'TFEB_11_14': 1,
    'TFEB_6_14': 1,
    'TFEB_15_17': 1,
    'TFEB_18_24': 1,
    'TFEB_25_Mais': 1,
    'NI25M_Sem': 1,
    'NI25M_En_Fun_In': 1,
    'NI25M_En_Fun_Com': 1,
    'NI25M_En_Med_In': 1,
    'NI25M_En_Med_Com': 1,
    'NI25M_En_Sup_In ': 1,
    'NI25M_En_Sup_Com': 1,
    'TA15M_Ger': 1,
    'TA15M_Urb': 1,
    'TA15M_Rur': 1,
    'TA15M_H': 1,
    'TA15M_M': 1,
    'TA15M_Bra': 1,
    'TA15M_Pre_Par': 1,
    'TA15M_GI_15_19': 1,
    'TA15M_GI_20_24': 1,
    'TA15M_GI_25_34': 1,
    'TA15M_GI_35_44': 1,
    'TA15M_GI_45_54': 1,
    'TA15M_GI_55_64': 1,
    'TA15M_GI_65_M': 1,
    'IPDPE_TodosNiveis': IPDPE,
    'IPDPE_EB': IPDPE,
    'IPDPE_EI': IPDPE,
    'IPDPE_1_4_Serie': IPDPE,
    'IPDPE_5_8_Series': IPDPE,
    'IPDPE_EM': IPDPE,
    'IPDPE_ES': IPDPE,
    'IPDPE_Prop_ES_Sobre_EB': IPDPE,
    'TRE_TA_EF': TRE,
    'TRE_TA_EM': TRE,
    'TRE_TR_EF': TRE,
    'TRE_TR_EM': TRE,
    'TRE_TA_EF.1': TRE,
    'TRE_TA_EM.1': TRE,
}

In [6]:
means = df.mean(axis = 0, skipna = True)
means

Ano                        2010.000000
TFEB_Total                   28.806667
TFEB_0_3                     22.906667
TFEB_4_5                     78.693333
TFEB_6_10                    98.180000
TFEB_11_14                   97.953333
TFEB_6_14                    98.060000
TFEB_15_17                   84.680000
TFEB_18_24                   31.033333
TFEB_25_Mais                  4.720000
NI25M_Sem                     7.500000
NI25M_En_Fun_In              33.950000
NI25M_En_Fun_Com              8.800000
NI25M_En_Med_In               4.150000
NI25M_En_Med_Com             26.550000
NI25M_En_Sup_In               3.500000
NI25M_En_Sup_Com             15.500000
TA15M_Ger                     8.840000
TA15M_Urb                     6.646667
TA15M_Rur                    21.186667
TA15M_H                       9.080000
TA15M_M                       8.600000
TA15M_Bra                     5.360000
TA15M_Pre_Par                12.120000
TA15M_GI_15_19                1.286667
TA15M_GI_20_24           

In [7]:
from itertools import zip_longest

# Código 100% original, confia
# (brinks, https://codereview.stackexchange.com/questions/172113/best-way-to-get-nearest-non-zero-value-from-list)
def nearest_non_zero(lst, idx):
    if lst[idx] > 0:
        return lst[idx]
    before, after = lst[:idx], lst[idx+1:]
    for b_val, a_val in zip_longest(reversed(before), after, fillvalue=0):
        # N.B. I applied `reversed` inside `zip_longest` here. This
        # ensures that `before` and `after` are the same type, and that
        # `before + [lst[idx]] + after == lst`.
        if b_val > 0:
            return b_val
        if a_val > 0:
            return a_val
    else:
        return 0  # all zeroes in this list

In [8]:
# Procura valor não-nulo mais próximo
nearest_non_zero(df['TFEB_Total'], 0)
# Substitui valor nulo por não-nulo mais próximo
for column in df:
    dfObj = df[column]
    line = dfObj.values
    if not isinstance(line[0], str):
        for i in range(line.size):
            if math.isnan(line[i]):
                line[i] = nearest_non_zero(line, i)

In [9]:
df

Unnamed: 0,Ano,Presidente,Partido_Pres,Min_Educacao,Partido_Min,TFEB_Total,TFEB_0_3,TFEB_4_5,TFEB_6_10,TFEB_11_14,...,IPDPE_EM,IPDPE_ES,IPDPE_Prop_ES_Sobre_EB,TRE_TAP_EF,TRE_TAP_EM,TRE_TRE_EF,TRE_TRE_EM,TRE_TAB_EF,TRE_TAB_EM,TDsp
0,2000,Fernando Henrique Cardoso,PSDB,Paulo Renato Souza,PSDB,31.7,13.4,61.5,95.9,96.4,...,2274.0,25845.0,11.0,78.7,73.3,13.0,10.4,8.3,16.0,3.332829
1,2001,Fernando Henrique Cardoso,PSDB,Paulo Renato Souza,PSDB,31.7,13.4,61.5,95.9,96.4,...,2557.0,25539.0,10.5,78.7,73.3,13.0,10.4,8.3,16.0,3.332829
2,2002,Fernando Henrique Cardoso,PSDB,Paulo Renato Souza,PSDB,31.7,13.4,61.5,95.9,96.4,...,1723.0,23653.0,9.8,78.7,73.3,13.0,10.4,8.3,16.0,3.332829
3,2003,Fernando Henrique Cardoso,PSDB,Cristovam Buarque,PT,31.7,13.4,61.5,95.9,96.4,...,1911.0,20669.0,8.6,78.7,73.3,13.0,10.4,8.3,16.0,3.332829
4,2004,Luiz InÃ¡cio Lula da Silva,PT,Tarso Genro,PT,31.7,13.4,61.5,95.9,96.4,...,1745.0,19567.0,7.6,78.7,73.3,13.0,10.4,8.3,16.0,3.332829
5,2005,Luiz InÃ¡cio Lula da Silva,PT,Fernando Haddad,PT,31.2,13.0,62.8,96.4,96.7,...,1850.0,21083.0,7.7,79.5,73.2,13.0,11.5,7.5,15.3,3.332829
6,2006,Luiz InÃ¡cio Lula da Silva,PT,Fernando Haddad,PT,31.2,15.4,67.5,96.9,96.9,...,2571.0,21826.0,6.6,79.5,73.2,13.0,11.5,7.5,15.3,3.332829
7,2007,Luiz InÃ¡cio Lula da Silva,PT,Fernando Haddad,PT,30.7,17.0,70.0,97.0,97.0,...,3119.0,23062.0,5.9,83.1,74.1,12.1,12.7,4.8,13.2,3.332829
8,2008,Luiz InÃ¡cio Lula da Silva,PT,Fernando Haddad,PT,30.2,18.1,72.7,97.6,97.3,...,3609.0,21317.0,4.8,83.8,74.9,11.8,12.3,4.4,12.8,3.332829
9,2009,Luiz InÃ¡cio Lula da Silva,PT,Fernando Haddad,PT,29.8,18.4,74.8,97.7,97.5,...,3805.0,23941.0,4.9,85.2,75.9,11.1,12.6,3.7,11.5,3.332829


## II - Estratégia

Depois de compor nossas reportagens com base nas pontuações acima mencionadas, o próximo passo foi prever sua evolução até 2030. Mas não apenas para prever, nosso grupo também decidiu encontrar o melhor partido político possível que apresentasse a maior evolução em seus anos de governo. Este passou a ser nosso foco ao propor a solução do projeto. \
    To find the most optimal party for improving the educational system we used the regression strategy for the scores calculated. By having each year's political party president and education minister it was possible to retain their effect on each individual score, thus it could provide a substantial boost towards that party in the coming elections, given the fact that it would diminish the effect of fake news regarding the subject by our project having a reputable source (IBGE).

In [10]:
def score(line):
    score = 0
    # Não usa as linhas iniciais pro cálculo (não quantitativas)
    for column, val in zip(line.index, line):
        if not isinstance(val, str):
            # Se não tem valor, atribui a média
            if math.isnan(val):
                val = means[column]
            w_val = w[column] * val
            score += w_val
#             print(f'{column}: w_val: {w_val:.2f}, score: {score:.2f}')
    return score

In [11]:
score_governanca = []
score_insercao_pop = []
score_cap_educacional = []

for i in range(len(df)):
    line = df.iloc[i]
    
    insercao_pop = line[5:14]
    cap_educacional = line[14:35]
    governanca = line[35:]
    
    score_governanca.append(score(governanca))
    score_insercao_pop.append(score(insercao_pop))
    score_cap_educacional.append(score(cap_educacional))
    
    print(f'Governança: {score(governanca):.2f}, Inserção Pop.: {score(insercao_pop):.2f}, \
Cap. Educacional: {score(cap_educacional):.2f}')

KeyError: 'TRE_TAP_EF'

In [None]:
import matplotlib.pyplot as plt
t = np.arange(2000, 2021, 1)
print(t.shape)
print(len(score_insercao_pop))

fig, ax = plt.subplots(figsize=(8, 4))

ax.plot(t, score_insercao_pop, 'r', label='Inserção populacional')
ax.plot(t, score_cap_educacional, 'b', label='Capacitação educacional')
ax.plot(t, score_governanca, 'g', label='Governança')

legend = ax.legend(loc='best', shadow=False)
plt.show()

In [None]:
from sklearn.linear_model import LinearRegression
from sklearn.preprocessing import PolynomialFeatures
from sklearn.pipeline import make_pipeline

def linear_reg(X, y_pred):
    model = LinearRegression().fit(X, y_pred)
    a = model.coef_[0]
    b = model.intercept_
    return (a, b, model)

# TODO: ver se esse é o melhor jeito (ou jeito certo) de fazer reg. polinomial
def pol_reg(X, y_pred, degree):
    polyreg = make_pipeline(PolynomialFeatures(degree), LinearRegression())
    polyreg.fit(X, y_pred)
    return polyreg

In [None]:
def plot_reg(score, label, degree=None):
    fig, ax = plt.subplots()
    model = None

    ax.plot(t, score, 'r', label=label)
    X = np.arange(2000, 2021, 1)
    X_pred = np.linspace((1,2000), (21,2020), 21)
    
    X_future = np.arange(2000, 2031, 1)
    X_pred_future = np.linspace((1,2000), (31,2030), 31)
    if degree:
        model = pol_reg(X_pred, score, degree)
        X_input = X_future.reshape(-1, 1)
        
        ax.plot(X_input, model.predict(X_pred_future), 'g--', label='Regressão polinomial')
    else:
        a, b, model = linear_reg(X_pred, score)
        X_input = X_future.reshape(-1, 1)
        
        ax.plot(X_input, model.predict(X_pred_future), 'g--', label='Regressão linear')

    legend = ax.legend(loc='best', shadow=False)

    plt.show()
    return model

In [None]:
model = plot_reg(score_cap_educacional, 'Capacitação educacional', 2)
print(model.predict(np.array([31, 2030]).reshape(1, -1))[0])

model = plot_reg(score_governanca, 'Governança', 2)
print(model.predict(np.array([31, 2030]).reshape(1, -1))[0])

model = plot_reg(score_insercao_pop, 'Inserção populacional', 2)
print(model.predict(np.array([31, 2030]).reshape(1, -1))[0])

In [None]:
model = plot_reg(score_cap_educacional, 'Capacitação educacional')
print(model.predict(np.array([31, 2030]).reshape(1, -1))[0])

model = plot_reg(score_governanca, 'Governança')
print(model.predict(np.array([31, 2030]).reshape(1, -1))[0])

model = plot_reg(score_insercao_pop, 'Inserção populacional')
print(model.predict(np.array([31, 2030]).reshape(1, -1))[0])