<a href="https://colab.research.google.com/github/DiegoFelipini/DiegoFelipini/blob/main/projeto_parceria_ebacipynb.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

<img src="https://raw.githubusercontent.com/andre-marcos-perez/ebac-course-utils/main/media/logo/newebac_logo_black_half.png" alt="ebac-logo">

---

# **Módulo** |Projeto de Parceria | Desigualdade na Educação pelo Mundo


Aluno: Diego Felipini.

#Tópicos

1. Coleta de Dados;
2. Tratamento e Manipulação dos Dados;
3. Conclusões.


#1. Coleta de Dados

#Contexto



>A educação é um pilar fundamental para o desenvolvimento humano e social, desempenhando um papel crucial na promoção da igualdade, na redução da pobreza e no fortalecimento das economias. No entanto, a desigualdade no acesso à educação continua sendo um desafio significativo em muitas regiões do mundo, afetando milhões de crianças e adultos.


>O Banco de Dados Kaggle sobre [Desigualdade na Educação](https://https://www.kaggle.com/datasets/iamsouravbanerjee/inequality-in-education-around-the-world) oferece uma visão abrangente sobre essas disparidades. Este banco de dados inclui informações detalhadas sobre o nível de desigualdade educacional em diversos países entre 2010 e 2021. Além disso, ele fornece o Índice de Desenvolvimento Humano (IDH) de 2021, que é um indicador composto que mede o progresso médio de um país em três dimensões básicas do desenvolvimento humano: saúde, educação e padrão de vida.


>A análise desses dados pode revelar padrões importantes, como a correlação entre o IDH e a desigualdade educacional, permitindo identificar quais países ou regiões estão mais vulneráveis. Por exemplo, países com um IDH mais baixo tendem a apresentar maiores níveis de desigualdade educacional, refletindo desafios como falta de infraestrutura escolar, escassez de professores qualificados e barreiras socioeconômicas que impedem o acesso à educação.


---



#1.1 Iniciando o projeto importando os módulos necessários

In [None]:
# importando os módulos que serão usados no decorrer do código
# importing the modules that will be used throughout the code

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

import os
from getpass import getpass
from sklearn.cluster import KMeans
from sklearn.preprocessing import StandardScaler

#1.2 Autenticando o acesso ao github e baixando o repositório

In [None]:
# Definindo uma variável de ambiente com o nome de usuário do GitHub
# Setting an environment variable with the GitHub username

import os

username = "DiegoFelipini" # insira o seu nome de usuário do git
os.environ["GITHUB_USER"] = username

!git config --global user.name "${GITHUB_USER}"

In [None]:
# Definindo uma variável de ambiente para armazenar o e-mail de login do Github
# Setting an environment variable to store the Github login email

import os
from getpass import getpass

usermail = getpass()
os.environ["GITHUB_MAIL"] = usermail

!git config --global user.email "${GITHUB_MAIL}"

In [None]:
# Definindo uma variável para armazenar o access token do GitHub
# Defining a variable to store the GitHub access token

import os
from getpass import getpass

usertoken = getpass()
os.environ["GITHUB_TOKEN"] = usertoken

In [None]:
# Baixando o repositório do GitHub
# Downloading the repository from GitHub

!git clone https://${GITHUB_USER}:${GITHUB_TOKEN}@github.com/DiegoFelipini/Projeto-Parceria-ebac.git

In [None]:
%cd /content/Projeto-Parceria-ebac

#2. Iniciando o tratamento e manipulação dos dados

In [None]:
data = pd.read_csv("InequalityinEducation.csv.csv")

In [None]:
data.head()

In [None]:
# Remoção das colunas que não são o foco do projeto
data = pd.read_csv("InequalityinEducation.csv.csv")
education_df = data.copy()

education = education_df.drop(columns=['ISO3', 'Country', 'Human Development Groups', 'UNDP Developing Regions'])
education.head()

In [None]:
education.info()

#2.1 Visualização

In [None]:
with sns.axes_style('whitegrid'):

  grafico = sns.scatterplot(x=education['HDI Rank (2021)'], y=education['Inequality in Education (2021)'])
  grafico.set(title='Relação entre o rank de IDH e acesso à Educação em 2021', xlabel='HDI Rank', ylabel='Inequality in Education');


In [None]:
fig = grafico.get_figure()
fig.savefig('grafico_1.png', dpi=300)

#  Comentario:



*    Conforme observado no gráfico, há uma tendência clara de que, à medida que a posição na classificação se deteriora (ou seja, aumenta ao longo do eixo x), a desigualdade educativa também aumenta (refletida pelo aumento ao longo do eixo y). Esta relação sugere uma proporção direta entre a posição no ranking e o nível de desigualdade educacional.

*   Ou seja, os países que ocupam posições mais baixas no ranking tendem a apresentar níveis mais elevados de desigualdade educacional. Isto pode ser interpretado como uma indicação de que os factores que afectam negativamente a posição de um país no ranking, como o pouco investimento na educação, as infra-estruturas insuficientes, a falta de acesso aos recursos educativos e a desigualdade socioeconómica, também contribuem para aumentar as desigualdades educativas.

*   Essa relação de proporcionalidade é essencial para compreender como diferentes fatores interagem para influenciar a educação. Por exemplo, os países de baixos rendimentos podem enfrentar desafios significativos, tais como a falta de escolas nas zonas rurais, a falta de programas de apoio para estudantes de baixos rendimentos e a falta de professores qualificados. Estes factores, por sua vez, agravam as desigualdades educativas, criando um círculo vicioso que é difícil de quebrar sem intervenções políticas e investimentos específicos.



*   Portanto, o gráfico não apenas ilustra a relação entre a posição no ranking e a desigualdade educacional, mas também destaca a necessidade de políticas públicas eficazes e investimentos estratégicos para melhorar a posição dos países no ranking e, portanto, reduzir as desigualdades educacionais. A análise desta relação pode fornecer informações valiosas para os decisores políticos, educadores e organizações que trabalham para promover a equidade educativa em todo o mundo.


---











#2.2 Tratamento dos Dados


É preciso tratar os dados para que eles estejam prontos para o machine learning.

In [None]:
# Verificar se há valores nulos

print(education.isna().sum())

##Como há valores nulos, eles serão divididos em duas categorias:



*   Os que impedem de continuar com o Aprendizado de Máquina; nesse caso, toda a linha de dados será descartada (o IDH na base de dados que está sendo trabalhada)


*   Os que se podem inferir a partir de outros dados; nesse caso, será feita a média dos dados relacionados (os índices de desigualdade na base de dados que está sendo trabalhada)





In [None]:
 #Retirar os valores nulos da coluna de IDH

education_clean_df = education.dropna(subset=['HDI Rank (2021)'])
education_clean_df.head()

In [None]:
print(education_clean_df.isna().sum())

In [None]:
# Criar um dataframe que só tenha as linhas com algum valor nulo

colunas_valores_nulos = education_clean_df.drop(columns=['HDI Rank (2021)'])
valores_nulos = colunas_valores_nulos.isna().any(axis=1)

valores_nulos = colunas_valores_nulos[valores_nulos]
valores_nulos.head()

In [None]:
# Transformar as linhas em colunas

valores_nulos_transposed = valores_nulos.transpose()
valores_nulos_transposed.head()

In [None]:
# Fazer a média de cada coluna

valores_nulos_transposed_mean = valores_nulos_transposed.agg('mean')
valores_nulos_transposed_mean = pd.DataFrame([valores_nulos_transposed_mean], columns=valores_nulos_transposed.columns)
valores_nulos_transposed_mean.head()

In [None]:
# Transformar as colunas em linhas

valores_nulos_mean = valores_nulos_transposed_mean.transpose()
valores_nulos_mean.head()

In [None]:
# Adicionar a coluna de média ao dataframe com os valores nulos

valores_nulos['Mean'] = valores_nulos_mean
valores_nulos = valores_nulos.dropna(subset=['Mean'])

valores_nulos.head()

In [None]:
# Juntar o dataframe que tem os valores nulos, com o que tem a média e depois remover os dados nulos e desnecessário

education_merged = education_clean_df.merge(valores_nulos, how='left', left_index=True, right_index=True)

education_final = education_merged.apply(lambda coluna: coluna.fillna(coluna['Mean']), axis=1)
education_final = education_final.drop(columns=['Inequality in Education (2010)_y', 'Inequality in Education (2011)_y', 'Inequality in Education (2012)_y', 'Inequality in Education (2013)_y', 'Inequality in Education (2014)_y', 'Inequality in Education (2015)_y', 'Inequality in Education (2016)_y', 'Inequality in Education (2017)_y', 'Inequality in Education (2018)_y', 'Inequality in Education (2019)_y', 'Inequality in Education (2020)_y', 'Inequality in Education (2021)_y'])
education_final = education_final.drop(columns=['Mean']).dropna(subset=['Inequality in Education (2021)_x'])
education_final = education_final.rename(columns={'Inequality in Education (2010)_x': 'Inequality in Education (2010)',
                                                  'Inequality in Education (2011)_x': 'Inequality in Education (2011)',
                                                  'Inequality in Education (2012)_x': 'Inequality in Education (2012)',
                                                  'Inequality in Education (2013)_x': 'Inequality in Education (2013)',
                                                  'Inequality in Education (2014)_x': 'Inequality in Education (2014)',
                                                  'Inequality in Education (2015)_x': 'Inequality in Education (2015)',
                                                  'Inequality in Education (2016)_x': 'Inequality in Education (2016)',
                                                  'Inequality in Education (2017)_x': 'Inequality in Education (2017)',
                                                  'Inequality in Education (2018)_x': 'Inequality in Education (2018)',
                                                  'Inequality in Education (2019)_x': 'Inequality in Education (2019)',
                                                  'Inequality in Education (2020)_x': 'Inequality in Education (2020)',
                                                  'Inequality in Education (2021)_x': 'Inequality in Education (2021)'})

education_completa = education_final
education_final.head()

In [None]:
print(education_final.isna().sum())

#2.3  Modelagem

>Variáveis Numéricas

Para um melhor Machine Learning, é necessário trabalhar com os dados em escalas reduzidas.
Para isso, é necessário aplicar o método de padronização image.png




In [None]:
# Padronização do IDH

media_idh = education_final['HDI Rank (2021)'].mean()
print(media_idh)

desvio_padrao_idh = education_final['HDI Rank (2021)'].std()
print(desvio_padrao_idh)

education_final['HDI Rank (2021) - std'] = education_final['HDI Rank (2021)'].apply(lambda idh: (idh - media_idh) / desvio_padrao_idh)


In [None]:
# Padronização dos Índices de Desigualdade

  # 2010
media_10 = education_final['Inequality in Education (2010)'].mean()
desvio_padrao_10 = education_final['Inequality in Education (2010)'].std()
education_final['Inequality in Education (2010) - std'] = education_final['Inequality in Education (2010)'].apply(lambda id10: (id10 - media_10) / desvio_padrao_10)

  # 2011
media_11 = education_final['Inequality in Education (2011)'].mean()
desvio_padrao_11 = education_final['Inequality in Education (2011)'].std()
education_final['Inequality in Education (2011) - std'] = education_final['Inequality in Education (2011)'].apply(lambda id11: (id11 - media_11) / desvio_padrao_11)

  # 2012
media_12 = education_final['Inequality in Education (2012)'].mean()
desvio_padrao_12 = education_final['Inequality in Education (2012)'].std()
education_final['Inequality in Education (2012) - std'] = education_final['Inequality in Education (2012)'].apply(lambda id12: (id12 - media_12) / desvio_padrao_12)

  # 2013
media_13 = education_final['Inequality in Education (2013)'].mean()
desvio_padrao_13 = education_final['Inequality in Education (2013)'].std()
education_final['Inequality in Education (2013) - std'] = education_final['Inequality in Education (2013)'].apply(lambda id13: (id13 - media_13) / desvio_padrao_13)

  # 2014
media_14 = education_final['Inequality in Education (2014)'].mean()
desvio_padrao_14 = education_final['Inequality in Education (2014)'].std()
education_final['Inequality in Education (2014) - std'] = education_final['Inequality in Education (2014)'].apply(lambda id14: (id14 - media_14) / desvio_padrao_14)

  # 2015
media_15 = education_final['Inequality in Education (2015)'].mean()
desvio_padrao_15 = education_final['Inequality in Education (2015)'].std()
education_final['Inequality in Education (2015) - std'] = education_final['Inequality in Education (2015)'].apply(lambda id15: (id15 - media_15) / desvio_padrao_15)

  # 2016
media_16 = education_final['Inequality in Education (2016)'].mean()
desvio_padrao_16 = education_final['Inequality in Education (2016)'].std()
education_final['Inequality in Education (2016) - std'] = education_final['Inequality in Education (2016)'].apply(lambda id16: (id16 - media_16) / desvio_padrao_16)

  # 2017
media_17 = education_final['Inequality in Education (2017)'].mean()
desvio_padrao_17 = education_final['Inequality in Education (2017)'].std()
education_final['Inequality in Education (2017) - std'] = education_final['Inequality in Education (2017)'].apply(lambda id17: (id17 - media_17) / desvio_padrao_17)

  # 2018
media_18 = education_final['Inequality in Education (2018)'].mean()
desvio_padrao_18 = education_final['Inequality in Education (2018)'].std()
education_final['Inequality in Education (2018) - std'] = education_final['Inequality in Education (2018)'].apply(lambda id18: (id18 - media_18) / desvio_padrao_18)

  # 2019
media_19 = education_final['Inequality in Education (2019)'].mean()
desvio_padrao_19 = education_final['Inequality in Education (2019)'].std()
education_final['Inequality in Education (2019) - std'] = education_final['Inequality in Education (2019)'].apply(lambda id19: (id19 - media_19) / desvio_padrao_19)

  # 2020
media_20 = education_final['Inequality in Education (2020)'].mean()
desvio_padrao_20 = education_final['Inequality in Education (2020)'].std()
education_final['Inequality in Education (2020) - std'] = education_final['Inequality in Education (2020)'].apply(lambda id20: (id20 - media_20) / desvio_padrao_20)

  # 2021
media_21 = education_final['Inequality in Education (2021)'].mean()
desvio_padrao_21 = education_final['Inequality in Education (2021)'].std()
education_final['Inequality in Education (2021) - std'] = education_final['Inequality in Education (2021)'].apply(lambda id21: (id21 - media_21) / desvio_padrao_21)

education_final.head()

In [None]:
education_padrao = education_final.drop(columns=['HDI Rank (2021)', 'Inequality in Education (2010)', 'Inequality in Education (2011)', 'Inequality in Education (2012)', 'Inequality in Education (2013)', 'Inequality in Education (2014)', 'Inequality in Education (2015)', 'Inequality in Education (2016)', 'Inequality in Education (2017)', 'Inequality in Education (2018)', 'Inequality in Education (2019)', 'Inequality in Education (2020)', 'Inequality in Education (2021)'])
education_padrao.head()

#2.4 Treino / Teste

>Para criar um modelo de aprendizagem de máquina funcional, é necessário separar a base de dados em dois conjuntos, um maior e outro menor. O maior será usado para treinar o modelo e o menor será usado para testá-lo.

In [None]:
# Separação da base de dados em 75% (treino) e 25% (teste)

from sklearn.model_selection import train_test_split

predictors_train, predictors_test, target_train, target_test = train_test_split(
    education_padrao.drop(['HDI Rank (2021) - std'], axis=1),
    education_padrao['HDI Rank (2021) - std'],
    test_size=0.25,
    random_state=123
)

print(f'predictors_train.shape = {predictors_train.shape}')
print(f'predictors_test.shape = {predictors_test.shape}')
print(f'target_train.shape = {target_train.shape}')
print(f'target_test.shape = {target_test.shape}')

#2.5 Treino

>O treino serve para calcular os coeficiente, tanto linear quanto angular, da fórmula matemática que será usada no modelo de machine learning.

In [None]:
from sklearn.linear_model import LinearRegression

model = LinearRegression()

model = model.fit(predictors_train, target_train)

model.__dict__

In [None]:
# Coeficiente angular

a = model.coef_
print(a)

In [None]:
# Coeficiente linear

b = model.intercept_
print(b)

#3.Conclusões

###Avaliação

>Cálculo da margem de erro da predição do modelo.

In [None]:
# Cálculo do RMSE (root mean square error)

from sklearn.metrics import mean_squared_error

target_predicted = model.predict(predictors_test)

rmse = np.sqrt(mean_squared_error(target_test, target_predicted))
print(rmse)

###Predição

>om o modelo treinado, é possível colocar os dados de desigualdade na educação e prever em que rank o país estará em questão de IDH.

In [None]:
# Receber os valores dos índice

indice_2010 = float(input("Índice de Desigualdade em 2010: "))
indice_2011 = float(input("Índice de Desigualdade em 2011: "))
indice_2012 = float(input("Índice de Desigualdade em 2012: "))
indice_2013 = float(input("Índice de Desigualdade em 2013: "))
indice_2014 = float(input("Índice de Desigualdade em 2014: "))
indice_2015 = float(input("Índice de Desigualdade em 2015: "))
indice_2016 = float(input("Índice de Desigualdade em 2016: "))
indice_2017 = float(input("Índice de Desigualdade em 2017: "))
indice_2018 = float(input("Índice de Desigualdade em 2018: "))
indice_2019 = float(input("Índice de Desigualdade em 2019: "))
indice_2020 = float(input("Índice de Desigualdade em 2020: "))
indice_2021 = float(input("Índice de Desigualdade em 2021: "))

In [None]:
# Padronizar os valores dos índices

padrao_2010 = (indice_2010 - media_10) / desvio_padrao_10
padrao_2011 = (indice_2011 - media_11) / desvio_padrao_11
padrao_2012 = (indice_2012 - media_12) / desvio_padrao_12
padrao_2013 = (indice_2013 - media_13) / desvio_padrao_13
padrao_2014 = (indice_2014 - media_14) / desvio_padrao_14
padrao_2015 = (indice_2015 - media_15) / desvio_padrao_15
padrao_2016 = (indice_2016 - media_16) / desvio_padrao_16
padrao_2017 = (indice_2017 - media_17) / desvio_padrao_17
padrao_2018 = (indice_2018 - media_18) / desvio_padrao_18
padrao_2019 = (indice_2019 - media_19) / desvio_padrao_19
padrao_2020 = (indice_2020 - media_20) / desvio_padrao_20
padrao_2021 = (indice_2021 - media_21) / desvio_padrao_21

In [None]:
# Criação de um array com dados para fazer a predição

idh_pais_novo = np.array([padrao_2010, padrao_2011, padrao_2012, padrao_2013, padrao_2014, padrao_2015, padrao_2016,padrao_2017, padrao_2018, padrao_2019, padrao_2020, padrao_2021])

print(idh_pais_novo)

In [None]:
# Resultado do rank do IDH do novo país padronizado

idh_pais_novo_padrao = model.predict(idh_pais_novo.reshape(1, -1))
print(idh_pais_novo_padrao)

In [None]:
# Rank do IDH do país hipotético sem estar padronizado

rank_idh_pais = idh_pais_novo_padrao * desvio_padrao_idh + media_idh
print(rank_idh_pais)

In [None]:
print(f'Um país que teve nos anos de 2010 até 2021 os IDHs:\n{indice_2010}\n{indice_2011}\n{indice_2012}\n{indice_2013}\n{indice_2014}\n{indice_2015}\n{indice_2016}\n{indice_2017}\n{indice_2018}\n{indice_2019}\n{indice_2020}\n{indice_2021}\nFicará, no rank de IDH, na posição {rank_idh_pais}')


#Considerações finais:

Este modelo não só permite prever a posição de um país no ranking do Índice de Desenvolvimento Humano (IDH) com base na evolução do nível de desigualdade na educação, mas também evidencia que um melhor acesso à educação está diretamente relacionado a uma posição mais elevada na tabela de IDH. Em outras palavras, melhorias no acesso e na qualidade da educação tendem a refletir positivamente no desenvolvimento humano, conforme medido pelo IDH.