# 1. Sobre o Projeto e Refer√™ncias

## 1.1 Recursos e refer√™ncias que podem ser utilizados

1. [Pasta do Datathon](https://drive.google.com/drive/folders/1Z1j6uzzCOgjB2a6i3Ym1pmJRsasfm7cD)
2. [Colab com fun√ß√µes, plots, cleaners; um helper para an√°lise de dados](https://colab.research.google.com/drive/1YuRRN_j0EymrSUZnM8njWRCL-yY6Ds0f?usp=sharing#scrollTo=cZHJuEAGcU4x)
3. [DATATHON-PASSOS-M√ÅGICOS.ipynb](https://colab.research.google.com/drive/1iq0U4o_I9dfB627xtgFGIfu7GRFahD_u#scrollTo=jj1m78gyRuBO)
4. [Site Pasos M√°gicos](https://pasosmagicos.org.br)

## 1.2 Sobre o Projeto

### 1.2.1 Objetivo üéØ
O grande objetivo do Datathon √© criar uma proposta anal√≠tica dos dados da **Passos M√°gicos**, para demonstrar o impacto que a ONG tem sobre a comunidade que atende. A associa√ß√£o busca instrumentalizar o uso da educa√ß√£o como ferramenta para a mudan√ßa das condi√ß√µes de vida das crian√ßas e jovens em vulnerabilidade social. Com base no _dataset_ de pesquisa extensiva do desenvolvimento educacional no per√≠odo de 2020, 2021 e 2022, ser√° entregue **uma proposta anal√≠tica que demontre os impactos que a ONG **Passos M√°gicos** realizou sobre a performance de estudantes e, levantar eses indicadores de performance. Para demonstrar esses impactos, ser√° criado um _dashboard_ com _storytelling_, destacando dados que podem auxiliar a Passos M√°gicos a tomar as melhores decis√µes com base nos indicadores e conhecer o perfil dos estudantes.**

### 1.2.2 Base de dados üé≤:
A base de dados cont√©m informa√ß√µes educacionais e socioecon√¥micas dos estudantes da **Passos M√°gicos**. Foram disponibilizadas duas bases de dados com as caracter√≠sticas de desenvolvimento educacional e quest√µes socioecon√¥micas dos estudantes e um dicion√°rio de dados com o mapeamento de todas as vari√°veis. Al√©m da base de dados, alguns relat√≥rios de pesquisa realizada pela **Passos M√°gicos** tamb√©m foram disponibilizados para auxiliar no conhecimento do neg√≥cio.

### 1.2.3 Entrega üîó:

- Um _dashboard_ e um relat√≥rio contendo a an√°lise dos dados.
- Subir o projeto em um reposit√≥rio do github e compartilhar o _link_ do projeto na plataforma com os arquivos utilizados e o _link_ do _dashboard_.

# 1. Entendimento Inicial dos Dados

In [2]:
# importa√ß√£o das bibliotecas que ser√£o utilizadas
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import matplotlib.ticker as ticker

In [2]:
# transforma arquivo .CSV em um Pandas Dataframe
df = pd.read_csv('bases_e_documental/pede_passos_dataset_fiap.csv', sep=';')
df.head()

Unnamed: 0,INSTITUICAO_ENSINO_ALUNO_2020,NOME,IDADE_ALUNO_2020,ANOS_PM_2020,FASE_TURMA_2020,PONTO_VIRADA_2020,INDE_2020,INDE_CONCEITO_2020,PEDRA_2020,DESTAQUE_IEG_2020,...,IPP_2022,REC_AVA_1_2022,REC_AVA_2_2022,REC_AVA_3_2022,REC_AVA_4_2022,INDICADO_BOLSA_2022,PONTO_VIRADA_2022,IPV_2022,IAN_2022,NIVEL_IDEAL_2022
0,Escola P√∫blica,ALUNO-1,11.0,2.0,2H,N√£o,7.883752,B,Ametista,Seu destaque em 2020: A sua boa entrega das li...,...,,,,,,,,,,
1,,ALUNO-2,,,,,,,,,...,5.625,Mantido na Fase + Bolsa,Mantido na Fase atual,,,Sim,N√£o,7.916665,5.0,Fase 2 (5¬∫ e 6¬∫ ano)
2,Escola P√∫blica,ALUNO-3,12.0,2.0,3H,N√£o,7.856389666666666,B,Ametista,Seu destaque em 2020: A sua boa entrega das li...,...,,,,,,,,,,
3,Escola P√∫blica,ALUNO-4,10.0,2.0,1D,N√£o,5.076252,D,Quartzo,Ponto a melhorar em 2021: Melhorar a sua entre...,...,6.25,Promovido de Fase,Mantido na Fase atual,Promovido de Fase,,N√£o,N√£o,8.055553,5.0,Fase 3 (7¬∫ e 8¬∫ ano)
4,Escola P√∫blica,ALUNO-5,10.0,1.0,2M,N√£o,8.077085,B,Ametista,Seu destaque em 2020: A sua boa entrega das li...,...,6.458333,Mantido na Fase atual,Promovido de Fase,Mantido na Fase atual,,N√£o,N√£o,7.833337,5.0,Fase 3 (7¬∫ e 8¬∫ ano)


In [3]:
# configura a exibi√ß√£o de todas as colunas do df, sem limites de n√∫mero de coluna
pd.set_option('display.max_columns', None)
df.head()

Unnamed: 0,INSTITUICAO_ENSINO_ALUNO_2020,NOME,IDADE_ALUNO_2020,ANOS_PM_2020,FASE_TURMA_2020,PONTO_VIRADA_2020,INDE_2020,INDE_CONCEITO_2020,PEDRA_2020,DESTAQUE_IEG_2020,DESTAQUE_IDA_2020,DESTAQUE_IPV_2020,IAA_2020,IEG_2020,IPS_2020,IDA_2020,IPP_2020,IPV_2020,IAN_2020,FASE_2021,TURMA_2021,INSTITUICAO_ENSINO_ALUNO_2021,SINALIZADOR_INGRESSANTE_2021,PEDRA_2021,INDE_2021,IAA_2021,IEG_2021,IPS_2021,IDA_2021,IPP_2021,REC_EQUIPE_1_2021,REC_EQUIPE_2_2021,REC_EQUIPE_3_2021,REC_EQUIPE_4_2021,PONTO_VIRADA_2021,IPV_2021,IAN_2021,NIVEL_IDEAL_2021,DEFASAGEM_2021,FASE_2022,TURMA_2022,ANO_INGRESSO_2022,BOLSISTA_2022,INDE_2022,CG_2022,CF_2022,CT_2022,PEDRA_2022,DESTAQUE_IEG_2022,DESTAQUE_IDA_2022,DESTAQUE_IPV_2022,IAA_2022,IEG_2022,IPS_2022,IDA_2022,NOTA_PORT_2022,NOTA_MAT_2022,NOTA_ING_2022,QTD_AVAL_2022,IPP_2022,REC_AVA_1_2022,REC_AVA_2_2022,REC_AVA_3_2022,REC_AVA_4_2022,INDICADO_BOLSA_2022,PONTO_VIRADA_2022,IPV_2022,IAN_2022,NIVEL_IDEAL_2022
0,Escola P√∫blica,ALUNO-1,11.0,2.0,2H,N√£o,7.883752,B,Ametista,Seu destaque em 2020: A sua boa entrega das li...,Ponto a melhorar em 2021: Empenhar-se mais nas...,Seu destaque em 2020: A sua boa integra√ß√£o aos...,8.500020000000001,8.7,7.5,7.0,5.9375,7.75,10.0,2.0,G,Rede Decis√£o,Ingressante,Ametista,7.319,7.5,6.3,6.9,8.8,7.7,Promovido de Fase,Promovido de Fase,Mantido na Fase atual,N√£o avaliado,N√£o,8.1,5.0,N√≠vel 3 (7o e 8o ano),-1.0,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,
1,,ALUNO-2,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,0.0,K,2022.0,N√£o,7.675509,245.0,66.0,6.0,Ametista,Destaque: A sua boa entrega das li√ß√µes de casa.,Destaque: As suas boas notas na Passos M√°gicos.,Destaque: A sua boa integra√ß√£o aos Princ√≠pios ...,10.00002,7.581705,7.5,8.816667,8.2,9.433333,,2.0,5.625,Mantido na Fase + Bolsa,Mantido na Fase atual,,,Sim,N√£o,7.916665,5.0,Fase 2 (5¬∫ e 6¬∫ ano)
2,Escola P√∫blica,ALUNO-3,12.0,2.0,3H,N√£o,7.856389666666666,B,Ametista,Seu destaque em 2020: A sua boa entrega das li...,Ponto a melhorar em 2021: Empenhar-se mais nas...,Seu destaque em 2020: A sua boa integra√ß√£o aos...,7.91667,8.9,7.5,5.5,8.125,8.111113333333334,10.0,3.0,F,Escola P√∫blica,Veterano,Ametista,7.021,7.1,6.9,6.3,5.6,7.3,Promovido de Fase,Promovido de Fase,Mantido na Fase atual,N√£o avaliado,N√£o,7.2,10.0,N√≠vel 3 (7o e 8o ano),0.0,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,
3,Escola P√∫blica,ALUNO-4,10.0,2.0,1D,N√£o,5.076252,D,Quartzo,Ponto a melhorar em 2021: Melhorar a sua entre...,Ponto a melhorar em 2021: Empenhar-se mais nas...,Ponto a melhorar em 2021: Integrar-se mais aos...,8.000020000000001,4.1,6.875,0.0,7.1875,7.75,5.0,,,,,,,,,,,,,,,,,,,,,2.0,J,2022.0,N√£o,7.117065,451.0,69.0,3.0,Ametista,Destaque: A sua boa entrega das li√ß√µes de casa.,Melhorar: Empenhar-se mais nas aulas e avalia√ß...,Destaque: A sua boa integra√ß√£o aos Princ√≠pios ...,10.00002,8.071429,7.5,5.083333,5.0,5.166667,,3.0,6.25,Promovido de Fase,Mantido na Fase atual,Promovido de Fase,,N√£o,N√£o,8.055553,5.0,Fase 3 (7¬∫ e 8¬∫ ano)
4,Escola P√∫blica,ALUNO-5,10.0,1.0,2M,N√£o,8.077085,B,Ametista,Seu destaque em 2020: A sua boa entrega das li...,Seu destaque em 2020: As suas boas notas na Pa...,Seu destaque em 2020: A sua boa integra√ß√£o aos...,7.50002,8.0,7.5,7.5,8.4375,8.166665,10.0,2.0,L,Escola P√∫blica,Veterano,Ametista,7.399,7.4,7.5,7.5,5.4,8.5,Promovido de Fase,Mantido na Fase atual,Mantido na Fase atual,N√£o avaliado,N√£o,7.4,10.0,N√≠vel 2 (5o e 6o ano),0.0,2.0,L,2019.0,N√£o,7.232336,415.0,61.0,12.0,Ametista,Destaque: A sua boa entrega das li√ß√µes de casa.,Melhorar: Empenhar-se mais nas aulas e avalia√ß...,Destaque: A sua boa integra√ß√£o aos Princ√≠pios ...,6.41668,8.557505,7.5,7.083333,6.666667,7.5,,3.0,6.458333,Mantido na Fase atual,Promovido de Fase,Mantido na Fase atual,,N√£o,N√£o,7.833337,5.0,Fase 3 (7¬∫ e 8¬∫ ano)


In [4]:
df.shape

(1349, 69)

In [5]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1349 entries, 0 to 1348
Data columns (total 69 columns):
 #   Column                         Non-Null Count  Dtype  
---  ------                         --------------  -----  
 0   INSTITUICAO_ENSINO_ALUNO_2020  728 non-null    object 
 1   NOME                           1349 non-null   object 
 2   IDADE_ALUNO_2020               728 non-null    object 
 3   ANOS_PM_2020                   728 non-null    object 
 4   FASE_TURMA_2020                728 non-null    object 
 5   PONTO_VIRADA_2020              702 non-null    object 
 6   INDE_2020                      728 non-null    object 
 7   INDE_CONCEITO_2020             728 non-null    object 
 8   PEDRA_2020                     728 non-null    object 
 9   DESTAQUE_IEG_2020              728 non-null    object 
 10  DESTAQUE_IDA_2020              728 non-null    object 
 11  DESTAQUE_IPV_2020              703 non-null    object 
 12  IAA_2020                       728 non-null    o

### 1.1 Dados utilizados 

Para determinar como os dados ser√£o utilizados para a cria√ß√£o do _dashboard_ e do relat√≥rio, foram definidos alguns indicadores que podem ser extra√≠dos da base:

| Nome do Campo | Descri√ß√£o | Tipo de Dados |
|---------------|------------|---------------|
| `INDE_2020` / `INDE_2021` / `INDE_2022` | O √çndice do Desenvolvimento Educacional (INDE) √© uma m√©trica que combina outros indicadores (IAN, IDA, IEG, IAA, IPS, IPP e IPV) para avaliar o desempenho acad√™mico geral dos alunos ao longo dos anos. | Num√©rico |
| `IEG_2020` / `IEG_2021` / `IEG_2022` | M√©dia das notas de engajamento dos alunos, mensurando a participa√ß√£o e envolvimento deles nas atividades. | Num√©rico |
| `IDA_2020` / `IDA_2021` / `IDA_2022` | M√©dia das notas do indicador de aprendizagem, medindo o progresso acad√™mico dos alunos. | Num√©rico |
| `IPS_2020` / `IPS_2021` / `IPS_2022` | M√©dia das notas psicossociais dos alunos, avaliando seu bem-estar emocional e social. | Num√©rico |
| `IPP_2020` / `IPP_2021` / `IPP_2022` | M√©dia das notas psicopedag√≥gicas dos alunos, refletindo o suporte que receberam nesse aspecto. | Num√©rico |
| `IAA_2020` / `IAA_2021` / `IAA_2022` | M√©dia das notas de autoavalia√ß√£o dos alunos, que refletem sua percep√ß√£o de progresso. | Num√©rico |
| `IPV_2020` / `IPV_2021` / `IPV_2022` | M√©dia das notas que indicam o "ponto de virada" ‚Äî um momento de mudan√ßa significativa no desempenho ou comportamento do aluno. | Num√©rico |
| `NOTA_PORT_2022` / `NOTA_MAT_2022` / `NOTA_ING_2022` | M√©dias de notas em disciplinas espec√≠ficas, como portugu√™s, matem√°tica e ingl√™s, em 2022. | Num√©rico |
| `PEDRA_2020` / `PEDRA_2021` / `PEDRA_2022` | Classifica√ß√£o dos alunos com base no seu INDE, em n√≠veis como Quartzo, √Ågata, Ametista e Top√°zio. | Texto |
| `FASE_2020` / `FASE_2021` / `FASE_2022` / `TURMA_2020` / `TURMA_2021` / `TURMA_2022` | Dados sobre a fase e turma dos alunos, que podem ser utilizados para medir frequ√™ncia e engajamento ao longo dos anos. | Texto |

#### 1.1.2 Tratamento da Base Princial

In [6]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1349 entries, 0 to 1348
Data columns (total 69 columns):
 #   Column                         Non-Null Count  Dtype  
---  ------                         --------------  -----  
 0   INSTITUICAO_ENSINO_ALUNO_2020  728 non-null    object 
 1   NOME                           1349 non-null   object 
 2   IDADE_ALUNO_2020               728 non-null    object 
 3   ANOS_PM_2020                   728 non-null    object 
 4   FASE_TURMA_2020                728 non-null    object 
 5   PONTO_VIRADA_2020              702 non-null    object 
 6   INDE_2020                      728 non-null    object 
 7   INDE_CONCEITO_2020             728 non-null    object 
 8   PEDRA_2020                     728 non-null    object 
 9   DESTAQUE_IEG_2020              728 non-null    object 
 10  DESTAQUE_IDA_2020              728 non-null    object 
 11  DESTAQUE_IPV_2020              703 non-null    object 
 12  IAA_2020                       728 non-null    o

In [7]:
# Concatenar as colunas FASE_2021 e TURMA_2021
df['FASE_TURMA_2021'] = df['FASE_2021'].astype(str) + df['TURMA_2021'].astype(str)

# Exibir o DataFrame atualizado
print(df[['FASE_2021', 'TURMA_2021', 'FASE_TURMA_2021']])

      FASE_2021 TURMA_2021 FASE_TURMA_2021
0           2.0          G            2.0G
1           NaN        NaN          nannan
2           3.0          F            3.0F
3           NaN        NaN          nannan
4           2.0          L            2.0L
...         ...        ...             ...
1344        0.0          L            0.0L
1345        NaN        NaN          nannan
1346        NaN        NaN          nannan
1347        3.0          J            3.0J
1348        NaN        NaN          nannan

[1349 rows x 3 columns]


In [8]:
# Concatenar as colunas FASE_2021 e TURMA_2021
df['FASE_TURMA_2022'] = df['FASE_2022'].astype(str) + df['TURMA_2022'].astype(str)

# Exibir o DataFrame atualizado
print(df[['FASE_2022', 'TURMA_2022', 'FASE_TURMA_2022']])

      FASE_2022 TURMA_2022 FASE_TURMA_2022
0           NaN        NaN          nannan
1           0.0          K            0.0K
2           NaN        NaN          nannan
3           2.0          J            2.0J
4           2.0          L            2.0L
...         ...        ...             ...
1344        NaN        NaN          nannan
1345        0.0          U            0.0U
1346        NaN        NaN          nannan
1347        4.0          P            4.0P
1348        3.0          M            3.0M

[1349 rows x 3 columns]


In [9]:
df_dados_selecionados = df[['INDE_2020', 'INDE_2021', 'INDE_2022','IEG_2020', 'IEG_2021', 'IEG_2022','IDA_2020', 'IDA_2021', 'IDA_2022','IPS_2020', 'IPS_2021', 'IPS_2022','IPP_2020', 'IPP_2021', 'IPP_2022','IAA_2020', 'IAA_2021', 'IAA_2022','IPV_2020', 'IPV_2021', 'IPV_2022','NOTA_PORT_2022', 'NOTA_MAT_2022', 'NOTA_ING_2022','PEDRA_2020', 'PEDRA_2021', 'PEDRA_2022','FASE_TURMA_2020', 'FASE_TURMA_2021', 'FASE_TURMA_2022']]

In [10]:
df_dados_selecionados.head()

Unnamed: 0,INDE_2020,INDE_2021,INDE_2022,IEG_2020,IEG_2021,IEG_2022,IDA_2020,IDA_2021,IDA_2022,IPS_2020,IPS_2021,IPS_2022,IPP_2020,IPP_2021,IPP_2022,IAA_2020,IAA_2021,IAA_2022,IPV_2020,IPV_2021,IPV_2022,NOTA_PORT_2022,NOTA_MAT_2022,NOTA_ING_2022,PEDRA_2020,PEDRA_2021,PEDRA_2022,FASE_TURMA_2020,FASE_TURMA_2021,FASE_TURMA_2022
0,7.883752,7.319,,8.7,6.3,,7.0,8.8,,7.5,6.9,,5.9375,7.7,,8.500020000000001,7.5,,7.75,8.1,,,,,Ametista,Ametista,,2H,2.0G,nannan
1,,,7.675509,,,7.581705,,,8.816667,,,7.5,,,5.625,,,10.00002,,,7.916665,8.2,9.433333,,,,Ametista,,nannan,0.0K
2,7.856389666666666,7.021,,8.9,6.9,,5.5,5.6,,7.5,6.3,,8.125,7.3,,7.91667,7.1,,8.111113333333334,7.2,,,,,Ametista,Ametista,,3H,3.0F,nannan
3,5.076252,,7.117065,4.1,,8.071429,0.0,,5.083333,6.875,,7.5,7.1875,,6.25,8.000020000000001,,10.00002,7.75,,8.055553,5.0,5.166667,,Quartzo,,Ametista,1D,nannan,2.0J
4,8.077085,7.399,7.232336,8.0,7.5,8.557505,7.5,5.4,7.083333,7.5,7.5,7.5,8.4375,8.5,6.458333,7.50002,7.4,6.41668,8.166665,7.4,7.833337,6.666667,7.5,,Ametista,Ametista,Ametista,2M,2.0L,2.0L


In [11]:
df_dados_selecionados.shape

(1349, 30)

In [12]:
df_dados_selecionados.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1349 entries, 0 to 1348
Data columns (total 30 columns):
 #   Column           Non-Null Count  Dtype  
---  ------           --------------  -----  
 0   INDE_2020        728 non-null    object 
 1   INDE_2021        686 non-null    object 
 2   INDE_2022        862 non-null    float64
 3   IEG_2020         728 non-null    object 
 4   IEG_2021         686 non-null    float64
 5   IEG_2022         862 non-null    float64
 6   IDA_2020         728 non-null    object 
 7   IDA_2021         686 non-null    float64
 8   IDA_2022         862 non-null    float64
 9   IPS_2020         728 non-null    object 
 10  IPS_2021         686 non-null    float64
 11  IPS_2022         862 non-null    float64
 12  IPP_2020         728 non-null    object 
 13  IPP_2021         686 non-null    float64
 14  IPP_2022         862 non-null    float64
 15  IAA_2020         728 non-null    object 
 16  IAA_2021         686 non-null    float64
 17  IAA_2022      

In [13]:
# 'INDE_2020', 'INDE_2021', 'IEG_2020', 'IDA_2020', 'IPS_2020', 'IPP_2020', 'IAA_202', 'IPV_2020'
# transforma valores object em float, em colunas espec√≠ficas
columns_to_convert = ['INDE_2020', 'INDE_2021', 'IEG_2020', 'IDA_2020', 'IPS_2020', 'IPP_2020', 'IAA_2020', 'IPV_2020']
df_dados_selecionados[columns_to_convert] = df_dados_selecionados[columns_to_convert].apply(pd.to_numeric, errors='coerce')

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df_dados_selecionados[columns_to_convert] = df_dados_selecionados[columns_to_convert].apply(pd.to_numeric, errors='coerce')


In [14]:
df_dados_selecionados.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1349 entries, 0 to 1348
Data columns (total 30 columns):
 #   Column           Non-Null Count  Dtype  
---  ------           --------------  -----  
 0   INDE_2020        727 non-null    float64
 1   INDE_2021        684 non-null    float64
 2   INDE_2022        862 non-null    float64
 3   IEG_2020         727 non-null    float64
 4   IEG_2021         686 non-null    float64
 5   IEG_2022         862 non-null    float64
 6   IDA_2020         727 non-null    float64
 7   IDA_2021         686 non-null    float64
 8   IDA_2022         862 non-null    float64
 9   IPS_2020         727 non-null    float64
 10  IPS_2021         686 non-null    float64
 11  IPS_2022         862 non-null    float64
 12  IPP_2020         727 non-null    float64
 13  IPP_2021         686 non-null    float64
 14  IPP_2022         862 non-null    float64
 15  IAA_2020         727 non-null    float64
 16  IAA_2021         686 non-null    float64
 17  IAA_2022      

In [15]:
# transform os floats para que traga duas casas decimais
pd.options.display.float_format = '{:.2f}'.format

In [16]:
df_dados_selecionados.head()

Unnamed: 0,INDE_2020,INDE_2021,INDE_2022,IEG_2020,IEG_2021,IEG_2022,IDA_2020,IDA_2021,IDA_2022,IPS_2020,IPS_2021,IPS_2022,IPP_2020,IPP_2021,IPP_2022,IAA_2020,IAA_2021,IAA_2022,IPV_2020,IPV_2021,IPV_2022,NOTA_PORT_2022,NOTA_MAT_2022,NOTA_ING_2022,PEDRA_2020,PEDRA_2021,PEDRA_2022,FASE_TURMA_2020,FASE_TURMA_2021,FASE_TURMA_2022
0,7.88,7.32,,8.7,6.3,,7.0,8.8,,7.5,6.9,,5.94,7.7,,8.5,7.5,,7.75,8.1,,,,,Ametista,Ametista,,2H,2.0G,nannan
1,,,7.68,,,7.58,,,8.82,,,7.5,,,5.62,,,10.0,,,7.92,8.2,9.43,,,,Ametista,,nannan,0.0K
2,7.86,7.02,,8.9,6.9,,5.5,5.6,,7.5,6.3,,8.12,7.3,,7.92,7.1,,8.11,7.2,,,,,Ametista,Ametista,,3H,3.0F,nannan
3,5.08,,7.12,4.1,,8.07,0.0,,5.08,6.88,,7.5,7.19,,6.25,8.0,,10.0,7.75,,8.06,5.0,5.17,,Quartzo,,Ametista,1D,nannan,2.0J
4,8.08,7.4,7.23,8.0,7.5,8.56,7.5,5.4,7.08,7.5,7.5,7.5,8.44,8.5,6.46,7.5,7.4,6.42,8.17,7.4,7.83,6.67,7.5,,Ametista,Ametista,Ametista,2M,2.0L,2.0L


In [17]:
# Tratamento de valor NaN
df_dados_selecionados.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1349 entries, 0 to 1348
Data columns (total 30 columns):
 #   Column           Non-Null Count  Dtype  
---  ------           --------------  -----  
 0   INDE_2020        727 non-null    float64
 1   INDE_2021        684 non-null    float64
 2   INDE_2022        862 non-null    float64
 3   IEG_2020         727 non-null    float64
 4   IEG_2021         686 non-null    float64
 5   IEG_2022         862 non-null    float64
 6   IDA_2020         727 non-null    float64
 7   IDA_2021         686 non-null    float64
 8   IDA_2022         862 non-null    float64
 9   IPS_2020         727 non-null    float64
 10  IPS_2021         686 non-null    float64
 11  IPS_2022         862 non-null    float64
 12  IPP_2020         727 non-null    float64
 13  IPP_2021         686 non-null    float64
 14  IPP_2022         862 non-null    float64
 15  IAA_2020         727 non-null    float64
 16  IAA_2021         686 non-null    float64
 17  IAA_2022      

In [18]:
df_dados_selecionados.isnull().sum()/df_dados_selecionados.shape[0]*100

INDE_2020         46.11
INDE_2021         49.30
INDE_2022         36.10
IEG_2020          46.11
IEG_2021          49.15
IEG_2022          36.10
IDA_2020          46.11
IDA_2021          49.15
IDA_2022          36.10
IPS_2020          46.11
IPS_2021          49.15
IPS_2022          36.10
IPP_2020          46.11
IPP_2021          49.15
IPP_2022          36.10
IAA_2020          46.11
IAA_2021          49.15
IAA_2022          36.10
IPV_2020          46.11
IPV_2021          49.15
IPV_2022          36.10
NOTA_PORT_2022    36.25
NOTA_MAT_2022     36.25
NOTA_ING_2022     78.87
PEDRA_2020        46.03
PEDRA_2021        49.15
PEDRA_2022        36.10
FASE_TURMA_2020   46.03
FASE_TURMA_2021    0.00
FASE_TURMA_2022    0.00
dtype: float64

Considerando o fato de que as vari√°veis da base s√£o, em sua maioria (com exce√ß√£o das colunas `PEDRA_2020`, `PEDRA_2021`, `PEDRA_2022`, `FASE_TURMA_2020`, `FASE_TURMA_2021`, `FASE_TURMA_2022`) s√£o notas, para as _rows_ que apresentam valor nulo, √© assumido que o aluno n√£o foi avaliado **ou** zerou a avalia√ß√£o feita.

Por essa raz√£o, todos os valores NaN de colunas num√©ricas, ser√£o substitu√≠dos por 0. 

J√° para as colunas categ√≥ricas (`PEDRA_2020`, `PEDRA_2021`, `PEDRA_2022`, `FASE_TURMA_2020`, `FASE_TURMA_2021`, `FASE_TURMA_2022`), os valores NaN ser√£o substitu√≠dos por 'N√£o Informado'.

In [19]:
# INDE_2020, INDE_2021, INDE_2022, IEG_2020, IEG_2021, IEG_2022, IDA_2020, IDA_2021, IDA_2022, IPS_2020, IPS_2021, IPS_2022, IPP_2020, IPP_2021, IPP_2022, IAA_2020, IAA_2021, IAA_2022, IPV_2020, IPV_2021, IPV_2022, NOTA_PORT_2022, NOTA_MAT_2022,NOTA_ING_2022
colunas_numericas_na = ['INDE_2020', 'INDE_2021', 'INDE_2022', 'IEG_2020', 'IEG_2021', 'IEG_2022', 'IDA_2020', 'IDA_2021', 'IDA_2022', 'IPS_2020', 'IPS_2021', 'IPS_2022', 'IPP_2020', 'IPP_2021', 'IPP_2022', 'IAA_2020', 'IAA_2021', 'IAA_2022', 'IPV_2020', 'IPV_2021', 'IPV_2022', 'NOTA_PORT_2022', 'NOTA_MAT_2022','NOTA_ING_2022']

df_dados_selecionados[colunas_numericas_na] = df_dados_selecionados[colunas_numericas_na].fillna(0)


A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df_dados_selecionados[colunas_numericas_na] = df_dados_selecionados[colunas_numericas_na].fillna(0)


In [20]:
df_dados_selecionados.head()

Unnamed: 0,INDE_2020,INDE_2021,INDE_2022,IEG_2020,IEG_2021,IEG_2022,IDA_2020,IDA_2021,IDA_2022,IPS_2020,IPS_2021,IPS_2022,IPP_2020,IPP_2021,IPP_2022,IAA_2020,IAA_2021,IAA_2022,IPV_2020,IPV_2021,IPV_2022,NOTA_PORT_2022,NOTA_MAT_2022,NOTA_ING_2022,PEDRA_2020,PEDRA_2021,PEDRA_2022,FASE_TURMA_2020,FASE_TURMA_2021,FASE_TURMA_2022
0,7.88,7.32,0.0,8.7,6.3,0.0,7.0,8.8,0.0,7.5,6.9,0.0,5.94,7.7,0.0,8.5,7.5,0.0,7.75,8.1,0.0,0.0,0.0,0.0,Ametista,Ametista,,2H,2.0G,nannan
1,0.0,0.0,7.68,0.0,0.0,7.58,0.0,0.0,8.82,0.0,0.0,7.5,0.0,0.0,5.62,0.0,0.0,10.0,0.0,0.0,7.92,8.2,9.43,0.0,,,Ametista,,nannan,0.0K
2,7.86,7.02,0.0,8.9,6.9,0.0,5.5,5.6,0.0,7.5,6.3,0.0,8.12,7.3,0.0,7.92,7.1,0.0,8.11,7.2,0.0,0.0,0.0,0.0,Ametista,Ametista,,3H,3.0F,nannan
3,5.08,0.0,7.12,4.1,0.0,8.07,0.0,0.0,5.08,6.88,0.0,7.5,7.19,0.0,6.25,8.0,0.0,10.0,7.75,0.0,8.06,5.0,5.17,0.0,Quartzo,,Ametista,1D,nannan,2.0J
4,8.08,7.4,7.23,8.0,7.5,8.56,7.5,5.4,7.08,7.5,7.5,7.5,8.44,8.5,6.46,7.5,7.4,6.42,8.17,7.4,7.83,6.67,7.5,0.0,Ametista,Ametista,Ametista,2M,2.0L,2.0L


In [21]:
colunas_categoricas_na = ['PEDRA_2020', 'PEDRA_2021', 'PEDRA_2022', 'FASE_TURMA_2020', 'FASE_TURMA_2021', 'FASE_TURMA_2022']

df_dados_selecionados[colunas_categoricas_na] = df_dados_selecionados[colunas_categoricas_na].fillna('N√£o Informado')

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df_dados_selecionados[colunas_categoricas_na] = df_dados_selecionados[colunas_categoricas_na].fillna('N√£o Informado')


In [22]:
df_dados_selecionados.head()

Unnamed: 0,INDE_2020,INDE_2021,INDE_2022,IEG_2020,IEG_2021,IEG_2022,IDA_2020,IDA_2021,IDA_2022,IPS_2020,IPS_2021,IPS_2022,IPP_2020,IPP_2021,IPP_2022,IAA_2020,IAA_2021,IAA_2022,IPV_2020,IPV_2021,IPV_2022,NOTA_PORT_2022,NOTA_MAT_2022,NOTA_ING_2022,PEDRA_2020,PEDRA_2021,PEDRA_2022,FASE_TURMA_2020,FASE_TURMA_2021,FASE_TURMA_2022
0,7.88,7.32,0.0,8.7,6.3,0.0,7.0,8.8,0.0,7.5,6.9,0.0,5.94,7.7,0.0,8.5,7.5,0.0,7.75,8.1,0.0,0.0,0.0,0.0,Ametista,Ametista,N√£o Informado,2H,2.0G,nannan
1,0.0,0.0,7.68,0.0,0.0,7.58,0.0,0.0,8.82,0.0,0.0,7.5,0.0,0.0,5.62,0.0,0.0,10.0,0.0,0.0,7.92,8.2,9.43,0.0,N√£o Informado,N√£o Informado,Ametista,N√£o Informado,nannan,0.0K
2,7.86,7.02,0.0,8.9,6.9,0.0,5.5,5.6,0.0,7.5,6.3,0.0,8.12,7.3,0.0,7.92,7.1,0.0,8.11,7.2,0.0,0.0,0.0,0.0,Ametista,Ametista,N√£o Informado,3H,3.0F,nannan
3,5.08,0.0,7.12,4.1,0.0,8.07,0.0,0.0,5.08,6.88,0.0,7.5,7.19,0.0,6.25,8.0,0.0,10.0,7.75,0.0,8.06,5.0,5.17,0.0,Quartzo,N√£o Informado,Ametista,1D,nannan,2.0J
4,8.08,7.4,7.23,8.0,7.5,8.56,7.5,5.4,7.08,7.5,7.5,7.5,8.44,8.5,6.46,7.5,7.4,6.42,8.17,7.4,7.83,6.67,7.5,0.0,Ametista,Ametista,Ametista,2M,2.0L,2.0L


In [23]:
# transforma nomes de colunas em lower case
df_dados_selecionados.columns = df_dados_selecionados.columns.str.lower()

In [24]:
df_dados_selecionados.head()

Unnamed: 0,inde_2020,inde_2021,inde_2022,ieg_2020,ieg_2021,ieg_2022,ida_2020,ida_2021,ida_2022,ips_2020,ips_2021,ips_2022,ipp_2020,ipp_2021,ipp_2022,iaa_2020,iaa_2021,iaa_2022,ipv_2020,ipv_2021,ipv_2022,nota_port_2022,nota_mat_2022,nota_ing_2022,pedra_2020,pedra_2021,pedra_2022,fase_turma_2020,fase_turma_2021,fase_turma_2022
0,7.88,7.32,0.0,8.7,6.3,0.0,7.0,8.8,0.0,7.5,6.9,0.0,5.94,7.7,0.0,8.5,7.5,0.0,7.75,8.1,0.0,0.0,0.0,0.0,Ametista,Ametista,N√£o Informado,2H,2.0G,nannan
1,0.0,0.0,7.68,0.0,0.0,7.58,0.0,0.0,8.82,0.0,0.0,7.5,0.0,0.0,5.62,0.0,0.0,10.0,0.0,0.0,7.92,8.2,9.43,0.0,N√£o Informado,N√£o Informado,Ametista,N√£o Informado,nannan,0.0K
2,7.86,7.02,0.0,8.9,6.9,0.0,5.5,5.6,0.0,7.5,6.3,0.0,8.12,7.3,0.0,7.92,7.1,0.0,8.11,7.2,0.0,0.0,0.0,0.0,Ametista,Ametista,N√£o Informado,3H,3.0F,nannan
3,5.08,0.0,7.12,4.1,0.0,8.07,0.0,0.0,5.08,6.88,0.0,7.5,7.19,0.0,6.25,8.0,0.0,10.0,7.75,0.0,8.06,5.0,5.17,0.0,Quartzo,N√£o Informado,Ametista,1D,nannan,2.0J
4,8.08,7.4,7.23,8.0,7.5,8.56,7.5,5.4,7.08,7.5,7.5,7.5,8.44,8.5,6.46,7.5,7.4,6.42,8.17,7.4,7.83,6.67,7.5,0.0,Ametista,Ametista,Ametista,2M,2.0L,2.0L


In [25]:
# Criar uma nova coluna 'id_aluno' com n√∫meros sequenciais de 1 at√© o n√∫mero total de linhas
df_dados_selecionados['id_aluno'] = range(1, len(df_dados_selecionados) + 1)

# Exibir o DataFrame atualizado
df_dados_selecionados.head()

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df_dados_selecionados['id_aluno'] = range(1, len(df_dados_selecionados) + 1)


Unnamed: 0,inde_2020,inde_2021,inde_2022,ieg_2020,ieg_2021,ieg_2022,ida_2020,ida_2021,ida_2022,ips_2020,ips_2021,ips_2022,ipp_2020,ipp_2021,ipp_2022,iaa_2020,iaa_2021,iaa_2022,ipv_2020,ipv_2021,ipv_2022,nota_port_2022,nota_mat_2022,nota_ing_2022,pedra_2020,pedra_2021,pedra_2022,fase_turma_2020,fase_turma_2021,fase_turma_2022,id_aluno
0,7.88,7.32,0.0,8.7,6.3,0.0,7.0,8.8,0.0,7.5,6.9,0.0,5.94,7.7,0.0,8.5,7.5,0.0,7.75,8.1,0.0,0.0,0.0,0.0,Ametista,Ametista,N√£o Informado,2H,2.0G,nannan,1
1,0.0,0.0,7.68,0.0,0.0,7.58,0.0,0.0,8.82,0.0,0.0,7.5,0.0,0.0,5.62,0.0,0.0,10.0,0.0,0.0,7.92,8.2,9.43,0.0,N√£o Informado,N√£o Informado,Ametista,N√£o Informado,nannan,0.0K,2
2,7.86,7.02,0.0,8.9,6.9,0.0,5.5,5.6,0.0,7.5,6.3,0.0,8.12,7.3,0.0,7.92,7.1,0.0,8.11,7.2,0.0,0.0,0.0,0.0,Ametista,Ametista,N√£o Informado,3H,3.0F,nannan,3
3,5.08,0.0,7.12,4.1,0.0,8.07,0.0,0.0,5.08,6.88,0.0,7.5,7.19,0.0,6.25,8.0,0.0,10.0,7.75,0.0,8.06,5.0,5.17,0.0,Quartzo,N√£o Informado,Ametista,1D,nannan,2.0J,4
4,8.08,7.4,7.23,8.0,7.5,8.56,7.5,5.4,7.08,7.5,7.5,7.5,8.44,8.5,6.46,7.5,7.4,6.42,8.17,7.4,7.83,6.67,7.5,0.0,Ametista,Ametista,Ametista,2M,2.0L,2.0L,5


#### 1.1.3 Tratamento da Base Demogr√°fica

In [3]:
df_municipio = pd.read_csv('bases_e_documental/Base de dados - Passos M√°gicos/Outras tabelas/TbMunicipio.csv', sep=',')
df_municipio.head()

Unnamed: 0,IdMunicipio,NomeMunicipio,UF,CodigoIBGE
0,1,ABADIA DE GOI√ÅS,GO,5200050
1,2,ABADIA DOS DOURADOS,MG,3100104
2,3,ABADI√ÇNIA,GO,5200100
3,4,ABAET√â,MG,3100203
4,5,ABAETETUBA,PA,1500107


In [4]:
df_municipio.shape

(5563, 4)

In [5]:
df_municipio.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 5563 entries, 0 to 5562
Data columns (total 4 columns):
 #   Column         Non-Null Count  Dtype 
---  ------         --------------  ----- 
 0   IdMunicipio    5563 non-null   int64 
 1   NomeMunicipio  5563 non-null   object
 2   UF             5563 non-null   object
 3   CodigoIBGE     5563 non-null   int64 
dtypes: int64(2), object(2)
memory usage: 174.0+ KB


In [6]:
df_municipio.isnull().sum()

IdMunicipio      0
NomeMunicipio    0
UF               0
CodigoIBGE       0
dtype: int64

#### 1.1.4 Tratamento da _Merged Base_ de `TbAluno`

A base _merged_, se refere √† jun√ß√£o das bases `TbAluno`, `TbAlunoObs`, `TbAlunoProprioRespons√°vel`, `TbAlunoRotinaEducacaoInfantil`, `TbAlunoTurma` e `TbAlunoTurmaHistorico`.

In [7]:
# transforma arquivo .CSV em um Pandas Dataframe
df_alunos_merged = pd.read_csv('bases_e_documental/Base de dados - Passos M√°gicos/TbAluno/Merge/merged_data.csv', sep=',')
df_alunos_merged.head()

Unnamed: 0,IdAlunoRotinaEducacaoInfantil,IdAluno,IdTurma_x,Data,IdProfessorResponsavel,IdUsuarioResponsavel,IdFormularioRotinaEducacaoInfantil,IdAlunoObs,IdTipoOcorrencia,StImpedimento,...,StRecursoLinguaPortuguesaSegundaLingua,StRecursoProvaEmVideo,StPermiteUsoImagem,StEstrangeiro,Unnamed: 55,DataOcorrencia_y,IdTurma,IdSituacaoAlunoTurma_y,IdFaseNotaInicial_y,IdUsuario
0,16139,727,231,2021-08-24 00:00:00,11.0,,1,9789,21,False,...,False,False,False,False,,2021-08-20 17:44:09.803000,231,1.0,,15
1,16139,727,231,2021-08-24 00:00:00,11.0,,1,9789,21,False,...,False,False,False,False,,2021-09-22 12:25:38.363000,142,1.0,,14
2,16139,727,231,2021-08-24 00:00:00,11.0,,1,9789,21,False,...,False,False,False,False,,2021-12-28 15:14:53.953000,142,9.0,,15
3,16139,727,231,2021-08-24 00:00:00,11.0,,1,9789,21,False,...,False,False,False,False,,2021-12-28 15:21:27.383000,231,9.0,,15
4,16139,727,231,2021-08-24 00:00:00,11.0,,1,9789,21,False,...,False,False,False,False,,2022-02-09 14:53:07.403000,198,1.0,,16


In [8]:
df_alunos_merged.shape

(49089, 116)

In [9]:
# Obter as informa√ß√µes do DataFrame
df_alunos_merged.info(buf=None, verbose=True)

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 49089 entries, 0 to 49088
Data columns (total 116 columns):
 #    Column                                    Dtype  
---   ------                                    -----  
 0    IdAlunoRotinaEducacaoInfantil             int64  
 1    IdAluno                                   int64  
 2    IdTurma_x                                 int64  
 3    Data                                      object 
 4    IdProfessorResponsavel                    float64
 5    IdUsuarioResponsavel                      float64
 6    IdFormularioRotinaEducacaoInfantil        int64  
 7    IdAlunoObs                                int64  
 8    IdTipoOcorrencia                          int64  
 9    StImpedimento                             bool   
 10   DataOcorrencia_x                          object 
 11   IdUsuarioRegistro                         int64  
 12   ObservacaoRegistro                        object 
 13   DataLiberacao                             fl

In [10]:
# porcetagem de colunas nulas
df_alunos_merged.isnull().sum()/df_alunos_merged.shape[0]*100

IdAlunoRotinaEducacaoInfantil      0.000000
IdAluno                            0.000000
IdTurma_x                          0.000000
Data                               0.000000
IdProfessorResponsavel             0.000000
                                    ...    
DataOcorrencia_y                   0.000000
IdTurma                            0.000000
IdSituacaoAlunoTurma_y            15.488195
IdFaseNotaInicial_y              100.000000
IdUsuario                          0.000000
Length: 116, dtype: float64

In [11]:
# deleta colunas que possuam qualquer valor nulo
df_alunos_merged = df_alunos_merged.dropna(axis=1)
df_alunos_merged.head()

Unnamed: 0,IdAlunoRotinaEducacaoInfantil,IdAluno,IdTurma_x,Data,IdProfessorResponsavel,IdFormularioRotinaEducacaoInfantil,IdAlunoObs,IdTipoOcorrencia,StImpedimento,DataOcorrencia_x,...,StRecursoProvaAmpliada,StRecursoProvaSuperampliada,StRecursoCdComAudio,StRecursoLinguaPortuguesaSegundaLingua,StRecursoProvaEmVideo,StPermiteUsoImagem,StEstrangeiro,DataOcorrencia_y,IdTurma,IdUsuario
0,16139,727,231,2021-08-24 00:00:00,11.0,1,9789,21,False,2023-05-08 00:00:00,...,False,False,False,False,False,False,False,2021-08-20 17:44:09.803000,231,15
1,16139,727,231,2021-08-24 00:00:00,11.0,1,9789,21,False,2023-05-08 00:00:00,...,False,False,False,False,False,False,False,2021-09-22 12:25:38.363000,142,14
2,16139,727,231,2021-08-24 00:00:00,11.0,1,9789,21,False,2023-05-08 00:00:00,...,False,False,False,False,False,False,False,2021-12-28 15:14:53.953000,142,15
3,16139,727,231,2021-08-24 00:00:00,11.0,1,9789,21,False,2023-05-08 00:00:00,...,False,False,False,False,False,False,False,2021-12-28 15:21:27.383000,231,15
4,16139,727,231,2021-08-24 00:00:00,11.0,1,9789,21,False,2023-05-08 00:00:00,...,False,False,False,False,False,False,False,2022-02-09 14:53:07.403000,198,16


In [12]:
# visualiza todas as informa√ß√µes da base
df_alunos_merged.info(verbose=True, buf=None)

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 49089 entries, 0 to 49088
Data columns (total 64 columns):
 #   Column                                  Non-Null Count  Dtype  
---  ------                                  --------------  -----  
 0   IdAlunoRotinaEducacaoInfantil           49089 non-null  int64  
 1   IdAluno                                 49089 non-null  int64  
 2   IdTurma_x                               49089 non-null  int64  
 3   Data                                    49089 non-null  object 
 4   IdProfessorResponsavel                  49089 non-null  float64
 5   IdFormularioRotinaEducacaoInfantil      49089 non-null  int64  
 6   IdAlunoObs                              49089 non-null  int64  
 7   IdTipoOcorrencia                        49089 non-null  int64  
 8   StImpedimento                           49089 non-null  bool   
 9   DataOcorrencia_x                        49089 non-null  object 
 10  IdUsuarioRegistro                       49089 non-null  in

In [15]:
# recria df com colunas que ser√£o utilizadas
df_alunos_merged = df_alunos_merged[['IdAluno', 'IdResponsavelFinanceiro', 'IdTipoResponsavelFinanceiro', 'IdUnidade', 'Sexo', 'EstadoCivil', 'DataNascimento', 'IdTipoResponsavel', 'CorRaca']]
df_alunos_merged.head()

Unnamed: 0,IdAluno,IdResponsavelFinanceiro,IdTipoResponsavelFinanceiro,IdUnidade,Sexo,EstadoCivil,DataNascimento,IdTipoResponsavel,CorRaca
0,727,615.0,4.0,1.0,M,5.0,2001-07-23 03:00:00,4,B
1,727,615.0,4.0,1.0,M,5.0,2001-07-23 03:00:00,4,B
2,727,615.0,4.0,1.0,M,5.0,2001-07-23 03:00:00,4,B
3,727,615.0,4.0,1.0,M,5.0,2001-07-23 03:00:00,4,B
4,727,615.0,4.0,1.0,M,5.0,2001-07-23 03:00:00,4,B


In [17]:
# substituir c√≥digos do Tipo de Respons√°vel por descri√ß√µes
# Dicion√°rio de mapeamento para IdTipoRespons√°vel
mapeamento_tipo_respons√°vel = {
  1 : 'Pai',
  2 : 'M√£e',
  3 : 'O pr√≥prio',
  4: 'Outros',
  5 : 'Tia',
  6 : 'Padrasto',
  7 : 'Madrasta',
  8 : 'Av√≥',
  9 : 'Av√¥',
  10 : 'Tio',
  11 : 'Indefinido',
  12 : 'Outros Respons√°veis',
  13 : 'mae',
  14 : 'Irm√£o', 
  15 : 'IRM'
}

# substitui os valoees na coluna IdTipoResponsavvel com valores leg√≠veis
df_alunos_merged['IdTipoResponsavel'] = df_alunos_merged['IdTipoResponsavel'].map(mapeamento_tipo_respons√°vel)

df_alunos_merged.head()

Unnamed: 0,IdAluno,IdResponsavelFinanceiro,IdTipoResponsavelFinanceiro,IdUnidade,Sexo,EstadoCivil,DataNascimento,IdTipoResponsavel,CorRaca
0,727,615.0,4.0,1.0,M,5.0,2001-07-23 03:00:00,Outros,B
1,727,615.0,4.0,1.0,M,5.0,2001-07-23 03:00:00,Outros,B
2,727,615.0,4.0,1.0,M,5.0,2001-07-23 03:00:00,Outros,B
3,727,615.0,4.0,1.0,M,5.0,2001-07-23 03:00:00,Outros,B
4,727,615.0,4.0,1.0,M,5.0,2001-07-23 03:00:00,Outros,B


In [18]:
df_alunos_merged.shape

(49089, 9)

In [19]:
#dropa colunas que n√£o encontramos mapeamento
df_alunos_merged.drop('IdTipoResponsavelFinanceiro', axis=1, inplace=True)
df_alunos_merged.drop('IdResponsavelFinanceiro', axis=1, inplace=True)
df_alunos_merged.drop('IdUnidade', axis=1, inplace=True)

In [20]:
df_alunos_merged.head()

Unnamed: 0,IdAluno,Sexo,EstadoCivil,DataNascimento,IdTipoResponsavel,CorRaca
0,727,M,5.0,2001-07-23 03:00:00,Outros,B
1,727,M,5.0,2001-07-23 03:00:00,Outros,B
2,727,M,5.0,2001-07-23 03:00:00,Outros,B
3,727,M,5.0,2001-07-23 03:00:00,Outros,B
4,727,M,5.0,2001-07-23 03:00:00,Outros,B


In [21]:
# substitui c√≥digo da coluna Sexo por valores leg√≠veis
mapeamento_sexo = {
  'M' : 'Masculino',
  'F' : 'Feminino',
}

# substitui os valoees na coluna Sexo com valores leg√≠veis
df_alunos_merged['Sexo'] = df_alunos_merged['Sexo'].map(mapeamento_sexo)

df_alunos_merged.head()

Unnamed: 0,IdAluno,Sexo,EstadoCivil,DataNascimento,IdTipoResponsavel,CorRaca
0,727,Masculino,5.0,2001-07-23 03:00:00,Outros,B
1,727,Masculino,5.0,2001-07-23 03:00:00,Outros,B
2,727,Masculino,5.0,2001-07-23 03:00:00,Outros,B
3,727,Masculino,5.0,2001-07-23 03:00:00,Outros,B
4,727,Masculino,5.0,2001-07-23 03:00:00,Outros,B


In [22]:
# dropa coluna Estado Civil
df_alunos_merged.drop('EstadoCivil', axis=1, inplace=True)
df_alunos_merged

Unnamed: 0,IdAluno,Sexo,DataNascimento,IdTipoResponsavel,CorRaca
0,727,Masculino,2001-07-23 03:00:00,Outros,B
1,727,Masculino,2001-07-23 03:00:00,Outros,B
2,727,Masculino,2001-07-23 03:00:00,Outros,B
3,727,Masculino,2001-07-23 03:00:00,Outros,B
4,727,Masculino,2001-07-23 03:00:00,Outros,B
...,...,...,...,...,...
49084,1310,Feminino,2001-10-15 00:00:00,O pr√≥prio,B
49085,1310,Feminino,2001-10-15 00:00:00,O pr√≥prio,B
49086,1310,Feminino,2001-10-15 00:00:00,O pr√≥prio,B
49087,1310,Feminino,2001-10-15 00:00:00,O pr√≥prio,B


In [23]:
# substitui c√≥digo da coluna Ra√ßa por valores leg√≠veis
mapeamento_cor_raca = {
  'B' : 'Branco',
  'P' : 'Preto',
  'R' : 'N√£o especificado',
}

# substitui os valoees na coluna Sexo com valores leg√≠veis
df_alunos_merged['CorRaca'] = df_alunos_merged['CorRaca'].map(mapeamento_cor_raca)

df_alunos_merged.head()

Unnamed: 0,IdAluno,Sexo,DataNascimento,IdTipoResponsavel,CorRaca
0,727,Masculino,2001-07-23 03:00:00,Outros,Branco
1,727,Masculino,2001-07-23 03:00:00,Outros,Branco
2,727,Masculino,2001-07-23 03:00:00,Outros,Branco
3,727,Masculino,2001-07-23 03:00:00,Outros,Branco
4,727,Masculino,2001-07-23 03:00:00,Outros,Branco


In [24]:
df_alunos_merged.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 49089 entries, 0 to 49088
Data columns (total 5 columns):
 #   Column             Non-Null Count  Dtype 
---  ------             --------------  ----- 
 0   IdAluno            49089 non-null  int64 
 1   Sexo               49089 non-null  object
 2   DataNascimento     49089 non-null  object
 3   IdTipoResponsavel  49089 non-null  object
 4   CorRaca            49089 non-null  object
dtypes: int64(1), object(4)
memory usage: 1.9+ MB


In [27]:
# altera coluna DataNascimento de object para datetime; somente data
df_alunos_merged['DataNascimento'] = pd.to_datetime(df_alunos_merged['DataNascimento'].dt.date)

df_alunos_merged

Unnamed: 0,IdAluno,Sexo,DataNascimento,IdTipoResponsavel,CorRaca
0,727,Masculino,2001-07-23,Outros,Branco
1,727,Masculino,2001-07-23,Outros,Branco
2,727,Masculino,2001-07-23,Outros,Branco
3,727,Masculino,2001-07-23,Outros,Branco
4,727,Masculino,2001-07-23,Outros,Branco
...,...,...,...,...,...
49084,1310,Feminino,2001-10-15,O pr√≥prio,Branco
49085,1310,Feminino,2001-10-15,O pr√≥prio,Branco
49086,1310,Feminino,2001-10-15,O pr√≥prio,Branco
49087,1310,Feminino,2001-10-15,O pr√≥prio,Branco


In [28]:
df_alunos_merged.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 49089 entries, 0 to 49088
Data columns (total 5 columns):
 #   Column             Non-Null Count  Dtype         
---  ------             --------------  -----         
 0   IdAluno            49089 non-null  int64         
 1   Sexo               49089 non-null  object        
 2   DataNascimento     49089 non-null  datetime64[ns]
 3   IdTipoResponsavel  49089 non-null  object        
 4   CorRaca            49089 non-null  object        
dtypes: datetime64[ns](1), int64(1), object(3)
memory usage: 1.9+ MB


#### 1.1.5 Tratamento da Base de `TbFase`

Essa base √© a jun√ß√£o das base `TbFaseNota`, `TbFaseNotaAluno` e `TbFaseNotaDisciplinaTurma` e `TbFaseNotaOrigemDestino`.

In [29]:
df_fase = pd.read_csv('bases_e_documental/Base de dados - Passos M√°gicos/TbFase/Merge/merged_data.csv', sep=',')
df_fase.head()

Unnamed: 0,IdFaseNotaDisciplinaTurma,IdTurma_x,IdFaseNota,IdDisciplina_x,ConteudoProgramatico,IdPeriodo,IdSerie,NumeroFase,NomeFase,CabecBoletim,...,Nota09,Nota10,IdFormulaComposicao,StNotaConfirmada,NotaFase,Faltas,QuantAulasDadas,_Nota01,StNotaFaseExibirDisp,IdFaseNotaAluno
0,1,420,134,4,,5,2,1,DIAGNOSTICA 1,DIG1,...,,,55.0,True,8.0,0.0,,,False,3109
1,1,420,134,4,,5,2,1,DIAGNOSTICA 1,DIG1,...,,,55.0,True,8.5,0.0,,,False,3110
2,1,420,134,4,,5,2,1,DIAGNOSTICA 1,DIG1,...,,,55.0,True,5.0,0.0,,,False,3111
3,1,420,134,4,,5,2,1,DIAGNOSTICA 1,DIG1,...,,,55.0,True,0.0,0.0,,,False,3112
4,1,420,134,4,,5,2,1,DIAGNOSTICA 1,DIG1,...,,,55.0,True,3.0,0.0,,,False,3113


In [30]:
df_fase.shape

(2254, 67)

In [31]:
df_fase.info(buf=None, verbose=True)

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 2254 entries, 0 to 2253
Data columns (total 67 columns):
 #   Column                                     Non-Null Count  Dtype  
---  ------                                     --------------  -----  
 0   IdFaseNotaDisciplinaTurma                  2254 non-null   int64  
 1   IdTurma_x                                  2254 non-null   int64  
 2   IdFaseNota                                 2254 non-null   int64  
 3   IdDisciplina_x                             2254 non-null   int64  
 4   ConteudoProgramatico                       1320 non-null   object 
 5   IdPeriodo                                  2254 non-null   int64  
 6   IdSerie                                    2254 non-null   int64  
 7   NumeroFase                                 2254 non-null   int64  
 8   NomeFase                                   2254 non-null   object 
 9   CabecBoletim                               2254 non-null   object 
 10  ImprimirBoletimNotaParci

In [32]:
# traz porcentagem de colunas nulas
df_fase.isnull().sum()/df_fase.shape[0]*100

IdFaseNotaDisciplinaTurma      0.000000
IdTurma_x                      0.000000
IdFaseNota                     0.000000
IdDisciplina_x                 0.000000
ConteudoProgramatico          41.437445
                                ...    
Faltas                         0.000000
QuantAulasDadas               92.236025
_Nota01                      100.000000
StNotaFaseExibirDisp           0.000000
IdFaseNotaAluno                0.000000
Length: 67, dtype: float64

In [33]:
# deleta qualquer coluna com informa√ß√µes nulas
df_fase.drop(['ConteudoProgramatico', 'IdFormulaNota', 'ValorArredondamentoMedia', 'IdFaseNotaReprovacao', 'IdFormulaFalta', 'DataInicioExibicao', 'NumeroSemanasLetivas', 'IdFormulaAprovacaoFrequencia', 'DataInicialPeriodoAula', 'DataFinalPeriodoAula', 'DataLimiteDigitacaoNota', 'NumeroDiasLetivos', 'TipoDispensaAutomatica', 'SituacaoReprovadoFrequencia', 'SituacaoAprovado', 'SituacaoReprovado', 'Nota01', 'Nota02', 'Nota03', 'Nota04', 'Nota05', 'Nota06', 'Nota07', 'Nota08', 'Nota09', 'Nota10', '_Nota01', 'NotaFase', 'QuantAulasDadas'], axis=1, inplace=True)
df_fase

Unnamed: 0,IdFaseNotaDisciplinaTurma,IdTurma_x,IdFaseNota,IdDisciplina_x,IdPeriodo,IdSerie,NumeroFase,NomeFase,CabecBoletim,ImprimirBoletimNotaParcial,...,StPermiteProfessorInserirEditarAvaliacao,StPermiteProfessorInserirBloco,IdDisciplina_y,IdTurma_y,IdAluno,IdFormulaComposicao,StNotaConfirmada,Faltas,StNotaFaseExibirDisp,IdFaseNotaAluno
0,1,420,134,4,5,2,1,DIAGNOSTICA 1,DIG1,False,...,True,True,4,410,657,55.0,True,0.0,False,3109
1,1,420,134,4,5,2,1,DIAGNOSTICA 1,DIG1,False,...,True,True,4,410,661,55.0,True,0.0,False,3110
2,1,420,134,4,5,2,1,DIAGNOSTICA 1,DIG1,False,...,True,True,4,410,686,55.0,True,0.0,False,3111
3,1,420,134,4,5,2,1,DIAGNOSTICA 1,DIG1,False,...,True,True,4,410,696,55.0,True,0.0,False,3112
4,1,420,134,4,5,2,1,DIAGNOSTICA 1,DIG1,False,...,True,True,4,410,698,55.0,True,0.0,False,3113
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
2249,3,743,971,4,7,24,1,DIAGN√ìSTICA 1,D1,False,...,False,False,5,655,2164,91.0,True,0.0,True,214935
2250,3,743,971,4,7,24,1,DIAGN√ìSTICA 1,D1,False,...,False,False,5,655,2173,91.0,True,0.0,True,214944
2251,3,743,971,4,7,24,1,DIAGN√ìSTICA 1,D1,False,...,False,False,5,744,468,91.0,True,0.0,False,215007
2252,3,743,971,4,7,24,1,DIAGN√ìSTICA 1,D1,False,...,False,False,5,744,1396,91.0,True,0.0,False,215034


In [34]:
# traz porcentagem de colunas nulas
df_fase.isnull().sum()/df_fase.shape[0]*100

IdFaseNotaDisciplinaTurma                    0.0
IdTurma_x                                    0.0
IdFaseNota                                   0.0
IdDisciplina_x                               0.0
IdPeriodo                                    0.0
IdSerie                                      0.0
NumeroFase                                   0.0
NomeFase                                     0.0
CabecBoletim                                 0.0
ImprimirBoletimNotaParcial                   0.0
ImprimirBoletimNPNaoConfirmada               0.0
ImprimirBoletimNota                          0.0
ImprimirBoletimFaltas                        0.0
StFaseInformada                              0.0
StCalcularDisciplinaComposta                 0.0
IdFormulaComposicaoNota                      0.0
MediaMinimaAprovacao                         0.0
IdFormulaAprovacao                           0.0
IdFaseNotaAprovacao                          0.0
NumeroOrdemExibicao                          0.0
StCalcularSituacaoGe

#### 1.1.6 Tratamento Base Hist√≥rico

A base Hist√≥rico √© composta pelo merge das seguintes bases: `TbHistorico`, `TbHistoricoNotas`.

In [90]:
df_historico = pd.read_csv('bases_e_documental\Base de dados - Passos M√°gicos\TbHistorico\Merge\merged_data.csv', sep=',')
df_historico.head()

  df_historico = pd.read_csv('bases_e_documental\Base de dados - Passos M√°gicos\TbHistorico\Merge\merged_data.csv', sep=',')


Unnamed: 0,IdAluno,CodigoSerie_x,AnoConclusao_x,IdDisciplina,StDependencia,Nota_,NotaFinal,CargaHorariaAnual,QuantidadeFaltasAnual,ResultadoFinal_x,IdSerie_x,CargaHorariaAnualExibicao,StCHIgnorarSoma_x,IdHistoricoNotas,NovoEnsinoMedio_GrupoEstruturaCurricular,NovoEnsinoMedio_AreaConhecimento,CargaHorariaAnualHoraMinuto,CargaHorariaAnualHoraMinutoExibicao,StUsaCargaHorariaAnualHoraMinutoTexto,FaltasHoraMinuto,CargaHorariaAula,CodigoSerie_y,AnoConclusao_y,ResultadoFinal_y,IdEstabelecimentoEnsino,DiasLetivos,CargaHorariaTotal,Observacao,IdSerie_y,CargaHorariaTotalExibicao,StCHIgnorarSoma_y,FrequenciaTotal,CargaHorariaTotalHoraMinuto,CargaHorariaTotalHoraMinutoExibicao,StUsaCargaHorariaTotalHoraMinutoTexto,TotalFaltasTexto
0,2,n14,2023,5,0,,65,,0.0,R,,,False,59,,,,,False,,,n14,2023,C,2083,,,,,,False,,,,False,
1,2,n14,2023,5,0,,65,,0.0,R,,,False,59,,,,,False,,,n17,2023,A,2083,,,,,,False,,,,False,
2,2,n17,2023,5,0,,60,,,A,,,False,60,,,,,False,,,n14,2023,C,2083,,,,,,False,,,,False,
3,2,n17,2023,5,0,,60,,,A,,,False,60,,,,,False,,,n17,2023,A,2083,,,,,,False,,,,False,
4,2,n17,2023,25,0,,60,,,A,,,False,61,,,,,False,,,n14,2023,C,2083,,,,,,False,,,,False,


In [91]:
df_historico.shape

(65, 36)

In [92]:
# porcentagem de valores nulos por coluna
df_historico.isnull().sum()/df_historico.shape[0]*100

IdAluno                                      0.00
CodigoSerie_x                                0.00
AnoConclusao_x                               0.00
IdDisciplina                                 0.00
StDependencia                                0.00
Nota_                                      100.00
NotaFinal                                    0.00
CargaHorariaAnual                          100.00
QuantidadeFaltasAnual                        6.15
ResultadoFinal_x                             0.00
IdSerie_x                                  100.00
CargaHorariaAnualExibicao                  100.00
StCHIgnorarSoma_x                            0.00
IdHistoricoNotas                             0.00
NovoEnsinoMedio_GrupoEstruturaCurricular   100.00
NovoEnsinoMedio_AreaConhecimento           100.00
CargaHorariaAnualHoraMinuto                100.00
CargaHorariaAnualHoraMinutoExibicao        100.00
StUsaCargaHorariaAnualHoraMinutoTexto        0.00
FaltasHoraMinuto                           100.00


In [93]:
# deleta colunas com 100% de valores nulos
df_historico.drop(['Nota_', 'CargaHorariaAnual', 'IdSerie_x', 'CargaHorariaAnualExibicao', 'NovoEnsinoMedio_GrupoEstruturaCurricular', 'NovoEnsinoMedio_AreaConhecimento', 'CargaHorariaAnualHoraMinuto', 'CargaHorariaAnualHoraMinutoExibicao', 'FaltasHoraMinuto', 'CargaHorariaAula', 
'DiasLetivos', 'CargaHorariaTotal', 'Observacao', 'IdSerie_y', 'CargaHorariaTotalExibicao', 'FrequenciaTotal', 'CargaHorariaTotalHoraMinuto', 'CargaHorariaTotalHoraMinutoExibicao', 'TotalFaltasTexto'], axis=1, inplace=True)
df_historico

Unnamed: 0,IdAluno,CodigoSerie_x,AnoConclusao_x,IdDisciplina,StDependencia,NotaFinal,QuantidadeFaltasAnual,ResultadoFinal_x,StCHIgnorarSoma_x,IdHistoricoNotas,StUsaCargaHorariaAnualHoraMinutoTexto,CodigoSerie_y,AnoConclusao_y,ResultadoFinal_y,IdEstabelecimentoEnsino,StCHIgnorarSoma_y,StUsaCargaHorariaTotalHoraMinutoTexto
0,2,n14,2023,5,0,65,0.00,R,False,59,False,n14,2023,C,2083,False,False
1,2,n14,2023,5,0,65,0.00,R,False,59,False,n17,2023,A,2083,False,False
2,2,n17,2023,5,0,60,,A,False,60,False,n14,2023,C,2083,False,False
3,2,n17,2023,5,0,60,,A,False,60,False,n17,2023,A,2083,False,False
4,2,n17,2023,25,0,60,,A,False,61,False,n14,2023,C,2083,False,False
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
60,1160,n15,2022,5,0,60,0.00,A,False,54,False,n15,2022,C,2083,False,False
61,1166,n13,2022,5,0,60,0.00,A,False,57,False,n13,2022,C,2083,False,False
62,1167,n13,2022,5,0,60,0.00,A,False,47,False,n13,2022,C,2083,False,False
63,1171,n13,2022,5,0,60,0.00,A,False,58,False,n13,2022,C,2083,False,False


In [94]:
df_historico.isnull().sum()/df_historico.shape[0]*100

IdAluno                                 0.00
CodigoSerie_x                           0.00
AnoConclusao_x                          0.00
IdDisciplina                            0.00
StDependencia                           0.00
NotaFinal                               0.00
QuantidadeFaltasAnual                   6.15
ResultadoFinal_x                        0.00
StCHIgnorarSoma_x                       0.00
IdHistoricoNotas                        0.00
StUsaCargaHorariaAnualHoraMinutoTexto   0.00
CodigoSerie_y                           0.00
AnoConclusao_y                          0.00
ResultadoFinal_y                        0.00
IdEstabelecimentoEnsino                 0.00
StCHIgnorarSoma_y                       0.00
StUsaCargaHorariaTotalHoraMinutoTexto   3.08
dtype: float64

In [95]:
# deleta colunas com qualquer dado nulo
df_historico.dropna(axis=1, inplace=True)

In [96]:
df_historico

Unnamed: 0,IdAluno,CodigoSerie_x,AnoConclusao_x,IdDisciplina,StDependencia,NotaFinal,ResultadoFinal_x,StCHIgnorarSoma_x,IdHistoricoNotas,StUsaCargaHorariaAnualHoraMinutoTexto,CodigoSerie_y,AnoConclusao_y,ResultadoFinal_y,IdEstabelecimentoEnsino,StCHIgnorarSoma_y
0,2,n14,2023,5,0,65,R,False,59,False,n14,2023,C,2083,False
1,2,n14,2023,5,0,65,R,False,59,False,n17,2023,A,2083,False
2,2,n17,2023,5,0,60,A,False,60,False,n14,2023,C,2083,False
3,2,n17,2023,5,0,60,A,False,60,False,n17,2023,A,2083,False
4,2,n17,2023,25,0,60,A,False,61,False,n14,2023,C,2083,False
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
60,1160,n15,2022,5,0,60,A,False,54,False,n15,2022,C,2083,False
61,1166,n13,2022,5,0,60,A,False,57,False,n13,2022,C,2083,False
62,1167,n13,2022,5,0,60,A,False,47,False,n13,2022,C,2083,False
63,1171,n13,2022,5,0,60,A,False,58,False,n13,2022,C,2083,False


In [97]:
df_historico.isnull().sum()/df_historico.shape[0]*100

IdAluno                                 0.00
CodigoSerie_x                           0.00
AnoConclusao_x                          0.00
IdDisciplina                            0.00
StDependencia                           0.00
NotaFinal                               0.00
ResultadoFinal_x                        0.00
StCHIgnorarSoma_x                       0.00
IdHistoricoNotas                        0.00
StUsaCargaHorariaAnualHoraMinutoTexto   0.00
CodigoSerie_y                           0.00
AnoConclusao_y                          0.00
ResultadoFinal_y                        0.00
IdEstabelecimentoEnsino                 0.00
StCHIgnorarSoma_y                       0.00
dtype: float64

In [98]:
df_historico.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 65 entries, 0 to 64
Data columns (total 15 columns):
 #   Column                                 Non-Null Count  Dtype 
---  ------                                 --------------  ----- 
 0   IdAluno                                65 non-null     int64 
 1   CodigoSerie_x                          65 non-null     object
 2   AnoConclusao_x                         65 non-null     int64 
 3   IdDisciplina                           65 non-null     int64 
 4   StDependencia                          65 non-null     int64 
 5   NotaFinal                              65 non-null     object
 6   ResultadoFinal_x                       65 non-null     object
 7   StCHIgnorarSoma_x                      65 non-null     bool  
 8   IdHistoricoNotas                       65 non-null     int64 
 9   StUsaCargaHorariaAnualHoraMinutoTexto  65 non-null     bool  
 10  CodigoSerie_y                          65 non-null     object
 11  AnoConclusao_y       

In [99]:
df_historico.shape

(65, 15)

### Miss√£o da ONG
- Transformar vidas atrav√©s da educa√ß√£o.

### Vis√£o da ONG
- √â viver em um Brasil no qual todas as crian√ßas e jovens t√™m iguais oportunidades para realizarem seus sonhos e s√£o agentes transformadores de suas pr√≥prias vidas.

### Valores da ONG

- Empatia
- Amor ao aprendizado
- Poder em acreditar em si e no pr√≥ximo
- Pertencimento
- Gratid√£
- Busca pelo saber
- Educa√ß√£o que transforma e ajuda e transformar
- Aprender a aprender

A ONG foca, n√£o somente na estrutura necess√°ria para a educa√ß√£o de crian√ßas em vulnerabilidade como tamb√©m no apoio ao entorno desta crian√ßa, buscando proporcionar melhoria de vida e oportunidades tamb√©m para a fam√≠lia.

O projeto **Passos M√°gicos** atrav√©s de suas interven√ß√µes na comunidade que atende, conseguiu cobrir 5 dos 17 compromissos propostos pela [ONU para a Agenda 2030](https://www.globalgoals.org/take-action/?id=4):

- **ODS 1**: Erradica√ß√£o da pobreza
- **ODS 4**: Educa√ß√£o de qualidade
- **ODS 5**: Igualdade de g√™nero
- **ODS 8:** Trabalho decente e crescimento econ√¥mico
- **ODS 10**: Redu√ß√£o das desigualdades