# 1. Sobre o Projeto e Referências

## 1.1 Recursos e referências que podem ser utilizados

1. [Pasta do Datathon](https://drive.google.com/drive/folders/1Z1j6uzzCOgjB2a6i3Ym1pmJRsasfm7cD)
2. [Colab com funções, plots, cleaners; um helper para análise de dados](https://colab.research.google.com/drive/1YuRRN_j0EymrSUZnM8njWRCL-yY6Ds0f?usp=sharing#scrollTo=cZHJuEAGcU4x)
3. [DATATHON-PASSOS-MÁGICOS.ipynb](https://colab.research.google.com/drive/1iq0U4o_I9dfB627xtgFGIfu7GRFahD_u#scrollTo=jj1m78gyRuBO)
4. [Site Pasos Mágicos](https://pasosmagicos.org.br)

## 1.2 Sobre o Projeto

### 1.2.1 Objetivo 🎯
O grande objetivo do Datathon é criar uma proposta analítica dos dados da **Passos Mágicos**, para demonstrar o impacto que a ONG tem sobre a comunidade que atende. A associação busca instrumentalizar o uso da educação como ferramenta para a mudança das condições de vida das crianças e jovens em vulnerabilidade social. Com base no _dataset_ de pesquisa extensiva do desenvolvimento educacional no período de 2020, 2021 e 2022, será entregue **uma proposta analítica que demontre os impactos que a ONG **Passos Mágicos** realizou sobre a performance de estudantes e, levantar eses indicadores de performance. Para demonstrar esses impactos, será criado um _dashboard_ com _storytelling_, destacando dados que podem auxiliar a Passos Mágicos a tomar as melhores decisões com base nos indicadores e conhecer o perfil dos estudantes.**

### 1.2.2 Base de dados 🎲:
A base de dados contém informações educacionais e socioeconômicas dos estudantes da **Passos Mágicos**. Foram disponibilizadas duas bases de dados com as características de desenvolvimento educacional e questões socioeconômicas dos estudantes e um dicionário de dados com o mapeamento de todas as variáveis. Além da base de dados, alguns relatórios de pesquisa realizada pela **Passos Mágicos** também foram disponibilizados para auxiliar no conhecimento do negócio.

### 1.2.3 Entrega 🔗:

- Um _dashboard_ e um relatório contendo a análise dos dados.
- Subir o projeto em um repositório do github e compartilhar o _link_ do projeto na plataforma com os arquivos utilizados e o _link_ do _dashboard_.

# 1. Entendimento Inicial dos Dados

In [1]:
# importação das bibliotecas que serão utilizadas
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import matplotlib.ticker as ticker

In [2]:
# transforma arquivo .CSV em um Pandas Dataframe
df = pd.read_csv('bases_e_documental/pede_passos_dataset_fiap.csv', sep=';')
df.head()

Unnamed: 0,INSTITUICAO_ENSINO_ALUNO_2020,NOME,IDADE_ALUNO_2020,ANOS_PM_2020,FASE_TURMA_2020,PONTO_VIRADA_2020,INDE_2020,INDE_CONCEITO_2020,PEDRA_2020,DESTAQUE_IEG_2020,...,IPP_2022,REC_AVA_1_2022,REC_AVA_2_2022,REC_AVA_3_2022,REC_AVA_4_2022,INDICADO_BOLSA_2022,PONTO_VIRADA_2022,IPV_2022,IAN_2022,NIVEL_IDEAL_2022
0,Escola Pública,ALUNO-1,11.0,2.0,2H,Não,7.883752,B,Ametista,Seu destaque em 2020: A sua boa entrega das li...,...,,,,,,,,,,
1,,ALUNO-2,,,,,,,,,...,5.625,Mantido na Fase + Bolsa,Mantido na Fase atual,,,Sim,Não,7.916665,5.0,Fase 2 (5º e 6º ano)
2,Escola Pública,ALUNO-3,12.0,2.0,3H,Não,7.856389666666666,B,Ametista,Seu destaque em 2020: A sua boa entrega das li...,...,,,,,,,,,,
3,Escola Pública,ALUNO-4,10.0,2.0,1D,Não,5.076252,D,Quartzo,Ponto a melhorar em 2021: Melhorar a sua entre...,...,6.25,Promovido de Fase,Mantido na Fase atual,Promovido de Fase,,Não,Não,8.055553,5.0,Fase 3 (7º e 8º ano)
4,Escola Pública,ALUNO-5,10.0,1.0,2M,Não,8.077085,B,Ametista,Seu destaque em 2020: A sua boa entrega das li...,...,6.458333,Mantido na Fase atual,Promovido de Fase,Mantido na Fase atual,,Não,Não,7.833337,5.0,Fase 3 (7º e 8º ano)


In [3]:
# configura a exibição de todas as colunas do df, sem limites de número de coluna
pd.set_option('display.max_columns', None)
df.head()

Unnamed: 0,INSTITUICAO_ENSINO_ALUNO_2020,NOME,IDADE_ALUNO_2020,ANOS_PM_2020,FASE_TURMA_2020,PONTO_VIRADA_2020,INDE_2020,INDE_CONCEITO_2020,PEDRA_2020,DESTAQUE_IEG_2020,DESTAQUE_IDA_2020,DESTAQUE_IPV_2020,IAA_2020,IEG_2020,IPS_2020,IDA_2020,IPP_2020,IPV_2020,IAN_2020,FASE_2021,TURMA_2021,INSTITUICAO_ENSINO_ALUNO_2021,SINALIZADOR_INGRESSANTE_2021,PEDRA_2021,INDE_2021,IAA_2021,IEG_2021,IPS_2021,IDA_2021,IPP_2021,REC_EQUIPE_1_2021,REC_EQUIPE_2_2021,REC_EQUIPE_3_2021,REC_EQUIPE_4_2021,PONTO_VIRADA_2021,IPV_2021,IAN_2021,NIVEL_IDEAL_2021,DEFASAGEM_2021,FASE_2022,TURMA_2022,ANO_INGRESSO_2022,BOLSISTA_2022,INDE_2022,CG_2022,CF_2022,CT_2022,PEDRA_2022,DESTAQUE_IEG_2022,DESTAQUE_IDA_2022,DESTAQUE_IPV_2022,IAA_2022,IEG_2022,IPS_2022,IDA_2022,NOTA_PORT_2022,NOTA_MAT_2022,NOTA_ING_2022,QTD_AVAL_2022,IPP_2022,REC_AVA_1_2022,REC_AVA_2_2022,REC_AVA_3_2022,REC_AVA_4_2022,INDICADO_BOLSA_2022,PONTO_VIRADA_2022,IPV_2022,IAN_2022,NIVEL_IDEAL_2022
0,Escola Pública,ALUNO-1,11.0,2.0,2H,Não,7.883752,B,Ametista,Seu destaque em 2020: A sua boa entrega das li...,Ponto a melhorar em 2021: Empenhar-se mais nas...,Seu destaque em 2020: A sua boa integração aos...,8.500020000000001,8.7,7.5,7.0,5.9375,7.75,10.0,2.0,G,Rede Decisão,Ingressante,Ametista,7.319,7.5,6.3,6.9,8.8,7.7,Promovido de Fase,Promovido de Fase,Mantido na Fase atual,Não avaliado,Não,8.1,5.0,Nível 3 (7o e 8o ano),-1.0,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,
1,,ALUNO-2,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,0.0,K,2022.0,Não,7.675509,245.0,66.0,6.0,Ametista,Destaque: A sua boa entrega das lições de casa.,Destaque: As suas boas notas na Passos Mágicos.,Destaque: A sua boa integração aos Princípios ...,10.00002,7.581705,7.5,8.816667,8.2,9.433333,,2.0,5.625,Mantido na Fase + Bolsa,Mantido na Fase atual,,,Sim,Não,7.916665,5.0,Fase 2 (5º e 6º ano)
2,Escola Pública,ALUNO-3,12.0,2.0,3H,Não,7.856389666666666,B,Ametista,Seu destaque em 2020: A sua boa entrega das li...,Ponto a melhorar em 2021: Empenhar-se mais nas...,Seu destaque em 2020: A sua boa integração aos...,7.91667,8.9,7.5,5.5,8.125,8.111113333333334,10.0,3.0,F,Escola Pública,Veterano,Ametista,7.021,7.1,6.9,6.3,5.6,7.3,Promovido de Fase,Promovido de Fase,Mantido na Fase atual,Não avaliado,Não,7.2,10.0,Nível 3 (7o e 8o ano),0.0,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,
3,Escola Pública,ALUNO-4,10.0,2.0,1D,Não,5.076252,D,Quartzo,Ponto a melhorar em 2021: Melhorar a sua entre...,Ponto a melhorar em 2021: Empenhar-se mais nas...,Ponto a melhorar em 2021: Integrar-se mais aos...,8.000020000000001,4.1,6.875,0.0,7.1875,7.75,5.0,,,,,,,,,,,,,,,,,,,,,2.0,J,2022.0,Não,7.117065,451.0,69.0,3.0,Ametista,Destaque: A sua boa entrega das lições de casa.,Melhorar: Empenhar-se mais nas aulas e avaliaç...,Destaque: A sua boa integração aos Princípios ...,10.00002,8.071429,7.5,5.083333,5.0,5.166667,,3.0,6.25,Promovido de Fase,Mantido na Fase atual,Promovido de Fase,,Não,Não,8.055553,5.0,Fase 3 (7º e 8º ano)
4,Escola Pública,ALUNO-5,10.0,1.0,2M,Não,8.077085,B,Ametista,Seu destaque em 2020: A sua boa entrega das li...,Seu destaque em 2020: As suas boas notas na Pa...,Seu destaque em 2020: A sua boa integração aos...,7.50002,8.0,7.5,7.5,8.4375,8.166665,10.0,2.0,L,Escola Pública,Veterano,Ametista,7.399,7.4,7.5,7.5,5.4,8.5,Promovido de Fase,Mantido na Fase atual,Mantido na Fase atual,Não avaliado,Não,7.4,10.0,Nível 2 (5o e 6o ano),0.0,2.0,L,2019.0,Não,7.232336,415.0,61.0,12.0,Ametista,Destaque: A sua boa entrega das lições de casa.,Melhorar: Empenhar-se mais nas aulas e avaliaç...,Destaque: A sua boa integração aos Princípios ...,6.41668,8.557505,7.5,7.083333,6.666667,7.5,,3.0,6.458333,Mantido na Fase atual,Promovido de Fase,Mantido na Fase atual,,Não,Não,7.833337,5.0,Fase 3 (7º e 8º ano)


In [4]:
df.shape

(1349, 69)

In [5]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1349 entries, 0 to 1348
Data columns (total 69 columns):
 #   Column                         Non-Null Count  Dtype  
---  ------                         --------------  -----  
 0   INSTITUICAO_ENSINO_ALUNO_2020  728 non-null    object 
 1   NOME                           1349 non-null   object 
 2   IDADE_ALUNO_2020               728 non-null    object 
 3   ANOS_PM_2020                   728 non-null    object 
 4   FASE_TURMA_2020                728 non-null    object 
 5   PONTO_VIRADA_2020              702 non-null    object 
 6   INDE_2020                      728 non-null    object 
 7   INDE_CONCEITO_2020             728 non-null    object 
 8   PEDRA_2020                     728 non-null    object 
 9   DESTAQUE_IEG_2020              728 non-null    object 
 10  DESTAQUE_IDA_2020              728 non-null    object 
 11  DESTAQUE_IPV_2020              703 non-null    object 
 12  IAA_2020                       728 non-null    o

### 1.1 Dados utilizados 

Para determinar como os dados serão utilizados para a criação do _dashboard_ e do relatório, foram definidos alguns indicadores que podem ser extraídos da base:

| Nome do Campo | Descrição | Tipo de Dados |
|---------------|------------|---------------|
| `INDE_2020` / `INDE_2021` / `INDE_2022` | O Índice do Desenvolvimento Educacional (INDE) é uma métrica que combina outros indicadores (IAN, IDA, IEG, IAA, IPS, IPP e IPV) para avaliar o desempenho acadêmico geral dos alunos ao longo dos anos. | Numérico |
| `IEG_2020` / `IEG_2021` / `IEG_2022` | Média das notas de engajamento dos alunos, mensurando a participação e envolvimento deles nas atividades. | Numérico |
| `IDA_2020` / `IDA_2021` / `IDA_2022` | Média das notas do indicador de aprendizagem, medindo o progresso acadêmico dos alunos. | Numérico |
| `IPS_2020` / `IPS_2021` / `IPS_2022` | Média das notas psicossociais dos alunos, avaliando seu bem-estar emocional e social. | Numérico |
| `IPP_2020` / `IPP_2021` / `IPP_2022` | Média das notas psicopedagógicas dos alunos, refletindo o suporte que receberam nesse aspecto. | Numérico |
| `IAA_2020` / `IAA_2021` / `IAA_2022` | Média das notas de autoavaliação dos alunos, que refletem sua percepção de progresso. | Numérico |
| `IPV_2020` / `IPV_2021` / `IPV_2022` | Média das notas que indicam o "ponto de virada" — um momento de mudança significativa no desempenho ou comportamento do aluno. | Numérico |
| `NOTA_PORT_2022` / `NOTA_MAT_2022` / `NOTA_ING_2022` | Médias de notas em disciplinas específicas, como português, matemática e inglês, em 2022. | Numérico |
| `PEDRA_2020` / `PEDRA_2021` / `PEDRA_2022` | Classificação dos alunos com base no seu INDE, em níveis como Quartzo, Ágata, Ametista e Topázio. | Texto |
| `FASE_2020` / `FASE_2021` / `FASE_2022` / `TURMA_2020` / `TURMA_2021` / `TURMA_2022` | Dados sobre a fase e turma dos alunos, que podem ser utilizados para medir frequência e engajamento ao longo dos anos. | Texto |

In [6]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1349 entries, 0 to 1348
Data columns (total 69 columns):
 #   Column                         Non-Null Count  Dtype  
---  ------                         --------------  -----  
 0   INSTITUICAO_ENSINO_ALUNO_2020  728 non-null    object 
 1   NOME                           1349 non-null   object 
 2   IDADE_ALUNO_2020               728 non-null    object 
 3   ANOS_PM_2020                   728 non-null    object 
 4   FASE_TURMA_2020                728 non-null    object 
 5   PONTO_VIRADA_2020              702 non-null    object 
 6   INDE_2020                      728 non-null    object 
 7   INDE_CONCEITO_2020             728 non-null    object 
 8   PEDRA_2020                     728 non-null    object 
 9   DESTAQUE_IEG_2020              728 non-null    object 
 10  DESTAQUE_IDA_2020              728 non-null    object 
 11  DESTAQUE_IPV_2020              703 non-null    object 
 12  IAA_2020                       728 non-null    o

In [7]:
# Concatenar as colunas FASE_2021 e TURMA_2021
df['FASE_TURMA_2021'] = df['FASE_2021'].astype(str) + df['TURMA_2021'].astype(str)

# Exibir o DataFrame atualizado
print(df[['FASE_2021', 'TURMA_2021', 'FASE_TURMA_2021']])

      FASE_2021 TURMA_2021 FASE_TURMA_2021
0           2.0          G            2.0G
1           NaN        NaN          nannan
2           3.0          F            3.0F
3           NaN        NaN          nannan
4           2.0          L            2.0L
...         ...        ...             ...
1344        0.0          L            0.0L
1345        NaN        NaN          nannan
1346        NaN        NaN          nannan
1347        3.0          J            3.0J
1348        NaN        NaN          nannan

[1349 rows x 3 columns]


In [8]:
# Concatenar as colunas FASE_2021 e TURMA_2021
df['FASE_TURMA_2022'] = df['FASE_2022'].astype(str) + df['TURMA_2022'].astype(str)

# Exibir o DataFrame atualizado
print(df[['FASE_2022', 'TURMA_2022', 'FASE_TURMA_2022']])

      FASE_2022 TURMA_2022 FASE_TURMA_2022
0           NaN        NaN          nannan
1           0.0          K            0.0K
2           NaN        NaN          nannan
3           2.0          J            2.0J
4           2.0          L            2.0L
...         ...        ...             ...
1344        NaN        NaN          nannan
1345        0.0          U            0.0U
1346        NaN        NaN          nannan
1347        4.0          P            4.0P
1348        3.0          M            3.0M

[1349 rows x 3 columns]


In [10]:
df_dados_selecionados = df[['INDE_2020', 'INDE_2021', 'INDE_2022','IEG_2020', 'IEG_2021', 'IEG_2022','IDA_2020', 'IDA_2021', 'IDA_2022','IPS_2020', 'IPS_2021', 'IPS_2022','IPP_2020', 'IPP_2021', 'IPP_2022','IAA_2020', 'IAA_2021', 'IAA_2022','IPV_2020', 'IPV_2021', 'IPV_2022','NOTA_PORT_2022', 'NOTA_MAT_2022', 'NOTA_ING_2022','PEDRA_2020', 'PEDRA_2021', 'PEDRA_2022','FASE_TURMA_2020', 'FASE_TURMA_2021', 'FASE_TURMA_2022']]

In [11]:
df_dados_selecionados.head()

Unnamed: 0,INDE_2020,INDE_2021,INDE_2022,IEG_2020,IEG_2021,IEG_2022,IDA_2020,IDA_2021,IDA_2022,IPS_2020,IPS_2021,IPS_2022,IPP_2020,IPP_2021,IPP_2022,IAA_2020,IAA_2021,IAA_2022,IPV_2020,IPV_2021,IPV_2022,NOTA_PORT_2022,NOTA_MAT_2022,NOTA_ING_2022,PEDRA_2020,PEDRA_2021,PEDRA_2022,FASE_TURMA_2020,FASE_TURMA_2021,FASE_TURMA_2022
0,7.883752,7.319,,8.7,6.3,,7.0,8.8,,7.5,6.9,,5.9375,7.7,,8.500020000000001,7.5,,7.75,8.1,,,,,Ametista,Ametista,,2H,2.0G,nannan
1,,,7.675509,,,7.581705,,,8.816667,,,7.5,,,5.625,,,10.00002,,,7.916665,8.2,9.433333,,,,Ametista,,nannan,0.0K
2,7.856389666666666,7.021,,8.9,6.9,,5.5,5.6,,7.5,6.3,,8.125,7.3,,7.91667,7.1,,8.111113333333334,7.2,,,,,Ametista,Ametista,,3H,3.0F,nannan
3,5.076252,,7.117065,4.1,,8.071429,0.0,,5.083333,6.875,,7.5,7.1875,,6.25,8.000020000000001,,10.00002,7.75,,8.055553,5.0,5.166667,,Quartzo,,Ametista,1D,nannan,2.0J
4,8.077085,7.399,7.232336,8.0,7.5,8.557505,7.5,5.4,7.083333,7.5,7.5,7.5,8.4375,8.5,6.458333,7.50002,7.4,6.41668,8.166665,7.4,7.833337,6.666667,7.5,,Ametista,Ametista,Ametista,2M,2.0L,2.0L


In [12]:
df_dados_selecionados.shape

(1349, 30)

In [15]:
df_dados_selecionados.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1349 entries, 0 to 1348
Data columns (total 30 columns):
 #   Column           Non-Null Count  Dtype  
---  ------           --------------  -----  
 0   INDE_2020        728 non-null    object 
 1   INDE_2021        686 non-null    object 
 2   INDE_2022        862 non-null    float64
 3   IEG_2020         728 non-null    object 
 4   IEG_2021         686 non-null    float64
 5   IEG_2022         862 non-null    float64
 6   IDA_2020         728 non-null    object 
 7   IDA_2021         686 non-null    float64
 8   IDA_2022         862 non-null    float64
 9   IPS_2020         728 non-null    object 
 10  IPS_2021         686 non-null    float64
 11  IPS_2022         862 non-null    float64
 12  IPP_2020         728 non-null    object 
 13  IPP_2021         686 non-null    float64
 14  IPP_2022         862 non-null    float64
 15  IAA_2020         728 non-null    object 
 16  IAA_2021         686 non-null    float64
 17  IAA_2022      

In [20]:
# 'INDE_2020', 'INDE_2021', 'IEG_2020', 'IDA_2020', 'IPS_2020', 'IPP_2020', 'IAA_202', 'IPV_2020'
# transforma valores object em float, em colunas específicas
columns_to_convert = ['INDE_2020', 'INDE_2021', 'IEG_2020', 'IDA_2020', 'IPS_2020', 'IPP_2020', 'IAA_2020', 'IPV_2020']
df_dados_selecionados[columns_to_convert] = df_dados_selecionados[columns_to_convert].apply(pd.to_numeric, errors='coerce')

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df_dados_selecionados[columns_to_convert] = df_dados_selecionados[columns_to_convert].apply(pd.to_numeric, errors='coerce')


In [21]:
df_dados_selecionados.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1349 entries, 0 to 1348
Data columns (total 30 columns):
 #   Column           Non-Null Count  Dtype  
---  ------           --------------  -----  
 0   INDE_2020        727 non-null    float64
 1   INDE_2021        684 non-null    float64
 2   INDE_2022        862 non-null    float64
 3   IEG_2020         727 non-null    float64
 4   IEG_2021         686 non-null    float64
 5   IEG_2022         862 non-null    float64
 6   IDA_2020         727 non-null    float64
 7   IDA_2021         686 non-null    float64
 8   IDA_2022         862 non-null    float64
 9   IPS_2020         727 non-null    float64
 10  IPS_2021         686 non-null    float64
 11  IPS_2022         862 non-null    float64
 12  IPP_2020         727 non-null    float64
 13  IPP_2021         686 non-null    float64
 14  IPP_2022         862 non-null    float64
 15  IAA_2020         727 non-null    float64
 16  IAA_2021         686 non-null    float64
 17  IAA_2022      

In [24]:
# transform os floats para que traga duas casas decimais
pd.options.display.float_format = '{:.2f}'.format

In [25]:
df_dados_selecionados.head()

Unnamed: 0,INDE_2020,INDE_2021,INDE_2022,IEG_2020,IEG_2021,IEG_2022,IDA_2020,IDA_2021,IDA_2022,IPS_2020,IPS_2021,IPS_2022,IPP_2020,IPP_2021,IPP_2022,IAA_2020,IAA_2021,IAA_2022,IPV_2020,IPV_2021,IPV_2022,NOTA_PORT_2022,NOTA_MAT_2022,NOTA_ING_2022,PEDRA_2020,PEDRA_2021,PEDRA_2022,FASE_TURMA_2020,FASE_TURMA_2021,FASE_TURMA_2022
0,7.88,7.32,,8.7,6.3,,7.0,8.8,,7.5,6.9,,5.94,7.7,,8.5,7.5,,7.75,8.1,,,,,Ametista,Ametista,,2H,2.0G,nannan
1,,,7.68,,,7.58,,,8.82,,,7.5,,,5.62,,,10.0,,,7.92,8.2,9.43,,,,Ametista,,nannan,0.0K
2,7.86,7.02,,8.9,6.9,,5.5,5.6,,7.5,6.3,,8.12,7.3,,7.92,7.1,,8.11,7.2,,,,,Ametista,Ametista,,3H,3.0F,nannan
3,5.08,,7.12,4.1,,8.07,0.0,,5.08,6.88,,7.5,7.19,,6.25,8.0,,10.0,7.75,,8.06,5.0,5.17,,Quartzo,,Ametista,1D,nannan,2.0J
4,8.08,7.4,7.23,8.0,7.5,8.56,7.5,5.4,7.08,7.5,7.5,7.5,8.44,8.5,6.46,7.5,7.4,6.42,8.17,7.4,7.83,6.67,7.5,,Ametista,Ametista,Ametista,2M,2.0L,2.0L


In [26]:
# Tratamento de valor NaN
df_dados_selecionados.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1349 entries, 0 to 1348
Data columns (total 30 columns):
 #   Column           Non-Null Count  Dtype  
---  ------           --------------  -----  
 0   INDE_2020        727 non-null    float64
 1   INDE_2021        684 non-null    float64
 2   INDE_2022        862 non-null    float64
 3   IEG_2020         727 non-null    float64
 4   IEG_2021         686 non-null    float64
 5   IEG_2022         862 non-null    float64
 6   IDA_2020         727 non-null    float64
 7   IDA_2021         686 non-null    float64
 8   IDA_2022         862 non-null    float64
 9   IPS_2020         727 non-null    float64
 10  IPS_2021         686 non-null    float64
 11  IPS_2022         862 non-null    float64
 12  IPP_2020         727 non-null    float64
 13  IPP_2021         686 non-null    float64
 14  IPP_2022         862 non-null    float64
 15  IAA_2020         727 non-null    float64
 16  IAA_2021         686 non-null    float64
 17  IAA_2022      

In [29]:
df_dados_selecionados.isnull().sum()/df_dados_selecionados.shape[0]*100

INDE_2020         46.11
INDE_2021         49.30
INDE_2022         36.10
IEG_2020          46.11
IEG_2021          49.15
IEG_2022          36.10
IDA_2020          46.11
IDA_2021          49.15
IDA_2022          36.10
IPS_2020          46.11
IPS_2021          49.15
IPS_2022          36.10
IPP_2020          46.11
IPP_2021          49.15
IPP_2022          36.10
IAA_2020          46.11
IAA_2021          49.15
IAA_2022          36.10
IPV_2020          46.11
IPV_2021          49.15
IPV_2022          36.10
NOTA_PORT_2022    36.25
NOTA_MAT_2022     36.25
NOTA_ING_2022     78.87
PEDRA_2020        46.03
PEDRA_2021        49.15
PEDRA_2022        36.10
FASE_TURMA_2020   46.03
FASE_TURMA_2021    0.00
FASE_TURMA_2022    0.00
dtype: float64

Considerando o fato de que as variáveis da base são, em sua maioria (com exceção das colunas `PEDRA_2020`, `PEDRA_2021`, `PEDRA_2022`, `FASE_TURMA_2020`, `FASE_TURMA_2021`, `FASE_TURMA_2022`) são notas, para as _rows_ que apresentam valor nulo, é assumido que o aluno não foi avaliado **ou** zerou a avaliação feita.

Por essa razão, todos os valores NaN de colunas numéricas, serão substituídos por 0. 

Já para as colunas categóricas (`PEDRA_2020`, `PEDRA_2021`, `PEDRA_2022`, `FASE_TURMA_2020`, `FASE_TURMA_2021`, `FASE_TURMA_2022`), os valores NaN serão substituídos por 'Não Informado'.

In [33]:
# INDE_2020, INDE_2021, INDE_2022, IEG_2020, IEG_2021, IEG_2022, IDA_2020, IDA_2021, IDA_2022, IPS_2020, IPS_2021, IPS_2022, IPP_2020, IPP_2021, IPP_2022, IAA_2020, IAA_2021, IAA_2022, IPV_2020, IPV_2021, IPV_2022, NOTA_PORT_2022, NOTA_MAT_2022,NOTA_ING_2022
colunas_numericas_na = ['INDE_2020', 'INDE_2021', 'INDE_2022', 'IEG_2020', 'IEG_2021', 'IEG_2022', 'IDA_2020', 'IDA_2021', 'IDA_2022', 'IPS_2020', 'IPS_2021', 'IPS_2022', 'IPP_2020', 'IPP_2021', 'IPP_2022', 'IAA_2020', 'IAA_2021', 'IAA_2022', 'IPV_2020', 'IPV_2021', 'IPV_2022', 'NOTA_PORT_2022', 'NOTA_MAT_2022','NOTA_ING_2022']

df_dados_selecionados[colunas_numericas_na] = df_dados_selecionados[colunas_numericas_na].fillna(0)


A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df_dados_selecionados[colunas_numericas_na] = df_dados_selecionados[colunas_numericas_na].fillna(0)


In [34]:
df_dados_selecionados.head()

Unnamed: 0,INDE_2020,INDE_2021,INDE_2022,IEG_2020,IEG_2021,IEG_2022,IDA_2020,IDA_2021,IDA_2022,IPS_2020,IPS_2021,IPS_2022,IPP_2020,IPP_2021,IPP_2022,IAA_2020,IAA_2021,IAA_2022,IPV_2020,IPV_2021,IPV_2022,NOTA_PORT_2022,NOTA_MAT_2022,NOTA_ING_2022,PEDRA_2020,PEDRA_2021,PEDRA_2022,FASE_TURMA_2020,FASE_TURMA_2021,FASE_TURMA_2022
0,7.88,7.32,0.0,8.7,6.3,0.0,7.0,8.8,0.0,7.5,6.9,0.0,5.94,7.7,0.0,8.5,7.5,0.0,7.75,8.1,0.0,0.0,0.0,0.0,Ametista,Ametista,,2H,2.0G,nannan
1,0.0,0.0,7.68,0.0,0.0,7.58,0.0,0.0,8.82,0.0,0.0,7.5,0.0,0.0,5.62,0.0,0.0,10.0,0.0,0.0,7.92,8.2,9.43,0.0,,,Ametista,,nannan,0.0K
2,7.86,7.02,0.0,8.9,6.9,0.0,5.5,5.6,0.0,7.5,6.3,0.0,8.12,7.3,0.0,7.92,7.1,0.0,8.11,7.2,0.0,0.0,0.0,0.0,Ametista,Ametista,,3H,3.0F,nannan
3,5.08,0.0,7.12,4.1,0.0,8.07,0.0,0.0,5.08,6.88,0.0,7.5,7.19,0.0,6.25,8.0,0.0,10.0,7.75,0.0,8.06,5.0,5.17,0.0,Quartzo,,Ametista,1D,nannan,2.0J
4,8.08,7.4,7.23,8.0,7.5,8.56,7.5,5.4,7.08,7.5,7.5,7.5,8.44,8.5,6.46,7.5,7.4,6.42,8.17,7.4,7.83,6.67,7.5,0.0,Ametista,Ametista,Ametista,2M,2.0L,2.0L


In [35]:
colunas_categoricas_na = ['PEDRA_2020', 'PEDRA_2021', 'PEDRA_2022', 'FASE_TURMA_2020', 'FASE_TURMA_2021', 'FASE_TURMA_2022']

df_dados_selecionados[colunas_categoricas_na] = df_dados_selecionados[colunas_categoricas_na].fillna('Não Informado')

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df_dados_selecionados[colunas_categoricas_na] = df_dados_selecionados[colunas_categoricas_na].fillna('Não Informado')


In [36]:
df_dados_selecionados.head()

Unnamed: 0,INDE_2020,INDE_2021,INDE_2022,IEG_2020,IEG_2021,IEG_2022,IDA_2020,IDA_2021,IDA_2022,IPS_2020,IPS_2021,IPS_2022,IPP_2020,IPP_2021,IPP_2022,IAA_2020,IAA_2021,IAA_2022,IPV_2020,IPV_2021,IPV_2022,NOTA_PORT_2022,NOTA_MAT_2022,NOTA_ING_2022,PEDRA_2020,PEDRA_2021,PEDRA_2022,FASE_TURMA_2020,FASE_TURMA_2021,FASE_TURMA_2022
0,7.88,7.32,0.0,8.7,6.3,0.0,7.0,8.8,0.0,7.5,6.9,0.0,5.94,7.7,0.0,8.5,7.5,0.0,7.75,8.1,0.0,0.0,0.0,0.0,Ametista,Ametista,Não Informado,2H,2.0G,nannan
1,0.0,0.0,7.68,0.0,0.0,7.58,0.0,0.0,8.82,0.0,0.0,7.5,0.0,0.0,5.62,0.0,0.0,10.0,0.0,0.0,7.92,8.2,9.43,0.0,Não Informado,Não Informado,Ametista,Não Informado,nannan,0.0K
2,7.86,7.02,0.0,8.9,6.9,0.0,5.5,5.6,0.0,7.5,6.3,0.0,8.12,7.3,0.0,7.92,7.1,0.0,8.11,7.2,0.0,0.0,0.0,0.0,Ametista,Ametista,Não Informado,3H,3.0F,nannan
3,5.08,0.0,7.12,4.1,0.0,8.07,0.0,0.0,5.08,6.88,0.0,7.5,7.19,0.0,6.25,8.0,0.0,10.0,7.75,0.0,8.06,5.0,5.17,0.0,Quartzo,Não Informado,Ametista,1D,nannan,2.0J
4,8.08,7.4,7.23,8.0,7.5,8.56,7.5,5.4,7.08,7.5,7.5,7.5,8.44,8.5,6.46,7.5,7.4,6.42,8.17,7.4,7.83,6.67,7.5,0.0,Ametista,Ametista,Ametista,2M,2.0L,2.0L


In [38]:
# transforma nomes de colunas em lower case
df_dados_selecionados.columns = df_dados_selecionados.columns.str.lower()

In [39]:
df_dados_selecionados.head()

Unnamed: 0,inde_2020,inde_2021,inde_2022,ieg_2020,ieg_2021,ieg_2022,ida_2020,ida_2021,ida_2022,ips_2020,ips_2021,ips_2022,ipp_2020,ipp_2021,ipp_2022,iaa_2020,iaa_2021,iaa_2022,ipv_2020,ipv_2021,ipv_2022,nota_port_2022,nota_mat_2022,nota_ing_2022,pedra_2020,pedra_2021,pedra_2022,fase_turma_2020,fase_turma_2021,fase_turma_2022
0,7.88,7.32,0.0,8.7,6.3,0.0,7.0,8.8,0.0,7.5,6.9,0.0,5.94,7.7,0.0,8.5,7.5,0.0,7.75,8.1,0.0,0.0,0.0,0.0,Ametista,Ametista,Não Informado,2H,2.0G,nannan
1,0.0,0.0,7.68,0.0,0.0,7.58,0.0,0.0,8.82,0.0,0.0,7.5,0.0,0.0,5.62,0.0,0.0,10.0,0.0,0.0,7.92,8.2,9.43,0.0,Não Informado,Não Informado,Ametista,Não Informado,nannan,0.0K
2,7.86,7.02,0.0,8.9,6.9,0.0,5.5,5.6,0.0,7.5,6.3,0.0,8.12,7.3,0.0,7.92,7.1,0.0,8.11,7.2,0.0,0.0,0.0,0.0,Ametista,Ametista,Não Informado,3H,3.0F,nannan
3,5.08,0.0,7.12,4.1,0.0,8.07,0.0,0.0,5.08,6.88,0.0,7.5,7.19,0.0,6.25,8.0,0.0,10.0,7.75,0.0,8.06,5.0,5.17,0.0,Quartzo,Não Informado,Ametista,1D,nannan,2.0J
4,8.08,7.4,7.23,8.0,7.5,8.56,7.5,5.4,7.08,7.5,7.5,7.5,8.44,8.5,6.46,7.5,7.4,6.42,8.17,7.4,7.83,6.67,7.5,0.0,Ametista,Ametista,Ametista,2M,2.0L,2.0L


# 2. Identificação dos Objetivos da Ong

### Missão da ONG
- Transformar vidas através da educação.

### Visão da ONG
- É viver em um Brasil no qual todas as crianças e jovens têm iguais oportunidades para realizarem seus sonhos e são agentes transformadores de suas próprias vidas.

### Valores da ONG

- Empatia
- Amor ao aprendizado
- Poder em acreditar em si e no próximo
- Pertencimento
- Gratidã
- Busca pelo saber
- Educação que transforma e ajuda e transformar
- Aprender a aprender

A ONG foca, não somente na estrutura necessária para a educação de crianças em vulnerabilidade como também no apoio ao entorno desta criança, buscando proporcionar melhoria de vida e oportunidades também para a família.

O projeto **Passos Mágicos** através de suas intervenções na comunidade que atende, conseguiu cobrir 5 dos 17 compromissos propostos pela [ONU para a Agenda 2030](https://www.globalgoals.org/take-action/?id=4):

- **ODS 1**: Erradicação da pobreza
- **ODS 4**: Educação de qualidade
- **ODS 5**: Igualdade de gênero
- **ODS 8:** Trabalho decente e crescimento econômico
- **ODS 10**: Redução das desigualdades