<img src='img/fiap_logo.png'/>

# Datathon: Luminar de Dados


O Datathon é uma convocação emocionante e significativa para os(as) estudantes da PósTech em Data Analytics, uma jornada onde a ciência de dados encontra a compaixão humana. Este não é apenas um hackathon para dados; é uma missão para iluminar e amplificar o trabalho vital da ONG "Passos Mágicos", uma luz de esperança na vida de crianças e jovens em um município carente de São Paulo.
        
Por 31 anos, "Passos Mágicos" tem sido mais do que uma ONG; ela tem sido um farol de inspiração e transformação. No entanto, a beleza e a profundidade do impacto dessa organização nunca foram totalmente reveladas. Agora, os(as) alunos(as) têm a oportunidade não apenas de descobrir essa influência oculta, mas também de contá-la ao mundo de forma poderosa e emocional.
        
Aqui é possível trabalharmos com alguns pilares:

1. Análise e Visualização de Dados: imagine mergulhar em um vasto oceano de dados, cada número sendo uma história, cada estatística é um destino alterado. Os(as) participantes irão tecer essas narrativas silenciosas em uma tapeçaria visual cativante, revelando o legado da "Passos Mágicos" através de gráficos e mapas que falam mais alto que palavras.

2. Machine Learning e Big Data: aqui, a magia da tecnologia encontra o coração da humanidade. Utilizando algoritmos sofisticados, os alunos e as alunas desvendarão os padrões ocultos que definem o sucesso educacional. Eles(as) transformarão bytes em insights, mostrando como cada ação da ONG moldou futuros mais brilhantes.
            
3. Deploy em Produção: não é apenas sobre criar, é sobre sustentar. Os(as) participantes desenvolverão soluções não apenas brilhantes em sua inteligência, mas também profundamente enraizadas na realidade prática da ONG, garantindo que este legado de transformação continue crescendo.
            
4. Deep Learning e NLP: as palavras têm poder, e através do NLP, os(as) estudantes darão voz às histórias não contadas. Análises sentimentais revelarão o impacto emocional profundo nas vidas tocadas pela ONG, traduzindo sentimentos em dados, e dados em histórias de coragem e mudança.
        
Este desafio é um convite para vocês se tornarem mais do que analistas de dados; é um chamado para serem contadores e contadoras de histórias, defensores(as) da mudança e arquitetos(as) de um futuro mais promissor. Ao final deste Datathon, não serão apenas as métricas que contarão a história da "Passos Mágicos", mas o coração e a alma colocados em cada linha de código, em cada insight extraído, em cada visualização criada. Este é um palco para a ciência de dados brilhar em sua forma mais nobre, transformando números em narrativas de esperança, desafio e triunfo inesquecível.

## Objetivo

O objetivo do Datathon é desenvolver um sistema inovador de métricas que possa quantificar e ilustrar o impacto que a ONG "Passos Mágicos" tem tido sobre a comunidade que atende. Este desafio é direcionado aos alunos e alunas da PósTech em Data Analytics e busca aplicar conhecimentos em Análise e Visualização de Dados, Machine Learning, Big Data, Deploy em Produção, Deep Learning e Processamento de Linguagem Natural (NLP) para criar uma ferramenta capaz de:

1. Analisar Dados Históricos e Atuais: coletar e processar dados para entender as tendências e padrões no desenvolvimento educacional e pessoal das crianças e jovens impactados pela ONG.
            
2. Identificar Fatores-Chave de Sucesso: utilizar aprendizado de máquina para determinar os principais elementos que contribuem para os resultados positivos nas vidas dos(as) beneficiados(as).
            
3. Desenvolver Soluções Sustentáveis: criar um sistema prático e eficiente que possa ser integrado nas operações diárias da ONG, garantindo sua utilidade contínua.
            
4. Analisar o Impacto Emocional e Social: empregar técnicas de deep learning e NLP para analisar relatos e feedbacks, oferecendo uma visão mais profunda do impacto emocional e social das atividades da ONG.
            
5. Visualização de Dados Impactantes: produzir visualizações de dados que não apenas informem, mas também contem a história do trabalho da ONG, destacando seu impacto significativo de forma compreensível e tocante.
            
6. Promover Transparência e Conscientização: aumentar a transparência do trabalho da ONG e sensibilizar o público sobre sua importância, utilizando os insights obtidos através das análises.    

Este desafio representa uma oportunidade para vocês aplicarem suas habilidades técnicas em um contexto real, gerando impacto social significativo e ajudando a ONG a aprimorar suas estratégias e operações futuras.

## Metodologia

<img src = 'img/CRISP_DM.png'>


Para o desenvolvimento deste projeto, optou por seguir a metodologia CRISP-DM (CRoss Industry Standard Process for Data Mining), largamente utilizada em projetos de dados. A CRISP-DM é composta por 6 etapas, são elas: 

- Análise do negócio (business understanding): essa etapa dedica-se ao entendimento do negócio, isto é, sua produto/serviço, público alvo e quais são as estratégias do setor;

- Análise dos dados (data understanding): uma vez realizada a etapa anterior, inicia-se o entendimento dos dados, que compreende a seleção daqueles que são uteis à resolução da problemática requerida, bem como seu estado (fontes, formatos, etc);

- Preparação dos dados (data preparation): essa etapa dedica-se ao pré-processamento dos dados, em acordo com o que é solicitado pelas soluções que se pretende implementar;

- Modelagem (modeling): a modelagem é a etapa na qual se extrai informações de valor sobre os dados, possibilitando a geração de insights úteis ao negócio, capazes de solucionar a problemática;

- Avaliação (evaluation): momento de avaliação do desempenho do modelo aplicado, isto é, verifica-se se esse respondeu as questões levantadas satisfatoriamente;

- Implementação (deployment): por fim, a implementação é a etapa em que se disponibiliza os resultados e insights obtidos as partes interessadas, comumente por meio de uma ferramenta de data viz ou relatório.

### Importando biliotecas

In [381]:
import pandas as pd
import numpy as np
import plotly.express as px

import warnings
warnings.simplefilter("ignore")

template = 'plotly_dark'

## Business Understanding

### Sobre a Passos Mágicos

<img src='img/passos_magicos_logo.png'/>

A Associação Passos Mágicos, fundada em 1992 por Michelle Flues e Dimetri Ivanoff, tem uma trajetória de 30 anos dedicada à transformação da vida de crianças e jovens de baixa renda, oferecendo-lhes melhores oportunidades de vida. Inicialmente, a organização começou a operar em casas de acolhimento (antigos orfanatos) no município de Embu-Guaçu. Em 2016, a associação decidiu expandir seu programa para alcançar mais jovens, evoluindo para um projeto social e educacional mais abrangente. A missão da Passos Mágicos é proporcionar uma educação de qualidade, auxílio psicológico e psicopedagógico, ampliação da visão de mundo e desenvolvimento do protagonismo dos jovens assistidos.

A história da Passos Mágicos é marcada por várias conquistas significativas. Por exemplo, em 2022, houve a expansão de uma de suas unidades, liderada por Josiel Almeida, o "Professor Joe". Esta expansão, que incluiu a reforma de um imóvel no Centro de Embu-Guaçu, resultou na criação de novas salas de aula e espaços de aprendizado, demonstrando o comprometimento da comunidade com a missão da ONG. Este esforço coletivo reflete o espírito da Passos Mágicos, onde pais, mães, alunos, alunas e voluntários(as) participam ativamente na melhoria e crescimento da organização.

Além disso, a Passos Mágicos também se destaca pela excelência em sua gestão e transparência, recebendo selos de reconhecimento como o Selo Doar A+ e o selo VOA, da Ambev, em 2021. Estas certificações refletem o compromisso da organização com padrões elevados de governança, gestão, finanças, recursos humanos, estratégias de financiamento, comunicação e transparência. Estes selos são um indicativo da maturidade organizacional da Passos Mágicos e do seu compromisso em ser um exemplo de gestão eficiente e impacto social no terceiro setor.

A Passos Mágicos também organiza diversos eventos e campanhas sociais, como a arrecadação de materiais escolares, brinquedos, roupas e alimentos para seus alunos e suas famílias. Entre os eventos mais notáveis estão o Natal Mágico e a Confraternização de Encerramento, que reúnem a comunidade para celebrar as realizações do ano e reforçar a sensação de união e apoio entre os alunos, professores, colaboradores e familiares.

Através de todas essas ações, a Passos Mágicos continua a impactar positivamente a vida de muitos(as) jovens e crianças, oferecendo-lhes não apenas educação, mas também apoio, encorajamento e a crença em um futuro melhor.

Lembre-se de que você poderá apresentar o desenvolvimento do seu projeto durante as lives com docentes. Essa é uma boa oportunidade para discutir sobre as dificuldades encontradas e pegar dicas valiosas com docentes especialistas e colegas de turma.

Não se esqueça que isso é um entregável obrigatório! Se atente para o prazo de entrega até o final da fase. Vamos lá!

### Sobre Município de Embu-Guaçu

#### Economia

Buscamos entender dados com relação a economia de Embu-Guaçu para podermos contextualizar a situação da ONG Passos Mágicos e explorar oportunidades.

Para tanto iremos abordar os seguintes tópicos:

- Resumo macro econômico ([IBGE](https://cidades.ibge.gov.br/brasil/sp/embu-das-artes/panorama))

    - PIB per capita [2021]	: 20.683,01 R$ 
 
    - Percentual das receitas oriundas de fontes externas [2015]	
 
    - Índice de Desenvolvimento Humano Municipal (IDHM) [2010]:  0,749  

    - Total de receitas realizadas [2017] : 146.776,51 R$ (×1000) 

    - Total de despesas empenhadas [2017] : 127.155,69 R$ (×1000)

- Perfil salarial ([IBGE](https://cidades.ibge.gov.br/brasil/sp/embu-das-artes/panorama))

    - Em 2021, o salário médio mensal era de 2,8 salários mínimos. A proporção de pessoas ocupadas em relação à população total era de 17,29%. Na comparação com os outros municípios do estado, ocupava as posições 82 de 645 e 413 de 645, respectivamente. Já na comparação com cidades do país todo, ficava na posição 248 de 5570 e 1972 de 5570, respectivamente. Considerando domicílios com rendimentos mensais de até meio salário mínimo por pessoa, tinha 36,2% da população nessas condições, o que o colocava na posição 102 de 645 dentre as cidades do estado e na posição 3312 de 5570 dentre as cidades do Brasil.

- Crescimento PIB per capita do município ([IBGE](https://www.ibge.gov.br/cidades-e-estados/sp/embu-guacu.html))

In [382]:
ano = ['2010','2011','2012','2013','2014','2015','2016','2017','2018','2019','2020','2021']
salario = [10040.04,11214.14,11995.81,13169.57,14178.30,15230.12,14895.28,15024.44,15936.39,17998.26,17658.32,20683.01]
anos_e_salarios = list(zip(ano, salario))
df = pd.DataFrame(anos_e_salarios, columns=['Ano','Salário'])

fig = px.line(
    df, 
    x='Ano', 
    y='Salário', 
    text='Salário',
    color_discrete_sequence = ['#145089']
)
fig.update_layout(
    title='Evolução dos Salários em Embu-Guaçu',
    width = 1200, 
    height = 400,
    template = 'plotly_dark'
)
fig.update_traces(
    textposition='top center'
)
fig.show()

- Evolução de empregos ([SEBRAE](https://datampe.sebrae.com.br/profile/geo/embu-guacu))

In [383]:
df2 = pd.read_csv('dados\dados_economia\empregados-total-todos-os-setores-1.csv', sep=',')
df2 = df2[['Year','Workers']]
novas_colunas = {
    'Year':'Ano',
    'Workers':'Empregados'
}
df2 = df2.rename(columns=novas_colunas)

fig = px.line(
    df2, 
    x='Ano', 
    y='Empregados', 
    text='Empregados',
    color_discrete_sequence = ['#145089']
)
fig.update_layout(
    title='Evolução dos Empregos em Embu-Guaçu',
    width = 1200, 
    height = 400,
    template = template
)
fig.update_traces(
    textposition='top center'
)
fig.show()


- Distribuição de interesses de consumo

#### Educação

## Data Understanding

In [384]:
import pandas as pd

In [385]:
pd.set_option('display.max_columns', None)
pd.set_option('max_colwidth', None)

In [386]:
dicionario = pd.read_csv('dados/dicionario.csv')
dicionario.head()

Unnamed: 0,COLUNA,DESCRICAO
0,INSTITUICAO_ENSINO_ALUNO_2020,Mostra instituição de ensino do aluno em 2020
1,NOME,Nome do aluno (dados estão anonimizados)
2,IDADE_ALUNO_2020,Idade do aluno em 2020
3,ANOS_PM_2020,Tempo (em anos) que o alunos está na passos mágicos em 2020
4,FASE_TURMA_2020,"Fase e turma do aluno na passos mágicos em 2020. Fase está relacionado ao nível de aprendizado, enquanto turma é dado pela quantidade de turmas que existam daquela fase/nível"


In [387]:
#verifica descrição DESTAQUE_IDA_2020 DESTAQUE_IPV_2020 DESTAQUE_IEG_2020
dicionario[dicionario['COLUNA'] == 'CG_2022']

Unnamed: 0,COLUNA,DESCRICAO
45,CG_2022,Classificação (ranking) geral do aluno na passos mágicos em 2022


In [388]:
df = pd.read_csv('dados/pede_passos_dataset_fiap.csv', sep=';')
df.head()

Unnamed: 0,INSTITUICAO_ENSINO_ALUNO_2020,NOME,IDADE_ALUNO_2020,ANOS_PM_2020,FASE_TURMA_2020,PONTO_VIRADA_2020,INDE_2020,INDE_CONCEITO_2020,PEDRA_2020,DESTAQUE_IEG_2020,DESTAQUE_IDA_2020,DESTAQUE_IPV_2020,IAA_2020,IEG_2020,IPS_2020,IDA_2020,IPP_2020,IPV_2020,IAN_2020,FASE_2021,TURMA_2021,INSTITUICAO_ENSINO_ALUNO_2021,SINALIZADOR_INGRESSANTE_2021,PEDRA_2021,INDE_2021,IAA_2021,IEG_2021,IPS_2021,IDA_2021,IPP_2021,REC_EQUIPE_1_2021,REC_EQUIPE_2_2021,REC_EQUIPE_3_2021,REC_EQUIPE_4_2021,PONTO_VIRADA_2021,IPV_2021,IAN_2021,NIVEL_IDEAL_2021,DEFASAGEM_2021,FASE_2022,TURMA_2022,ANO_INGRESSO_2022,BOLSISTA_2022,INDE_2022,CG_2022,CF_2022,CT_2022,PEDRA_2022,DESTAQUE_IEG_2022,DESTAQUE_IDA_2022,DESTAQUE_IPV_2022,IAA_2022,IEG_2022,IPS_2022,IDA_2022,NOTA_PORT_2022,NOTA_MAT_2022,NOTA_ING_2022,QTD_AVAL_2022,IPP_2022,REC_AVA_1_2022,REC_AVA_2_2022,REC_AVA_3_2022,REC_AVA_4_2022,INDICADO_BOLSA_2022,PONTO_VIRADA_2022,IPV_2022,IAN_2022,NIVEL_IDEAL_2022
0,Escola Pública,ALUNO-1,11.0,2.0,2H,Não,7.883752,B,Ametista,Seu destaque em 2020: A sua boa entrega das lições de casa.,Ponto a melhorar em 2021: Empenhar-se mais nas aulas e avaliações.,Seu destaque em 2020: A sua boa integração aos Princípios Passos Mágicos.,8.500020000000001,8.7,7.5,7.0,5.9375,7.75,10.0,2.0,G,Rede Decisão,Ingressante,Ametista,7.319,7.5,6.3,6.9,8.8,7.7,Promovido de Fase,Promovido de Fase,Mantido na Fase atual,Não avaliado,Não,8.1,5.0,Nível 3 (7o e 8o ano),-1.0,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,
1,,ALUNO-2,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,0.0,K,2022.0,Não,7.675509,245.0,66.0,6.0,Ametista,Destaque: A sua boa entrega das lições de casa.,Destaque: As suas boas notas na Passos Mágicos.,Destaque: A sua boa integração aos Princípios Passos Mágicos.,10.00002,7.581705,7.5,8.816667,8.2,9.433333,,2.0,5.625,Mantido na Fase + Bolsa,Mantido na Fase atual,,,Sim,Não,7.916665,5.0,Fase 2 (5º e 6º ano)
2,Escola Pública,ALUNO-3,12.0,2.0,3H,Não,7.856389666666666,B,Ametista,Seu destaque em 2020: A sua boa entrega das lições de casa.,Ponto a melhorar em 2021: Empenhar-se mais nas aulas e avaliações.,Seu destaque em 2020: A sua boa integração aos Princípios Passos Mágicos.,7.91667,8.9,7.5,5.5,8.125,8.111113333333334,10.0,3.0,F,Escola Pública,Veterano,Ametista,7.021,7.1,6.9,6.3,5.6,7.3,Promovido de Fase,Promovido de Fase,Mantido na Fase atual,Não avaliado,Não,7.2,10.0,Nível 3 (7o e 8o ano),0.0,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,
3,Escola Pública,ALUNO-4,10.0,2.0,1D,Não,5.076252,D,Quartzo,Ponto a melhorar em 2021: Melhorar a sua entrega de lições de casa.,Ponto a melhorar em 2021: Empenhar-se mais nas aulas e avaliações.,Ponto a melhorar em 2021: Integrar-se mais aos Princípios Passos Mágicos.,8.000020000000001,4.1,6.875,0.0,7.1875,7.75,5.0,,,,,,,,,,,,,,,,,,,,,2.0,J,2022.0,Não,7.117065,451.0,69.0,3.0,Ametista,Destaque: A sua boa entrega das lições de casa.,Melhorar: Empenhar-se mais nas aulas e avaliações.,Destaque: A sua boa integração aos Princípios Passos Mágicos.,10.00002,8.071429,7.5,5.083333,5.0,5.166667,,3.0,6.25,Promovido de Fase,Mantido na Fase atual,Promovido de Fase,,Não,Não,8.055553,5.0,Fase 3 (7º e 8º ano)
4,Escola Pública,ALUNO-5,10.0,1.0,2M,Não,8.077085,B,Ametista,Seu destaque em 2020: A sua boa entrega das lições de casa.,Seu destaque em 2020: As suas boas notas na Passos Mágicos.,Seu destaque em 2020: A sua boa integração aos Princípios Passos Mágicos.,7.50002,8.0,7.5,7.5,8.4375,8.166665,10.0,2.0,L,Escola Pública,Veterano,Ametista,7.399,7.4,7.5,7.5,5.4,8.5,Promovido de Fase,Mantido na Fase atual,Mantido na Fase atual,Não avaliado,Não,7.4,10.0,Nível 2 (5o e 6o ano),0.0,2.0,L,2019.0,Não,7.232336,415.0,61.0,12.0,Ametista,Destaque: A sua boa entrega das lições de casa.,Melhorar: Empenhar-se mais nas aulas e avaliações.,Destaque: A sua boa integração aos Princípios Passos Mágicos.,6.41668,8.557505,7.5,7.083333,6.666667,7.5,,3.0,6.458333,Mantido na Fase atual,Promovido de Fase,Mantido na Fase atual,,Não,Não,7.833337,5.0,Fase 3 (7º e 8º ano)


In [389]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1349 entries, 0 to 1348
Data columns (total 69 columns):
 #   Column                         Non-Null Count  Dtype  
---  ------                         --------------  -----  
 0   INSTITUICAO_ENSINO_ALUNO_2020  728 non-null    object 
 1   NOME                           1349 non-null   object 
 2   IDADE_ALUNO_2020               728 non-null    object 
 3   ANOS_PM_2020                   728 non-null    object 
 4   FASE_TURMA_2020                728 non-null    object 
 5   PONTO_VIRADA_2020              702 non-null    object 
 6   INDE_2020                      728 non-null    object 
 7   INDE_CONCEITO_2020             728 non-null    object 
 8   PEDRA_2020                     728 non-null    object 
 9   DESTAQUE_IEG_2020              728 non-null    object 
 10  DESTAQUE_IDA_2020              728 non-null    object 
 11  DESTAQUE_IPV_2020              703 non-null    object 
 12  IAA_2020                       728 non-null    o

In [390]:
df.isnull().sum()

INSTITUICAO_ENSINO_ALUNO_2020    621
NOME                               0
IDADE_ALUNO_2020                 621
ANOS_PM_2020                     621
FASE_TURMA_2020                  621
                                ... 
INDICADO_BOLSA_2022              487
PONTO_VIRADA_2022                487
IPV_2022                         487
IAN_2022                         487
NIVEL_IDEAL_2022                 487
Length: 69, dtype: int64

In [391]:
dicionario[(dicionario['COLUNA'] == 'REC_EQUIPE_1_2021') | (dicionario['COLUNA'] == 'REC_AVA_1_2022')]

Unnamed: 0,COLUNA,DESCRICAO
31,REC_EQUIPE_1_2021,Recomendação da equipe de avalição 1 em 2021
61,REC_AVA_1_2022,Recomendação da equipe de avalição 1 em 2022


In [392]:
#padronizando nome das colunas REC_EQUIPE_1_2021 e REC_AVA_1_2022
df.rename(columns={'REC_EQUIPE_1_2021':'REC_AVA_1_2021', 'REC_EQUIPE_2_2021':'REC_AVA_2_2021', 'REC_EQUIPE_3_2021':'REC_AVA_3_2021', 'REC_EQUIPE_4_2021':'REC_AVA_4_2021'}, inplace=True)

In [393]:
df[df.index == 1258]

Unnamed: 0,INSTITUICAO_ENSINO_ALUNO_2020,NOME,IDADE_ALUNO_2020,ANOS_PM_2020,FASE_TURMA_2020,PONTO_VIRADA_2020,INDE_2020,INDE_CONCEITO_2020,PEDRA_2020,DESTAQUE_IEG_2020,DESTAQUE_IDA_2020,DESTAQUE_IPV_2020,IAA_2020,IEG_2020,IPS_2020,IDA_2020,IPP_2020,IPV_2020,IAN_2020,FASE_2021,TURMA_2021,INSTITUICAO_ENSINO_ALUNO_2021,SINALIZADOR_INGRESSANTE_2021,PEDRA_2021,INDE_2021,IAA_2021,IEG_2021,IPS_2021,IDA_2021,IPP_2021,REC_AVA_1_2021,REC_AVA_2_2021,REC_AVA_3_2021,REC_AVA_4_2021,PONTO_VIRADA_2021,IPV_2021,IAN_2021,NIVEL_IDEAL_2021,DEFASAGEM_2021,FASE_2022,TURMA_2022,ANO_INGRESSO_2022,BOLSISTA_2022,INDE_2022,CG_2022,CF_2022,CT_2022,PEDRA_2022,DESTAQUE_IEG_2022,DESTAQUE_IDA_2022,DESTAQUE_IPV_2022,IAA_2022,IEG_2022,IPS_2022,IDA_2022,NOTA_PORT_2022,NOTA_MAT_2022,NOTA_ING_2022,QTD_AVAL_2022,IPP_2022,REC_AVA_1_2022,REC_AVA_2_2022,REC_AVA_3_2022,REC_AVA_4_2022,INDICADO_BOLSA_2022,PONTO_VIRADA_2022,IPV_2022,IAN_2022,NIVEL_IDEAL_2022
1258,V202,ALUNO-1259,D108,D971,D207,D9600,D980,D9891/2,D9891/2A,D301,D302,,D910,V920,D930,D940,D950,D960,D970,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,


In [394]:
#excluindo registro do aluno 1259 (valores inválidos)
df = df.drop(1258).reset_index()

In [395]:
df.loc[df['INDE_2021'] == '#NULO!']

Unnamed: 0,index,INSTITUICAO_ENSINO_ALUNO_2020,NOME,IDADE_ALUNO_2020,ANOS_PM_2020,FASE_TURMA_2020,PONTO_VIRADA_2020,INDE_2020,INDE_CONCEITO_2020,PEDRA_2020,DESTAQUE_IEG_2020,DESTAQUE_IDA_2020,DESTAQUE_IPV_2020,IAA_2020,IEG_2020,IPS_2020,IDA_2020,IPP_2020,IPV_2020,IAN_2020,FASE_2021,TURMA_2021,INSTITUICAO_ENSINO_ALUNO_2021,SINALIZADOR_INGRESSANTE_2021,PEDRA_2021,INDE_2021,IAA_2021,IEG_2021,IPS_2021,IDA_2021,IPP_2021,REC_AVA_1_2021,REC_AVA_2_2021,REC_AVA_3_2021,REC_AVA_4_2021,PONTO_VIRADA_2021,IPV_2021,IAN_2021,NIVEL_IDEAL_2021,DEFASAGEM_2021,FASE_2022,TURMA_2022,ANO_INGRESSO_2022,BOLSISTA_2022,INDE_2022,CG_2022,CF_2022,CT_2022,PEDRA_2022,DESTAQUE_IEG_2022,DESTAQUE_IDA_2022,DESTAQUE_IPV_2022,IAA_2022,IEG_2022,IPS_2022,IDA_2022,NOTA_PORT_2022,NOTA_MAT_2022,NOTA_ING_2022,QTD_AVAL_2022,IPP_2022,REC_AVA_1_2022,REC_AVA_2_2022,REC_AVA_3_2022,REC_AVA_4_2022,INDICADO_BOLSA_2022,PONTO_VIRADA_2022,IPV_2022,IAN_2022,NIVEL_IDEAL_2022
70,70,Escola Pública,ALUNO-71,10,1,0A,Não,7.550001,B,Ametista,Seu destaque em 2020: A sua boa entrega das lições de casa.,Seu destaque em 2020: As suas boas notas na Passos Mágicos.,Ponto a melhorar em 2021: Integrar-se mais aos Princípios Passos Mágicos.,8.500020000000001,10,5.0,9.5,2.5,7.749995,5,0.0,J,Escola Pública,Veterano,#NULO!,#NULO!,7.4,0.0,5.0,3.6,0.0,Não avaliado,Não avaliado,Não avaliado,Não avaliado,#NULO!,0.0,5.0,Nível 2 (5o e 6o ano),-2.0,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,
505,505,Escola Pública,ALUNO-506,7,0,0A,Não,8.783335000000001,A,Topázio,Seu destaque em 2020: A sua boa entrega das lições de casa.,Seu destaque em 2020: As suas boas notas na Passos Mágicos.,Seu destaque em 2020: A sua boa integração aos Princípios Passos Mágicos.,8.500020000000001,10,7.5,10.0,7.5,7.166665,10,0.0,J,Escola Pública,Veterano,#NULO!,#NULO!,7.4,0.0,5.0,4.1,0.0,Não avaliado,Não avaliado,Não avaliado,Não avaliado,#NULO!,0.0,10.0,ALFA (2o e 3o ano),0.0,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,


In [396]:
#corrigindo registros nulos das colunas INDE_2021 e PEDRA_2021
df['INDE_2021'] = df['INDE_2021'].replace('#NULO!', np.nan)
df['PEDRA_2021'] = df['PEDRA_2021'].replace('#NULO!', np.nan)

In [397]:
#corrigindo tipo de colunas float que estão como object
campos_numericos = dicionario[dicionario['COLUNA'].isin(['ANOS_PM_2020', 'IAA_2020', 'IEG_2020', 'IPS_2020', 'IDA_2020', 'IPP_2020', 'IPV_2020', 'IAN_2020', 'INDE_2020', 'INDE_2021'])].COLUNA.to_list()
df[campos_numericos] = df[campos_numericos].astype('float64').round(decimals=2)

In [398]:
#verificando número de registros nulos em colunas onde o valor 0 é válido
lista = []
for i in df.columns:
    if 0 in set(df[i]):
        soma_nulos = int(df[i].isnull().sum())
        lista.append((i, soma_nulos))
print('Número de registros nulos em colunas onde o valor 0 é válido\n')
for i in lista:
    print(f'{i[0]}: {i[1]}')

Número de registros nulos em colunas onde o valor 0 é válido

index: 0
ANOS_PM_2020: 621
IAA_2020: 621
IEG_2020: 621
IDA_2020: 621
IPP_2020: 621
IPV_2020: 621
FASE_2021: 662
IAA_2021: 662
IEG_2021: 662
IPS_2021: 662
IDA_2021: 662
IPP_2021: 662
IPV_2021: 662
DEFASAGEM_2021: 662
FASE_2022: 486
IAA_2022: 486
IEG_2022: 486
IDA_2022: 486
NOTA_PORT_2022: 488
NOTA_MAT_2022: 488
NOTA_ING_2022: 1063
IPP_2022: 486


In [399]:
#definindo casas decimais
df[df.select_dtypes(include=[float]).columns] = df[df.select_dtypes(include=[float]).columns].round(decimals=2)

In [400]:
#corrigindo tipo da coluna ANO_INGRESSO_2022
df[['ANO_INGRESSO_2022', 'ANOS_PM_2020']] = df[['ANO_INGRESSO_2022', 'ANOS_PM_2020']].fillna(0).astype('int64')
df[['ANO_INGRESSO_2022', 'ANOS_PM_2020']] = df[['ANO_INGRESSO_2022', 'ANOS_PM_2020']].replace(0, np.nan)

In [401]:
df.head()

Unnamed: 0,index,INSTITUICAO_ENSINO_ALUNO_2020,NOME,IDADE_ALUNO_2020,ANOS_PM_2020,FASE_TURMA_2020,PONTO_VIRADA_2020,INDE_2020,INDE_CONCEITO_2020,PEDRA_2020,DESTAQUE_IEG_2020,DESTAQUE_IDA_2020,DESTAQUE_IPV_2020,IAA_2020,IEG_2020,IPS_2020,IDA_2020,IPP_2020,IPV_2020,IAN_2020,FASE_2021,TURMA_2021,INSTITUICAO_ENSINO_ALUNO_2021,SINALIZADOR_INGRESSANTE_2021,PEDRA_2021,INDE_2021,IAA_2021,IEG_2021,IPS_2021,IDA_2021,IPP_2021,REC_AVA_1_2021,REC_AVA_2_2021,REC_AVA_3_2021,REC_AVA_4_2021,PONTO_VIRADA_2021,IPV_2021,IAN_2021,NIVEL_IDEAL_2021,DEFASAGEM_2021,FASE_2022,TURMA_2022,ANO_INGRESSO_2022,BOLSISTA_2022,INDE_2022,CG_2022,CF_2022,CT_2022,PEDRA_2022,DESTAQUE_IEG_2022,DESTAQUE_IDA_2022,DESTAQUE_IPV_2022,IAA_2022,IEG_2022,IPS_2022,IDA_2022,NOTA_PORT_2022,NOTA_MAT_2022,NOTA_ING_2022,QTD_AVAL_2022,IPP_2022,REC_AVA_1_2022,REC_AVA_2_2022,REC_AVA_3_2022,REC_AVA_4_2022,INDICADO_BOLSA_2022,PONTO_VIRADA_2022,IPV_2022,IAN_2022,NIVEL_IDEAL_2022
0,0,Escola Pública,ALUNO-1,11.0,2.0,2H,Não,7.88,B,Ametista,Seu destaque em 2020: A sua boa entrega das lições de casa.,Ponto a melhorar em 2021: Empenhar-se mais nas aulas e avaliações.,Seu destaque em 2020: A sua boa integração aos Princípios Passos Mágicos.,8.5,8.7,7.5,7.0,5.94,7.75,10.0,2.0,G,Rede Decisão,Ingressante,Ametista,7.32,7.5,6.3,6.9,8.8,7.7,Promovido de Fase,Promovido de Fase,Mantido na Fase atual,Não avaliado,Não,8.1,5.0,Nível 3 (7o e 8o ano),-1.0,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,
1,1,,ALUNO-2,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,0.0,K,2022.0,Não,7.68,245.0,66.0,6.0,Ametista,Destaque: A sua boa entrega das lições de casa.,Destaque: As suas boas notas na Passos Mágicos.,Destaque: A sua boa integração aos Princípios Passos Mágicos.,10.0,7.58,7.5,8.82,8.2,9.43,,2.0,5.62,Mantido na Fase + Bolsa,Mantido na Fase atual,,,Sim,Não,7.92,5.0,Fase 2 (5º e 6º ano)
2,2,Escola Pública,ALUNO-3,12.0,2.0,3H,Não,7.86,B,Ametista,Seu destaque em 2020: A sua boa entrega das lições de casa.,Ponto a melhorar em 2021: Empenhar-se mais nas aulas e avaliações.,Seu destaque em 2020: A sua boa integração aos Princípios Passos Mágicos.,7.92,8.9,7.5,5.5,8.12,8.11,10.0,3.0,F,Escola Pública,Veterano,Ametista,7.02,7.1,6.9,6.3,5.6,7.3,Promovido de Fase,Promovido de Fase,Mantido na Fase atual,Não avaliado,Não,7.2,10.0,Nível 3 (7o e 8o ano),0.0,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,
3,3,Escola Pública,ALUNO-4,10.0,2.0,1D,Não,5.08,D,Quartzo,Ponto a melhorar em 2021: Melhorar a sua entrega de lições de casa.,Ponto a melhorar em 2021: Empenhar-se mais nas aulas e avaliações.,Ponto a melhorar em 2021: Integrar-se mais aos Princípios Passos Mágicos.,8.0,4.1,6.88,0.0,7.19,7.75,5.0,,,,,,,,,,,,,,,,,,,,,2.0,J,2022.0,Não,7.12,451.0,69.0,3.0,Ametista,Destaque: A sua boa entrega das lições de casa.,Melhorar: Empenhar-se mais nas aulas e avaliações.,Destaque: A sua boa integração aos Princípios Passos Mágicos.,10.0,8.07,7.5,5.08,5.0,5.17,,3.0,6.25,Promovido de Fase,Mantido na Fase atual,Promovido de Fase,,Não,Não,8.06,5.0,Fase 3 (7º e 8º ano)
4,4,Escola Pública,ALUNO-5,10.0,1.0,2M,Não,8.08,B,Ametista,Seu destaque em 2020: A sua boa entrega das lições de casa.,Seu destaque em 2020: As suas boas notas na Passos Mágicos.,Seu destaque em 2020: A sua boa integração aos Princípios Passos Mágicos.,7.5,8.0,7.5,7.5,8.44,8.17,10.0,2.0,L,Escola Pública,Veterano,Ametista,7.4,7.4,7.5,7.5,5.4,8.5,Promovido de Fase,Mantido na Fase atual,Mantido na Fase atual,Não avaliado,Não,7.4,10.0,Nível 2 (5o e 6o ano),0.0,2.0,L,2019.0,Não,7.23,415.0,61.0,12.0,Ametista,Destaque: A sua boa entrega das lições de casa.,Melhorar: Empenhar-se mais nas aulas e avaliações.,Destaque: A sua boa integração aos Princípios Passos Mágicos.,6.42,8.56,7.5,7.08,6.67,7.5,,3.0,6.46,Mantido na Fase atual,Promovido de Fase,Mantido na Fase atual,,Não,Não,7.83,5.0,Fase 3 (7º e 8º ano)


In [402]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1348 entries, 0 to 1347
Data columns (total 70 columns):
 #   Column                         Non-Null Count  Dtype  
---  ------                         --------------  -----  
 0   index                          1348 non-null   int64  
 1   INSTITUICAO_ENSINO_ALUNO_2020  727 non-null    object 
 2   NOME                           1348 non-null   object 
 3   IDADE_ALUNO_2020               727 non-null    object 
 4   ANOS_PM_2020                   593 non-null    float64
 5   FASE_TURMA_2020                727 non-null    object 
 6   PONTO_VIRADA_2020              701 non-null    object 
 7   INDE_2020                      727 non-null    float64
 8   INDE_CONCEITO_2020             727 non-null    object 
 9   PEDRA_2020                     727 non-null    object 
 10  DESTAQUE_IEG_2020              727 non-null    object 
 11  DESTAQUE_IDA_2020              727 non-null    object 
 12  DESTAQUE_IPV_2020              703 non-null    o

#### Reestruturando base de dados

In [403]:
df.columns

Index(['index', 'INSTITUICAO_ENSINO_ALUNO_2020', 'NOME', 'IDADE_ALUNO_2020',
       'ANOS_PM_2020', 'FASE_TURMA_2020', 'PONTO_VIRADA_2020', 'INDE_2020',
       'INDE_CONCEITO_2020', 'PEDRA_2020', 'DESTAQUE_IEG_2020',
       'DESTAQUE_IDA_2020', 'DESTAQUE_IPV_2020', 'IAA_2020', 'IEG_2020',
       'IPS_2020', 'IDA_2020', 'IPP_2020', 'IPV_2020', 'IAN_2020', 'FASE_2021',
       'TURMA_2021', 'INSTITUICAO_ENSINO_ALUNO_2021',
       'SINALIZADOR_INGRESSANTE_2021', 'PEDRA_2021', 'INDE_2021', 'IAA_2021',
       'IEG_2021', 'IPS_2021', 'IDA_2021', 'IPP_2021', 'REC_AVA_1_2021',
       'REC_AVA_2_2021', 'REC_AVA_3_2021', 'REC_AVA_4_2021',
       'PONTO_VIRADA_2021', 'IPV_2021', 'IAN_2021', 'NIVEL_IDEAL_2021',
       'DEFASAGEM_2021', 'FASE_2022', 'TURMA_2022', 'ANO_INGRESSO_2022',
       'BOLSISTA_2022', 'INDE_2022', 'CG_2022', 'CF_2022', 'CT_2022',
       'PEDRA_2022', 'DESTAQUE_IEG_2022', 'DESTAQUE_IDA_2022',
       'DESTAQUE_IPV_2022', 'IAA_2022', 'IEG_2022', 'IPS_2022', 'IDA_2022',
       'NO

In [404]:
#2020
df['REC_AVA_1_2020'] = np.nan
df['REC_AVA_2_2020'] = np.nan
df['REC_AVA_3_2020'] = np.nan
df['REC_AVA_4_2020'] = np.nan
df['NIVEL_IDEAL_2020'] = np.nan
df['DEFASAGEM_2020'] = np.nan
df['SINALIZADOR_INGRESSANTE_2020'] = np.nan
df['CG_2020'] = np.nan
df['CF_2020'] = np.nan
df['CT_2020'] = np.nan
df['NOTA_PORT_2020'] = np.nan
df['NOTA_MAT_2020'] = np.nan
df['NOTA_ING_2020'] = np.nan
df['QTD_AVAL_2020'] = np.nan
df['BOLSISTA_2020'] = np.nan
df['INDICADO_BOLSA_2020'] = np.nan
df['ANO_INGRESSO_2020'] = np.nan

#2021
df['IDADE_ALUNO_2021'] = np.nan
anos_pm_2021 = []
for i in range(len(df['ANOS_PM_2020'])):
    if df['SINALIZADOR_INGRESSANTE_2021'][i] == 'Ingressante':
        anos_pm_2021.append(0)
    elif df['SINALIZADOR_INGRESSANTE_2021'][i] == np.nan:
        anos_pm_2021.append(np.nan)
    else:
        anos_pm_2021.append(df['ANOS_PM_2020'][i] + 1)
df['ANOS_PM_2021'] = anos_pm_2021
df['ANOS_PM_2021'] = np.nan
df['INDE_CONCEITO_2021'] = np.nan
df['DESTAQUE_IEG_2021'] = np.nan
df['DESTAQUE_IDA_2021'] = np.nan
df['DESTAQUE_IPV_2021'] = np.nan
df['CG_2021'] = np.nan
df['CF_2021'] = np.nan
df['CT_2021'] = np.nan
df['NOTA_PORT_2021'] = np.nan
df['NOTA_MAT_2021'] = np.nan
df['NOTA_ING_2021'] = np.nan
df['QTD_AVAL_2021'] = np.nan
df['BOLSISTA_2021'] = np.nan
df['INDICADO_BOLSA_2021'] = np.nan
df['ANO_INGRESSO_2021'] = np.nan
fase_turma_2021 = []
df["FASE_2021"] = df["FASE_2021"].fillna(10)
df["FASE_2021"] = df["FASE_2021"].astype(int)
df["FASE_2021"] = df["FASE_2021"].astype(str).str.replace('10', 'none')
df["TURMA_2021"] = df["TURMA_2021"].fillna('none')
#df["FASE_2021"] = df["FASE_2021"].str.replace(10, 'NaN')
for i in range(len(df['TURMA_2021'])):
    if df['TURMA_2021'][i] != 'none' or df["FASE_2021"][i] != 'none':
        fase_turma_2021.append(f'{df["FASE_2021"][i]}{df["TURMA_2021"][i]}')
    else:
        fase_turma_2021.append(np.nan)

df['FASE_TURMA_2021'] = fase_turma_2021
df.drop('FASE_2021', axis=1, inplace=True)
df.drop('TURMA_2021', axis=1, inplace=True)

#2022
anos_pm_2022 = []
for i in range(len(df['ANOS_PM_2021'])):
    if df['SINALIZADOR_INGRESSANTE_2021'][i] == None:
        anos_pm_2022.append(0)
    else:
        anos_pm_2022.append(df['ANOS_PM_2021'][i] + 1)
df['ANOS_PM_2022'] = anos_pm_2022
df['INSTITUICAO_ENSINO_ALUNO_2022'] = np.nan
df['INDE_CONCEITO_2022'] = np.nan
df['IDADE_ALUNO_2022'] = np.nan
df['DEFASAGEM_2022'] = np.nan
df['SINALIZADOR_INGRESSANTE_2022'] = np.nan
fase_turma_2021 = []
df["FASE_2022"] = df["FASE_2022"].fillna(10)
df["FASE_2022"] = df["FASE_2022"].astype(int)
df["FASE_2022"] = df["FASE_2022"].astype(str).str.replace('10', 'none')
df["TURMA_2022"] = df["TURMA_2022"].fillna('none')
#df["FASE_2021"] = df["FASE_2021"].str.replace(10, 'NaN')
for i in range(len(df['TURMA_2022'])):
    if df['TURMA_2022'][i] != 'none' or df["FASE_2022"][i] != 'none':
        fase_turma_2021.append(f'{df["FASE_2022"][i]}{df["TURMA_2022"][i]}')
    else:
        fase_turma_2021.append(np.nan)

df['FASE_TURMA_2022'] = fase_turma_2021
df.drop('FASE_2022', axis=1, inplace=True)
df.drop('TURMA_2022', axis=1, inplace=True)

In [405]:
columns = ['NOME', 'IDADE_ALUNO', 'FASE_TURMA', 'ANO_INGRESSO', 'PEDRA', 'PONTO_VIRADA', 
    'INDE', 'INDE_CONCEITO', 'IAA', 'IEG', 'IPS', 'IDA', 'IPP', 'IPV', 'IAN',
    'ANOS_PM', 'INSTITUICAO_ENSINO_ALUNO', 'DESTAQUE_IEG', 'DESTAQUE_IDA', 'DESTAQUE_IPV',
    'REC_AVA_1', 'REC_AVA_2', 'REC_AVA_3', 'REC_AVA_4', 'NIVEL_IDEAL', 'DEFASAGEM', 'SINALIZADOR_INGRESSANTE',
    'CG', 'CF', 'CT', 'NOTA_PORT', 'NOTA_MAT', 'NOTA_ING', 'QTD_AVAL', 'BOLSISTA', 'INDICADO_BOLSA', 'ANO']

In [406]:
df_2020 = df[['NOME', 'IDADE_ALUNO_2020', 'FASE_TURMA_2020', 'ANO_INGRESSO_2020', 'PEDRA_2020', 'PONTO_VIRADA_2020', 
    'INDE_2020', 'INDE_CONCEITO_2020', 'IAA_2020', 'IEG_2020', 'IPS_2020', 'IDA_2020', 'IPP_2020', 'IPV_2020', 'IAN_2020',
    'ANOS_PM_2020', 'INSTITUICAO_ENSINO_ALUNO_2020', 'DESTAQUE_IEG_2020', 'DESTAQUE_IDA_2020', 'DESTAQUE_IPV_2020',
    'REC_AVA_1_2020', 'REC_AVA_2_2020', 'REC_AVA_3_2020', 'REC_AVA_4_2020', 'NIVEL_IDEAL_2020', 'DEFASAGEM_2020', 'SINALIZADOR_INGRESSANTE_2020',
    'CG_2020', 'CF_2020', 'CT_2020', 'NOTA_PORT_2020', 'NOTA_MAT_2020', 'NOTA_ING_2020', 'QTD_AVAL_2020', 'BOLSISTA_2020', 'INDICADO_BOLSA_2020']]
df_2020['ANO'] = 2020
df_2020.columns = columns
df_2020.shape

(1348, 37)

In [407]:
df_2021 = df[['NOME', 'IDADE_ALUNO_2021', 'FASE_TURMA_2021', 'ANO_INGRESSO_2021', 'PEDRA_2021', 'PONTO_VIRADA_2021', 
    'INDE_2021', 'INDE_CONCEITO_2021', 'IAA_2021', 'IEG_2021', 'IPS_2021', 'IDA_2021', 'IPP_2021',  'IPV_2021', 'IAN_2021', 
    'ANOS_PM_2021', 'INSTITUICAO_ENSINO_ALUNO_2021', 'DESTAQUE_IEG_2021', 'DESTAQUE_IDA_2021', 'DESTAQUE_IPV_2021',
    'REC_AVA_1_2021', 'REC_AVA_2_2021', 'REC_AVA_3_2021', 'REC_AVA_4_2021', 'NIVEL_IDEAL_2021', 'DEFASAGEM_2021', 'SINALIZADOR_INGRESSANTE_2021',
    'CG_2021', 'CF_2021', 'CT_2021', 'NOTA_PORT_2021', 'NOTA_MAT_2021', 'NOTA_ING_2021', 'QTD_AVAL_2021', 'BOLSISTA_2021', 'INDICADO_BOLSA_2021']]
df_2021['ANO'] = 2021
df_2021.columns = columns
df_2021.shape

(1348, 37)

In [408]:
df_2022 = df[['NOME', 'IDADE_ALUNO_2022', 'FASE_TURMA_2022', 'ANO_INGRESSO_2022', 'PEDRA_2022', 'PONTO_VIRADA_2022',
    'INDE_2022', 'INDE_CONCEITO_2022', 'IAA_2022', 'IEG_2022', 'IPS_2022', 'IDA_2022',  'IPP_2022', 'IPV_2022', 'IAN_2022',
    'ANOS_PM_2022', 'INSTITUICAO_ENSINO_ALUNO_2022', 'DESTAQUE_IEG_2022', 'DESTAQUE_IDA_2022', 'DESTAQUE_IPV_2022',
    'REC_AVA_1_2022', 'REC_AVA_2_2022', 'REC_AVA_3_2022', 'REC_AVA_4_2022', 'NIVEL_IDEAL_2022', 'DEFASAGEM_2022', 'SINALIZADOR_INGRESSANTE_2022',
    'CG_2022', 'CF_2022', 'CT_2022', 'NOTA_PORT_2022', 'NOTA_MAT_2022', 'NOTA_ING_2022', 'QTD_AVAL_2022', 'BOLSISTA_2022', 'INDICADO_BOLSA_2022']]
df_2022['ANO'] = 2022
df_2022.columns = columns
df_2022.shape

(1348, 37)

In [409]:
df = pd.concat([df_2020, df_2021, df_2022]).reset_index()
df = df[['ANO', 'NOME', 'IDADE_ALUNO', 'FASE_TURMA', 'ANO_INGRESSO', 'PEDRA', 'PONTO_VIRADA', 
    'INDE', 'INDE_CONCEITO', 'IAA', 'IEG', 'IPS', 'IDA', 'IPP', 'IPV', 'IAN',
    'ANOS_PM', 'INSTITUICAO_ENSINO_ALUNO', 'DESTAQUE_IEG', 'DESTAQUE_IDA', 'DESTAQUE_IPV',
    'REC_AVA_1', 'REC_AVA_2', 'REC_AVA_3', 'REC_AVA_4', 'NIVEL_IDEAL', 'DEFASAGEM', 'SINALIZADOR_INGRESSANTE',
    'CG', 'CF', 'CT', 'NOTA_PORT', 'NOTA_MAT', 'NOTA_ING', 'QTD_AVAL', 'BOLSISTA', 'INDICADO_BOLSA']]
df.head()

Unnamed: 0,ANO,NOME,IDADE_ALUNO,FASE_TURMA,ANO_INGRESSO,PEDRA,PONTO_VIRADA,INDE,INDE_CONCEITO,IAA,IEG,IPS,IDA,IPP,IPV,IAN,ANOS_PM,INSTITUICAO_ENSINO_ALUNO,DESTAQUE_IEG,DESTAQUE_IDA,DESTAQUE_IPV,REC_AVA_1,REC_AVA_2,REC_AVA_3,REC_AVA_4,NIVEL_IDEAL,DEFASAGEM,SINALIZADOR_INGRESSANTE,CG,CF,CT,NOTA_PORT,NOTA_MAT,NOTA_ING,QTD_AVAL,BOLSISTA,INDICADO_BOLSA
0,2020,ALUNO-1,11.0,2H,,Ametista,Não,7.88,B,8.5,8.7,7.5,7.0,5.94,7.75,10.0,2.0,Escola Pública,Seu destaque em 2020: A sua boa entrega das lições de casa.,Ponto a melhorar em 2021: Empenhar-se mais nas aulas e avaliações.,Seu destaque em 2020: A sua boa integração aos Princípios Passos Mágicos.,,,,,,,,,,,,,,,,
1,2020,ALUNO-2,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,
2,2020,ALUNO-3,12.0,3H,,Ametista,Não,7.86,B,7.92,8.9,7.5,5.5,8.12,8.11,10.0,2.0,Escola Pública,Seu destaque em 2020: A sua boa entrega das lições de casa.,Ponto a melhorar em 2021: Empenhar-se mais nas aulas e avaliações.,Seu destaque em 2020: A sua boa integração aos Princípios Passos Mágicos.,,,,,,,,,,,,,,,,
3,2020,ALUNO-4,10.0,1D,,Quartzo,Não,5.08,D,8.0,4.1,6.88,0.0,7.19,7.75,5.0,2.0,Escola Pública,Ponto a melhorar em 2021: Melhorar a sua entrega de lições de casa.,Ponto a melhorar em 2021: Empenhar-se mais nas aulas e avaliações.,Ponto a melhorar em 2021: Integrar-se mais aos Princípios Passos Mágicos.,,,,,,,,,,,,,,,,
4,2020,ALUNO-5,10.0,2M,,Ametista,Não,8.08,B,7.5,8.0,7.5,7.5,8.44,8.17,10.0,1.0,Escola Pública,Seu destaque em 2020: A sua boa entrega das lições de casa.,Seu destaque em 2020: As suas boas notas na Passos Mágicos.,Seu destaque em 2020: A sua boa integração aos Princípios Passos Mágicos.,,,,,,,,,,,,,,,,


#### Incluindo unidade de ensino

In [410]:
df_turma_unidade = pd.read_csv('dados/fases_e_unidades_pm.csv', sep=';', encoding='latin1')
df_turma_unidade.head()

Unnamed: 0,turma,unidade
0,0A,Centro
1,0A,Centro
2,0A,Centro
3,0A,Centro
4,0A,Centro


In [411]:
#criando dicionário para turmas e unidades de ensino
dicionario_turma_unidade = dict(map(lambda i,j : (i,j) , df_turma_unidade.turma.to_list(), df_turma_unidade.unidade.to_list()))
dicionario_turma_unidade
#criando coluna com unidades de ensino
df['UNIDADE'] = df['FASE_TURMA'].map(dicionario_turma_unidade)
set(df['UNIDADE'])

{'Centro', 'Cipó', 'Filipinho', 'Granjinha', nan}

In [412]:
df.to_csv('dados/pede_passos_dataset_fiap_limpo.csv', index=False)

### Analisando variáveis categóricas

In [413]:
#colunas categóricas
df[df.select_dtypes(include=[object]).columns].columns

Index(['NOME', 'IDADE_ALUNO', 'FASE_TURMA', 'PEDRA', 'PONTO_VIRADA',
       'INDE_CONCEITO', 'INSTITUICAO_ENSINO_ALUNO', 'DESTAQUE_IEG',
       'DESTAQUE_IDA', 'DESTAQUE_IPV', 'REC_AVA_1', 'REC_AVA_2', 'REC_AVA_3',
       'REC_AVA_4', 'NIVEL_IDEAL', 'SINALIZADOR_INGRESSANTE', 'BOLSISTA',
       'INDICADO_BOLSA', 'UNIDADE'],
      dtype='object')

In [414]:
set(df['INSTITUICAO_ENSINO_ALUNO'])

{'Einstein',
 'Escola JP II',
 'Escola João Paulo II',
 'Escola Pública',
 'Estácio',
 'FIAP',
 'Rede Decisão',
 'Rede Decisão/União',
 'UNISA',
 nan}

In [415]:
set(df['PONTO_VIRADA'])

{'#NULO!', 'Não', 'Sim', nan}

In [416]:
set(df['INDE_CONCEITO'])

{'A', 'B', 'C', 'D', nan}

In [417]:
set(df['PEDRA'])

{'Ametista', 'Quartzo', 'Topázio', nan, 'Ágata'}

In [418]:
set(df['DESTAQUE_IEG'])

{'Destaque: A sua boa entrega das lições de casa.',
 'Melhorar: Melhorar a sua entrega de lições de casa.',
 'Ponto a melhorar em 2021: Melhorar a sua entrega de lições de casa.',
 'Ponto a melhorar em 2021: Melhorar o seu engajamento nas ações de voluntariado.',
 'Seu destaque em 2020: A sua boa entrega das lições de casa.',
 'Seu destaque em 2020: O seu bom engajamento nas ações de voluntariado.',
 nan}

In [419]:
set(df['DESTAQUE_IPV'])

{'Destaque: A sua boa integração aos Princípios Passos Mágicos.',
 'Melhorar: Integrar-se mais aos Princípios Passos Mágicos.',
 'Ponto a melhorar em 2021: Integrar-se mais aos Princípios Passos Mágicos.',
 'Seu destaque em 2020: A sua boa integração aos Princípios Passos Mágicos.',
 nan}

In [420]:
set(df['DESTAQUE_IDA'])

{'Destaque: As suas boas notas na Passos Mágicos.',
 'Melhorar: Empenhar-se mais nas aulas e avaliações.',
 'Ponto a melhorar em 2021: As suas notas na Faculdade.',
 'Ponto a melhorar em 2021: Empenhar-se mais nas aulas e avaliações.',
 'Seu destaque em 2020: As suas boas notas na Faculdade.',
 'Seu destaque em 2020: As suas boas notas na Passos Mágicos.',
 nan}

In [421]:
set(df['INSTITUICAO_ENSINO_ALUNO'])

{'Einstein',
 'Escola JP II',
 'Escola João Paulo II',
 'Escola Pública',
 'Estácio',
 'FIAP',
 'Rede Decisão',
 'Rede Decisão/União',
 'UNISA',
 nan}

In [422]:
set(df['SINALIZADOR_INGRESSANTE'])

{'Ingressante', 'Veterano', nan}

In [423]:
set(df['REC_AVA_1'])

{'Alocado em Fase anterior',
 'Mantido na Fase + Bolsa',
 'Mantido na Fase atual',
 'Não avaliado',
 'Promovido de Fase',
 'Promovido de Fase + Bolsa',
 nan}

In [424]:
set(df['REC_AVA_1'])

{'Alocado em Fase anterior',
 'Mantido na Fase + Bolsa',
 'Mantido na Fase atual',
 'Não avaliado',
 'Promovido de Fase',
 'Promovido de Fase + Bolsa',
 nan}

In [425]:
set(df['NIVEL_IDEAL'])

{'ALFA  (2o e 3o ano)',
 'ALFA  (2º e 3º ano)',
 'ERRO',
 'Fase 1 (4º ano)',
 'Fase 2 (5º e 6º ano)',
 'Fase 3 (7º e 8º ano)',
 'Fase 4 (9º ano)',
 'Fase 5 (1º EM)',
 'Fase 6 (2º EM)',
 'Fase 7 (3º EM)',
 'Fase 8 (Universitários)',
 'Nível 1 (4o ano)',
 'Nível 2 (5o e 6o ano)',
 'Nível 3 (7o e 8o ano)',
 'Nível 4 (9o ano)',
 'Nível 5 (1o EM)',
 'Nível 6 (2o EM)',
 'Nível 7 (3o EM)',
 'Nível 8 (Universitários)',
 nan}

In [426]:
set(df['BOLSISTA'])

{'Não', 'Sim', nan}

In [427]:
set(df['PONTO_VIRADA'])

{'#NULO!', 'Não', 'Sim', nan}

In [428]:
set(df['INDICADO_BOLSA'])

{'Não', 'Sim', nan}

### Analisando variáveis quantitativas

In [430]:
print(f'Há {df[df.ANO_INGRESSO == 0].shape[0]} registros nulos na coluna ANO_INGRESSO!')

Há 0 registros nulos na coluna ANO_INGRESSO!


## Data Preparation

## Modeling

## Evaluation