In [637]:
import pandas as pd
import polars as pl
import numpy as np


In [638]:
import polars.selectors as cs
import re
from datetime import date


# Informações preliminares

Com base nos relatórios PEDE de 2020, 2021 e 2022, os principais indicadores e índices utilizados para avaliar o impacto da ONG Passos Mágicos são:

1. IDA (Índice de Desenvolvimento Acadêmico):
- Composto por notas de Matemática, Português e Inglês
- Varia de 0 a 10
- Mede o desempenho acadêmico geral do estudante
- Importante para acompanhar a evolução do aprendizado ao longo do tempo

2. IEG (Índice de Engajamento):
- Avalia o envolvimento do estudante com as atividades da ONG
- Varia de 0 a 10 
- Importante para medir a participação e motivação do aluno

3. IAA (Índice de Assiduidade e Adesão):
- Mede a frequência e participação nas atividades
- Varia de 0 a 10
- Importante para avaliar o comprometimento do estudante

4. IAN (Índice de Adequação de Nível):
- Avalia se o estudante está na fase/série adequada para sua idade
- Varia de 2.5 (defasagem severa) a 10 (adequado)
- Importante para identificar defasagens idade-série

5. IPS (Índice Psicossocial):
- Avalia aspectos familiares, emocionais e comportamentais
- Varia de 0 a 10
- Importante para acompanhar o desenvolvimento socioemocional

6. IPP (Índice de Potencial e Protagonismo):
- Avalia o potencial acadêmico e protagonismo do estudante
- Varia de 0 a 10
- Importante para identificar talentos e lideranças

7. IPV (Índice de Presença Virtual):
- Mede a participação em atividades remotas (adicionado em 2020)
- Varia de 0 a 10
- Importante no contexto da pandemia

8. INDE (Índice de Desenvolvimento Educacional):
- Índice composto que integra todos os demais
- Varia de 0 a 10
- Fornece uma visão geral do desenvolvimento do estudante

Esses indicadores permitem uma avaliação multidimensional do progresso de cada estudante, abrangendo aspectos acadêmicos, comportamentais e socioemocionais. A análise da evolução desses índices ao longo dos anos possibilita identificar o impacto das ações da ONG na vida dos estudantes atendidos.

As pedras conceito e a jornada são elementos adicionais importantes no sistema de avaliação da ONG Passos Mágicos. Vou explicá-los e depois abordar as relações entre todos esses elementos:

## Pedras Conceito:
As pedras conceito são classificações atribuídas aos estudantes com base em seu desempenho geral, principalmente no INDE. Existem quatro níveis, do mais alto para o mais baixo:

1. Topázio
2. Ametista
3. Ágata
4. Quartzo

Conforme o relatório PEDE 2022 (p. 71), as faixas aproximadas de INDE para cada pedra conceito são:

- Topázio: INDE de 8,2
- Ametista: INDE de 7,0
- Ágata: INDE de 5,2
- Quartzo: INDE de 3,1

## Jornada:
A jornada refere-se à evolução do estudante entre as pedras conceito ao longo do tempo. Existem três tipos de jornada:

1. Avanço: O estudante progride para uma pedra conceito superior
2. Neutra: O estudante permanece na mesma pedra conceito
3. Recuo: O estudante retrocede para uma pedra conceito inferior

## Relações entre os índices, indicadores, pedras conceito e jornada:

1. INDE como integrador:
   O INDE é o índice mais abrangente, incorporando todos os outros índices (IDA, IEG, IAA, IAN, IPS, IPP, IPV). Portanto, ele tem uma forte relação com a determinação da pedra conceito do estudante.

2. IDA e desempenho acadêmico:
   O IDA tem um peso significativo no INDE e, consequentemente, na determinação da pedra conceito. Melhorias no IDA geralmente levam a avanços na jornada.

3. IEG e IAA como indicadores de engajamento:
   Estes índices refletem o envolvimento do estudante com o programa. Altos valores de IEG e IAA geralmente estão associados a pedras conceito mais elevadas e jornadas de avanço.

4. IAN e progressão escolar:
   O IAN influencia o INDE e pode impactar a pedra conceito. Estudantes com menor defasagem idade-série tendem a ter pedras conceito mais elevadas.

5. IPS e IPP como indicadores de desenvolvimento integral:
   Estes índices capturam aspectos socioemocionais e de potencial, contribuindo para uma visão mais holística do desenvolvimento do estudante. Melhorias nestes índices podem refletir em avanços na jornada.

6. IPV e adaptação à pandemia:
   Introduzido em 2020, o IPV tornou-se um componente importante do INDE, afetando potencialmente a pedra conceito e a jornada do estudante durante o período de ensino remoto.

7. Jornada como métrica de progresso:
   A jornada serve como um indicador de longo prazo do impacto do programa, mostrando como os estudantes evoluem entre as pedras conceito ao longo do tempo.

8. Interrelações complexas:
   É importante notar que todos esses índices estão interrelacionados. Por exemplo, um aumento no IDA pode levar a um aumento no IEG (maior engajamento devido ao sucesso acadêmico), que por sua vez pode impactar positivamente o IPS e o IPP.

Em resumo, este sistema de avaliação multifacetado permite uma visão abrangente do desenvolvimento de cada estudante, com o INDE e as pedras conceito fornecendo uma síntese geral, enquanto os índices individuais e a jornada oferecem insights mais detalhados sobre áreas específicas de progresso ou necessidade de atenção.


## Comparação de Desempenho: Estudantes Bolsistas vs. Escola Pública (IDA e IEG)

Os relatórios do PEDE fornecem dados para comparar o desempenho de estudantes bolsistas e da escola pública nos indicadores IDA (Índice de Desempenho Acadêmico) e IEG (Índice de Engajamento Geral). Abaixo, uma análise comparativa baseada nas informações disponíveis:

**IDA (Índice de Desempenho Acadêmico):**

* **Em 2022**: 
    * **Bolsistas:** Média IDA de 7,1, representando um aumento de 16% em relação a 2021 e 32% em relação a 2020.
    * **Escola Pública:** Média IDA de 5,9, uma queda de 3,3% em relação a 2021.
* **Evolução ao longo dos anos:** Os dados de 2020 a 2022 mostram que os bolsistas, em geral, apresentaram um crescimento mais consistente no IDA em comparação aos alunos da escola pública.
* **Desagregando por disciplinas:** 
    * **Matemática:** Bolsistas tiveram uma média de 6,7 em 2022, enquanto alunos da escola pública tiveram 5,7.
    * **Português:** A média dos bolsistas foi 6,9, e a da escola pública 6,2.
    * **Inglês:**  Bolsistas alcançaram 7,8, enquanto alunos da escola pública ficaram com 5,0.
* **Impacto da Defasagem:**  
    * Alunos bolsistas com defasagem severa apresentaram IDA de 4,4 em 2022.
    * Alunos da escola pública com defasagem severa tiveram IDA médio de 2,9 em 2020 e 3,4 em 2022.

**IEG (Índice de Engajamento Geral):**

* **Dados agregados:**  Os relatórios não apresentam a média do IEG separada para bolsistas e escola pública, dificultando uma comparação direta.
* **Inferências:**
    * **Influência na nota do INDE:**  Tanto o IDA quanto o IEG têm grande influência na nota do INDE, representando 67% e 64%, respectivamente.
    * **Considerando o IDA:** Como os bolsistas demonstraram melhor desempenho no IDA, que compõe o INDE, podemos inferir que **eles tendem a ter um IEG igual ou superior ao da escola pública**.

**Pontos importantes a considerar:**

* **Tamanho da amostra:** O número de bolsistas na amostra é consideravelmente menor que o de alunos da escola pública, o que pode influenciar as médias e comparações.
* **Fatores externos:** O desempenho escolar é influenciado por diversos fatores além dos medidos pelo PEDE, como contexto socioeconômico, apoio familiar e acesso a recursos educacionais.
* **Falta de informações detalhadas:** A ausência de dados específicos sobre o cálculo do IEG e a falta de médias separadas para bolsistas e escola pública limitam a análise comparativa.

**Em suma:** Os dados do PEDE sugerem que os estudantes bolsistas tendem a apresentar melhor desempenho acadêmico (IDA) em comparação aos alunos da escola pública, especialmente em inglês. No entanto, a falta de informações detalhadas sobre o IEG impede uma análise comparativa precisa nesse indicador. É crucial considerar o tamanho da amostra e os fatores contextuais que podem influenciar o desempenho dos estudantes. 


# Carrega a base simples

In [639]:
df = pd.read_csv("data/PEDE_PASSOS_DATASET_FIAP.csv", sep=";")
# checa se o arquivo foi carregado inteiro
assert len(df.index) > 1000


In [640]:
df_orig = df.copy()


## Corrige tipos das colunas

In [641]:
# List of performance indicator columns
performance_columns = [
    "INDE_2020",
    "IAA_2020",
    "IEG_2020",
    "IPS_2020",
    "IDA_2020",
    "IPP_2020",
    "IPV_2020",
    "IAN_2020",
    "INDE_2021",
    "IAA_2021",
    "IEG_2021",
    "IPS_2021",
    "IDA_2021",
    "IPP_2021",
    "IPV_2021",
    "INDE_2022",
    "IAA_2022",
    "IEG_2022",
    "IPS_2022",
    "IDA_2022",
    "IPP_2022",
    "IPV_2022",
]

# Convert each performance indicator column to numeric
for col in performance_columns:
    df[col] = pd.to_numeric(df[col], errors="coerce")

# Display the data types to confirm conversion
print(df[performance_columns].dtypes)


INDE_2020    float64
IAA_2020     float64
IEG_2020     float64
IPS_2020     float64
IDA_2020     float64
IPP_2020     float64
IPV_2020     float64
IAN_2020     float64
INDE_2021    float64
IAA_2021     float64
IEG_2021     float64
IPS_2021     float64
IDA_2021     float64
IPP_2021     float64
IPV_2021     float64
INDE_2022    float64
IAA_2022     float64
IEG_2022     float64
IPS_2022     float64
IDA_2022     float64
IPP_2022     float64
IPV_2022     float64
dtype: object


In [642]:
# Identify columns that start with "ANOS_"
anos_columns = [col for col in df.columns if col.startswith("ANOS_")]

# Convert these columns to integers
for col in anos_columns:
    df[col] = pd.to_numeric(df[col], errors="coerce").astype("Int64")

# Display the data types to confirm conversion
print(df[anos_columns].dtypes)


ANOS_PM_2020    Int64
dtype: object


In [643]:
# Identify columns that start with 'PONTO_VIRADA'
ponto_virada_columns = [col for col in df.columns if col.startswith("PONTO_VIRADA")]

# Convert 'Não' to 0, 'Sim' to 1, and others to NaN
for col in ponto_virada_columns:
    df[col] = df[col].map({"Não": 0, "Sim": 1}).astype("Int64")

# Display the data types and first few rows to confirm conversion
print(df[ponto_virada_columns].head())
print(df[ponto_virada_columns].dtypes)


   PONTO_VIRADA_2020  PONTO_VIRADA_2021  PONTO_VIRADA_2022
0                  0                  0               <NA>
1               <NA>               <NA>                  0
2                  0                  0               <NA>
3                  0               <NA>                  0
4                  0                  0                  0
PONTO_VIRADA_2020    Int64
PONTO_VIRADA_2021    Int64
PONTO_VIRADA_2022    Int64
dtype: object


In [644]:
idade_aluno_columns = [col for col in df.columns if col.startswith("IDADE_ALUNO")]

for col in ponto_virada_columns:
    df[col] = pd.to_numeric(df[col], errors="coerce").astype("Int64")


# Display the data types and first few rows to confirm conversion
print(df[idade_aluno_columns].head())
print(df[idade_aluno_columns].dtypes)


  IDADE_ALUNO_2020
0               11
1              NaN
2               12
3               10
4               10
IDADE_ALUNO_2020    object
dtype: object


In [645]:
# drop line where INDE_CONCEITO_2020  equals non-sense data
df.drop(index=df[df["INDE_CONCEITO_2020"] == "D9891/2"].index[0], inplace=True)


In [646]:
rec_equipe_columns = [col for col in df.columns if col.startswith("REC_EQUIPE")]

categories = (
    pd.concat([df[col] for col in rec_equipe_columns], axis=0).unique().tolist()
)

categories.remove(np.nan)
categories


['Promovido de Fase',
 'Promovido de Fase + Bolsa',
 'Não avaliado',
 'Mantido na Fase atual',
 'Mantido na Fase + Bolsa',
 'Alocado em Fase anterior']

In [647]:
for col in rec_equipe_columns:
    df[col] = df[col].replace(np.nan, None)
    df[col] = pd.Categorical(df[col], categories=categories, ordered=False)

# Display the data types and first few rows to confirm conversion
print(df[rec_equipe_columns].head())
print(df[rec_equipe_columns].dtypes)


   REC_EQUIPE_1_2021      REC_EQUIPE_2_2021      REC_EQUIPE_3_2021  \
0  Promovido de Fase      Promovido de Fase  Mantido na Fase atual   
1                NaN                    NaN                    NaN   
2  Promovido de Fase      Promovido de Fase  Mantido na Fase atual   
3                NaN                    NaN                    NaN   
4  Promovido de Fase  Mantido na Fase atual  Mantido na Fase atual   

  REC_EQUIPE_4_2021  
0      Não avaliado  
1               NaN  
2      Não avaliado  
3               NaN  
4      Não avaliado  
REC_EQUIPE_1_2021    category
REC_EQUIPE_2_2021    category
REC_EQUIPE_3_2021    category
REC_EQUIPE_4_2021    category
dtype: object


In [648]:
instituicao_ensino_columns = [
    col for col in df.columns if col.startswith("INSTITUICAO_ENSINO")
]

for col in instituicao_ensino_columns:
    categories = df[col].fillna("").unique().tolist()
    df[col] = pd.Categorical(df[col], categories=categories, ordered=False)

# # Display the data types and first few rows to confirm conversion
print(df[instituicao_ensino_columns].head())
print(df[instituicao_ensino_columns].dtypes)


  INSTITUICAO_ENSINO_ALUNO_2020 INSTITUICAO_ENSINO_ALUNO_2021
0                Escola Pública                  Rede Decisão
1                           NaN                           NaN
2                Escola Pública                Escola Pública
3                Escola Pública                           NaN
4                Escola Pública                Escola Pública
INSTITUICAO_ENSINO_ALUNO_2020    category
INSTITUICAO_ENSINO_ALUNO_2021    category
dtype: object


In [649]:
df["IDADE_ALUNO_2020"] = df["IDADE_ALUNO_2020"].astype("Int64")


In [650]:
# cria as colunas fase e turma para análise mais segmentada
df["FASE_2020"] = df["FASE_TURMA_2020"].str.get(0).astype("Int64")
df["TURMA_2020"] = df["FASE_TURMA_2020"].str.get(1)
df.drop(columns=["FASE_TURMA_2020"], inplace=True)


In [652]:
df["INDE_CONCEITO_2020"] = pd.Categorical(df["INDE_CONCEITO_2020"])


In [653]:
# seleciona as colunas que iniciam com PEDRA para transformar em categoria
pedra_columns = [col for col in df.columns if col.startswith("PEDRA")]

# transforma as colunas em categoria
df[pedra_columns] = df[pedra_columns].apply(lambda x: pd.Categorical(x))

df.head()


Unnamed: 0,INSTITUICAO_ENSINO_ALUNO_2020,NOME,IDADE_ALUNO_2020,ANOS_PM_2020,PONTO_VIRADA_2020,INDE_2020,INDE_CONCEITO_2020,PEDRA_2020,DESTAQUE_IEG_2020,DESTAQUE_IDA_2020,...,REC_AVA_2_2022,REC_AVA_3_2022,REC_AVA_4_2022,INDICADO_BOLSA_2022,PONTO_VIRADA_2022,IPV_2022,IAN_2022,NIVEL_IDEAL_2022,FASE_2020,TURMA_2020
0,Escola Pública,ALUNO-1,11.0,2.0,0.0,7.883752,B,Ametista,Seu destaque em 2020: A sua boa entrega das li...,Ponto a melhorar em 2021: Empenhar-se mais nas...,...,,,,,,,,,2.0,H
1,,ALUNO-2,,,,,,,,,...,Mantido na Fase atual,,,Sim,0.0,7.916665,5.0,Fase 2 (5º e 6º ano),,
2,Escola Pública,ALUNO-3,12.0,2.0,0.0,7.85639,B,Ametista,Seu destaque em 2020: A sua boa entrega das li...,Ponto a melhorar em 2021: Empenhar-se mais nas...,...,,,,,,,,,3.0,H
3,Escola Pública,ALUNO-4,10.0,2.0,0.0,5.076252,D,Quartzo,Ponto a melhorar em 2021: Melhorar a sua entre...,Ponto a melhorar em 2021: Empenhar-se mais nas...,...,Mantido na Fase atual,Promovido de Fase,,Não,0.0,8.055553,5.0,Fase 3 (7º e 8º ano),1.0,D
4,Escola Pública,ALUNO-5,10.0,1.0,0.0,8.077085,B,Ametista,Seu destaque em 2020: A sua boa entrega das li...,Seu destaque em 2020: As suas boas notas na Pa...,...,Promovido de Fase,Mantido na Fase atual,,Não,0.0,7.833337,5.0,Fase 3 (7º e 8º ano),2.0,M


In [654]:
# converte colunas DESTAQUE em str
destaque_columns = [col for col in df.columns if col.startswith("DESTAQUE")]

df[destaque_columns] = df[destaque_columns].astype("string")


In [655]:
# converte colunas TURMA em categoria
turma_columns = [col for col in df.columns if col.startswith("TURMA")]

df[turma_columns] = df[turma_columns].apply(lambda x: pd.Categorical(x))

df[turma_columns].head()


Unnamed: 0,TURMA_2021,TURMA_2022,TURMA_2020
0,G,,H
1,,K,
2,F,,H
3,,J,D
4,L,L,M


In [656]:
# converte coluna sinalizador ingressante para categoria
df["SINALIZADOR_INGRESSANTE_2021"] = pd.Categorical(df["SINALIZADOR_INGRESSANTE_2021"])


In [657]:
nivel_ideal_columns = [col for col in df.columns if col.startswith("NIVEL_IDEAL")]
df[nivel_ideal_columns]


Unnamed: 0,NIVEL_IDEAL_2021,NIVEL_IDEAL_2022
0,Nível 3 (7o e 8o ano),
1,,Fase 2 (5º e 6º ano)
2,Nível 3 (7o e 8o ano),
3,,Fase 3 (7º e 8º ano)
4,Nível 2 (5o e 6o ano),Fase 3 (7º e 8º ano)
...,...,...
1344,Nível 1 (4o ano),
1345,,Fase 1 (4º ano)
1346,,
1347,Nível 4 (9o ano),Fase 5 (1º EM)


In [658]:
nivel_ideal_columns = [col for col in df.columns if col.startswith("NIVEL_IDEAL")]

for col in nivel_ideal_columns:
    colname = "FASE_IDEAL_" + col.split("_")[2]
    df[colname] = df[col].str.split("(", expand=True).get(0)
    df[colname] = df[colname].astype(str)

df.head()


Unnamed: 0,INSTITUICAO_ENSINO_ALUNO_2020,NOME,IDADE_ALUNO_2020,ANOS_PM_2020,PONTO_VIRADA_2020,INDE_2020,INDE_CONCEITO_2020,PEDRA_2020,DESTAQUE_IEG_2020,DESTAQUE_IDA_2020,...,REC_AVA_4_2022,INDICADO_BOLSA_2022,PONTO_VIRADA_2022,IPV_2022,IAN_2022,NIVEL_IDEAL_2022,FASE_2020,TURMA_2020,FASE_IDEAL_2021,FASE_IDEAL_2022
0,Escola Pública,ALUNO-1,11.0,2.0,0.0,7.883752,B,Ametista,Seu destaque em 2020: A sua boa entrega das li...,Ponto a melhorar em 2021: Empenhar-se mais nas...,...,,,,,,,2.0,H,Nível 3,
1,,ALUNO-2,,,,,,,,,...,,Sim,0.0,7.916665,5.0,Fase 2 (5º e 6º ano),,,,Fase 2
2,Escola Pública,ALUNO-3,12.0,2.0,0.0,7.85639,B,Ametista,Seu destaque em 2020: A sua boa entrega das li...,Ponto a melhorar em 2021: Empenhar-se mais nas...,...,,,,,,,3.0,H,Nível 3,
3,Escola Pública,ALUNO-4,10.0,2.0,0.0,5.076252,D,Quartzo,Ponto a melhorar em 2021: Melhorar a sua entre...,Ponto a melhorar em 2021: Empenhar-se mais nas...,...,,Não,0.0,8.055553,5.0,Fase 3 (7º e 8º ano),1.0,D,,Fase 3
4,Escola Pública,ALUNO-5,10.0,1.0,0.0,8.077085,B,Ametista,Seu destaque em 2020: A sua boa entrega das li...,Seu destaque em 2020: As suas boas notas na Pa...,...,,Não,0.0,7.833337,5.0,Fase 3 (7º e 8º ano),2.0,M,Nível 2,Fase 3


In [659]:
# seleciona as colunas que iniciam com REC_AVA e transforma em categoria
rec_ava_columns = [col for col in df.columns if col.startswith("REC_AVA")]

df[rec_ava_columns] = df[rec_ava_columns].apply(lambda x: pd.Categorical(x))


In [660]:
df["BOLSISTA_2022"] = df["BOLSISTA_2022"].map({"Não": 0, "Sim": 1}).astype("Int64")
df["INDICADO_BOLSA_2022"] = (
    df["INDICADO_BOLSA_2022"].map({"Não": 0, "Sim": 1}).astype("Int64")
)


In [661]:
object_columns = df.select_dtypes(include=["object"]).columns
print(list(object_columns))


['NOME', 'NIVEL_IDEAL_2021', 'NIVEL_IDEAL_2022', 'FASE_IDEAL_2021', 'FASE_IDEAL_2022']


In [662]:
df_pl = pl.from_dataframe(df)
df_pl.glimpse()


Rows: 1348
Columns: 72
$ INSTITUICAO_ENSINO_ALUNO_2020 <enum> Escola Pública, None, Escola Pública, Escola Pública, Escola Pública, None, None, Rede Decisão/União, None, Escola Pública
$ NOME                           <str> 'ALUNO-1', 'ALUNO-2', 'ALUNO-3', 'ALUNO-4', 'ALUNO-5', 'ALUNO-6', 'ALUNO-7', 'ALUNO-8', 'ALUNO-9', 'ALUNO-10'
$ IDADE_ALUNO_2020               <i64> 11, None, 12, 10, 10, None, None, 14, None, 13
$ ANOS_PM_2020                   <i64> 2, None, 2, 2, 1, None, None, 3, None, 1
$ PONTO_VIRADA_2020              <i64> 0, None, 0, 0, 0, None, None, 1, None, 0
$ INDE_2020                      <f64> 7.883752, None, 7.856389666666666, 5.076252, 8.077085, None, None, 8.381390666666666, None, 5.1618745
$ INDE_CONCEITO_2020            <enum> B, None, B, D, B, None, None, B, None, D
$ PEDRA_2020                    <enum> Ametista, None, Ametista, Quartzo, Ametista, None, None, Ametista, None, Quartzo
$ DESTAQUE_IEG_2020              <str> 'Seu destaque em 2020: A sua boa entrega

In [None]:
df.info()


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1349 entries, 0 to 1348
Data columns (total 69 columns):
 #   Column                         Non-Null Count  Dtype  
---  ------                         --------------  -----  
 0   INSTITUICAO_ENSINO_ALUNO_2020  728 non-null    object 
 1   NOME                           1349 non-null   object 
 2   IDADE_ALUNO_2020               728 non-null    object 
 3   ANOS_PM_2020                   727 non-null    Int64  
 4   FASE_TURMA_2020                728 non-null    object 
 5   PONTO_VIRADA_2020              0 non-null      Int64  
 6   INDE_2020                      727 non-null    float64
 7   INDE_CONCEITO_2020             728 non-null    object 
 8   PEDRA_2020                     728 non-null    object 
 9   DESTAQUE_IEG_2020              728 non-null    object 
 10  DESTAQUE_IDA_2020              728 non-null    object 
 11  DESTAQUE_IPV_2020              703 non-null    object 
 12  IAA_2020                       727 non-null    f

## Separa os dataframes por ano e atribui uma coluna para marcar o ano

In [None]:
dfs = []
for y in ["2020", "2021", "2022"]:
    df_new = (
        ((df_pl.select(["NOME", cs.matches(y)]).with_columns(pl.select(cs.matches(y)))))
        .select(pl.all())
        .rename(lambda c: re.sub(r"_\d+$", "", c))
    )
    df_new.insert_column(
        0, pl.Series("ANO", pl.repeat(y, n=len(df_new), dtype=pl.Int32, eager=True))
    )

    dfs.append(df_new)

dfs


[shape: (1_349, 20)
 ┌──────┬────────────┬─────────────┬─────────────┬───┬─────────────┬────────────┬────────────┬──────┐
 │ ANO  ┆ NOME       ┆ INSTITUICAO ┆ IDADE_ALUNO ┆ … ┆ IDA         ┆ IPP        ┆ IPV        ┆ IAN  │
 │ ---  ┆ ---        ┆ _ENSINO_ALU ┆ ---         ┆   ┆ ---         ┆ ---        ┆ ---        ┆ ---  │
 │ i32  ┆ str        ┆ NO          ┆ str         ┆   ┆ str         ┆ str        ┆ str        ┆ str  │
 │      ┆            ┆ ---         ┆             ┆   ┆             ┆            ┆            ┆      │
 │      ┆            ┆ str         ┆             ┆   ┆             ┆            ┆            ┆      │
 ╞══════╪════════════╪═════════════╪═════════════╪═══╪═════════════╪════════════╪════════════╪══════╡
 │ 2020 ┆ ALUNO-1    ┆ Escola      ┆ 11          ┆ … ┆ 7           ┆ 5.9375     ┆ 7.75       ┆ 10   │
 │      ┆            ┆ Pública     ┆             ┆   ┆             ┆            ┆            ┆      │
 │ 2020 ┆ ALUNO-2    ┆ null        ┆ null        ┆ … ┆ null   

## Realiza o empilhamento somente nas colunas coincidentes para uma primeira análise

In [None]:
[print(f"{df.schema}\n") for df in dfs]


Schema([('ANO', Int32), ('NOME', String), ('INSTITUICAO_ENSINO_ALUNO', String), ('IDADE_ALUNO', String), ('ANOS_PM', String), ('FASE_TURMA', String), ('PONTO_VIRADA', String), ('INDE', String), ('INDE_CONCEITO', String), ('PEDRA', String), ('DESTAQUE_IEG', String), ('DESTAQUE_IDA', String), ('DESTAQUE_IPV', String), ('IAA', String), ('IEG', String), ('IPS', String), ('IDA', String), ('IPP', String), ('IPV', String), ('IAN', String)])

Schema([('ANO', Int32), ('NOME', String), ('FASE', Float64), ('TURMA', String), ('INSTITUICAO_ENSINO_ALUNO', String), ('SINALIZADOR_INGRESSANTE', String), ('PEDRA', String), ('INDE', String), ('IAA', Float64), ('IEG', Float64), ('IPS', Float64), ('IDA', Float64), ('IPP', Float64), ('REC_EQUIPE_1', String), ('REC_EQUIPE_2', String), ('REC_EQUIPE_3', String), ('REC_EQUIPE_4', String), ('PONTO_VIRADA', String), ('IPV', Float64), ('IAN', Float64), ('NIVEL_IDEAL', String), ('DEFASAGEM', Float64)])

Schema([('ANO', Int32), ('NOME', String), ('FASE', Float64), (

[None, None, None]

In [None]:
dfs[0].with_columns(pl.col("IAA").cast(pl.Float64, strict=False))


ANO,NOME,INSTITUICAO_ENSINO_ALUNO,IDADE_ALUNO,ANOS_PM,FASE_TURMA,PONTO_VIRADA,INDE,INDE_CONCEITO,PEDRA,DESTAQUE_IEG,DESTAQUE_IDA,DESTAQUE_IPV,IAA,IEG,IPS,IDA,IPP,IPV,IAN
i32,str,str,str,str,str,str,str,str,str,str,str,str,f64,str,str,str,str,str,str
2020,"""ALUNO-1""","""Escola Pública""","""11""","""2""","""2H""","""Não""","""7.883752""","""B""","""Ametista""","""Seu destaque em 2020: A sua bo…","""Ponto a melhorar em 2021: Empe…","""Seu destaque em 2020: A sua bo…",8.50002,"""8.7""","""7.5""","""7""","""5.9375""","""7.75""","""10"""
2020,"""ALUNO-2""",,,,,,,,,,,,,,,,,,
2020,"""ALUNO-3""","""Escola Pública""","""12""","""2""","""3H""","""Não""","""7.856389666666666""","""B""","""Ametista""","""Seu destaque em 2020: A sua bo…","""Ponto a melhorar em 2021: Empe…","""Seu destaque em 2020: A sua bo…",7.91667,"""8.9""","""7.5""","""5.5""","""8.125""","""8.111113333333334""","""10"""
2020,"""ALUNO-4""","""Escola Pública""","""10""","""2""","""1D""","""Não""","""5.076252""","""D""","""Quartzo""","""Ponto a melhorar em 2021: Melh…","""Ponto a melhorar em 2021: Empe…","""Ponto a melhorar em 2021: Inte…",8.00002,"""4.1""","""6.875""","""0""","""7.1875""","""7.75""","""5"""
2020,"""ALUNO-5""","""Escola Pública""","""10""","""1""","""2M""","""Não""","""8.077085""","""B""","""Ametista""","""Seu destaque em 2020: A sua bo…","""Seu destaque em 2020: As suas …","""Seu destaque em 2020: A sua bo…",7.50002,"""8""","""7.5""","""7.5""","""8.4375""","""8.166665""","""10"""
…,…,…,…,…,…,…,…,…,…,…,…,…,…,…,…,…,…,…,…
2020,"""ALUNO-1345""",,,,,,,,,,,,,,,,,,
2020,"""ALUNO-1346""",,,,,,,,,,,,,,,,,,
2020,"""ALUNO-1347""","""Escola Pública""","""17""","""1""","""7B""","""Não""","""7.158543333333334""","""C""","""Ágata""","""Seu destaque em 2020: A sua bo…","""Ponto a melhorar em 2021: Empe…","""Seu destaque em 2020: A sua bo…",9.16668,"""8.1""","""6.875""","""4.666666666666667""","""7.34375""","""6.333335""","""10"""
2020,"""ALUNO-1348""","""Escola Pública""","""13""","""2""","""3R""","""Sim""","""7.842224333333333""","""B""","""Ametista""","""Ponto a melhorar em 2021: Melh…","""Ponto a melhorar em 2021: Empe…","""Seu destaque em 2020: A sua bo…",7.91667,"""7.1""","""6.875""","""6.333333333333333""","""8.541666666666666""","""9.11112""","""10"""


In [None]:
pl.concat([dfs[0], dfs[1]], how="diagonal")


SchemaError: type Float64 is incompatible with expected type String

ANO,NOME,INSTITUICAO_ENSINO_ALUNO,IDADE_ALUNO,ANOS_PM,FASE_TURMA,PONTO_VIRADA,INDE,INDE_CONCEITO,PEDRA,DESTAQUE_IEG,DESTAQUE_IDA,DESTAQUE_IPV,IAA,IEG,IPS,IDA,IPP,IPV,IAN
i32,str,str,str,str,str,str,str,str,str,str,str,str,str,str,str,str,str,str,str
2020,"""ALUNO-1""","""Escola Pública""","""11""","""2""","""2H""","""Não""","""7.883752""","""B""","""Ametista""","""Seu destaque em 2020: A sua bo…","""Ponto a melhorar em 2021: Empe…","""Seu destaque em 2020: A sua bo…","""8.500020000000001""","""8.7""","""7.5""","""7""","""5.9375""","""7.75""","""10"""
2020,"""ALUNO-2""",,,,,,,,,,,,,,,,,,
2020,"""ALUNO-3""","""Escola Pública""","""12""","""2""","""3H""","""Não""","""7.856389666666666""","""B""","""Ametista""","""Seu destaque em 2020: A sua bo…","""Ponto a melhorar em 2021: Empe…","""Seu destaque em 2020: A sua bo…","""7.91667""","""8.9""","""7.5""","""5.5""","""8.125""","""8.111113333333334""","""10"""
2020,"""ALUNO-4""","""Escola Pública""","""10""","""2""","""1D""","""Não""","""5.076252""","""D""","""Quartzo""","""Ponto a melhorar em 2021: Melh…","""Ponto a melhorar em 2021: Empe…","""Ponto a melhorar em 2021: Inte…","""8.000020000000001""","""4.1""","""6.875""","""0""","""7.1875""","""7.75""","""5"""
2020,"""ALUNO-5""","""Escola Pública""","""10""","""1""","""2M""","""Não""","""8.077085""","""B""","""Ametista""","""Seu destaque em 2020: A sua bo…","""Seu destaque em 2020: As suas …","""Seu destaque em 2020: A sua bo…","""7.50002""","""8""","""7.5""","""7.5""","""8.4375""","""8.166665""","""10"""


In [None]:
df
