Datathon - Passos mágicos

# Análise exploratória de dados

In [1]:
# Importação de bibliotecas básicas

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

## Informações básicas e tramentos iniciais

In [2]:
# Trazendo a base fornecida pelas ONG

df = pd.read_csv("/content/PEDE_PASSOS_DATASET_FIAP.csv", sep=";")
df_bkp = df.copy()

df.head()

Unnamed: 0,INSTITUICAO_ENSINO_ALUNO_2020,NOME,IDADE_ALUNO_2020,ANOS_PM_2020,FASE_TURMA_2020,PONTO_VIRADA_2020,INDE_2020,INDE_CONCEITO_2020,PEDRA_2020,DESTAQUE_IEG_2020,...,IPP_2022,REC_AVA_1_2022,REC_AVA_2_2022,REC_AVA_3_2022,REC_AVA_4_2022,INDICADO_BOLSA_2022,PONTO_VIRADA_2022,IPV_2022,IAN_2022,NIVEL_IDEAL_2022
0,Escola Pública,ALUNO-1,11.0,2.0,2H,Não,7.883752,B,Ametista,Seu destaque em 2020: A sua boa entrega das li...,...,,,,,,,,,,
1,,ALUNO-2,,,,,,,,,...,5.625,Mantido na Fase + Bolsa,Mantido na Fase atual,,,Sim,Não,7.916665,5.0,Fase 2 (5º e 6º ano)
2,Escola Pública,ALUNO-3,12.0,2.0,3H,Não,7.856389666666666,B,Ametista,Seu destaque em 2020: A sua boa entrega das li...,...,,,,,,,,,,
3,Escola Pública,ALUNO-4,10.0,2.0,1D,Não,5.076252,D,Quartzo,Ponto a melhorar em 2021: Melhorar a sua entre...,...,6.25,Promovido de Fase,Mantido na Fase atual,Promovido de Fase,,Não,Não,8.055553,5.0,Fase 3 (7º e 8º ano)
4,Escola Pública,ALUNO-5,10.0,1.0,2M,Não,8.077085,B,Ametista,Seu destaque em 2020: A sua boa entrega das li...,...,6.458333,Mantido na Fase atual,Promovido de Fase,Mantido na Fase atual,,Não,Não,7.833337,5.0,Fase 3 (7º e 8º ano)


In [3]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1349 entries, 0 to 1348
Data columns (total 69 columns):
 #   Column                         Non-Null Count  Dtype  
---  ------                         --------------  -----  
 0   INSTITUICAO_ENSINO_ALUNO_2020  728 non-null    object 
 1   NOME                           1349 non-null   object 
 2   IDADE_ALUNO_2020               728 non-null    object 
 3   ANOS_PM_2020                   728 non-null    object 
 4   FASE_TURMA_2020                728 non-null    object 
 5   PONTO_VIRADA_2020              702 non-null    object 
 6   INDE_2020                      728 non-null    object 
 7   INDE_CONCEITO_2020             728 non-null    object 
 8   PEDRA_2020                     728 non-null    object 
 9   DESTAQUE_IEG_2020              728 non-null    object 
 10  DESTAQUE_IDA_2020              728 non-null    object 
 11  DESTAQUE_IPV_2020              703 non-null    object 
 12  IAA_2020                       728 non-null    o

In [4]:
# Colunas nulas no dataset
df.isnull().sum()

INSTITUICAO_ENSINO_ALUNO_2020    621
NOME                               0
IDADE_ALUNO_2020                 621
ANOS_PM_2020                     621
FASE_TURMA_2020                  621
                                ... 
INDICADO_BOLSA_2022              487
PONTO_VIRADA_2022                487
IPV_2022                         487
IAN_2022                         487
NIVEL_IDEAL_2022                 487
Length: 69, dtype: int64

In [5]:
df.describe().T.round(2)

Unnamed: 0,count,mean,std,min,25%,50%,75%,max
FASE_2021,686.0,2.28,1.8,0.0,1.0,2.0,3.0,7.0
IAA_2021,686.0,8.15,2.19,0.0,7.9,8.8,9.5,10.0
IEG_2021,686.0,6.82,2.46,0.0,5.3,7.2,8.8,10.0
IPS_2021,686.0,6.84,1.46,0.0,6.9,7.5,7.5,8.8
IDA_2021,686.0,5.43,2.14,0.0,4.1,5.85,6.9,9.5
IPP_2021,686.0,7.58,1.07,0.0,7.3,7.7,8.1,10.0
IPV_2021,686.0,7.41,1.63,0.0,6.6,7.7,8.6,10.0
IAN_2021,686.0,6.9,2.48,2.5,5.0,5.0,10.0,10.0
DEFASAGEM_2021,686.0,-0.75,0.79,-4.0,-1.0,-1.0,0.0,3.0
FASE_2022,862.0,2.11,1.8,0.0,1.0,2.0,3.0,7.0


In [6]:
# Renomear colunas
df = df.rename(columns={
  'NOME':'nome',
  'FASE_TURMA_2020':'fase_e_turma_em_2020',
  'FASE_2021':'fase_em_2021',
  'FASE_2022':'fase_em_2022',
  'ANOS_PM_2020':'anos_na_PM_em_2020'})

In [7]:
# Filtra as linhas onde 'anos_na_PM_em_2020' é igual a 'D971', possível erro
df[df['anos_na_PM_em_2020'] == 'D971']

Unnamed: 0,INSTITUICAO_ENSINO_ALUNO_2020,nome,IDADE_ALUNO_2020,anos_na_PM_em_2020,fase_e_turma_em_2020,PONTO_VIRADA_2020,INDE_2020,INDE_CONCEITO_2020,PEDRA_2020,DESTAQUE_IEG_2020,...,IPP_2022,REC_AVA_1_2022,REC_AVA_2_2022,REC_AVA_3_2022,REC_AVA_4_2022,INDICADO_BOLSA_2022,PONTO_VIRADA_2022,IPV_2022,IAN_2022,NIVEL_IDEAL_2022
1258,V202,ALUNO-1259,D108,D971,D207,D9600,D980,D9891/2,D9891/2A,D301,...,,,,,,,,,,


In [8]:
# Dropando linha com possível erro

df = df.drop(df[df['anos_na_PM_em_2020'] == 'D971'].index)

In [9]:
# Transformando tipo de colunas
df['anos_na_PM_em_2020'] = df['anos_na_PM_em_2020'].astype(float)

## Fases do aluno

In [10]:
  df[['nome', 'fase_e_turma_em_2020', 'fase_em_2021', 'fase_em_2022']].head()

Unnamed: 0,nome,fase_e_turma_em_2020,fase_em_2021,fase_em_2022
0,ALUNO-1,2H,2.0,
1,ALUNO-2,,,0.0
2,ALUNO-3,3H,3.0,
3,ALUNO-4,1D,,2.0
4,ALUNO-5,2M,2.0,2.0


In [11]:
  df[['nome', 'fase_e_turma_em_2020', 'fase_em_2021', 'fase_em_2022']].info()

<class 'pandas.core.frame.DataFrame'>
Index: 1348 entries, 0 to 1348
Data columns (total 4 columns):
 #   Column                Non-Null Count  Dtype  
---  ------                --------------  -----  
 0   nome                  1348 non-null   object 
 1   fase_e_turma_em_2020  727 non-null    object 
 2   fase_em_2021          686 non-null    float64
 3   fase_em_2022          862 non-null    float64
dtypes: float64(2), object(2)
memory usage: 52.7+ KB


In [12]:
# Extrai a parte numérica da string na coluna 'fase_e_turma_em_2020'
df['fase_em_2020'] = df['fase_e_turma_em_2020'].str.extract('(\d+)')
df['fase_em_2020'] = df['fase_em_2020'].astype(float)


In [13]:
  df[['nome', 'fase_em_2020', 'fase_em_2021', 'fase_em_2022']].info()

<class 'pandas.core.frame.DataFrame'>
Index: 1348 entries, 0 to 1348
Data columns (total 4 columns):
 #   Column        Non-Null Count  Dtype  
---  ------        --------------  -----  
 0   nome          1348 non-null   object 
 1   fase_em_2020  727 non-null    float64
 2   fase_em_2021  686 non-null    float64
 3   fase_em_2022  862 non-null    float64
dtypes: float64(3), object(1)
memory usage: 52.7+ KB


In [14]:
  df[['nome', 'fase_em_2020', 'fase_em_2021', 'fase_em_2022']].head()

Unnamed: 0,nome,fase_em_2020,fase_em_2021,fase_em_2022
0,ALUNO-1,2.0,2.0,
1,ALUNO-2,,,0.0
2,ALUNO-3,3.0,3.0,
3,ALUNO-4,1.0,,2.0
4,ALUNO-5,2.0,2.0,2.0


## Dimensões de temporalidade

In [15]:
# Cria colunas para verificar se o aluno era ou não aluno com base na inscrição de turma
df['aluno_em_2020'] = df['fase_em_2020'].notna()
df['aluno_em_2021'] = df['fase_em_2021'].notna()
df['aluno_em_2022'] = df['fase_em_2022'].notna()

df[['nome', 'aluno_em_2020', 'aluno_em_2021', 'aluno_em_2022']].head()

Unnamed: 0,nome,aluno_em_2020,aluno_em_2021,aluno_em_2022
0,ALUNO-1,True,True,False
1,ALUNO-2,False,False,True
2,ALUNO-3,True,True,False
3,ALUNO-4,True,False,True
4,ALUNO-5,True,True,True


In [16]:
# Histórico não disponível na base

# Inicializa as novas colunas com FALSE
df['aluno_em_2019'] = False
df['aluno_em_2018'] = False
df['aluno_em_2017'] = False
df['aluno_em_2016'] = False

# Aplica a lógica
df.loc[df['aluno_em_2020'] & (df['anos_na_PM_em_2020'] >= 1), 'aluno_em_2019'] = True
df.loc[df['aluno_em_2020'] & (df['anos_na_PM_em_2020'] >= 2), 'aluno_em_2018'] = True
df.loc[df['aluno_em_2020'] & (df['anos_na_PM_em_2020'] >= 3), 'aluno_em_2017'] = True
df.loc[df['aluno_em_2020'] & (df['anos_na_PM_em_2020'] >= 4), 'aluno_em_2016'] = True

df[['nome', 'aluno_em_2016', 'aluno_em_2017', 'aluno_em_2018', 'aluno_em_2019', 'aluno_em_2020', 'anos_na_PM_em_2020']].head()

Unnamed: 0,nome,aluno_em_2016,aluno_em_2017,aluno_em_2018,aluno_em_2019,aluno_em_2020,anos_na_PM_em_2020
0,ALUNO-1,False,False,True,True,True,2.0
1,ALUNO-2,False,False,False,False,False,
2,ALUNO-3,False,False,True,True,True,2.0
3,ALUNO-4,False,False,True,True,True,2.0
4,ALUNO-5,False,False,False,True,True,1.0


In [17]:
# Ano de entrada do aluno
def encontrar_ano_de_entrada(row):
    if row['aluno_em_2016']:
        return 2016
    elif row['aluno_em_2017']:
        return 2017
    elif row['aluno_em_2018']:
        return 2018
    elif row['aluno_em_2019']:
        return 2019
    elif row['aluno_em_2020']:
        return 2020
    elif row['aluno_em_2021']:
        return 2021
    elif row['aluno_em_2021']:
        return 2021
    elif row['aluno_em_2022']:
        return 2022
    else:
        return None  # ou um valor padrão se você souber que sempre haverá um ano de entrada

# Aplicando a função em cada linha do DataFrame
df['ano_de_entrada'] = df.apply(encontrar_ano_de_entrada, axis=1)

df[['nome', 'aluno_em_2020', 'aluno_em_2021', 'aluno_em_2022', 'ano_de_entrada', 'anos_na_PM_em_2020']].head()

Unnamed: 0,nome,aluno_em_2020,aluno_em_2021,aluno_em_2022,ano_de_entrada,anos_na_PM_em_2020
0,ALUNO-1,True,True,False,2018,2.0
1,ALUNO-2,False,False,True,2022,
2,ALUNO-3,True,True,False,2018,2.0
3,ALUNO-4,True,False,True,2018,2.0
4,ALUNO-5,True,True,True,2019,1.0


In [18]:
# Ano de saída
def encontrar_ano_de_saida(row):
    if row['aluno_em_2022']:
        return 2022
    elif row['aluno_em_2021']:
        return 2021
    elif row['aluno_em_2020']:
        return 2020
    elif row['aluno_em_2019']:
        return 2019
    elif row['aluno_em_2018']:
        return 2018
    elif row['aluno_em_2017']:
        return 2017
    elif row['aluno_em_2016']:
        return 2016
    else:
        return None  # ou um valor padrão se necessário

# Aplicando a função em cada linha do DataFrame
df['ano_de_saida'] = df.apply(encontrar_ano_de_saida, axis=1)
# Se ano for 2022, o aluno ainda é ativo
df['ano_de_saida'] = np.where(df['ano_de_saida'] == 2022, np.nan, df['ano_de_saida'])
# Criando regra boleana se é ainda ou não aluno
df['aluno_no_momento'] = df['ano_de_saida'].isna()

df[['nome', 'aluno_em_2020', 'aluno_em_2021', 'aluno_em_2022', 'ano_de_entrada', 'ano_de_saida', 'aluno_no_momento']].head()

Unnamed: 0,nome,aluno_em_2020,aluno_em_2021,aluno_em_2022,ano_de_entrada,ano_de_saida,aluno_no_momento
0,ALUNO-1,True,True,False,2018,2021.0,False
1,ALUNO-2,False,False,True,2022,,True
2,ALUNO-3,True,True,False,2018,2021.0,False
3,ALUNO-4,True,False,True,2018,,True
4,ALUNO-5,True,True,True,2019,,True


In [19]:
# Soma das colunas booleanas para cada aluno para obter a quantidade de anos matriculados
df['anos_matriculados'] = df[['aluno_em_2020', 'aluno_em_2021', 'aluno_em_2022']].sum(axis=1)

df[['nome', 'aluno_em_2020', 'aluno_em_2021', 'aluno_em_2022', 'ano_de_entrada', 'ano_de_saida', 'aluno_no_momento', 'anos_matriculados']].head()

Unnamed: 0,nome,aluno_em_2020,aluno_em_2021,aluno_em_2022,ano_de_entrada,ano_de_saida,aluno_no_momento,anos_matriculados
0,ALUNO-1,True,True,False,2018,2021.0,False,2
1,ALUNO-2,False,False,True,2022,,True,1
2,ALUNO-3,True,True,False,2018,2021.0,False,2
3,ALUNO-4,True,False,True,2018,,True,2
4,ALUNO-5,True,True,True,2019,,True,3


## Índices dos alunos

In [20]:
# Formatar colunas de índices
colunas_selecionadas = [
                        #2020
                        'IAN_2020',
                        'IDA_2020',
                        'IEG_2020',
                        'IAA_2020',
                        'IPS_2020',
                        'IPP_2020',
                        'IPV_2020',
                        #2021
                        'IAN_2021',
                        'IDA_2021',
                        'IEG_2021',
                        'IAA_2021',
                        'IPS_2021',
                        'IPP_2021',
                        'IPV_2021',
                        #2022
                        'IAN_2022',
                        'IDA_2022',
                        'IEG_2022',
                        'IAA_2022',
                        'IPS_2022',
                        'IPP_2022',
                        'IPV_2022']

df[colunas_selecionadas] = df[colunas_selecionadas].astype(float)
df[colunas_selecionadas] = df[colunas_selecionadas].round(1)

In [21]:
# Configura o Pandas para exibir todas as colunas
pd.set_option('display.max_columns', None)

df[colunas_selecionadas].head()

Unnamed: 0,IAN_2020,IDA_2020,IEG_2020,IAA_2020,IPS_2020,IPP_2020,IPV_2020,IAN_2021,IDA_2021,IEG_2021,IAA_2021,IPS_2021,IPP_2021,IPV_2021,IAN_2022,IDA_2022,IEG_2022,IAA_2022,IPS_2022,IPP_2022,IPV_2022
0,10.0,7.0,8.7,8.5,7.5,5.9,7.8,5.0,8.8,6.3,7.5,6.9,7.7,8.1,,,,,,,
1,,,,,,,,,,,,,,,5.0,8.8,7.6,10.0,7.5,5.6,7.9
2,10.0,5.5,8.9,7.9,7.5,8.1,8.1,10.0,5.6,6.9,7.1,6.3,7.3,7.2,,,,,,,
3,5.0,0.0,4.1,8.0,6.9,7.2,7.8,,,,,,,,5.0,5.1,8.1,10.0,7.5,6.2,8.1
4,10.0,7.5,8.0,7.5,7.5,8.4,8.2,10.0,5.4,7.5,7.4,7.5,8.5,7.4,5.0,7.1,8.6,6.4,7.5,6.5,7.8


In [22]:
df[colunas_selecionadas].info()

<class 'pandas.core.frame.DataFrame'>
Index: 1348 entries, 0 to 1348
Data columns (total 21 columns):
 #   Column    Non-Null Count  Dtype  
---  ------    --------------  -----  
 0   IAN_2020  727 non-null    float64
 1   IDA_2020  727 non-null    float64
 2   IEG_2020  727 non-null    float64
 3   IAA_2020  727 non-null    float64
 4   IPS_2020  727 non-null    float64
 5   IPP_2020  727 non-null    float64
 6   IPV_2020  727 non-null    float64
 7   IAN_2021  686 non-null    float64
 8   IDA_2021  686 non-null    float64
 9   IEG_2021  686 non-null    float64
 10  IAA_2021  686 non-null    float64
 11  IPS_2021  686 non-null    float64
 12  IPP_2021  686 non-null    float64
 13  IPV_2021  686 non-null    float64
 14  IAN_2022  862 non-null    float64
 15  IDA_2022  862 non-null    float64
 16  IEG_2022  862 non-null    float64
 17  IAA_2022  862 non-null    float64
 18  IPS_2022  862 non-null    float64
 19  IPP_2022  862 non-null    float64
 20  IPV_2022  862 non-null    float64
d

In [23]:
df[colunas_selecionadas].isnull().sum()

IAN_2020    621
IDA_2020    621
IEG_2020    621
IAA_2020    621
IPS_2020    621
IPP_2020    621
IPV_2020    621
IAN_2021    662
IDA_2021    662
IEG_2021    662
IAA_2021    662
IPS_2021    662
IPP_2021    662
IPV_2021    662
IAN_2022    486
IDA_2022    486
IEG_2022    486
IAA_2022    486
IPS_2022    486
IPP_2022    486
IPV_2022    486
dtype: int64

In [24]:
df[colunas_selecionadas].describe().T.round(2)

Unnamed: 0,count,mean,std,min,25%,50%,75%,max
IAN_2020,727.0,7.43,2.56,2.5,5.0,5.0,10.0,10.0
IDA_2020,727.0,6.32,2.96,0.0,4.7,7.0,8.7,10.0
IEG_2020,727.0,7.68,2.38,0.0,6.6,8.5,9.5,10.0
IAA_2020,727.0,8.37,1.73,0.0,7.95,8.8,9.2,10.0
IPS_2020,727.0,6.74,1.37,2.5,5.6,7.5,7.5,10.0
IPP_2020,727.0,7.07,1.99,0.0,6.95,7.5,8.1,10.0
IPV_2020,727.0,7.24,1.77,0.0,6.9,7.6,8.1,10.0
IAN_2021,686.0,6.9,2.48,2.5,5.0,5.0,10.0,10.0
IDA_2021,686.0,5.43,2.14,0.0,4.1,5.85,6.9,9.5
IEG_2021,686.0,6.82,2.46,0.0,5.3,7.2,8.8,10.0


In [25]:
df_indicadores = df[colunas_selecionadas].describe().T.round(2)

In [26]:
df_indicadores['ano'] = df_indicadores.index.to_series().str.extract('(\d{4})').astype(int)
df_indicadores.head()

Unnamed: 0,count,mean,std,min,25%,50%,75%,max,ano
IAN_2020,727.0,7.43,2.56,2.5,5.0,5.0,10.0,10.0,2020
IDA_2020,727.0,6.32,2.96,0.0,4.7,7.0,8.7,10.0,2020
IEG_2020,727.0,7.68,2.38,0.0,6.6,8.5,9.5,10.0,2020
IAA_2020,727.0,8.37,1.73,0.0,7.95,8.8,9.2,10.0,2020
IPS_2020,727.0,6.74,1.37,2.5,5.6,7.5,7.5,10.0,2020


In [27]:
# Transforma o índice em uma coluna
df_indicadores = df_indicadores.reset_index()

# Agora o índice anterior está em uma coluna chamada 'index', você pode renomear essa coluna se desejar
df_indicadores = df_indicadores.rename(columns={'index': 'indicador'})

In [28]:
df_indicadores

Unnamed: 0,indicador,count,mean,std,min,25%,50%,75%,max,ano
0,IAN_2020,727.0,7.43,2.56,2.5,5.0,5.0,10.0,10.0,2020
1,IDA_2020,727.0,6.32,2.96,0.0,4.7,7.0,8.7,10.0,2020
2,IEG_2020,727.0,7.68,2.38,0.0,6.6,8.5,9.5,10.0,2020
3,IAA_2020,727.0,8.37,1.73,0.0,7.95,8.8,9.2,10.0,2020
4,IPS_2020,727.0,6.74,1.37,2.5,5.6,7.5,7.5,10.0,2020
5,IPP_2020,727.0,7.07,1.99,0.0,6.95,7.5,8.1,10.0,2020
6,IPV_2020,727.0,7.24,1.77,0.0,6.9,7.6,8.1,10.0,2020
7,IAN_2021,686.0,6.9,2.48,2.5,5.0,5.0,10.0,10.0,2021
8,IDA_2021,686.0,5.43,2.14,0.0,4.1,5.85,6.9,9.5,2021
9,IEG_2021,686.0,6.82,2.46,0.0,5.3,7.2,8.8,10.0,2021


In [29]:
df_indicadores.to_csv('df_indicadores.csv', index=False)

## Base final

In [30]:
df.info()

<class 'pandas.core.frame.DataFrame'>
Index: 1348 entries, 0 to 1348
Data columns (total 81 columns):
 #   Column                         Non-Null Count  Dtype  
---  ------                         --------------  -----  
 0   INSTITUICAO_ENSINO_ALUNO_2020  727 non-null    object 
 1   nome                           1348 non-null   object 
 2   IDADE_ALUNO_2020               727 non-null    object 
 3   anos_na_PM_em_2020             727 non-null    float64
 4   fase_e_turma_em_2020           727 non-null    object 
 5   PONTO_VIRADA_2020              701 non-null    object 
 6   INDE_2020                      727 non-null    object 
 7   INDE_CONCEITO_2020             727 non-null    object 
 8   PEDRA_2020                     727 non-null    object 
 9   DESTAQUE_IEG_2020              727 non-null    object 
 10  DESTAQUE_IDA_2020              727 non-null    object 
 11  DESTAQUE_IPV_2020              703 non-null    object 
 12  IAA_2020                       727 non-null    float6

In [31]:
# Colunas qu serão utiliados para análise


colunas_selecionadas = ['nome',
                        'aluno_no_momento',
                        'anos_matriculados',
                        'ano_de_entrada',
                        'ano_de_saida',
                        'aluno_em_2016',
                        'aluno_em_2017',
                        'aluno_em_2018',
                        'aluno_em_2019',
# Maior detalhamento após 2020
                        'aluno_em_2020',
                        'fase_em_2020',

#                        'IAN_2020',
#                        'IDA_2020',
#                        'IEG_2020',
#                        'IAA_2020',
#                        'IPS_2020',
#                        'IPP_2020',
#                        'IPV_2020',

                        'aluno_em_2021',
                        'fase_em_2021',
                        'aluno_em_2022',
                        'fase_em_2022'
                        #'',
                        ]

df_clean = df[colunas_selecionadas]

In [32]:
df_clean.head()

Unnamed: 0,nome,aluno_no_momento,anos_matriculados,ano_de_entrada,ano_de_saida,aluno_em_2016,aluno_em_2017,aluno_em_2018,aluno_em_2019,aluno_em_2020,fase_em_2020,aluno_em_2021,fase_em_2021,aluno_em_2022,fase_em_2022
0,ALUNO-1,False,2,2018,2021.0,False,False,True,True,True,2.0,True,2.0,False,
1,ALUNO-2,True,1,2022,,False,False,False,False,False,,False,,True,0.0
2,ALUNO-3,False,2,2018,2021.0,False,False,True,True,True,3.0,True,3.0,False,
3,ALUNO-4,True,2,2018,,False,False,True,True,True,1.0,False,,True,2.0
4,ALUNO-5,True,3,2019,,False,False,False,True,True,2.0,True,2.0,True,2.0


In [33]:
df_clean.info()

<class 'pandas.core.frame.DataFrame'>
Index: 1348 entries, 0 to 1348
Data columns (total 15 columns):
 #   Column             Non-Null Count  Dtype  
---  ------             --------------  -----  
 0   nome               1348 non-null   object 
 1   aluno_no_momento   1348 non-null   bool   
 2   anos_matriculados  1348 non-null   int64  
 3   ano_de_entrada     1348 non-null   int64  
 4   ano_de_saida       486 non-null    float64
 5   aluno_em_2016      1348 non-null   bool   
 6   aluno_em_2017      1348 non-null   bool   
 7   aluno_em_2018      1348 non-null   bool   
 8   aluno_em_2019      1348 non-null   bool   
 9   aluno_em_2020      1348 non-null   bool   
 10  fase_em_2020       727 non-null    float64
 11  aluno_em_2021      1348 non-null   bool   
 12  fase_em_2021       686 non-null    float64
 13  aluno_em_2022      1348 non-null   bool   
 14  fase_em_2022       862 non-null    float64
dtypes: bool(8), float64(4), int64(2), object(1)
memory usage: 94.8+ KB


In [34]:
df_clean.to_csv('df_clean.csv', index=False)