# **Aula 01: Limpeza de Dados**

In [47]:
# Importações
import pandas as pd
import numpy as np

# Leitura e concatenação dos arquivos
arquivos = ['turmas-2023.1.csv', 'turmas-2023.2.csv', 'turmas-2024-1.csv', 'turmas-2024-2.csv']
lista_dfs = [pd.read_csv(arquivo, sep=';', on_bad_lines='skip') for arquivo in arquivos]
df = pd.concat(lista_dfs, ignore_index=True)

# ***Visão Geral dos Dados***

In [48]:
# Exibe as 5 primeiras linhas da tabela
print("Visualização da tabela\n")
print(display(df.head()))

# Inspeção inicial
print("Informações da tabela\n")
print(df.info())

# Informações estatísticas do dataset
display(df.describe())

Visualização da tabela



Unnamed: 0,id_turma,codigo_turma,siape,matricula_docente_externo,observacao,id_componente_curricular,ch_dedicada_periodo,nivel_ensino,campus_turma,local,...,capacidade_aluno,tipo,distancia,data_consolidacao,agrupadora,id_turma_agrupadora,qtd_aulas_lancadas,situacao_turma,convenio,modalidade_participantes
0,57711864,1,1174208.0,,,69258,15,TÉCNICO,,Sala 03,...,1.0,REGULAR,False,2023/07/21 10:59:04.285000000,False,,0.0,CONSOLIDADA,,Presencial
1,57711865,2,1174208.0,,,69258,15,TÉCNICO,,Sala 03,...,1.0,REGULAR,False,2023/07/21 10:53:20.671000000,False,,13.0,CONSOLIDADA,,Presencial
2,57711866,3,1174208.0,,,69258,15,TÉCNICO,,Sala E,...,1.0,REGULAR,False,2023/07/21 10:57:36.425000000,False,,11.0,CONSOLIDADA,,Presencial
3,57711867,1,1812476.0,,,69289,15,TÉCNICO,,Sala 13,...,1.0,REGULAR,False,2023/07/10 09:14:34.285000000,False,,18.0,CONSOLIDADA,,Presencial
4,57711868,2,1812476.0,,,69289,15,TÉCNICO,,Sala 13,...,1.0,REGULAR,False,2023/07/10 09:13:43.535000000,False,,18.0,CONSOLIDADA,,Presencial


None
Informações da tabela

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 60116 entries, 0 to 60115
Data columns (total 26 columns):
 #   Column                     Non-Null Count  Dtype  
---  ------                     --------------  -----  
 0   id_turma                   60116 non-null  int64  
 1   codigo_turma               60116 non-null  object 
 2   siape                      58785 non-null  float64
 3   matricula_docente_externo  1330 non-null   float64
 4   observacao                 1727 non-null   object 
 5   id_componente_curricular   60116 non-null  int64  
 6   ch_dedicada_periodo        60116 non-null  int64  
 7   nivel_ensino               60116 non-null  object 
 8   campus_turma               47449 non-null  object 
 9   local                      59773 non-null  object 
 10  ano                        60116 non-null  int64  
 11  periodo                    60116 non-null  int64  
 12  data_inicio                60116 non-null  object 
 13  data_fim          

Unnamed: 0,id_turma,siape,matricula_docente_externo,id_componente_curricular,ch_dedicada_periodo,ano,periodo,total_solicitacoes,capacidade_aluno,id_turma_agrupadora,qtd_aulas_lancadas,convenio
count,60116.0,58785.0,1330.0,60116.0,60116.0,60116.0,60116.0,54283.0,59890.0,2376.0,56680.0,0.0
mean,57731110.0,2221637.0,50359.935338,170534.9,29.507718,2023.497139,1.495226,17.822246,24.342712,57729540.0,91.466937,
std,11122.57,1137572.0,34927.064703,453959.1,23.990604,0.499996,0.499981,22.652397,28.594672,11492.84,94.803789,
min,57711860.0,12746.0,310.0,18651.0,0.0,2023.0,1.0,0.0,1.0,57712210.0,0.0,
25%,57721830.0,1326629.0,7815.25,56851.0,10.0,2023.0,1.0,4.0,6.0,57717810.0,36.0,
50%,57731170.0,2075402.0,72071.0,63340.0,24.0,2023.0,1.0,9.0,17.0,57728610.0,68.0,
75%,57741060.0,3050287.0,81986.0,71593.0,60.0,2024.0,2.0,26.0,40.0,57738320.0,80.0,
max,57760300.0,9350807.0,83636.0,2056212.0,270.0,2024.0,2.0,663.0,827.0,57758100.0,436.0,


# ***Limpeza de Dados***

In [49]:
# Apagar a coluna de convênio que está vazia
df = df.drop(columns=['convenio'])

In [50]:
# Contagem de linhas duplicadas
display(df.duplicated().value_counts())

Unnamed: 0,count
False,59148
True,968


In [51]:
# Apagando linhas duplicadas
df.drop_duplicates(inplace=True)

In [52]:
# Verificando se toda a coluna de "observacao" é NaN
if df['observacao'].isna().all():
    print("A coluna está COMPLETAMENTE vazia (todos os valores são NaN).")
else:
    print("A coluna tem pelo menos algum valor preenchido.")

# Verificando a porcentagem de valores NaN
porcentagem_nan = df['observacao'].isna().mean() * 100
print(f"A coluna tem {porcentagem_nan:.2f}% de valores NaN.")

# Dropando a coluna por excesso de valores NaN
df.drop(columns=['observacao'], inplace=True)

A coluna tem pelo menos algum valor preenchido.
A coluna tem 97.08% de valores NaN.


In [53]:
# Fazendo o mesmo para colunas que apresentam muitos valores NaN
if df['id_turma_agrupadora'].isna().all():
    print("A coluna está COMPLETAMENTE vazia (todos os valores são NaN).")
else:
    print("A coluna tem pelo menos algum valor preenchido.")

porcentagem_nan = df['id_turma_agrupadora'].isna().mean() * 100
print(f"A coluna tem {porcentagem_nan:.2f}% de valores NaN.")

df.drop(columns=['id_turma_agrupadora'], inplace=True)

A coluna tem pelo menos algum valor preenchido.
A coluna tem 95.98% de valores NaN.


In [54]:
# Verifica se todos os valores são False na coluna "agrupadora"
if (df['agrupadora'] == False).all():
    print("Todos os valores são False.")
else:
    print("Há valores True ou outros na coluna.")

# Dropando a coluna
df.drop(columns=["agrupadora"], inplace=True)

Todos os valores são False.


In [55]:
# Verificando todas as colunas para acelerar o processo
porcentagem_nan_por_coluna = df.isna().mean() * 100
print(porcentagem_nan_por_coluna.sort_values(ascending=False))

# "matricula_docente_externo" tem 97,75% de valores NaN
df.drop(columns=["matricula_docente_externo"], inplace=True)

matricula_docente_externo    97.754785
campus_turma                 21.199364
total_solicitacoes            9.696017
qtd_aulas_lancadas            5.761818
data_consolidacao             5.494691
descricao_horario             2.897816
siape                         2.246906
local                         0.579901
capacidade_aluno              0.382092
codigo_turma                  0.000000
ch_dedicada_periodo           0.000000
id_componente_curricular      0.000000
id_turma                      0.000000
nivel_ensino                  0.000000
data_fim                      0.000000
data_inicio                   0.000000
periodo                       0.000000
ano                           0.000000
distancia                     0.000000
tipo                          0.000000
situacao_turma                0.000000
modalidade_participantes      0.000000
dtype: float64


In [56]:
# Converte texto para data
df['data_inicio'] = pd.to_datetime(df['data_inicio'])
df['data_fim'] = pd.to_datetime(df['data_fim'])
df['data_consolidacao'] = pd.to_datetime(df['data_consolidacao'])

# Verificar mudança de data
print(df.info())

<class 'pandas.core.frame.DataFrame'>
Index: 59148 entries, 0 to 60115
Data columns (total 21 columns):
 #   Column                    Non-Null Count  Dtype         
---  ------                    --------------  -----         
 0   id_turma                  59148 non-null  int64         
 1   codigo_turma              59148 non-null  object        
 2   siape                     57819 non-null  float64       
 3   id_componente_curricular  59148 non-null  int64         
 4   ch_dedicada_periodo       59148 non-null  int64         
 5   nivel_ensino              59148 non-null  object        
 6   campus_turma              46609 non-null  object        
 7   local                     58805 non-null  object        
 8   ano                       59148 non-null  int64         
 9   periodo                   59148 non-null  int64         
 10  data_inicio               59148 non-null  datetime64[ns]
 11  data_fim                  59148 non-null  datetime64[ns]
 12  descricao_horario      

In [57]:
# Padronizações com .lower() e .strip()
df['nivel_ensino'] = df['nivel_ensino'].str.lower().str.strip()
df['campus_turma'] = df['campus_turma'].str.lower().str.strip()
df['situacao_turma'] = df['situacao_turma'].str.lower().str.strip()
df['modalidade_participantes'] = df['modalidade_participantes'].str.lower().str.strip()

# Verificação de mudança de padronização
display(df["nivel_ensino"])
display(df["nivel_ensino"])
display(df["situacao_turma"])
display(df["modalidade_participantes"])

Unnamed: 0,nivel_ensino
0,técnico
1,técnico
2,técnico
3,técnico
4,técnico
...,...
60111,stricto sensu
60112,técnico
60113,lato sensu
60114,lato sensu


Unnamed: 0,nivel_ensino
0,técnico
1,técnico
2,técnico
3,técnico
4,técnico
...,...
60111,stricto sensu
60112,técnico
60113,lato sensu
60114,lato sensu


Unnamed: 0,situacao_turma
0,consolidada
1,consolidada
2,consolidada
3,consolidada
4,consolidada
...,...
60111,excluída
60112,consolidada
60113,aberta
60114,aberta


Unnamed: 0,modalidade_participantes
0,presencial
1,presencial
2,presencial
3,presencial
4,presencial
...,...
60111,presencial
60112,presencial
60113,presencial
60114,presencial


In [58]:
# Verificando as colunas ainda existentes
df.info()

<class 'pandas.core.frame.DataFrame'>
Index: 59148 entries, 0 to 60115
Data columns (total 21 columns):
 #   Column                    Non-Null Count  Dtype         
---  ------                    --------------  -----         
 0   id_turma                  59148 non-null  int64         
 1   codigo_turma              59148 non-null  object        
 2   siape                     57819 non-null  float64       
 3   id_componente_curricular  59148 non-null  int64         
 4   ch_dedicada_periodo       59148 non-null  int64         
 5   nivel_ensino              59148 non-null  object        
 6   campus_turma              46609 non-null  object        
 7   local                     58805 non-null  object        
 8   ano                       59148 non-null  int64         
 9   periodo                   59148 non-null  int64         
 10  data_inicio               59148 non-null  datetime64[ns]
 11  data_fim                  59148 non-null  datetime64[ns]
 12  descricao_horario      

# **Aula 02: Análise Exploratória de Dados**