# Tratamento e limpeza de dados

## Introdução e preliminares

Esse arquivo se destina ao tratamento do _dataset_ original, com o objetivo de facilitar as análises propostas pelo grupo. Algumas bibliotecas serão utilizadas ao longo de todo o arquivo; elas são incluídas aqui. Entre elas, destaca-se a biblioteca "Funcoes", elaborada pelo grupo, que contém funções de utilidade geral.

In [56]:
import pandas as pd
import numpy as np

import Funcoes
from importlib import reload
reload(Funcoes) # carrega eventuais mudanças na biblioteca

<module 'Funcoes' from 'c:\\Users\\guizo\\OneDrive\\Documentos\\GitHub\\5°Período\\TP_Ciencia_de_dados\\src\\Funcoes.py'>

O _dataset_ original é lido em um dataframe aqui. Porém, a fim de preservar o acesso aos dados originais, todo o trabalho de limpeza será feito em uma cópia destinada para esse fim.

In [57]:
dfOriginal = pd.read_csv("../Datasets/DadosUFV2022.csv")
dfEmLimpeza = dfOriginal.copy(deep=True)

## Significado e valores de cada coluna

Antes de tratar os dados, é necessário compreender o significado de cada uma das colunas do dataset original; especialmente aquelas que representam algum tipo de categoria ou classificação. Seguem breves explicações para cada uma das colunas, em ordem:
  
* **Ano_Nascimento**: ano de nascimento do aluno;
* **Sexo**: sexo com que o aluno se identifica;
* **Campus**: código do _campus_ em que o aluno estudou;
* **Curso_Identificador**: número do curso do aluno;
* **Curso:** nome do curso por extenso, geralmente prefixado pelo código do _campus_;
* **UF_Nascimento:** sigla de duas letras da unidade federativa em que o aluno nasceu;
* **Municipio_Nascimento:** município em que o aluno nasceu;
* **Admissao:** ano e semestre de admissão do aluno na faculdade;
* **Saida:** ano e semestre de saída do aluno da faculdade;
* **Codigo_Situacao_Aluno:** código de uma letra que indica a situação do aluno na faculdade;
* **Situacao_Aluno:** situação específica do aluno na faculdade, por extenso;
* **Situacao_Aluno_Agrupada:** situação geral do aluno na faculdade (apenas quatro possibilidades), por extenso;
* **Modalidade_Inscrita:** código da modalidade de cota de ingresso do aluno;
* **ENEM:** nota do aluno no Exame Nacional do Ensino Médio;
* **Num_Reprovacoes:** número de reprovações em disciplinas na faculdade;
* **Raca:** identidade racial com que o aluno se identifica;
* **CRA:** coeficiente de rendimento acumulado do aluno.


In [58]:
dfEmLimpeza.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 74026 entries, 0 to 74025
Data columns (total 18 columns):
 #   Column                   Non-Null Count  Dtype  
---  ------                   --------------  -----  
 0   Identificador            74026 non-null  int64  
 1   Ano_Nascimento           73949 non-null  float64
 2   Sexo                     73986 non-null  object 
 3   Campus                   74026 non-null  object 
 4   Curso_Identificador      74026 non-null  int64  
 5   Curso                    74026 non-null  object 
 6   UF_Nascimento            73971 non-null  object 
 7   Municipio_Nascimento     73990 non-null  object 
 8   Admissao                 74026 non-null  object 
 9   Saida                    74026 non-null  object 
 10  Codigo_Situacao_Aluno    74026 non-null  object 
 11  Situacao_Aluno           74026 non-null  object 
 12  Situacao_Aluno_Agrupada  74026 non-null  object 
 13  Modalidade_Inscrita      68753 non-null  float64
 14  ENEM                  

### Sexo

Os valores possíveis para a coluna Sexo são:

- **F**: alunos que se consideram do sexo feminino;
- **M**: alunos que se consideram do sexo masculino;
- **nan**: outras identificações ou informação ausente.

In [59]:
dfEmLimpeza["Sexo"].value_counts()

Sexo
F    37032
M    36954
Name: count, dtype: int64

### Campus

Os códigos de _campus_ existentes são:

- **CAV**: Viçosa;
- **CRP**: Rio Paranaíba;
- **CAF**: Florestal.

In [60]:
dfEmLimpeza["Campus"].value_counts()

Campus
CAV    60339
CRP     8413
CAF     5274
Name: count, dtype: int64

### Código de Situação do Aluno

Cada letra na coluna de código de situação do aluno possui um significado específico, que é explicitado abaixo.

| Símbolo    | Significado |
| -------- | ------- |
| A | Abandono |
| B | Concluiu, mas não colou grau |
| C | Conclusão |
| D | Desligamento |
| F | Falecimento |
| G | Afastamento/intercâmbio |
| H | Habilitação |
| I | Concluiu, mas o relatório não foi analisado |
| J | Matrícula temporariamente suspensa |
| K | Trancamento |
| M | Mudança de curso |
| N | Normal |
| Q | Matrícula condicional (desligamento reconsiderado) |
| R | Afastamento (desligamento reconsiderado) |
| T | Transferência |
| S | Anulamento de matrícula |
| W | Afastamento especial |
| X | Exclusão |
| Y | Afastamento |
| Z | Trancamento por motivo de saúde |

In [61]:
dfEmLimpeza["Codigo_Situacao_Aluno"].value_counts()

Codigo_Situacao_Aluno
C    31359
A    16695
N    13436
D     6354
M     5239
T      364
K      323
Z       52
G       49
W       45
F       41
B       20
X       18
S        8
I        6
Y        6
Q        4
J        3
R        2
H        2
Name: count, dtype: int64

### Modalidade de inscrição

Cada combinação distinta de cotas é representada por um número inteiro distinto. As explicações para cada um deles estão dispostas na tabela abaixo.

| Código numérico    | Significado |
| ---------- | ----------|
| 0 | Não possui informação sobre as cotas |
| 1 | Candidatos com deficiência autodeclarados pretos, pardos ou indígenas, que tenham renda familiar bruta per capita igual ou inferior a 1,5 salário mínimo e que tenham cursado integralmente o ensino médio em escolas públicas (Lei nº 12.711/2012) |
| 2 | Candidatos autodeclarados pretos, pardos ou indígenas, com renda familiar bruta per capita igual ou inferior a 1,5 salário mínimo e que tenham cursado integralmente o ensino médio em escolas públicas (Lei nº 12.711/2012).|
| 3 |  Candidatos com deficiência que tenham renda familiar bruta per capita igual ou inferior a 1,5 salário mínimo e que tenham cursado integralmente o ensino médio em escolas públicas (Lei nº 12.711/2012).|
| 4 | Candidatos com renda familiar bruta per capita igual ou inferior a 1,5 salário mínimo que tenham cursado integralmente o ensino médio em escolas públicas (Lei nº 12.711/2012). |
| 5 | Candidatos com deficiência autodeclarados pretos, pardos ou indígenas que, independentemente da renda (art. 14, II, Portaria Normativa nº 18/2012), tenham cursado integralmente o ensino médio em escolas públicas (Lei nº 12.711/2012). |
| 6 | Candidatos autodeclarados pretos, pardos ou indígenas que, independentemente da renda (art. 14, II, Portaria Normativa nº 18/2012), tenham cursado integralmente o ensino médio em escolas públicas (Lei nº 12.711/2012).|
| 7 | Candidatos com deficiência que, independentemente da renda (art. 14, II, Portaria Normativa nº 18/2012), tenham cursado integralmente o ensino médio em escolas públicas (Lei nº 12.711/2012).|
| 8 | Candidatos que, independentemente da renda (art. 14, II, Portaria Normativa nº 18/2012), tenham cursado integralmente o ensino médio em escolas públicas (Lei nº 12.711/2012).|
| 9 |  Ampla Concorrência |

In [62]:
dfEmLimpeza["Modalidade_Inscrita"].value_counts()

Modalidade_Inscrita
0.0    32901
9.0    19495
1.0     4884
5.0     4629
3.0     3348
7.0     3281
8.0       86
4.0       54
6.0       45
2.0       30
Name: count, dtype: int64

## Conversões de tipo de colunas

Algumas colunas são lidas do CSV com tipos inadequados para a limpeza. Portanto, antes de realizar o tratamento propriamente dito, faz-se necessário converter o tipo de algumas colunas para aquilo que se espera.

### Notas do ENEM

In [63]:
dfEmLimpeza['ENEM'] = dfEmLimpeza['ENEM'].str.replace(',', '.', regex=False)
dfEmLimpeza['ENEM'] = dfEmLimpeza['ENEM'].astype('float64')
dfEmLimpeza['ENEM'].sort_values()

73002    253.24
65759    273.94
69565    276.62
72140    300.14
45139    307.18
          ...  
74021       NaN
74022       NaN
74023       NaN
74024       NaN
74025       NaN
Name: ENEM, Length: 74026, dtype: float64

### Coeficiente de rendimento acumulado (CRA)

In [64]:
dfEmLimpeza['CRA'] = dfEmLimpeza['CRA'].astype(str).str.replace(',', '.', regex=False)
dfEmLimpeza['CRA'] = dfEmLimpeza['CRA'].astype('float64')
dfEmLimpeza['CRA']

0         0.0
1        71.2
2        78.5
3        56.0
4        76.9
         ... 
74021     0.0
74022     NaN
74023     NaN
74024     NaN
74025     0.0
Name: CRA, Length: 74026, dtype: float64

### Modalidade de Inscrição

In [65]:
dfEmLimpeza['Modalidade_Inscrita'] = dfEmLimpeza['Modalidade_Inscrita'].astype(str).replace(',', '.', regex=False)
dfEmLimpeza['Modalidade_Inscrita'] = dfEmLimpeza['Modalidade_Inscrita'].astype('float64')
dfEmLimpeza["Modalidade_Inscrita"].value_counts()

Modalidade_Inscrita
0.0    32901
9.0    19495
1.0     4884
5.0     4629
3.0     3348
7.0     3281
8.0       86
4.0       54
6.0       45
2.0       30
Name: count, dtype: int64

### Demais colunas

In [66]:
def ColocaTipoStr(df, colunas):
    for i in colunas:
        df[i] = df[i].astype("string")

colunas = [ 'Sexo', 'Campus', 'Curso', 'UF_Nascimento', 'Municipio_Nascimento', 'Admissao', 
           'Saida', 'Codigo_Situacao_Aluno', 'Situacao_Aluno', 'Situacao_Aluno_Agrupada', 'Raca' ]
ColocaTipoStr(dfEmLimpeza, colunas)
dfEmLimpeza.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 74026 entries, 0 to 74025
Data columns (total 18 columns):
 #   Column                   Non-Null Count  Dtype  
---  ------                   --------------  -----  
 0   Identificador            74026 non-null  int64  
 1   Ano_Nascimento           73949 non-null  float64
 2   Sexo                     73986 non-null  string 
 3   Campus                   74026 non-null  string 
 4   Curso_Identificador      74026 non-null  int64  
 5   Curso                    74026 non-null  string 
 6   UF_Nascimento            73971 non-null  string 
 7   Municipio_Nascimento     73990 non-null  string 
 8   Admissao                 74026 non-null  string 
 9   Saida                    74026 non-null  string 
 10  Codigo_Situacao_Aluno    74026 non-null  string 
 11  Situacao_Aluno           74026 non-null  string 
 12  Situacao_Aluno_Agrupada  74026 non-null  string 
 13  Modalidade_Inscrita      68753 non-null  float64
 14  ENEM                  

## Tratamento dos dados

### Nomes dos cursos

Alguns cursos apareciam com mais de um nome distinto; esses foram tratados para passarem a ser representados por um único nome. Outra modificação feita foi a remoção do identificador do _campus_ (redundante devido à presença da coluna _campus_) e outros qualificadores irrelevantes para as análises do grupo, como o turno (integral, noturno ou diurno) e a modalidade (licenciatura ou bacharelado). Por fim, todas as letras foram capitalizadas e os acentos foram removidos, para eliminar qualquer fonte de ambiguidade decorrente da capitalização ou acentuação.

In [67]:

# Retira o qualificador de campus
dfEmLimpeza['Curso'] = dfEmLimpeza['Curso'].str.replace('CAV - ', '').str.strip()
dfEmLimpeza['Curso'] = dfEmLimpeza['Curso'].str.replace('CAF - ', '').str.strip()
dfEmLimpeza['Curso'] = dfEmLimpeza['Curso'].str.replace('CRP - ', '').str.strip()

# Retira o qualificador de turno
dfEmLimpeza['Curso'] = dfEmLimpeza["Curso"].str.replace(" - Noturno", '')
dfEmLimpeza['Curso'] = dfEmLimpeza["Curso"].str.replace(" - Integral", '')

# Retira o qualificador de modalidade (licenciatura e bacharelado)
dfEmLimpeza['Curso'] = dfEmLimpeza["Curso"].str.replace("Licenciatura em ", '')
dfEmLimpeza['Curso'] = dfEmLimpeza["Curso"].str.replace("Bacharelado em ", '')
dfEmLimpeza['Curso'] = dfEmLimpeza["Curso"].str.replace(" - Licenciatura", '')

# Casos específicos de cursos duplicados
dfEmLimpeza['Curso'] = dfEmLimpeza["Curso"].str.replace("LICENCIATURA EM FISICA", 'Física')
dfEmLimpeza['Curso'] = dfEmLimpeza["Curso"].str.replace("Biologia", 'Ciências Biológicas')
dfEmLimpeza['Curso'] = dfEmLimpeza["Curso"].str.replace("LETRAS", 'Letras')

# Capitalização e remoção de acentos
Funcoes.removerAcentos_PorMaiusculas(dfEmLimpeza, 'Curso')
dfEmLimpeza['Curso'].value_counts()

Curso
AGRONOMIA                                                       7370
ADMINISTRACAO                                                   4484
CIENCIAS BIOLOGICAS                                             3247
QUIMICA                                                         2920
EDUCACAO FISICA                                                 2792
ENGENHARIA CIVIL                                                2297
ENGENHARIA DE ALIMENTOS                                         2252
MATEMATICA                                                      2039
ZOOTECNIA                                                       1974
CIENCIAS CONTABEIS                                              1861
FISICA                                                          1831
ENGENHARIA DE PRODUCAO                                          1778
NUTRICAO                                                        1762
PEDAGOGIA                                                       1717
ENGENHARIA FLORESTAL        

### Criação da coluna de Área de Conhecimento

Percebeu-se que a quantidade de valores distintos de curso seria um complicador nas análises baseadas nesse dado. Portanto, para permitir que as análises trabalhem com menos valores distintos, de modo a produzir resultados mais claros, optou-se pela criação de uma nova coluna chamada Área de Conhecimento. Essa coluna agrupa os cursos por área, simplificando as análises.

Isso foi feito criando um CSV separado com a associação entre cursos e áreas.

In [68]:
dfAreasDeConhecimento = pd.read_csv('../Datasets/AreasECursos.csv')
Funcoes.removerAcentos_PorMaiusculas(dfAreasDeConhecimento, 'Area')
Funcoes.removerAcentos_PorMaiusculas(dfAreasDeConhecimento, 'Curso')
dfAreasDeConhecimento

Unnamed: 0,Area,Curso
0,CIENCIAS EXATAS E DA TERRA,MATEMATICA
1,CIENCIAS EXATAS E DA TERRA,ESTATISTICA
2,CIENCIAS EXATAS E DA TERRA,CIENCIA DA COMPUTACAO
3,CIENCIAS EXATAS E DA TERRA,ASTRONOMIA
4,CIENCIAS EXATAS E DA TERRA,FISICA
...,...,...
96,LINGUISTICA LETRAS E ARTES,CINEMA
97,LINGUISTICA LETRAS E ARTES,FOTOGRAFIA
98,LINGUISTICA LETRAS E ARTES,SECRETARIADO EXECUTIVO TRILINGUE PORTUGUES FRA...
99,EDUCACAO,PEDAGOGIA


Após alguma filtragem extra na coluna de cursos do _dataset_, foi possível combiná-lo com a tabela disposta acima para criar a nova coluna desejada. Essa combinação foi feita por meio da função `merge`, análoga ao operador `join` da linguagem SQL.

In [69]:
# Casos especiais que requerem filtragem extra da coluna de cursos
dfEmLimpeza[~dfEmLimpeza['Curso'].isin(dfAreasDeConhecimento['Curso'])]['Curso'].unique()

array(['SECRETARIADO EXECUTIVO TRILINGUE, PORTUGUES, FRANCES, INGLES'],
      dtype=object)

In [70]:
# Filtrando para viabilizar a classificação desses casos especiais
dfEmLimpeza['Curso'] = dfEmLimpeza['Curso'].str.replace(',','')
dfEmLimpeza[~dfEmLimpeza['Curso'].isin(dfAreasDeConhecimento['Curso'])]['Curso'].unique()

# Operação análoga ao LEFT JOIN. Preservando os dados do dataframe de limpeza e
# junta com os dados do dataframe de curso por area
dfEmLimpeza = dfEmLimpeza.merge(dfAreasDeConhecimento, on='Curso', how='left')
dfEmLimpeza
# dfEmLimpeza[['Curso', 'Area']]

Unnamed: 0,Identificador,Ano_Nascimento,Sexo,Campus,Curso_Identificador,Curso,UF_Nascimento,Municipio_Nascimento,Admissao,Saida,Codigo_Situacao_Aluno,Situacao_Aluno,Situacao_Aluno_Agrupada,Modalidade_Inscrita,ENEM,Num_Reprovacoes,Raca,CRA,Area
0,29271,1982.0,M,CAV,1101,ADMINISTRACAO,RJ,VOLTA REDONDA,2000/1,2000/1,A,Abandono ...,Evasão,0.0,,0,Informação não disponível,0.0,CIENCIAS SOCIAIS APLICADAS
1,29272,1982.0,M,CAV,1101,ADMINISTRACAO,DF,Brasília,2000/1,2002/1,A,Abandono ...,Evasão,0.0,,3,Informação não disponível,71.2,CIENCIAS SOCIAIS APLICADAS
2,34462,1979.0,F,CAV,1101,ADMINISTRACAO,MG,Viçosa,2000/1,2005/1,C,Conclusão ...,Conclusão,0.0,,3,Informação não disponível,78.5,CIENCIAS SOCIAIS APLICADAS
3,34468,1979.0,F,CAV,1101,ADMINISTRACAO,MG,Belo Horizonte,2000/1,2006/1,C,Conclusão ...,Conclusão,0.0,,20,Pardo(a),56.0,CIENCIAS SOCIAIS APLICADAS
4,34470,1980.0,F,CAV,1101,ADMINISTRACAO,SP,São Paulo,2000/1,2004/2,C,Conclusão ...,Conclusão,0.0,,1,Informação não disponível,76.9,CIENCIAS SOCIAIS APLICADAS
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
74021,172112,1996.0,,CAV,1153,EDUCACAO FISICA,,,2023/1,0,N,Normal ...,Matriculado,0.0,,0,Informação não disponível,0.0,CIENCIAS DA SAUDE
74022,172110,1995.0,,CAV,1153,EDUCACAO FISICA,,,2023/1,0,N,Normal ...,Matriculado,0.0,,0,Informação não disponível,,CIENCIAS DA SAUDE
74023,172113,1996.0,,CAV,1153,EDUCACAO FISICA,,,2023/1,0,N,Normal ...,Matriculado,0.0,,0,Informação não disponível,,CIENCIAS DA SAUDE
74024,172114,1998.0,,CAV,1153,EDUCACAO FISICA,,,2023/1,0,N,Normal ...,Matriculado,0.0,,0,Informação não disponível,,CIENCIAS DA SAUDE


### Municípios de nascimento

A coluna dos munícipios de nascimento é uma das colunas mais poluídas no _dataset_ original. Por isso, foram aplicadas várias técnicas para a limpeza. Utilizou-se um CSV separado com os nomes corretos de todas as cidades brasileiras, obtido [nesse repositório](https://github.com/magnobiet/states-cities-brazil/blob/main/CSV/cities.csv). Todos os nomes de municípios no _dataset_ foram capitalizados e tiveram os acentos removidos. Casos particulares de ambiguidade foram corrigidos especificamente. Por fim, os nomes no _dataset_ foram comparados com aqueles no CSV supracitado, e os que não se encaixavam foram substituídos por 'OUTROS'

In [71]:
# CSV com os nomes de todas as cidades brasileiras. Os nomes foram capitalizados e tiveram seus
# acentos removidos, por compatibilidade com o nosso tratamento
dfCidadesOriginal = pd.read_csv('../Datasets/cities.csv')
Funcoes.removerAcentos_PorMaiusculas(dfCidadesOriginal, 'name')
cidades = list(dfCidadesOriginal['name']) 
cidades.append('NAN')
cidades = np.array(cidades)
list(cidades)

['ALTA FLORESTA D`OESTE',
 'ARIQUEMES',
 'CABIXI',
 'CACOAL',
 'CEREJEIRAS',
 'COLORADO DO OESTE',
 'CORUMBIARA',
 'COSTA MARQUES',
 'ESPIGAO D`OESTE',
 'GUAJARA-MIRIM',
 'JARU',
 'JI-PARANA',
 'MACHADINHO D`OESTE',
 'NOVA BRASILANDIA D`OESTE',
 'OURO PRETO DO OESTE',
 'PIMENTA BUENO',
 'PORTO VELHO',
 'PRESIDENTE MEDICI',
 'RIO CRESPO',
 'ROLIM DE MOURA',
 'SANTA LUZIA D`OESTE',
 'VILHENA',
 'SAO MIGUEL DO GUAPORE',
 'NOVA MAMORE',
 'ALVORADA D`OESTE',
 'ALTO ALEGRE DOS PARECIS',
 'ALTO PARAISO',
 'BURITIS',
 'NOVO HORIZONTE DO OESTE',
 'CACAULANDIA',
 'CAMPO NOVO DE RONDONIA',
 'CANDEIAS DO JAMARI',
 'CASTANHEIRAS',
 'CHUPINGUAIA',
 'CUJUBIM',
 'GOVERNADOR JORGE TEIXEIRA',
 'ITAPUA DO OESTE',
 'MINISTRO ANDREAZZA',
 'MIRANTE DA SERRA',
 'MONTE NEGRO',
 'NOVA UNIAO',
 'PARECIS',
 'PIMENTEIRAS DO OESTE',
 'PRIMAVERA DE RONDONIA',
 'SAO FELIPE D`OESTE',
 'SAO FRANCISCO DO GUAPORE',
 'SERINGUEIRAS',
 'TEIXEIROPOLIS',
 'THEOBROMA',
 'URUPA',
 'VALE DO ANARI',
 'VALE DO PARAISO',
 'ACRELAN

In [72]:
# Capitalização, remoção de acentos, remoção da informação do UF (redundante)
dfEmLimpeza['Municipio_Nascimento'] = dfEmLimpeza['Municipio_Nascimento'].fillna("<NA>")
Funcoes.removerAcentos_PorMaiusculas(dfEmLimpeza, coluna='Municipio_Nascimento')
dfEmLimpeza['Municipio_Nascimento'] = dfEmLimpeza['Municipio_Nascimento'].str.replace(" - MG", '')
dfEmLimpeza['Municipio_Nascimento'] = dfEmLimpeza['Municipio_Nascimento'].str.replace(" - RJ", '')
cidadesDoDataframe = list(dfEmLimpeza['Municipio_Nascimento'].unique())

# Casos específicos de grafia incorreta

def ConsertaMunicipios(dfEntrada, cidadeErrada, cidadeCerta):
    dfEntrada['Municipio_Nascimento'] = dfEntrada['Municipio_Nascimento'].apply(lambda x: str(x).replace(cidadeErrada, cidadeCerta))
    return dfEntrada

dfEmLimpeza = ConsertaMunicipios(dfEmLimpeza, 'SAO JOAO DEL-REI', 'SAO JOAO DEL REI')
dfEmLimpeza = ConsertaMunicipios(dfEmLimpeza, 'VISCONDE DO RIO  BRANCO', 'VISCONDE DO RIO BRANCO')
dfEmLimpeza = ConsertaMunicipios(dfEmLimpeza, 'SAO BERNARDO DO CAMPOS', 'SAO BERNARDO DO CAMPO')
dfEmLimpeza = ConsertaMunicipios(dfEmLimpeza, 'AMPARO DA SERRA', 'AMPARO DO SERRA')
dfEmLimpeza = ConsertaMunicipios(dfEmLimpeza, 'OURO  PRETO', 'OURO PRETO')
dfEmLimpeza = ConsertaMunicipios(dfEmLimpeza, 'DUVAL DE BARROS', 'IBIRITE')
dfEmLimpeza = ConsertaMunicipios(dfEmLimpeza, 'DONA EUZEBIA', 'DONA EUSEBIA')
dfEmLimpeza = ConsertaMunicipios(dfEmLimpeza, 'MOGI-MIRIM', 'MOGI MIRIM')
dfEmLimpeza = ConsertaMunicipios(dfEmLimpeza, "SANTA BARBARA D'OESTE",'SANTA BARBARA D`OESTE')

In [73]:
dfEmLimpeza

Unnamed: 0,Identificador,Ano_Nascimento,Sexo,Campus,Curso_Identificador,Curso,UF_Nascimento,Municipio_Nascimento,Admissao,Saida,Codigo_Situacao_Aluno,Situacao_Aluno,Situacao_Aluno_Agrupada,Modalidade_Inscrita,ENEM,Num_Reprovacoes,Raca,CRA,Area
0,29271,1982.0,M,CAV,1101,ADMINISTRACAO,RJ,VOLTA REDONDA,2000/1,2000/1,A,Abandono ...,Evasão,0.0,,0,Informação não disponível,0.0,CIENCIAS SOCIAIS APLICADAS
1,29272,1982.0,M,CAV,1101,ADMINISTRACAO,DF,BRASILIA,2000/1,2002/1,A,Abandono ...,Evasão,0.0,,3,Informação não disponível,71.2,CIENCIAS SOCIAIS APLICADAS
2,34462,1979.0,F,CAV,1101,ADMINISTRACAO,MG,VICOSA,2000/1,2005/1,C,Conclusão ...,Conclusão,0.0,,3,Informação não disponível,78.5,CIENCIAS SOCIAIS APLICADAS
3,34468,1979.0,F,CAV,1101,ADMINISTRACAO,MG,BELO HORIZONTE,2000/1,2006/1,C,Conclusão ...,Conclusão,0.0,,20,Pardo(a),56.0,CIENCIAS SOCIAIS APLICADAS
4,34470,1980.0,F,CAV,1101,ADMINISTRACAO,SP,SAO PAULO,2000/1,2004/2,C,Conclusão ...,Conclusão,0.0,,1,Informação não disponível,76.9,CIENCIAS SOCIAIS APLICADAS
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
74021,172112,1996.0,,CAV,1153,EDUCACAO FISICA,,,2023/1,0,N,Normal ...,Matriculado,0.0,,0,Informação não disponível,0.0,CIENCIAS DA SAUDE
74022,172110,1995.0,,CAV,1153,EDUCACAO FISICA,,,2023/1,0,N,Normal ...,Matriculado,0.0,,0,Informação não disponível,,CIENCIAS DA SAUDE
74023,172113,1996.0,,CAV,1153,EDUCACAO FISICA,,,2023/1,0,N,Normal ...,Matriculado,0.0,,0,Informação não disponível,,CIENCIAS DA SAUDE
74024,172114,1998.0,,CAV,1153,EDUCACAO FISICA,,,2023/1,0,N,Normal ...,Matriculado,0.0,,0,Informação não disponível,,CIENCIAS DA SAUDE


Antes de realizar a filtragem para substituir as cidades que não estão presentes no _dataset_ de cidades brasileiras por 'OUTROS', deve-se ressaltar que o seu conteúdo é muito diverso e poluído; intratável para as análises propostas pelo grupo.

In [74]:
list(dfEmLimpeza['Municipio_Nascimento'][~dfEmLimpeza['Municipio_Nascimento'].isin(cidades)].sort_values().unique())

['<NA>',
 'ACAILANCIA',
 'ADAMATINA',
 'AICHI-KEN',
 'ALBERTO ISAACSON',
 'ALEMANHA',
 'ALMADA',
 'ALTO DO CAPARAO',
 'ALTO DO RIO DOCE',
 'AMES',
 'AMES - IOWA',
 'ANGERS',
 'ANTOFAGASTA',
 'ARACE',
 'ARARAGUARA',
 'ARECIBO',
 'AREQUIPA',
 'ARGENTINA',
 'ARTIGAS - URUGUAI',
 'ASSOMADA - CABO VERDE',
 'ASUNCION',
 'ATHENS',
 'BAFATA',
 'BAFATO - GUINE BISSAU',
 'BAHIA BLANCA - BUENOS AIRES',
 'BALBINOPOLIS',
 'BANEY-BIOKO NORTE',
 'BARBADOS',
 'BARRA DO SAO FRANCISCO',
 'BELEM DO PARA',
 'BENGUELA - LOBITO',
 'BENONI',
 'BERLIM',
 'BISSAU',
 'BISSAU - AFRICA OCIDENTAL',
 'BISSAU - BISSAU',
 'BISSAU - GUINE BISSAU',
 'BISSAU - S. A. BISSAU',
 'BOA VISTA DE MINAS',
 'BOHICON',
 'BOM JESUS DA CACHOEIRA',
 'BOM JESUS DE ITABAPOANA',
 'BOSTON',
 'BOSTON - MASSACHUSETTS',
 'BOSTON-MASSACHUSETTS',
 'BRA',
 'BRAZLANDIA',
 'BRIDGEPORT',
 'BRLO HORIZONTE',
 'BROWARD COUNTY',
 'BRUXELAS - BELGICA',
 'BRYN MAWR',
 'BUENOS AIREA',
 'BURANHEM',
 'CACHEU',
 'CACHOEIRINHO DE ITAPEMIRIM',
 'CAITITE',
 

In [75]:
dfEmLimpeza

Unnamed: 0,Identificador,Ano_Nascimento,Sexo,Campus,Curso_Identificador,Curso,UF_Nascimento,Municipio_Nascimento,Admissao,Saida,Codigo_Situacao_Aluno,Situacao_Aluno,Situacao_Aluno_Agrupada,Modalidade_Inscrita,ENEM,Num_Reprovacoes,Raca,CRA,Area
0,29271,1982.0,M,CAV,1101,ADMINISTRACAO,RJ,VOLTA REDONDA,2000/1,2000/1,A,Abandono ...,Evasão,0.0,,0,Informação não disponível,0.0,CIENCIAS SOCIAIS APLICADAS
1,29272,1982.0,M,CAV,1101,ADMINISTRACAO,DF,BRASILIA,2000/1,2002/1,A,Abandono ...,Evasão,0.0,,3,Informação não disponível,71.2,CIENCIAS SOCIAIS APLICADAS
2,34462,1979.0,F,CAV,1101,ADMINISTRACAO,MG,VICOSA,2000/1,2005/1,C,Conclusão ...,Conclusão,0.0,,3,Informação não disponível,78.5,CIENCIAS SOCIAIS APLICADAS
3,34468,1979.0,F,CAV,1101,ADMINISTRACAO,MG,BELO HORIZONTE,2000/1,2006/1,C,Conclusão ...,Conclusão,0.0,,20,Pardo(a),56.0,CIENCIAS SOCIAIS APLICADAS
4,34470,1980.0,F,CAV,1101,ADMINISTRACAO,SP,SAO PAULO,2000/1,2004/2,C,Conclusão ...,Conclusão,0.0,,1,Informação não disponível,76.9,CIENCIAS SOCIAIS APLICADAS
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
74021,172112,1996.0,,CAV,1153,EDUCACAO FISICA,,,2023/1,0,N,Normal ...,Matriculado,0.0,,0,Informação não disponível,0.0,CIENCIAS DA SAUDE
74022,172110,1995.0,,CAV,1153,EDUCACAO FISICA,,,2023/1,0,N,Normal ...,Matriculado,0.0,,0,Informação não disponível,,CIENCIAS DA SAUDE
74023,172113,1996.0,,CAV,1153,EDUCACAO FISICA,,,2023/1,0,N,Normal ...,Matriculado,0.0,,0,Informação não disponível,,CIENCIAS DA SAUDE
74024,172114,1998.0,,CAV,1153,EDUCACAO FISICA,,,2023/1,0,N,Normal ...,Matriculado,0.0,,0,Informação não disponível,,CIENCIAS DA SAUDE


In [76]:
# Testando a operação de concat

dfMunicipiosCorretos = dfEmLimpeza[dfEmLimpeza['Municipio_Nascimento'].isin(cidades)]
dfMunicipiosErrados = dfEmLimpeza[~dfEmLimpeza['Municipio_Nascimento'].isin(cidades)]
a = pd.concat([dfMunicipiosCorretos, dfMunicipiosErrados]).set_index('Identificador').sort_index().compare(dfEmLimpeza.set_index('Identificador').sort_index())
a 

Identificador


In [77]:
dfMunicipiosErrados['Municipio_Nascimento'] = 'OUTROS' # Substituindo todos os países errados por outros

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  dfMunicipiosErrados['Municipio_Nascimento'] = 'OUTROS' # Substituindo todos os países errados por outros


In [78]:
# Juntando tudo num único dataframe:
dfEmLimpeza = pd.concat([dfMunicipiosCorretos, dfMunicipiosErrados])
dfEmLimpeza

Unnamed: 0,Identificador,Ano_Nascimento,Sexo,Campus,Curso_Identificador,Curso,UF_Nascimento,Municipio_Nascimento,Admissao,Saida,Codigo_Situacao_Aluno,Situacao_Aluno,Situacao_Aluno_Agrupada,Modalidade_Inscrita,ENEM,Num_Reprovacoes,Raca,CRA,Area
0,29271,1982.0,M,CAV,1101,ADMINISTRACAO,RJ,VOLTA REDONDA,2000/1,2000/1,A,Abandono ...,Evasão,0.0,,0,Informação não disponível,0.0,CIENCIAS SOCIAIS APLICADAS
1,29272,1982.0,M,CAV,1101,ADMINISTRACAO,DF,BRASILIA,2000/1,2002/1,A,Abandono ...,Evasão,0.0,,3,Informação não disponível,71.2,CIENCIAS SOCIAIS APLICADAS
2,34462,1979.0,F,CAV,1101,ADMINISTRACAO,MG,VICOSA,2000/1,2005/1,C,Conclusão ...,Conclusão,0.0,,3,Informação não disponível,78.5,CIENCIAS SOCIAIS APLICADAS
3,34468,1979.0,F,CAV,1101,ADMINISTRACAO,MG,BELO HORIZONTE,2000/1,2006/1,C,Conclusão ...,Conclusão,0.0,,20,Pardo(a),56.0,CIENCIAS SOCIAIS APLICADAS
4,34470,1980.0,F,CAV,1101,ADMINISTRACAO,SP,SAO PAULO,2000/1,2004/2,C,Conclusão ...,Conclusão,0.0,,1,Informação não disponível,76.9,CIENCIAS SOCIAIS APLICADAS
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
74021,172112,1996.0,,CAV,1153,EDUCACAO FISICA,,OUTROS,2023/1,0,N,Normal ...,Matriculado,0.0,,0,Informação não disponível,0.0,CIENCIAS DA SAUDE
74022,172110,1995.0,,CAV,1153,EDUCACAO FISICA,,OUTROS,2023/1,0,N,Normal ...,Matriculado,0.0,,0,Informação não disponível,,CIENCIAS DA SAUDE
74023,172113,1996.0,,CAV,1153,EDUCACAO FISICA,,OUTROS,2023/1,0,N,Normal ...,Matriculado,0.0,,0,Informação não disponível,,CIENCIAS DA SAUDE
74024,172114,1998.0,,CAV,1153,EDUCACAO FISICA,,OUTROS,2023/1,0,N,Normal ...,Matriculado,0.0,,0,Informação não disponível,,CIENCIAS DA SAUDE


### Unidades Federativas

Para as unidades federativas, pouco tratamento é necessário.

In [79]:
dfEmLimpeza['UF_Nascimento'] = dfEmLimpeza['UF_Nascimento'].str.replace(' ','')
dfEmLimpeza['UF_Nascimento'] = dfEmLimpeza['UF_Nascimento'].str.replace('  ','')
dfEmLimpeza['UF_Nascimento'] = dfEmLimpeza['UF_Nascimento'].fillna('')
print(dfEmLimpeza['UF_Nascimento'].unique())
len(dfEmLimpeza['UF_Nascimento'].unique())

<StringArray>
['RJ', 'DF', 'MG', 'SP', 'BA', 'ES', 'GO', 'PR', 'SE', 'PA', 'MS', 'RS', 'RO',
 'SC', 'MA', 'PE', 'MT', 'AM', 'TO',   '', 'AL', 'CE', 'AP', 'AC', 'PB', 'RN',
 'PI', 'RR']
Length: 28, dtype: string


28

### Admissão e saída

Os campos admissão e saída tem sempre o formato 'ano/semestre'. Para fins de análise, porém,é útil ter acesso ao ano e ao semestre separadamente.

In [80]:
# Separando a admissão em duas novas colunas, Admissao_Ano e Admissao_Semestre
dfEmLimpeza[["Admissao_Ano", "Admissao_Semestre"]] = dfEmLimpeza["Admissao"].str.split('/', n=1, expand=True).astype('int64')
# Fazendo o mesmo para a saída
dfEmLimpeza[["Saida_Ano", "Saida_Semestre"]] = dfEmLimpeza["Saida"].str.split('/', n=1, expand=True).fillna('0').astype('int64')
dfEmLimpeza[["Admissao", "Admissao_Ano", "Admissao_Semestre", "Saida", "Saida_Ano", "Saida_Semestre"]]

Unnamed: 0,Admissao,Admissao_Ano,Admissao_Semestre,Saida,Saida_Ano,Saida_Semestre
0,2000/1,2000,1,2000/1,2000,1
1,2000/1,2000,1,2002/1,2002,1
2,2000/1,2000,1,2005/1,2005,1
3,2000/1,2000,1,2006/1,2006,1
4,2000/1,2000,1,2004/2,2004,2
...,...,...,...,...,...,...
74021,2023/1,2023,1,0,0,0
74022,2023/1,2023,1,0,0,0
74023,2023/1,2023,1,0,0,0
74024,2023/1,2023,1,0,0,0


## Criando arquivo limpo

Por fim, basta exportar o dataframe como csv e usá-lo para as análises

In [81]:
dfEmLimpeza = dfEmLimpeza.set_index('Identificador')
dfEmLimpeza

Unnamed: 0_level_0,Ano_Nascimento,Sexo,Campus,Curso_Identificador,Curso,UF_Nascimento,Municipio_Nascimento,Admissao,Saida,Codigo_Situacao_Aluno,...,Modalidade_Inscrita,ENEM,Num_Reprovacoes,Raca,CRA,Area,Admissao_Ano,Admissao_Semestre,Saida_Ano,Saida_Semestre
Identificador,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1,Unnamed: 21_level_1
29271,1982.0,M,CAV,1101,ADMINISTRACAO,RJ,VOLTA REDONDA,2000/1,2000/1,A,...,0.0,,0,Informação não disponível,0.0,CIENCIAS SOCIAIS APLICADAS,2000,1,2000,1
29272,1982.0,M,CAV,1101,ADMINISTRACAO,DF,BRASILIA,2000/1,2002/1,A,...,0.0,,3,Informação não disponível,71.2,CIENCIAS SOCIAIS APLICADAS,2000,1,2002,1
34462,1979.0,F,CAV,1101,ADMINISTRACAO,MG,VICOSA,2000/1,2005/1,C,...,0.0,,3,Informação não disponível,78.5,CIENCIAS SOCIAIS APLICADAS,2000,1,2005,1
34468,1979.0,F,CAV,1101,ADMINISTRACAO,MG,BELO HORIZONTE,2000/1,2006/1,C,...,0.0,,20,Pardo(a),56.0,CIENCIAS SOCIAIS APLICADAS,2000,1,2006,1
34470,1980.0,F,CAV,1101,ADMINISTRACAO,SP,SAO PAULO,2000/1,2004/2,C,...,0.0,,1,Informação não disponível,76.9,CIENCIAS SOCIAIS APLICADAS,2000,1,2004,2
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
172112,1996.0,,CAV,1153,EDUCACAO FISICA,,OUTROS,2023/1,0,N,...,0.0,,0,Informação não disponível,0.0,CIENCIAS DA SAUDE,2023,1,0,0
172110,1995.0,,CAV,1153,EDUCACAO FISICA,,OUTROS,2023/1,0,N,...,0.0,,0,Informação não disponível,,CIENCIAS DA SAUDE,2023,1,0,0
172113,1996.0,,CAV,1153,EDUCACAO FISICA,,OUTROS,2023/1,0,N,...,0.0,,0,Informação não disponível,,CIENCIAS DA SAUDE,2023,1,0,0
172114,1998.0,,CAV,1153,EDUCACAO FISICA,,OUTROS,2023/1,0,N,...,0.0,,0,Informação não disponível,,CIENCIAS DA SAUDE,2023,1,0,0


In [82]:
dfEmLimpeza.to_csv('../Datasets/dadosFiltrados.csv') 