## Seleção dos dados (Data Selection)

### Carregando itens necessários

**Importando biblioteca Pandas**

In [1]:
import pandas as pd

**Importando arquivos de Matrículas**

In [2]:
mat_2021 = pd.read_csv('../datasets/original/matriculas/mat_2021.csv', sep=';', on_bad_lines='skip')
mat_2020 = pd.read_csv('../datasets/original/matriculas/mat_2020.csv', sep=';', on_bad_lines='skip')
mat_2019 = pd.read_csv('../datasets/original/matriculas/mat_2019.csv', sep=';', on_bad_lines='skip')
mat_2018 = pd.read_csv('../datasets/original/matriculas/mat_2018.csv', sep=';', on_bad_lines='skip', encoding='latin-1')

**Importando arquivos de Eficiência Acadêmica**

In [3]:
efa_2021 = pd.read_csv('../datasets/original/eficiencia/efa_2021.csv', sep=';', on_bad_lines='skip')
efa_2020 = pd.read_csv('../datasets/original/eficiencia/efa_2020.csv', sep=';', on_bad_lines='skip')
efa_2019 = pd.read_csv('../datasets/original/eficiencia/efa_2019.csv', sep=';', on_bad_lines='skip')
efa_2018 = pd.read_csv('../datasets/original/eficiencia/efa_2018.csv', sep=';', on_bad_lines='skip', encoding='latin-1')

  efa_2021 = pd.read_csv('../datasets/original/eficiencia/efa_2021.csv', sep=';', on_bad_lines='skip')


In [5]:
mat_2021.tail()

Unnamed: 0,Carga Horaria,Carga Horaria Mínima,Categoria da Situação,Co Inst,Cod Unidade,Cor / Raça,Código da Matricula,Código da Unidade de Ensino - SISTEC,Código do Ciclo Matricula,Código do Município com DV,...,Vagas Ofertadas,Vagas Regulares AC,Vagas Regulares l1,Vagas Regulares l10,Vagas Regulares l13,Vagas Regulares l14,Vagas Regulares l2,Vagas Regulares l5,Vagas Regulares l6,Vagas Regulares l9
1523341,20,160.0,Concluintes,26420,358,Não declarada,96122031,14080.0,2715783,4313904,...,37.0,37.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
1523342,20,160.0,Concluintes,26420,358,Não declarada,96122037,14080.0,2715783,4313904,...,37.0,37.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
1523343,160,160.0,Evadidos,26436,369,Parda,95091099,2931.0,2707702,4314100,...,59.0,59.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
1523344,200,200.0,Evadidos,26436,137,Parda,95087323,13828.0,2707682,4303509,...,112.0,112.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
1523345,180,160.0,Evadidos,26436,6002,Preta,95103817,45430.0,2707731,4314407,...,1265.0,1265.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0


### Analisando os dados

O dicionário de dados de ambos os conjuntos deixa claro que a chave primária de cada registro é o Código da Matrícula, de modo que cada registro corresponde a um estudante. Assim, o mesmo estudante referenciado em determinado ano nos dataframes Matrículas também será encontrado no dataframe Eficiência Acadêmica correspondente àquele ano.

Nota-se pelo crescimento do total de registros nos dataframes que houve aumento do número de matrículas com o passar dos anos.

Contudo, o conjunto de dados Matrículas apresenta mais registros que o conjunto de dados Eficiência Acadêmica, pois o primeiro traz os dados de alunos que ainda estão cursando, enquanto este último só mostra os dados de alunos que concluíram ou deixaram o curso.

**Criando arrays para armazenar os dataframes de cada dataset**

In [6]:
mat_datasets = [mat_2021, mat_2020, mat_2019, mat_2018]
efa_datasets = [efa_2021, efa_2020, efa_2019, efa_2018]

**Exibindo total de linhas e colunas de Matrículas e Eficiência Acadêmica**

In [5]:
i = 2021
for df in mat_datasets:
    print(i)
    print(df.shape)
    i = i-1

2021
(1523346, 56)
2020
(1507476, 54)
2019
(1023303, 54)
2018
(964593, 35)


**Exibindo total de linhas e colunas de Eficiência Acadêmica**

In [6]:
i = 2021
for df in efa_datasets:
    print(i)
    print(df.shape)
    i = i-1

2021
(889855, 55)
2020
(383153, 54)
2019
(338848, 54)
2018
(374037, 29)


**Exibindo valores encontrados na coluna *Categoria da Situação* em Matrículas**

In [7]:
mat_datasets[0]['Categoria da Situação'].unique()

array(['Evadidos', 'Em curso', 'Concluintes'], dtype=object)

**Exibindo valores encontrados na coluna *Categoria da Situação* em Eficiência Acadêmica**

In [8]:
efa_datasets[0]['Categoria da Situação'].unique()

array(['Evadidos', 'Concluintes', 'Em curso'], dtype=object)

### Selecionando Linhas/Registros

Como a área de estudo deste trabalho são os cursos do eixo tecnológico Informação e Comunicação, serão selecionados apenas os registros que contenham este dado.

#### Microdados Matrículas

In [9]:
mat_datasets[0]['Eixo Tecnológico'].unique()

array(['Informação e Comunicação', 'Gestão e Negócios',
       'Desenvolvimento Educacional e Social', 'Ambiente e Saúde',
       'Produção Cultural e Design', 'Infraestrutura',
       'Recursos Naturais', 'Turismo, Hospitalidade e Lazer',
       'Controle e Processos Industriais', 'Produção Industrial',
       'Segurança', 'Produção Alimentícia', 'Propedêutico'], dtype=object)

In [10]:
mat_filtered = []
i = 2021

for df in mat_datasets:
    df = df[df['Eixo Tecnológico'] == 'Informação e Comunicação']
    print(i)
    print(df.shape)
    print(df['Eixo Tecnológico'].unique())
    mat_filtered.append(df)
    i = i-1

2021
(220869, 56)
['Informação e Comunicação']
2020
(200391, 54)
['Informação e Comunicação']
2019
(149777, 54)
['Informação e Comunicação']
2018
(144201, 35)
['Informação e Comunicação']


#### Microdados Eficiência Acadêmica

In [11]:
efa_datasets[0]['Eixo Tecnológico'].unique()

array(['Produção Alimentícia', 'Produção Industrial', 'Ambiente e Saúde',
       'Gestão e Negócios', 'Infraestrutura',
       'Turismo, Hospitalidade e Lazer', 'Informação e Comunicação',
       'Recursos Naturais', 'Produção Cultural e Design',
       'Controle e Processos Industriais', 'Propedêutico', 'Segurança',
       'Desenvolvimento Educacional e Social'], dtype=object)

In [12]:
efa_filtered = []
i = 2021

for df in efa_datasets:
    df = df[df['Eixo Tecnológico'] == 'Informação e Comunicação']
    print(i)
    print(df.shape)
    print(df['Eixo Tecnológico'].unique())
    efa_filtered.append(df)
    i = i-1

2021
(99653, 55)
['Informação e Comunicação']
2020
(53407, 54)
['Informação e Comunicação']
2019
(51013, 54)
['Informação e Comunicação']
2018
(55743, 29)
['Informação e Comunicação']


### Selecionando colunas

Os dados relevantes para estudo da evasão escolar compreendes os seguintes fatores:

- Fatores Internos à Instituição de Ensino, com destaque aos fatores geográficos e da estrutura do curso
- Fatores Externos à Instituição de Ensino, com destaque para fatores socioeconômicos

Assim, foram selecionadas somente as variáveis presentes nos conjuntos de dados que correspondem a tais fatores.

In [13]:
old_columns_names = [
    'Categoria da Situação', 'Categoria de Situação',
    'Código da Matricula', 'Código da Matrícula', 
    'Instituição', 'Região', 'UF', 'Região ', 'UF ',
    'Subeixo Tecnológico', 'Sub Eixo Tecnologico',
    'Nome de Curso', 'Nome do Curso', 
    'Tipo de Curso',
    'Tipo de Oferta', 'Tipo Oferta',
    'Modalidade de Ensino', 'Modalidade de Ensino ',
    'Turno',
    'Carga Horaria', 'Carga Horária do Curso',
    'Fator Esforço Curso', 'Fator Esforco Curso', 'Fator de Esforço de Curso',
    'Sexo', 'Sexo  ',
    'Cor / Raça', 'Cor/Raça',
    'Faixa Etária',
    'Renda Familiar', 'Renda Familiar '
]

new_columns_names = [
    'situacao', 'situacao',
    'codigo_matricula', 'codigo_matricula', 
    'instituicao', 'regiao', 'estado', 'regiao', 'estado',
    'subeixo_tecnologico', 'subeixo_tecnologico',
    'nome_curso', 'nome_curso',
    'tipo_curso',
    'tipo_oferta', 'tipo_oferta',
    'modalidade', 'modalidade',
    'turno',
    'carga_horaria', 'carga_horaria',
    'fator_esforco_curso', 'fator_esforco_curso', 'fator_esforco_curso',
    'sexo', 'sexo',
    'etnia', 'etnia',
    'faixa_etaria',
    'renda_familiar', 'renda_familiar'
]

#### Microdados Matrículas

In [14]:
i = 2021

for df in mat_filtered:
    print(i)
    print(list(df.columns))
    i = i-1

2021
['Carga Horaria', 'Carga Horaria Mínima', 'Categoria da Situação', 'Co Inst', 'Cod Unidade', 'Cor / Raça', 'Código da Matricula', 'Código da Unidade de Ensino - SISTEC', 'Código do Ciclo Matricula', 'Código do Município com DV', 'Data de Fim Previsto do Ciclo', 'Data de Inicio do Ciclo', 'Data de Ocorrencia da Matricula', 'Eixo Tecnológico', 'Faixa Etária', 'Fator Esforço Curso', 'Fonte de Financiamento', 'Idade', 'Instituição', 'Matrículas Atendida', 'Matrículas Equivalentes', 'Modalidade de Ensino', 'Município', 'Mês De Ocorrência da Situação', 'Nome de Curso', 'Número de registros', 'Região', 'Renda Familiar', 'Sexo', 'Situação de Matrícula', 'Subeixo Tecnológico', 'Tipo de Curso', 'Tipo de Oferta', 'Total de Inscritos', 'Turno', 'UF', 'Unidade de Ensino', 'Vagas Extraordinárias AC', 'Vagas Extraordinárias l1', 'Vagas Extraordinárias l10', 'Vagas Extraordinárias l13', 'Vagas Extraordinárias l14', 'Vagas Extraordinárias l2', 'Vagas Extraordinárias l5', 'Vagas Extraordinárias l6'

**Excluindo a coluna duplicada do tipo de oferta encontrada no dataframe de 2020**

In [15]:
mat_filtered[1].drop('Tipo Oferta', axis=1, inplace=True)

A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  mat_filtered[1].drop('Tipo Oferta', axis=1, inplace=True)


In [16]:
for df in mat_filtered:
    for i in range(len(old_columns_names)):
        df.rename(columns={old_columns_names[i]: new_columns_names[i]}, inplace=True)    

A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df.rename(columns={old_columns_names[i]: new_columns_names[i]}, inplace=True)


In [17]:
i = 2021

for df in mat_filtered:
    print(i)
    print(list(df.columns))
    i = i-1

2021
['carga_horaria', 'Carga Horaria Mínima', 'situacao', 'Co Inst', 'Cod Unidade', 'etnia', 'codigo_matricula', 'Código da Unidade de Ensino - SISTEC', 'Código do Ciclo Matricula', 'Código do Município com DV', 'Data de Fim Previsto do Ciclo', 'Data de Inicio do Ciclo', 'Data de Ocorrencia da Matricula', 'Eixo Tecnológico', 'faixa_etaria', 'fator_esforco_curso', 'Fonte de Financiamento', 'Idade', 'instituicao', 'Matrículas Atendida', 'Matrículas Equivalentes', 'modalidade', 'Município', 'Mês De Ocorrência da Situação', 'nome_curso', 'Número de registros', 'regiao', 'renda_familiar', 'sexo', 'Situação de Matrícula', 'subeixo_tecnologico', 'tipo_curso', 'tipo_oferta', 'Total de Inscritos', 'turno', 'estado', 'Unidade de Ensino', 'Vagas Extraordinárias AC', 'Vagas Extraordinárias l1', 'Vagas Extraordinárias l10', 'Vagas Extraordinárias l13', 'Vagas Extraordinárias l14', 'Vagas Extraordinárias l2', 'Vagas Extraordinárias l5', 'Vagas Extraordinárias l6', 'Vagas Extraordinárias l9', 'Vagas

**Criando novos dataframes apenas com os campos desejados**

In [18]:
mat_selected = []

i = 2021

for df in mat_filtered:
    df = df[[
        # Identificador Único do Registro
        'codigo_matricula',
        # Dados geográficos
        'instituicao', 'regiao', 'estado',
        # Fatores internos
        'subeixo_tecnologico','nome_curso', 'tipo_curso', 'tipo_oferta', 
        'modalidade', 'turno', 'carga_horaria', 'fator_esforco_curso',
        # Fatores externos
        'sexo', 'etnia', 'faixa_etaria', 'renda_familiar',
        # Coluna Alvo
        'situacao'
    ]]
    print(i)
    print(df.shape)
    mat_selected.append(df)
    i = i-1

2021
(220869, 17)
2020
(200391, 17)
2019
(149777, 17)
2018
(144201, 17)


In [19]:
i = 2021

for df in mat_selected:
    print(i)
    print(list(df.columns))
    i = i-1

2021
['codigo_matricula', 'instituicao', 'regiao', 'estado', 'subeixo_tecnologico', 'nome_curso', 'tipo_curso', 'tipo_oferta', 'modalidade', 'turno', 'carga_horaria', 'fator_esforco_curso', 'sexo', 'etnia', 'faixa_etaria', 'renda_familiar', 'situacao']
2020
['codigo_matricula', 'instituicao', 'regiao', 'estado', 'subeixo_tecnologico', 'nome_curso', 'tipo_curso', 'tipo_oferta', 'modalidade', 'turno', 'carga_horaria', 'fator_esforco_curso', 'sexo', 'etnia', 'faixa_etaria', 'renda_familiar', 'situacao']
2019
['codigo_matricula', 'instituicao', 'regiao', 'estado', 'subeixo_tecnologico', 'nome_curso', 'tipo_curso', 'tipo_oferta', 'modalidade', 'turno', 'carga_horaria', 'fator_esforco_curso', 'sexo', 'etnia', 'faixa_etaria', 'renda_familiar', 'situacao']
2018
['codigo_matricula', 'instituicao', 'regiao', 'estado', 'subeixo_tecnologico', 'nome_curso', 'tipo_curso', 'tipo_oferta', 'modalidade', 'turno', 'carga_horaria', 'fator_esforco_curso', 'sexo', 'etnia', 'faixa_etaria', 'renda_familiar', 

**Salvando datafremes selecionados**

In [20]:
mat_selected[0].to_csv("../datasets/selected/matriculas/mat_2021.csv", sep=";", encoding="latin-1")

In [21]:
mat_selected[1].to_csv("../datasets/selected/matriculas/mat_2020.csv", sep=";", encoding="latin-1")

In [22]:
mat_selected[2].to_csv("../datasets/selected/matriculas/mat_2019.csv", sep=";", encoding="latin-1")

In [23]:
mat_selected[3].to_csv("../datasets/selected/matriculas/mat_2018.csv", sep=";", encoding="latin-1")

#### Microdados Eficiência Acadêmica

In [24]:
i = 2021

for df in efa_filtered:
    print(i)
    print(list(df.columns))
    i = i-1

2021
['Carga Horaria', 'Carga Horaria Mínima', 'Categoria da Situação', 'Cod Unidade', 'Cor / Raça', 'Código da Matricula', 'Código da Unidade de Ensino - SISTEC', 'Código do Ciclo Matricula', 'Código do Município com DV', 'Data de Fim Previsto do Ciclo', 'Data de Inicio do Ciclo', 'Data de Ocorrencia da Matricula', 'Eixo Tecnológico', 'Faixa Etária', 'Fator Esforço Curso', 'Fonte de Financiamento', 'Idade', 'Instituição', 'Matrículas Atendida', 'Matrículas Equivalentes', 'Modalidade de Ensino', 'Município', 'Mês De Ocorrência da Situação', 'Nome de Curso', 'Número de registros', 'Região', 'Renda Familiar', 'Sexo', 'Situação de Matrícula', 'Subeixo Tecnológico', 'Tipo de Curso', 'Tipo de Oferta', 'Total de Inscritos', 'Turno', 'UF', 'Unidade de Ensino', 'Vagas Extraordinárias AC', 'Vagas Extraordinárias l1', 'Vagas Extraordinárias l10', 'Vagas Extraordinárias l13', 'Vagas Extraordinárias l14', 'Vagas Extraordinárias l2', 'Vagas Extraordinárias l5', 'Vagas Extraordinárias l6', 'Vagas Ex

**Excluindo a coluna duplicada do tipo de oferta encontrada no dataframe de 2020**

In [25]:
efa_filtered[1].drop('Tipo Oferta', axis=1, inplace=True)

A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  efa_filtered[1].drop('Tipo Oferta', axis=1, inplace=True)


**Padronizando os nomes das colunas**

Foram mantidos os mesmos nomes utilizados nos dataframes das matrículas.

In [26]:
for df in efa_filtered:
    for i in range(len(old_columns_names)):
        df.rename(columns={old_columns_names[i]: new_columns_names[i]}, inplace=True) 

A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df.rename(columns={old_columns_names[i]: new_columns_names[i]}, inplace=True)


In [27]:
i = 2021

for df in efa_filtered:
    print(i)
    print(list(df.columns))
    i = i-1

2021
['carga_horaria', 'Carga Horaria Mínima', 'situacao', 'Cod Unidade', 'etnia', 'codigo_matricula', 'Código da Unidade de Ensino - SISTEC', 'Código do Ciclo Matricula', 'Código do Município com DV', 'Data de Fim Previsto do Ciclo', 'Data de Inicio do Ciclo', 'Data de Ocorrencia da Matricula', 'Eixo Tecnológico', 'faixa_etaria', 'fator_esforco_curso', 'Fonte de Financiamento', 'Idade', 'instituicao', 'Matrículas Atendida', 'Matrículas Equivalentes', 'modalidade', 'Município', 'Mês De Ocorrência da Situação', 'nome_curso', 'Número de registros', 'regiao', 'renda_familiar', 'sexo', 'Situação de Matrícula', 'subeixo_tecnologico', 'tipo_curso', 'tipo_oferta', 'Total de Inscritos', 'turno', 'estado', 'Unidade de Ensino', 'Vagas Extraordinárias AC', 'Vagas Extraordinárias l1', 'Vagas Extraordinárias l10', 'Vagas Extraordinárias l13', 'Vagas Extraordinárias l14', 'Vagas Extraordinárias l2', 'Vagas Extraordinárias l5', 'Vagas Extraordinárias l6', 'Vagas Extraordinárias l9', 'Vagas Ofertadas'

**Criando novos dataframes apenas com os campos desejados**

O dataframe correspondente ao ano de 2018 não possui as colunas turno, sexo, etnia, faixa_etaria e renda_familiar, não sendo possível trabalhar estas informações. Entretanto, tal situação não impactará significativamente no trabalho, pois tais informações constam no conjunto de dados correspondente em Matrículas.

In [28]:
efa_selected = []
i = 0

for df in efa_filtered:
    if i < 3:
        df = df[[
            # Identificador Único do Registro
            'codigo_matricula',
            # Dados geográficos
            'instituicao', 'regiao', 'estado',
            # Fatores internos
            'subeixo_tecnologico','nome_curso', 'tipo_curso', 'tipo_oferta', 
            'modalidade', 'turno', 'carga_horaria', 'fator_esforco_curso',
            # Fatores externos
            'sexo', 'etnia', 'faixa_etaria', 'renda_familiar',
            # Coluna Alvo
            'situacao'
        ]]
    else:
        df = df[[
            # Identificador Único do Registro
            'codigo_matricula',
            # Dados geográficos
            'instituicao', 'regiao', 'estado',
            # Fatores internos
            'subeixo_tecnologico','nome_curso', 'tipo_curso', 'tipo_oferta', 
            'modalidade', 'carga_horaria', 'fator_esforco_curso',
            # Coluna Alvo
            'situacao'
        ]]
    print(df.shape)
    efa_selected.append(df)
    i = i + 1

(99653, 17)
(53407, 17)
(51013, 17)
(55743, 12)


In [29]:
i = 2021

for df in efa_selected:
    print(i)
    print(list(df.columns))
    i = i-1

2021
['codigo_matricula', 'instituicao', 'regiao', 'estado', 'subeixo_tecnologico', 'nome_curso', 'tipo_curso', 'tipo_oferta', 'modalidade', 'turno', 'carga_horaria', 'fator_esforco_curso', 'sexo', 'etnia', 'faixa_etaria', 'renda_familiar', 'situacao']
2020
['codigo_matricula', 'instituicao', 'regiao', 'estado', 'subeixo_tecnologico', 'nome_curso', 'tipo_curso', 'tipo_oferta', 'modalidade', 'turno', 'carga_horaria', 'fator_esforco_curso', 'sexo', 'etnia', 'faixa_etaria', 'renda_familiar', 'situacao']
2019
['codigo_matricula', 'instituicao', 'regiao', 'estado', 'subeixo_tecnologico', 'nome_curso', 'tipo_curso', 'tipo_oferta', 'modalidade', 'turno', 'carga_horaria', 'fator_esforco_curso', 'sexo', 'etnia', 'faixa_etaria', 'renda_familiar', 'situacao']
2018
['codigo_matricula', 'instituicao', 'regiao', 'estado', 'subeixo_tecnologico', 'nome_curso', 'tipo_curso', 'tipo_oferta', 'modalidade', 'carga_horaria', 'fator_esforco_curso', 'situacao']


**Salvando datasets modificados**

In [30]:
efa_selected[0].to_csv("../datasets/selected/eficiencia/efa_2021.csv", sep=";", encoding="latin-1")

In [31]:
efa_selected[1].to_csv("../datasets/selected/eficiencia/efa_2020.csv", sep=";", encoding="latin-1")

In [32]:
efa_selected[2].to_csv("../datasets/selected/eficiencia/efa_2019.csv", sep=";", encoding="latin-1")

In [33]:
efa_selected[3].to_csv("../datasets/selected/eficiencia/efa_2018.csv", sep=";", encoding="latin-1")