# 📌 1. Introdução 

A **preparação de dados** é uma etapa essencial no desenvolvimento de modelos preditivos, garantindo que os dados estejam limpos, organizados e adequados para análise.  
Neste notebook, realizamos **atividades fundamentais de tratamento e engenharia de dados** para criar uma base de dados confiável para a modelagem preditiva do status acadêmico dos alunos.

### 1.2 Objetivo:
✅ **Garantir a qualidade dos dados** → Remover inconsistências, tratar valores ausentes e padronizar os atributos.  
✅ **Selecionar variáveis relevantes** → Identificar quais atributos serão usados na modelagem preditiva.  
✅ **Criar novos atributos** → Gerar informações derivadas que auxiliem na previsão da evasão.  
✅ **Transformar e exportar os dados processados** → Deixar os dados prontos para o modelo preditivo.

### 1.3  Escopo deste notebook:
Este notebook faz parte de um pipeline maior e abrange **somente a preparação dos dados**.  
Os próximos notebooks abordam **modelagem preditiva e avaliação dos resultados**.

As etapas realizadas aqui incluem:

1️⃣ **Carregamento e Inspeção da Base de Dados**  
2️⃣ **Tratamento de Dados Ausentes e Inconsistências**  
3️⃣ **Criação de Atributos**  
4️⃣ **Exportação da Base Preparada** 

A saída deste notebook será **uma base de dados processada e pronta para ser utilizada nos modelos preditivos** que serão desenvolvidos nos próximos passos.  


### 1.4 Bibliotecas Utilizadas

Para realizar a preparação dos dados, utilizamos as seguintes bibliotecas:

- **numpy** → Manipulação de arrays e operações numéricas.  
- **pandas** → Leitura, manipulação e processamento de dados tabulares.  
- **matplotlib** → Geração de gráficos e visualizações.  
- **seaborn** → Visualização de dados estatísticos aprimorada.  
- **datetime** → Manipulação e conversão de datas para análise temporal.  

Essas bibliotecas permitem a **leitura da base de dados, tratamento de inconsistências, criação de novas variáveis e visualização das distribuições**, garantindo que os dados estejam bem estruturados para a modelagem preditiva.


In [2]:
import numpy  as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
from datetime import datetime

## 2. Carregamento e Visualização dos Dados

Nesta etapa, carregamos os dados dos alunos a partir de **três bases de cursos diferentes**:  
- **Ciência da Computação (`cc`)**  
- **Enfermagem (`enfermagem`)**  
- **BICT - Bacharelado Interdisciplinar em Ciência e Tecnologia (`bict`)**  

Os arquivos CSV foram importados e combinados em um único DataFrame para facilitar a análise e o processamento.

#### Etapas realizadas:
1️⃣ **Leitura dos arquivos CSV** → Cada conjunto de dados foi carregado separadamente.  
2️⃣ **Concatenação das bases** → Unimos os três DataFrames em um único conjunto de dados.  
3️⃣ **Criação de uma cópia dos dados** → Evita modificações diretas na base original.  
4️⃣ **Contagem de registros** → O DataFrame consolidado contém **12.177 registros**.

---

In [7]:
db_cc = pd.read_csv('base/amostra_alunos_completa_cc_10_2024.csv', encoding='ISO-8859-1', delimiter=';')
db_enfermagem = pd.read_csv('base/amostra_alunos_completa_enfermagem_10_2024.csv', encoding='ISO-8859-1', delimiter=';')
db_bict = pd.read_csv('base/amostra_alunos_completa_bict_10_2024.csv', encoding='ISO-8859-1', delimiter=';')
df_alunos = pd.concat([db_enfermagem,db_bict,db_cc], axis=0, ignore_index=True)
df_alunos_copia = df_alunos.copy()
print("✅ Amostras Carregadas..")
print(f"✅ Amostras concatenadas totalizando {df_alunos.shape[0]} registros.")

✅ Amostras Carregadas..
✅ Amostras concatenadas totalizando 12177 registros.


### 2.1 Inspeção e Seleção das Variáveis

Após o carregamento dos dados, realizamos uma **análise exploratória inicial** para entender a estrutura da base e identificar possíveis problemas.  

#### Inspeção dos Dados:
- O conjunto de dados contém **54 colunas e 12.177 registros**.
- Muitas colunas apresentam **valores nulos**, informações sensíveis ou irrelevantes para o objetivo do estudo.
- Algumas colunas contêm **dados pessoais** que não são necessários para a modelagem preditiva.

#### Seleção das Variáveis:
Para garantir um **modelo preditivo eficiente e interpretável**, trabalharemos **apenas com variáveis relevantes** para a previsão do status acadêmico dos alunos.  
Foram selecionadas as seguintes colunas:

✅ **Dados acadêmicos e de desempenho:** 
- `Curso`
- `Coeficiente_de_Rendimento`  
- `Média_de_Conclusão`  
- `Índice_de_Eficiência_em_Carga_Horária`  
- `Índice_de_Eficiência_em_Períodos_Letivos`  
- `Índice_de_Eficiência_Acadêmica`  

✅ **Características demográficas:**  
- `Sexo`  
- `Tipo_Rede_Ensino`  
- `Tipo_Raca`  
- `Cidade_Estado`  
- `Faixa_Etaria`
- `Tipo_Rede_Ensino` 
- `Forma_Ingresso` 

✅ **Dados temporais:**  
- `Ano_Ingresso`  
- `Periodo_Ingresso`  
- `Ano_Periodo_Saida`  

✅ **Variável alvo (status do aluno):**  
- `Status` (Concluído ou Desligado)  

A seleção dessas variáveis foi feita com base **no conhecimento do domínio e na disponibilidade das informações no momento da previsão**.  



In [11]:
df_alunos.head(2)

Unnamed: 0,Curso,Currículo,Turno,Grau_Academico,Campus,Modalidade,Matrícula,Nome,Email,País,...,Nome_Pai,Tipo_Logradouro,Logradouro,Numero,Complemento,CEP,Ingresso_Judicial,Observacao_Judicial,Utilizou_Bonificacao,Unnamed: 53
0,ENFERMAGEM,30,Matutino e Vespertino,LICENCIATURA PLENA E BACHARELADO,CAMPUS SAO LUIS,Presencial,2009023485,ABELINA DE JESUS PAOZINHO ERICEIRA,abeericeira@gmail.com,Brasil,...,JOSE ARIMATEA ERICEIRA,Rua,"103-NORTE EXTERNA, UNIDADE 103,",73,,65058-077,Não,,,
1,ENFERMAGEM,32,Matutino e Vespertino,BACHARELADO,CAMPUS SAO LUIS,Presencial,2015019746,ABGAIL DIAS DOS SANTOS,abgailsantos@outlook.com,Brasil,...,CLOVIS PEREIRA DOS SANTOS,Rua,TRINTA,22,QD 56,65032-140,Não,,,


In [12]:
df_alunos.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 12177 entries, 0 to 12176
Data columns (total 54 columns):
 #   Column                                      Non-Null Count  Dtype  
---  ------                                      --------------  -----  
 0   Curso                                       12177 non-null  object 
 1   Currículo                                   12177 non-null  object 
 2   Turno                                       12177 non-null  object 
 3   Grau_Academico                              12177 non-null  object 
 4   Campus                                      12177 non-null  object 
 5   Modalidade                                  12177 non-null  object 
 6   Matrícula                                   12177 non-null  int64  
 7   Nome                                        12177 non-null  object 
 8   Email                                       9698 non-null   object 
 9   País                                        12177 non-null  object 
 10  Cidade_Est

In [13]:
colunas =['Curso','Nome','Data_Nascimento','Cidade_Estado','CEP','Sexo','Tipo_Rede_Ensino','Tipo_Raca','Ano_Ingresso','Periodo_Ingresso','Forma_Ingresso',
          'Ano_Periodo_Saida','Tipo_Saida','Prazo_Integralizacao','Coeficiente_de_Rendimento','Média_de_Conclusão',
          'Índice_de_Eficiência_em_Carga_Horária','Índice_de_Eficiência_em_Períodos_Letivos','Índice_de_Eficiência_Acadêmica','Status']
df_alunos_copia = df_alunos_copia[colunas]

## 3 - Ajustes e Recortes Aplicados aos Dados

Durante o processo de carregamento e inspeção dos dados, algumas **correções e ajustes** foram necessários para garantir a consistência e a relevância das análises. Essas modificações foram realizadas **após consulta e recomendação da PROEN**, garantindo que o conjunto de dados reflita a realidade acadêmica.

### 3.1 Ajuste do `Status` dos alunos:
Após análise detalhada, foi identificado que alunos com **Tipo de Saída = "CANCELAMENTO (RESOL 1175/ CONSEPE Art.156)"** deveriam ser **reclassificados como "Desligado"** na variável `Status`, pois essa categoria representa **situações de evasão acadêmica**.  
Para corrigir essa inconsistência.

#### **Impacto das Modificações**
- 🔍 **331 registros foram reclassificados como 'DESLIGADO'** devido ao ajuste no Tipo de Saída.

---

In [14]:
df_alunos_copia.loc[df_alunos_copia['Tipo_Saida'] == 'CANCELAMENTO (RESOL 1175/CONSEPE Art.156)', 'Status'] = 'DESLIGADO'

### 3.2 - Ajuste com Base no Prazo de Integralização

- Alunos cujo **Prazo Máximo de Integralização** já tenha sido ultrapassado (ou seja, menor que o ano atual) e que ainda estavam com **Status = "CANCELADO" ou "ATIVO"**, foram reclassificados como **"DESLIGADO"**.
- Esse ajuste foi fundamental para garantir que alunos que excederam o prazo estabelecido fossem corretamente identificados na base.

#### **Impacto das Modificações**
- 🔍 **1.504 registros tiveram o Status alterado para 'DESLIGADO'** devido ao ajuste no Prazo de Integralização.

---


In [16]:
# Criando a variável 'Prazo_Integralizacao_Ano' com os 4 primeiros dígitos
df_alunos_copia['Prazo_Integralizacao_Ano'] = df_alunos_copia['Prazo_Integralizacao'].astype(str).str[:4].astype(int)

# Criando a variável 'Prazo_Integralizacao_Semestre' com o último dígito
df_alunos_copia['Prazo_Integralizacao_Semestre'] = df_alunos_copia['Prazo_Integralizacao'].astype(str).str[-1].astype(int)

In [17]:
# Obtendo o ano atual
ano_atual = datetime.now().year

# Filtrando alunos impactados antes de aplicar a mudança
impactados = df_alunos_copia[
    (df_alunos_copia['Prazo_Integralizacao_Ano'] < ano_atual) & 
    (df_alunos_copia['Status'].isin(['CANCELADO', 'ATIVO']))
]

# Exibir quantidade de alunos afetados
print(f"Total de alunos que serão reclassificados para 'DESLIGADO': {len(impactados)}")

# Aplicando a atualização de forma condicional
df_alunos_copia.loc[
    (df_alunos_copia['Prazo_Integralizacao_Ano'] < ano_atual) & 
    (df_alunos_copia['Status'].isin(['CANCELADO', 'ATIVO'])), 
    'Status'
] = 'DESLIGADO'

# Exibir a contagem de Status após a alteração para verificar a mudança
print("\nDistribuição do Status após a reclassificação:")
print(df_alunos_copia['Status'].value_counts())


Total de alunos que serão reclassificados para 'DESLIGADO': 1504

Distribuição do Status após a reclassificação:
Status
DESLIGADO            5318
CONCLUÍDO            3497
ATIVO                2131
CANCELADO             886
TRANCADO              225
GRADUANDO              75
FORMANDO               32
PENDENTE CADASTRO       5
CADASTRADO              4
Name: count, dtype: int64


### 3.3 Tratamento de Valores Ausentes e Inconsistências

Durante a análise da base de dados, observamos a presença de valores ausentes em algumas variáveis essenciais para a modelagem preditiva. Para garantir a qualidade e confiabilidade dos dados, aplicamos os seguintes procedimentos:

##### 1️⃣ Identificação dos Valores Ausentes
Inicialmente, calculamos a quantidade e a porcentagem de valores ausentes em cada variável do conjunto de dados. Esse processo nos permitiu identificar quais colunas possuíam um volume significativo de valores faltantes.

##### 2️⃣ Critério para Remoção de Registros
Foram definidos critérios específicos para remoção de registros com valores ausentes:
- Removemos registros que apresentavam valores ausentes em variáveis essenciais para a análise e modelagem, como **Coeficiente de Rendimento, Índice de Eficiência Acadêmica, Média de Conclusão e Status**.
- A decisão de remover registros levou em consideração a proporção de valores ausentes em relação ao total de registros da base.

##### 3️⃣ Armazenamento de Registros Removidos
Antes de remover os registros, armazenamos os dados eliminados em um arquivo CSV (`registros_nulos.csv`) para rastreabilidade e possível reavaliação futura.

##### 4️⃣ Reavaliação da Base de Dados Após Limpeza
Após a remoção dos registros, reavaliamos a quantidade de valores ausentes restantes. A tabela de valores ausentes foi atualizada, garantindo que apenas colunas irrelevantes ou de baixa influência possuíssem valores faltantes.

Esse tratamento garante que os dados estejam mais consistentes e alinhados ao objetivo do estudo, minimizando impactos negativos na modelagem preditiva.


In [18]:
valores_ausentes = df_alunos_copia.isnull().sum() 
valores_ausentes = pd.DataFrame(valores_ausentes).reset_index()
valores_ausentes.columns = ['Coluna', 'Valores Ausentes']  
valores_ausentes['% Ausentes'] = (valores_ausentes['Valores Ausentes'] / len(df_alunos_copia)) * 100
valores_ausentes = valores_ausentes.sort_values(by='% Ausentes', ascending=False)
valores_ausentes

Unnamed: 0,Coluna,Valores Ausentes,% Ausentes
12,Tipo_Saida,6068,49.83165
11,Ano_Periodo_Saida,2572,21.121787
2,Data_Nascimento,709,5.822452
6,Tipo_Rede_Ensino,94,0.771947
4,CEP,40,0.328488
18,Índice_de_Eficiência_Acadêmica,15,0.123183
17,Índice_de_Eficiência_em_Períodos_Letivos,15,0.123183
16,Índice_de_Eficiência_em_Carga_Horária,15,0.123183
15,Média_de_Conclusão,15,0.123183
14,Coeficiente_de_Rendimento,8,0.065698


In [19]:
colunas_para_verificar = ['CEP', 'Data_Nascimento', 'Tipo_Rede_Ensino','Índice_de_Eficiência_Acadêmica','Índice_de_Eficiência_em_Períodos_Letivos',
                          'Índice_de_Eficiência_em_Carga_Horária','Média_de_Conclusão','Coeficiente_de_Rendimento','Status','Cidade_Estado']

df_registros_nulos = df_alunos_copia[df_alunos_copia[colunas_para_verificar].isnull().any(axis=1)]

df_alunos_copia = df_alunos_copia.dropna(subset=colunas_para_verificar)

In [131]:
df_registros_nulos.to_csv('base/registros_nulos.csv', index=False)

In [20]:
percentual_nulos = (len(df_registros_nulos) * 100) / len(df_alunos_copia)
print(f'Percentual de registros nulos a serem removidos: {percentual_nulos:.2f}%')

Percentual de registros nulos a serem removidos: 7.51%


In [21]:
valores_ausentes = df_alunos_copia.isnull().sum() 
valores_ausentes = pd.DataFrame(valores_ausentes).reset_index()
valores_ausentes.columns = ['Coluna', 'Valores Ausentes']  

valores_ausentes['% Ausentes'] = (valores_ausentes['Valores Ausentes'] / len(df_alunos_copia)) * 100
valores_ausentes = valores_ausentes.sort_values(by='% Ausentes', ascending=False)
valores_ausentes

Unnamed: 0,Coluna,Valores Ausentes,% Ausentes
12,Tipo_Saida,5732,50.609218
11,Ano_Periodo_Saida,2553,22.541056
1,Nome,0,0.0
20,Prazo_Integralizacao_Ano,0,0.0
19,Status,0,0.0
18,Índice_de_Eficiência_Acadêmica,0,0.0
17,Índice_de_Eficiência_em_Períodos_Letivos,0,0.0
16,Índice_de_Eficiência_em_Carga_Horária,0,0.0
15,Média_de_Conclusão,0,0.0
14,Coeficiente_de_Rendimento,0,0.0


## 4 - Criação de Novas Características


### 4.1 - Tempo de Permanência em Meses
Foi criada a variável **Tempo_permanencia_Meses**, que representa o tempo total que cada aluno permaneceu na instituição até sua saída. O objetivo dessa métrica é analisar e comparar o tempo médio de permanência entre diferentes grupos de alunos. 

Essa informação é essencial para entender padrões acadêmicos, avaliar a duração dos cursos e identificar possíveis fatores que influenciam a evasão e a conclusão.

##### Passos para a Criação da Variável:
1. **Divisão da Coluna `Ano_Periodo_Saida`**  
   - A coluna `Ano_Periodo_Saida` foi dividida em duas novas colunas: `Ano_Saida` e `Semestre_Saida`, separando o ano e o semestre de saída do aluno.
   
2. **Conversão para Formato Numérico**  
   - Os valores das colunas `Ano_Saida` e `Semestre_Saida` foram convertidos para o formato numérico (`int`), substituindo valores ausentes por 0.

3. **Cálculo do Tempo de Permanência**  
   - O tempo de permanência foi calculado em meses, considerando a diferença entre `Ano_Saida` e `Ano_Ingresso`, multiplicada por 12 (número de meses em um ano).
   - Além disso, foi adicionado um ajuste para contabilizar corretamente os meses adicionais baseados no semestre de saída:
     - Se o aluno saiu no **primeiro semestre**, foram adicionados **6 meses**.
     - Se saiu no **segundo semestre**, foram adicionados **12 meses**.

##### Importância da Variável:
- Essa nova característica permite uma análise mais detalhada da trajetória acadêmica do aluno.
- Ajuda a identificar padrões na duração média dos cursos e sua relação com a evasão.
- Fornece uma métrica que pode ser utilizada diretamente em modelos preditivos para melhorar a capacidade de previsão da evasão acadêmica.



In [182]:
# Dividindo a coluna Ano_Periodo_Saida em ano e semestre
df_alunos_copia[['Ano_Saida', 'Semestre_Saida']] = df_alunos_copia['Ano_Periodo_Saida'].astype(str).str.split('.', expand=True)
df_alunos_copia['Ano_Saida'] = pd.to_numeric(df_alunos_copia['Ano_Saida'], errors='coerce').fillna(0).astype(int)
df_alunos_copia['Semestre_Saida'] = pd.to_numeric(df_alunos_copia['Semestre_Saida'], errors='coerce').fillna(0).astype(int)
df_alunos_copia['Tempo_permanencia_Meses'] = (df_alunos_copia['Ano_Saida'] - df_alunos_copia['Ano_Ingresso']) * 12
df_alunos_copia['Tempo_permanencia_Meses'] += df_alunos_copia['Semestre_Saida'].apply(lambda x: 6 if x == 1 else 12)

### 4.2 - Criação da Característica "Faixa Etária"

A variável **Faixa Etária** foi criada para representar a idade do aluno no momento do ingresso na instituição. Essa informação pode ser relevante para análises futuras, ajudando a entender o perfil etário dos alunos e sua relação com a conclusão ou evasão acadêmica.

A construção dessa variável envolveu as seguintes etapas:

1. **Conversão da Data de Nascimento**  
   - A variável `Data_Nascimento` foi transformada em um formato de data (`datetime`) para facilitar os cálculos relacionados à idade dos alunos.

2. **Criação da Data de Ingresso**  
   - Como a base não possuía diretamente a data exata de ingresso, foi necessário construir a variável `Data_Ingresso` com base no `Ano_Ingresso` e `Periodo_Ingresso`.  
   - O primeiro semestre foi considerado como **01 de janeiro** do respectivo ano, e o segundo semestre como **01 de julho** do ano seguinte.

3. **Cálculo da Idade no Momento do Ingresso**  
   - A idade foi obtida subtraindo-se a `Data_Ingresso` da `Data_Nascimento` e convertendo a diferença para anos completos.

4. **Classificação da Idade em Faixas Etárias**  
   - Para facilitar a análise e agrupar alunos com perfis semelhantes, a variável `Faixa_Etaria` foi criada segmentando a idade em cinco categorias:
     - `até 20 anos`
     - `21 a 25 anos`
     - `26 a 30 anos`
     - `31 a 40 anos`
     - `maior de 40 anos`

Após essas transformações, a variável **Faixa Etária** ficou disponível para ser utilizada em análises exploratórias e modelagens futuras.


In [22]:
df_alunos_copia['Data_Nascimento'] = pd.to_datetime(df_alunos_copia['Data_Nascimento'], format='%d/%m/%Y', errors='coerce')

# Criar a coluna de Data_Ingresso
df_alunos_copia['Data_Ingresso'] = pd.to_datetime(
    df_alunos_copia['Ano_Ingresso'].astype(str) + '-' + 
    (df_alunos_copia['Periodo_Ingresso'] * 6 - 5).astype(str) + '-01', 
    format='%Y-%m-%d'
)
df_alunos_copia['Idade_Ingresso'] = ((df_alunos_copia['Data_Ingresso'] - df_alunos_copia['Data_Nascimento']).dt.days / 365.25).astype(int)
df_alunos_copia[['Ano_Ingresso', 'Periodo_Ingresso', 'Data_Nascimento', 'Data_Ingresso', 'Idade_Ingresso','Status']].head()

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df_alunos_copia['Data_Nascimento'] = pd.to_datetime(df_alunos_copia['Data_Nascimento'], format='%d/%m/%Y', errors='coerce')
A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df_alunos_copia['Data_Ingresso'] = pd.to_datetime(
A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df_alunos_copia['Idade_Ingress

Unnamed: 0,Ano_Ingresso,Periodo_Ingresso,Data_Nascimento,Data_Ingresso,Idade_Ingresso,Status
0,2009,2,1990-12-13,2009-07-01,18,CONCLUÍDO
1,2015,1,1995-08-28,2015-01-01,19,CONCLUÍDO
2,2013,2,1988-11-07,2013-07-01,24,DESLIGADO
5,2013,1,1995-11-14,2013-01-01,17,DESLIGADO
7,2007,2,1989-01-29,2007-07-01,18,DESLIGADO


### Calcular a idade no momento do ingresso

In [23]:
registros_alunos_menos_16_anos = df_alunos_copia[df_alunos_copia['Idade_Ingresso']<16]
registros_alunos_menos_16_anos.to_csv('base/registros_alunos_menos_16_anos.csv', index=False)

In [24]:
df_alunos_copia = df_alunos_copia[df_alunos_copia['Idade_Ingresso'] >= 16]

In [25]:
df_alunos_copia.shape[0]

11322

In [26]:
# Definir os novos intervalos (bins) e rótulos (labels)
bins = [0, 20, 25, 30, 40, 100]  # Definindo os limites das faixas etárias
labels = ['até 20', '21 a 25', '26 a 30', '31 a 40', 'maior de 40']  # Novas faixas etárias

# Criar a nova coluna 'Faixa_Etaria' com base nos intervalos definidos
df_alunos_copia['Faixa_Etaria'] = pd.cut(df_alunos_copia['Idade_Ingresso'], bins=bins, labels=labels, right=True)
df_alunos_copia[['Idade_Ingresso', 'Faixa_Etaria']].head()


Unnamed: 0,Idade_Ingresso,Faixa_Etaria
0,18,até 20
1,19,até 20
2,24,21 a 25
5,17,até 20
7,18,até 20


### 4.3 - Criação da Característica "Região de Origem"

A variável **Região de Origem** foi criada para categorizar a procedência dos alunos com base na informação de cidade e estado de origem (`Cidade_Estado`). O objetivo dessa variável é facilitar a análise da distribuição geográfica dos alunos e entender possíveis padrões relacionados à permanência e conclusão no curso.

#### **Critérios de Classificação**
Para essa categorização, os alunos foram classificados em três grupos distintos:
- **"São Luís-MA"** → Se a cidade informada for **São Luís**, capital do Maranhão.
- **"Outros Municípios do Maranhão"** → Se a cidade informada for de qualquer outro município do estado do Maranhão.
- **"Outros Estados"** → Para alunos provenientes de estados diferentes do Maranhão.

Caso o campo `Cidade_Estado` esteja ausente ou não identificado, o valor **"Indefinido"** foi atribuído.

#### **Metodologia**
A classificação foi implementada por meio de uma função Python que:
1. **Verifica se o valor é uma string válida**.
2. **Analisa a presença da string "SÃO LUÍS-MA"** para classificar o aluno na categoria correspondente.
3. **Verifica se há a sigla "-MA" no nome da cidade** para identificar alunos oriundos do estado do Maranhão (excluindo São Luís).
4. **Atribui "Outros Estados" para os demais casos**.

Após essa categorização, a variável **Região de Origem** foi criada e passou a estar disponível para análise estatística e modelagem preditiva.


In [27]:
def classificar_regiao(cidade_estado):
    if isinstance(cidade_estado, str):  
        if "SÃO LUÍS-MA" in cidade_estado.upper():
            return "São Luís-MA"
        elif "-MA" in cidade_estado.upper():
            return "Outros Municípios do Maranhão"
        else:
            return "Outros Estados"
    return "Indefinido"  

df_alunos_copia['Região_Origem'] = df_alunos_copia['Cidade_Estado'].apply(classificar_regiao)

print(df_alunos_copia['Região_Origem'].value_counts())


Região_Origem
São Luís-MA                      8613
Outros Municípios do Maranhão    1957
Outros Estados                    752
Name: count, dtype: int64


In [28]:
df_alunos_copia['Região_Origem'].value_counts(normalize=True)

Região_Origem
São Luís-MA                      0.760731
Outros Municípios do Maranhão    0.172849
Outros Estados                   0.066419
Name: proportion, dtype: float64

## 6. Separação da Amostra para Análise

Nesta última etapa da preparação dos dados, realizamos a segmentação dos registros para garantir que a análise seja conduzida com dados consistentes e alinhados com o objetivo do estudo.

#### 📌 Objetivo da Separação:
1. **Analisar os padrões entre estudantes que concluíram e os que foram desligados**.
2. **Garantir que os registros utilizados sejam representativos** e condizentes com o período acadêmico recente.
3. **Eliminar registros que não contribuem para a análise do problema**, como alunos que ainda estão ativos ou com status indefinido.

#### 📂 Critérios de Separação:
- **Foram considerados apenas registros de alunos ingressantes a partir de 2011**. Uma recomendação da PROEN, a partir desse anos os dados são mais consistentes e garante maior relevância na análise.
- **Alunos com status "ATIVO", "CANCELADO", "TRANCADO", "GRADUANDO", "FORMANDO" e "CADASTRADO" foram removidos**. O foco do estudo está nos estudantes que tiveram um desfecho acadêmico (concluíram ou foram desligados).
- **Amostras foram divididas em dois grupos principais**:
  - **Grupo 1:** Alunos ingressantes até 2010, que foram salvos separadamente para futuras análises.
  - **Grupo 2:** Alunos ingressantes a partir de 2011, que foram separados entre "CONCLUÍDOS" e "DESLIGADOS".

#### 🔹 Resultados da Separação:
Após a filtragem dos dados, obtemos as seguintes quantidades de registros:
- **Alunos ingressantes até 2010:** 2.938 registros salvos separadamente.
- **Alunos ingressantes a partir de 2011:** 8.384 registros, sendo:
  - **5.042 alunos com status "CONCLUÍDO" ou "DESLIGADO"** (utilizados para análise principal).
  - **3.342 alunos ainda ativos ou cancelados** (removidos do estudo principal, mas armazenados para futuras análises).

#### ✅ Conclusão
Com essa separação, garantimos que a modelagem e as análises sejam realizadas com uma amostra consistente e representativa do fenômeno investigado, permitindo melhores insights sobre os fatores que influenciam a conclusão ou desligamento dos alunos.


In [190]:
colunas = ['Nome','Curso','Sexo','Tipo_Raca','Região_Origem','Idade_Ingresso','Faixa_Etaria','Tipo_Rede_Ensino','Tipo_Raca','Ano_Ingresso','Periodo_Ingresso',
           'Forma_Ingresso','Ano_Saida','Semestre_Saida','Tipo_Saida','Prazo_Integralizacao','Prazo_Integralizacao_Ano','Prazo_Integralizacao_Semestre',
           'Tempo_permanencia_Meses','Coeficiente_de_Rendimento','Média_de_Conclusão','Índice_de_Eficiência_em_Carga_Horária','Tempo_permanencia_Meses',
           'Índice_de_Eficiência_em_Períodos_Letivos','Índice_de_Eficiência_Acadêmica','Status']

In [192]:
df_alunos_2010 = df_alunos_copia[df_alunos_copia['Ano_Ingresso'] <= 2010]
#df_alunos_2010 = df_alunos_2010[colunas]
df_alunos_2010.to_csv('base/Base_limpa_aluno_ano_ingresso_menor_2011.csv', index=False)
len(df_alunos_2010)

2938

In [159]:
df_alunos_2011 = df_alunos_copia[df_alunos_copia['Ano_Ingresso'] >= 2011]
len(df_alunos_2011)

8384

In [165]:
df_alunos_2011_concluido_desligado = df_alunos_2011[~df_alunos_2011["Status"].isin(["ATIVO","CANCELADO","TRANCADO","GRADUANDO","FORMANDO","CADASTRADO"])]
df_alunos_2011_concluido_desligado.to_csv('base/Base_limpa_alunos_maior_2010_concluido_desligado.csv', index=False)
len(df_alunos_2011_concluido_desligado)

5042

In [166]:
df_alunos_2011_ativos_cancelados = df_alunos_2011[df_alunos_2011["Status"].isin(["ATIVO","CANCELADO","TRANCADO","GRADUANDO","FORMANDO","CADASTRADO"])]
df_alunos_2011_ativos_cancelados.to_csv('base/Base_limpa_alunos_maior_2010_ativos_cancelados.csv', index=False)
len(df_alunos_2011_ativos_cancelados)

3342