# üìå 1. Introdu√ß√£o 

A **prepara√ß√£o de dados** √© uma etapa essencial no desenvolvimento de modelos preditivos, garantindo que os dados estejam limpos, organizados e adequados para an√°lise.  
Neste notebook, realizamos **atividades fundamentais de tratamento e engenharia de dados** para criar uma base de dados confi√°vel para a modelagem preditiva do status acad√™mico dos alunos.

### 1.2 Objetivo:
‚úÖ **Garantir a qualidade dos dados** ‚Üí Remover inconsist√™ncias, tratar valores ausentes e padronizar os atributos.  
‚úÖ **Selecionar vari√°veis relevantes** ‚Üí Identificar quais atributos ser√£o usados na modelagem preditiva.  
‚úÖ **Criar novos atributos** ‚Üí Gerar informa√ß√µes derivadas que auxiliem na previs√£o da evas√£o.  
‚úÖ **Transformar e exportar os dados processados** ‚Üí Deixar os dados prontos para o modelo preditivo.

### 1.3  Escopo deste notebook:
Este notebook faz parte de um pipeline maior e abrange **somente a prepara√ß√£o dos dados**.  
Os pr√≥ximos notebooks abordam **modelagem preditiva e avalia√ß√£o dos resultados**.

As etapas realizadas aqui incluem:

1Ô∏è‚É£ **Carregamento e Inspe√ß√£o da Base de Dados**  
2Ô∏è‚É£ **Tratamento de Dados Ausentes e Inconsist√™ncias**  
3Ô∏è‚É£ **Cria√ß√£o de Atributos**  
4Ô∏è‚É£ **Exporta√ß√£o da Base Preparada** 

A sa√≠da deste notebook ser√° **uma base de dados processada e pronta para ser utilizada nos modelos preditivos** que ser√£o desenvolvidos nos pr√≥ximos passos.  


### 1.4 Bibliotecas Utilizadas

Para realizar a prepara√ß√£o dos dados, utilizamos as seguintes bibliotecas:

- **numpy** ‚Üí Manipula√ß√£o de arrays e opera√ß√µes num√©ricas.  
- **pandas** ‚Üí Leitura, manipula√ß√£o e processamento de dados tabulares.  
- **matplotlib** ‚Üí Gera√ß√£o de gr√°ficos e visualiza√ß√µes.  
- **seaborn** ‚Üí Visualiza√ß√£o de dados estat√≠sticos aprimorada.  
- **datetime** ‚Üí Manipula√ß√£o e convers√£o de datas para an√°lise temporal.  

Essas bibliotecas permitem a **leitura da base de dados, tratamento de inconsist√™ncias, cria√ß√£o de novas vari√°veis e visualiza√ß√£o das distribui√ß√µes**, garantindo que os dados estejam bem estruturados para a modelagem preditiva.


In [2]:
import numpy  as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
from datetime import datetime

## 2. Carregamento e Visualiza√ß√£o dos Dados

Nesta etapa, carregamos os dados dos alunos a partir de **tr√™s bases de cursos diferentes**:  
- **Ci√™ncia da Computa√ß√£o (`cc`)**  
- **Enfermagem (`enfermagem`)**  
- **BICT - Bacharelado Interdisciplinar em Ci√™ncia e Tecnologia (`bict`)**  

Os arquivos CSV foram importados e combinados em um √∫nico DataFrame para facilitar a an√°lise e o processamento.

#### Etapas realizadas:
1Ô∏è‚É£ **Leitura dos arquivos CSV** ‚Üí Cada conjunto de dados foi carregado separadamente.  
2Ô∏è‚É£ **Concatena√ß√£o das bases** ‚Üí Unimos os tr√™s DataFrames em um √∫nico conjunto de dados.  
3Ô∏è‚É£ **Cria√ß√£o de uma c√≥pia dos dados** ‚Üí Evita modifica√ß√µes diretas na base original.  
4Ô∏è‚É£ **Contagem de registros** ‚Üí O DataFrame consolidado cont√©m **12.177 registros**.

---

In [7]:
db_cc = pd.read_csv('base/amostra_alunos_completa_cc_10_2024.csv', encoding='ISO-8859-1', delimiter=';')
db_enfermagem = pd.read_csv('base/amostra_alunos_completa_enfermagem_10_2024.csv', encoding='ISO-8859-1', delimiter=';')
db_bict = pd.read_csv('base/amostra_alunos_completa_bict_10_2024.csv', encoding='ISO-8859-1', delimiter=';')
df_alunos = pd.concat([db_enfermagem,db_bict,db_cc], axis=0, ignore_index=True)
df_alunos_copia = df_alunos.copy()
print("‚úÖ Amostras Carregadas..")
print(f"‚úÖ Amostras concatenadas totalizando {df_alunos.shape[0]} registros.")

‚úÖ Amostras Carregadas..
‚úÖ Amostras concatenadas totalizando 12177 registros.


### 2.1 Inspe√ß√£o e Sele√ß√£o das Vari√°veis

Ap√≥s o carregamento dos dados, realizamos uma **an√°lise explorat√≥ria inicial** para entender a estrutura da base e identificar poss√≠veis problemas.  

#### Inspe√ß√£o dos Dados:
- O conjunto de dados cont√©m **54 colunas e 12.177 registros**.
- Muitas colunas apresentam **valores nulos**, informa√ß√µes sens√≠veis ou irrelevantes para o objetivo do estudo.
- Algumas colunas cont√™m **dados pessoais** que n√£o s√£o necess√°rios para a modelagem preditiva.

#### Sele√ß√£o das Vari√°veis:
Para garantir um **modelo preditivo eficiente e interpret√°vel**, trabalharemos **apenas com vari√°veis relevantes** para a previs√£o do status acad√™mico dos alunos.  
Foram selecionadas as seguintes colunas:

‚úÖ **Dados acad√™micos e de desempenho:** 
- `Curso`
- `Coeficiente_de_Rendimento`  
- `M√©dia_de_Conclus√£o`  
- `√çndice_de_Efici√™ncia_em_Carga_Hor√°ria`  
- `√çndice_de_Efici√™ncia_em_Per√≠odos_Letivos`  
- `√çndice_de_Efici√™ncia_Acad√™mica`  

‚úÖ **Caracter√≠sticas demogr√°ficas:**  
- `Sexo`  
- `Tipo_Rede_Ensino`  
- `Tipo_Raca`  
- `Cidade_Estado`  
- `Faixa_Etaria`
- `Tipo_Rede_Ensino` 
- `Forma_Ingresso` 

‚úÖ **Dados temporais:**  
- `Ano_Ingresso`  
- `Periodo_Ingresso`  
- `Ano_Periodo_Saida`  

‚úÖ **Vari√°vel alvo (status do aluno):**  
- `Status` (Conclu√≠do ou Desligado)  

A sele√ß√£o dessas vari√°veis foi feita com base **no conhecimento do dom√≠nio e na disponibilidade das informa√ß√µes no momento da previs√£o**.  



In [11]:
df_alunos.head(2)

Unnamed: 0,Curso,Curr√≠culo,Turno,Grau_Academico,Campus,Modalidade,Matr√≠cula,Nome,Email,Pa√≠s,...,Nome_Pai,Tipo_Logradouro,Logradouro,Numero,Complemento,CEP,Ingresso_Judicial,Observacao_Judicial,Utilizou_Bonificacao,Unnamed: 53
0,ENFERMAGEM,30,Matutino e Vespertino,LICENCIATURA PLENA E BACHARELADO,CAMPUS SAO LUIS,Presencial,2009023485,ABELINA DE JESUS PAOZINHO ERICEIRA,abeericeira@gmail.com,Brasil,...,JOSE ARIMATEA ERICEIRA,Rua,"103-NORTE EXTERNA, UNIDADE 103,",73,,65058-077,N√£o,,,
1,ENFERMAGEM,32,Matutino e Vespertino,BACHARELADO,CAMPUS SAO LUIS,Presencial,2015019746,ABGAIL DIAS DOS SANTOS,abgailsantos@outlook.com,Brasil,...,CLOVIS PEREIRA DOS SANTOS,Rua,TRINTA,22,QD 56,65032-140,N√£o,,,


In [12]:
df_alunos.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 12177 entries, 0 to 12176
Data columns (total 54 columns):
 #   Column                                      Non-Null Count  Dtype  
---  ------                                      --------------  -----  
 0   Curso                                       12177 non-null  object 
 1   Curr√≠culo                                   12177 non-null  object 
 2   Turno                                       12177 non-null  object 
 3   Grau_Academico                              12177 non-null  object 
 4   Campus                                      12177 non-null  object 
 5   Modalidade                                  12177 non-null  object 
 6   Matr√≠cula                                   12177 non-null  int64  
 7   Nome                                        12177 non-null  object 
 8   Email                                       9698 non-null   object 
 9   Pa√≠s                                        12177 non-null  object 
 10  Cidade_

In [13]:
colunas =['Curso','Nome','Data_Nascimento','Cidade_Estado','CEP','Sexo','Tipo_Rede_Ensino','Tipo_Raca','Ano_Ingresso','Periodo_Ingresso','Forma_Ingresso',
          'Ano_Periodo_Saida','Tipo_Saida','Prazo_Integralizacao','Coeficiente_de_Rendimento','M√©dia_de_Conclus√£o',
          '√çndice_de_Efici√™ncia_em_Carga_Hor√°ria','√çndice_de_Efici√™ncia_em_Per√≠odos_Letivos','√çndice_de_Efici√™ncia_Acad√™mica','Status']
df_alunos_copia = df_alunos_copia[colunas]

## 3 - Ajustes e Recortes Aplicados aos Dados

Durante o processo de carregamento e inspe√ß√£o dos dados, algumas **corre√ß√µes e ajustes** foram necess√°rios para garantir a consist√™ncia e a relev√¢ncia das an√°lises. Essas modifica√ß√µes foram realizadas **ap√≥s consulta e recomenda√ß√£o da PROEN**, garantindo que o conjunto de dados reflita a realidade acad√™mica.

### 3.1 Ajuste do `Status` dos alunos:
Ap√≥s an√°lise detalhada, foi identificado que alunos com **Tipo de Sa√≠da = "CANCELAMENTO (RESOL 1175/ CONSEPE Art.156)"** deveriam ser **reclassificados como "Desligado"** na vari√°vel `Status`, pois essa categoria representa **situa√ß√µes de evas√£o acad√™mica**.  
Para corrigir essa inconsist√™ncia.

#### **Impacto das Modifica√ß√µes**
- üîç **331 registros foram reclassificados como 'DESLIGADO'** devido ao ajuste no Tipo de Sa√≠da.

---

In [14]:
df_alunos_copia.loc[df_alunos_copia['Tipo_Saida'] == 'CANCELAMENTO (RESOL 1175/CONSEPE Art.156)', 'Status'] = 'DESLIGADO'

### 3.2 - Ajuste com Base no Prazo de Integraliza√ß√£o

- Alunos cujo **Prazo M√°ximo de Integraliza√ß√£o** j√° tenha sido ultrapassado (ou seja, menor que o ano atual) e que ainda estavam com **Status = "CANCELADO" ou "ATIVO"**, foram reclassificados como **"DESLIGADO"**.
- Esse ajuste foi fundamental para garantir que alunos que excederam o prazo estabelecido fossem corretamente identificados na base.

#### **Impacto das Modifica√ß√µes**
- üîç **1.504 registros tiveram o Status alterado para 'DESLIGADO'** devido ao ajuste no Prazo de Integraliza√ß√£o.

---


In [16]:
# Criando a vari√°vel 'Prazo_Integralizacao_Ano' com os 4 primeiros d√≠gitos
df_alunos_copia['Prazo_Integralizacao_Ano'] = df_alunos_copia['Prazo_Integralizacao'].astype(str).str[:4].astype(int)

# Criando a vari√°vel 'Prazo_Integralizacao_Semestre' com o √∫ltimo d√≠gito
df_alunos_copia['Prazo_Integralizacao_Semestre'] = df_alunos_copia['Prazo_Integralizacao'].astype(str).str[-1].astype(int)

In [17]:
# Obtendo o ano atual
ano_atual = datetime.now().year

# Filtrando alunos impactados antes de aplicar a mudan√ßa
impactados = df_alunos_copia[
    (df_alunos_copia['Prazo_Integralizacao_Ano'] < ano_atual) & 
    (df_alunos_copia['Status'].isin(['CANCELADO', 'ATIVO']))
]

# Exibir quantidade de alunos afetados
print(f"Total de alunos que ser√£o reclassificados para 'DESLIGADO': {len(impactados)}")

# Aplicando a atualiza√ß√£o de forma condicional
df_alunos_copia.loc[
    (df_alunos_copia['Prazo_Integralizacao_Ano'] < ano_atual) & 
    (df_alunos_copia['Status'].isin(['CANCELADO', 'ATIVO'])), 
    'Status'
] = 'DESLIGADO'

# Exibir a contagem de Status ap√≥s a altera√ß√£o para verificar a mudan√ßa
print("\nDistribui√ß√£o do Status ap√≥s a reclassifica√ß√£o:")
print(df_alunos_copia['Status'].value_counts())


Total de alunos que ser√£o reclassificados para 'DESLIGADO': 1504

Distribui√ß√£o do Status ap√≥s a reclassifica√ß√£o:
Status
DESLIGADO            5318
CONCLU√çDO            3497
ATIVO                2131
CANCELADO             886
TRANCADO              225
GRADUANDO              75
FORMANDO               32
PENDENTE CADASTRO       5
CADASTRADO              4
Name: count, dtype: int64


### 3.3 Tratamento de Valores Ausentes e Inconsist√™ncias

Durante a an√°lise da base de dados, observamos a presen√ßa de valores ausentes em algumas vari√°veis essenciais para a modelagem preditiva. Para garantir a qualidade e confiabilidade dos dados, aplicamos os seguintes procedimentos:

##### 1Ô∏è‚É£ Identifica√ß√£o dos Valores Ausentes
Inicialmente, calculamos a quantidade e a porcentagem de valores ausentes em cada vari√°vel do conjunto de dados. Esse processo nos permitiu identificar quais colunas possu√≠am um volume significativo de valores faltantes.

##### 2Ô∏è‚É£ Crit√©rio para Remo√ß√£o de Registros
Foram definidos crit√©rios espec√≠ficos para remo√ß√£o de registros com valores ausentes:
- Removemos registros que apresentavam valores ausentes em vari√°veis essenciais para a an√°lise e modelagem, como **Coeficiente de Rendimento, √çndice de Efici√™ncia Acad√™mica, M√©dia de Conclus√£o e Status**.
- A decis√£o de remover registros levou em considera√ß√£o a propor√ß√£o de valores ausentes em rela√ß√£o ao total de registros da base.

##### 3Ô∏è‚É£ Armazenamento de Registros Removidos
Antes de remover os registros, armazenamos os dados eliminados em um arquivo CSV (`registros_nulos.csv`) para rastreabilidade e poss√≠vel reavalia√ß√£o futura.

##### 4Ô∏è‚É£ Reavalia√ß√£o da Base de Dados Ap√≥s Limpeza
Ap√≥s a remo√ß√£o dos registros, reavaliamos a quantidade de valores ausentes restantes. A tabela de valores ausentes foi atualizada, garantindo que apenas colunas irrelevantes ou de baixa influ√™ncia possu√≠ssem valores faltantes.

Esse tratamento garante que os dados estejam mais consistentes e alinhados ao objetivo do estudo, minimizando impactos negativos na modelagem preditiva.


In [18]:
valores_ausentes = df_alunos_copia.isnull().sum() 
valores_ausentes = pd.DataFrame(valores_ausentes).reset_index()
valores_ausentes.columns = ['Coluna', 'Valores Ausentes']  
valores_ausentes['% Ausentes'] = (valores_ausentes['Valores Ausentes'] / len(df_alunos_copia)) * 100
valores_ausentes = valores_ausentes.sort_values(by='% Ausentes', ascending=False)
valores_ausentes

Unnamed: 0,Coluna,Valores Ausentes,% Ausentes
12,Tipo_Saida,6068,49.83165
11,Ano_Periodo_Saida,2572,21.121787
2,Data_Nascimento,709,5.822452
6,Tipo_Rede_Ensino,94,0.771947
4,CEP,40,0.328488
18,√çndice_de_Efici√™ncia_Acad√™mica,15,0.123183
17,√çndice_de_Efici√™ncia_em_Per√≠odos_Letivos,15,0.123183
16,√çndice_de_Efici√™ncia_em_Carga_Hor√°ria,15,0.123183
15,M√©dia_de_Conclus√£o,15,0.123183
14,Coeficiente_de_Rendimento,8,0.065698


In [19]:
colunas_para_verificar = ['CEP', 'Data_Nascimento', 'Tipo_Rede_Ensino','√çndice_de_Efici√™ncia_Acad√™mica','√çndice_de_Efici√™ncia_em_Per√≠odos_Letivos',
                          '√çndice_de_Efici√™ncia_em_Carga_Hor√°ria','M√©dia_de_Conclus√£o','Coeficiente_de_Rendimento','Status','Cidade_Estado']

df_registros_nulos = df_alunos_copia[df_alunos_copia[colunas_para_verificar].isnull().any(axis=1)]

df_alunos_copia = df_alunos_copia.dropna(subset=colunas_para_verificar)

In [131]:
df_registros_nulos.to_csv('base/registros_nulos.csv', index=False)

In [20]:
percentual_nulos = (len(df_registros_nulos) * 100) / len(df_alunos_copia)
print(f'Percentual de registros nulos a serem removidos: {percentual_nulos:.2f}%')

Percentual de registros nulos a serem removidos: 7.51%


In [21]:
valores_ausentes = df_alunos_copia.isnull().sum() 
valores_ausentes = pd.DataFrame(valores_ausentes).reset_index()
valores_ausentes.columns = ['Coluna', 'Valores Ausentes']  

valores_ausentes['% Ausentes'] = (valores_ausentes['Valores Ausentes'] / len(df_alunos_copia)) * 100
valores_ausentes = valores_ausentes.sort_values(by='% Ausentes', ascending=False)
valores_ausentes

Unnamed: 0,Coluna,Valores Ausentes,% Ausentes
12,Tipo_Saida,5732,50.609218
11,Ano_Periodo_Saida,2553,22.541056
1,Nome,0,0.0
20,Prazo_Integralizacao_Ano,0,0.0
19,Status,0,0.0
18,√çndice_de_Efici√™ncia_Acad√™mica,0,0.0
17,√çndice_de_Efici√™ncia_em_Per√≠odos_Letivos,0,0.0
16,√çndice_de_Efici√™ncia_em_Carga_Hor√°ria,0,0.0
15,M√©dia_de_Conclus√£o,0,0.0
14,Coeficiente_de_Rendimento,0,0.0


## 4 - Cria√ß√£o de Novas Caracter√≠sticas


### 4.1 - Tempo de Perman√™ncia em Meses
Foi criada a vari√°vel **Tempo_permanencia_Meses**, que representa o tempo total que cada aluno permaneceu na institui√ß√£o at√© sua sa√≠da. O objetivo dessa m√©trica √© analisar e comparar o tempo m√©dio de perman√™ncia entre diferentes grupos de alunos. 

Essa informa√ß√£o √© essencial para entender padr√µes acad√™micos, avaliar a dura√ß√£o dos cursos e identificar poss√≠veis fatores que influenciam a evas√£o e a conclus√£o.

##### Passos para a Cria√ß√£o da Vari√°vel:
1. **Divis√£o da Coluna `Ano_Periodo_Saida`**  
   - A coluna `Ano_Periodo_Saida` foi dividida em duas novas colunas: `Ano_Saida` e `Semestre_Saida`, separando o ano e o semestre de sa√≠da do aluno.
   
2. **Convers√£o para Formato Num√©rico**  
   - Os valores das colunas `Ano_Saida` e `Semestre_Saida` foram convertidos para o formato num√©rico (`int`), substituindo valores ausentes por 0.

3. **C√°lculo do Tempo de Perman√™ncia**  
   - O tempo de perman√™ncia foi calculado em meses, considerando a diferen√ßa entre `Ano_Saida` e `Ano_Ingresso`, multiplicada por 12 (n√∫mero de meses em um ano).
   - Al√©m disso, foi adicionado um ajuste para contabilizar corretamente os meses adicionais baseados no semestre de sa√≠da:
     - Se o aluno saiu no **primeiro semestre**, foram adicionados **6 meses**.
     - Se saiu no **segundo semestre**, foram adicionados **12 meses**.

##### Import√¢ncia da Vari√°vel:
- Essa nova caracter√≠stica permite uma an√°lise mais detalhada da trajet√≥ria acad√™mica do aluno.
- Ajuda a identificar padr√µes na dura√ß√£o m√©dia dos cursos e sua rela√ß√£o com a evas√£o.
- Fornece uma m√©trica que pode ser utilizada diretamente em modelos preditivos para melhorar a capacidade de previs√£o da evas√£o acad√™mica.



In [182]:
# Dividindo a coluna Ano_Periodo_Saida em ano e semestre
df_alunos_copia[['Ano_Saida', 'Semestre_Saida']] = df_alunos_copia['Ano_Periodo_Saida'].astype(str).str.split('.', expand=True)
df_alunos_copia['Ano_Saida'] = pd.to_numeric(df_alunos_copia['Ano_Saida'], errors='coerce').fillna(0).astype(int)
df_alunos_copia['Semestre_Saida'] = pd.to_numeric(df_alunos_copia['Semestre_Saida'], errors='coerce').fillna(0).astype(int)
df_alunos_copia['Tempo_permanencia_Meses'] = (df_alunos_copia['Ano_Saida'] - df_alunos_copia['Ano_Ingresso']) * 12
df_alunos_copia['Tempo_permanencia_Meses'] += df_alunos_copia['Semestre_Saida'].apply(lambda x: 6 if x == 1 else 12)

### 4.2 - Cria√ß√£o da Caracter√≠stica "Faixa Et√°ria"

A vari√°vel **Faixa Et√°ria** foi criada para representar a idade do aluno no momento do ingresso na institui√ß√£o. Essa informa√ß√£o pode ser relevante para an√°lises futuras, ajudando a entender o perfil et√°rio dos alunos e sua rela√ß√£o com a conclus√£o ou evas√£o acad√™mica.

A constru√ß√£o dessa vari√°vel envolveu as seguintes etapas:

1. **Convers√£o da Data de Nascimento**  
   - A vari√°vel `Data_Nascimento` foi transformada em um formato de data (`datetime`) para facilitar os c√°lculos relacionados √† idade dos alunos.

2. **Cria√ß√£o da Data de Ingresso**  
   - Como a base n√£o possu√≠a diretamente a data exata de ingresso, foi necess√°rio construir a vari√°vel `Data_Ingresso` com base no `Ano_Ingresso` e `Periodo_Ingresso`.  
   - O primeiro semestre foi considerado como **01 de janeiro** do respectivo ano, e o segundo semestre como **01 de julho** do ano seguinte.

3. **C√°lculo da Idade no Momento do Ingresso**  
   - A idade foi obtida subtraindo-se a `Data_Ingresso` da `Data_Nascimento` e convertendo a diferen√ßa para anos completos.

4. **Classifica√ß√£o da Idade em Faixas Et√°rias**  
   - Para facilitar a an√°lise e agrupar alunos com perfis semelhantes, a vari√°vel `Faixa_Etaria` foi criada segmentando a idade em cinco categorias:
     - `at√© 20 anos`
     - `21 a 25 anos`
     - `26 a 30 anos`
     - `31 a 40 anos`
     - `maior de 40 anos`

Ap√≥s essas transforma√ß√µes, a vari√°vel **Faixa Et√°ria** ficou dispon√≠vel para ser utilizada em an√°lises explorat√≥rias e modelagens futuras.


In [22]:
df_alunos_copia['Data_Nascimento'] = pd.to_datetime(df_alunos_copia['Data_Nascimento'], format='%d/%m/%Y', errors='coerce')

# Criar a coluna de Data_Ingresso
df_alunos_copia['Data_Ingresso'] = pd.to_datetime(
    df_alunos_copia['Ano_Ingresso'].astype(str) + '-' + 
    (df_alunos_copia['Periodo_Ingresso'] * 6 - 5).astype(str) + '-01', 
    format='%Y-%m-%d'
)
df_alunos_copia['Idade_Ingresso'] = ((df_alunos_copia['Data_Ingresso'] - df_alunos_copia['Data_Nascimento']).dt.days / 365.25).astype(int)
df_alunos_copia[['Ano_Ingresso', 'Periodo_Ingresso', 'Data_Nascimento', 'Data_Ingresso', 'Idade_Ingresso','Status']].head()

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df_alunos_copia['Data_Nascimento'] = pd.to_datetime(df_alunos_copia['Data_Nascimento'], format='%d/%m/%Y', errors='coerce')
A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df_alunos_copia['Data_Ingresso'] = pd.to_datetime(
A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df_alunos_copia['Idade_Ingress

Unnamed: 0,Ano_Ingresso,Periodo_Ingresso,Data_Nascimento,Data_Ingresso,Idade_Ingresso,Status
0,2009,2,1990-12-13,2009-07-01,18,CONCLU√çDO
1,2015,1,1995-08-28,2015-01-01,19,CONCLU√çDO
2,2013,2,1988-11-07,2013-07-01,24,DESLIGADO
5,2013,1,1995-11-14,2013-01-01,17,DESLIGADO
7,2007,2,1989-01-29,2007-07-01,18,DESLIGADO


### Calcular a idade no momento do ingresso

In [23]:
registros_alunos_menos_16_anos = df_alunos_copia[df_alunos_copia['Idade_Ingresso']<16]
registros_alunos_menos_16_anos.to_csv('base/registros_alunos_menos_16_anos.csv', index=False)

In [24]:
df_alunos_copia = df_alunos_copia[df_alunos_copia['Idade_Ingresso'] >= 16]

In [25]:
df_alunos_copia.shape[0]

11322

In [26]:
# Definir os novos intervalos (bins) e r√≥tulos (labels)
bins = [0, 20, 25, 30, 40, 100]  # Definindo os limites das faixas et√°rias
labels = ['at√© 20', '21 a 25', '26 a 30', '31 a 40', 'maior de 40']  # Novas faixas et√°rias

# Criar a nova coluna 'Faixa_Etaria' com base nos intervalos definidos
df_alunos_copia['Faixa_Etaria'] = pd.cut(df_alunos_copia['Idade_Ingresso'], bins=bins, labels=labels, right=True)
df_alunos_copia[['Idade_Ingresso', 'Faixa_Etaria']].head()


Unnamed: 0,Idade_Ingresso,Faixa_Etaria
0,18,at√© 20
1,19,at√© 20
2,24,21 a 25
5,17,at√© 20
7,18,at√© 20


### 4.3 - Cria√ß√£o da Caracter√≠stica "Regi√£o de Origem"

A vari√°vel **Regi√£o de Origem** foi criada para categorizar a proced√™ncia dos alunos com base na informa√ß√£o de cidade e estado de origem (`Cidade_Estado`). O objetivo dessa vari√°vel √© facilitar a an√°lise da distribui√ß√£o geogr√°fica dos alunos e entender poss√≠veis padr√µes relacionados √† perman√™ncia e conclus√£o no curso.

#### **Crit√©rios de Classifica√ß√£o**
Para essa categoriza√ß√£o, os alunos foram classificados em tr√™s grupos distintos:
- **"S√£o Lu√≠s-MA"** ‚Üí Se a cidade informada for **S√£o Lu√≠s**, capital do Maranh√£o.
- **"Outros Munic√≠pios do Maranh√£o"** ‚Üí Se a cidade informada for de qualquer outro munic√≠pio do estado do Maranh√£o.
- **"Outros Estados"** ‚Üí Para alunos provenientes de estados diferentes do Maranh√£o.

Caso o campo `Cidade_Estado` esteja ausente ou n√£o identificado, o valor **"Indefinido"** foi atribu√≠do.

#### **Metodologia**
A classifica√ß√£o foi implementada por meio de uma fun√ß√£o Python que:
1. **Verifica se o valor √© uma string v√°lida**.
2. **Analisa a presen√ßa da string "S√ÉO LU√çS-MA"** para classificar o aluno na categoria correspondente.
3. **Verifica se h√° a sigla "-MA" no nome da cidade** para identificar alunos oriundos do estado do Maranh√£o (excluindo S√£o Lu√≠s).
4. **Atribui "Outros Estados" para os demais casos**.

Ap√≥s essa categoriza√ß√£o, a vari√°vel **Regi√£o de Origem** foi criada e passou a estar dispon√≠vel para an√°lise estat√≠stica e modelagem preditiva.


In [27]:
def classificar_regiao(cidade_estado):
    if isinstance(cidade_estado, str):  
        if "S√ÉO LU√çS-MA" in cidade_estado.upper():
            return "S√£o Lu√≠s-MA"
        elif "-MA" in cidade_estado.upper():
            return "Outros Munic√≠pios do Maranh√£o"
        else:
            return "Outros Estados"
    return "Indefinido"  

df_alunos_copia['Regi√£o_Origem'] = df_alunos_copia['Cidade_Estado'].apply(classificar_regiao)

print(df_alunos_copia['Regi√£o_Origem'].value_counts())


Regi√£o_Origem
S√£o Lu√≠s-MA                      8613
Outros Munic√≠pios do Maranh√£o    1957
Outros Estados                    752
Name: count, dtype: int64


In [28]:
df_alunos_copia['Regi√£o_Origem'].value_counts(normalize=True)

Regi√£o_Origem
S√£o Lu√≠s-MA                      0.760731
Outros Munic√≠pios do Maranh√£o    0.172849
Outros Estados                   0.066419
Name: proportion, dtype: float64

## 6. Separa√ß√£o da Amostra para An√°lise

Nesta √∫ltima etapa da prepara√ß√£o dos dados, realizamos a segmenta√ß√£o dos registros para garantir que a an√°lise seja conduzida com dados consistentes e alinhados com o objetivo do estudo.

#### üìå Objetivo da Separa√ß√£o:
1. **Analisar os padr√µes entre estudantes que conclu√≠ram e os que foram desligados**.
2. **Garantir que os registros utilizados sejam representativos** e condizentes com o per√≠odo acad√™mico recente.
3. **Eliminar registros que n√£o contribuem para a an√°lise do problema**, como alunos que ainda est√£o ativos ou com status indefinido.

#### üìÇ Crit√©rios de Separa√ß√£o:
- **Foram considerados apenas registros de alunos ingressantes a partir de 2011**. Uma recomenda√ß√£o da PROEN, a partir desse anos os dados s√£o mais consistentes e garante maior relev√¢ncia na an√°lise.
- **Alunos com status "ATIVO", "CANCELADO", "TRANCADO", "GRADUANDO", "FORMANDO" e "CADASTRADO" foram removidos**. O foco do estudo est√° nos estudantes que tiveram um desfecho acad√™mico (conclu√≠ram ou foram desligados).
- **Amostras foram divididas em dois grupos principais**:
  - **Grupo 1:** Alunos ingressantes at√© 2010, que foram salvos separadamente para futuras an√°lises.
  - **Grupo 2:** Alunos ingressantes a partir de 2011, que foram separados entre "CONCLU√çDOS" e "DESLIGADOS".

#### üîπ Resultados da Separa√ß√£o:
Ap√≥s a filtragem dos dados, obtemos as seguintes quantidades de registros:
- **Alunos ingressantes at√© 2010:** 2.938 registros salvos separadamente.
- **Alunos ingressantes a partir de 2011:** 8.384 registros, sendo:
  - **5.042 alunos com status "CONCLU√çDO" ou "DESLIGADO"** (utilizados para an√°lise principal).
  - **3.342 alunos ainda ativos ou cancelados** (removidos do estudo principal, mas armazenados para futuras an√°lises).

#### ‚úÖ Conclus√£o
Com essa separa√ß√£o, garantimos que a modelagem e as an√°lises sejam realizadas com uma amostra consistente e representativa do fen√¥meno investigado, permitindo melhores insights sobre os fatores que influenciam a conclus√£o ou desligamento dos alunos.


In [190]:
colunas = ['Nome','Curso','Sexo','Tipo_Raca','Regi√£o_Origem','Idade_Ingresso','Faixa_Etaria','Tipo_Rede_Ensino','Tipo_Raca','Ano_Ingresso','Periodo_Ingresso',
           'Forma_Ingresso','Ano_Saida','Semestre_Saida','Tipo_Saida','Prazo_Integralizacao','Prazo_Integralizacao_Ano','Prazo_Integralizacao_Semestre',
           'Tempo_permanencia_Meses','Coeficiente_de_Rendimento','M√©dia_de_Conclus√£o','√çndice_de_Efici√™ncia_em_Carga_Hor√°ria','Tempo_permanencia_Meses',
           '√çndice_de_Efici√™ncia_em_Per√≠odos_Letivos','√çndice_de_Efici√™ncia_Acad√™mica','Status']

In [192]:
df_alunos_2010 = df_alunos_copia[df_alunos_copia['Ano_Ingresso'] <= 2010]
#df_alunos_2010 = df_alunos_2010[colunas]
df_alunos_2010.to_csv('base/Base_limpa_aluno_ano_ingresso_menor_2011.csv', index=False)
len(df_alunos_2010)

2938

In [159]:
df_alunos_2011 = df_alunos_copia[df_alunos_copia['Ano_Ingresso'] >= 2011]
len(df_alunos_2011)

8384

In [165]:
df_alunos_2011_concluido_desligado = df_alunos_2011[~df_alunos_2011["Status"].isin(["ATIVO","CANCELADO","TRANCADO","GRADUANDO","FORMANDO","CADASTRADO"])]
df_alunos_2011_concluido_desligado.to_csv('base/Base_limpa_alunos_maior_2010_concluido_desligado.csv', index=False)
len(df_alunos_2011_concluido_desligado)

5042

In [166]:
df_alunos_2011_ativos_cancelados = df_alunos_2011[df_alunos_2011["Status"].isin(["ATIVO","CANCELADO","TRANCADO","GRADUANDO","FORMANDO","CADASTRADO"])]
df_alunos_2011_ativos_cancelados.to_csv('base/Base_limpa_alunos_maior_2010_ativos_cancelados.csv', index=False)
len(df_alunos_2011_ativos_cancelados)

3342