# Análise Exploratória de Dados e Formulação de Hipóteses

### Descrição do Conjunto de Dados

O conjunto de dados utilizado nesta análise contém informações detalhadas sobre os candidatos aprovados em um processo seletivo do SISU (Sistema de Seleção Unificada). Ele abrange 418 registros, cada um representando um candidato, com as seguintes variáveis:

1. **universidade** 
(*object*): Nome da universidade para a qual o candidato foi aprovado.   
2. **nota_linguagens** (*float64*): Nota obtida na prova de Linguagens, Códigos e suas Tecnologias.  
3. **nota_ciencias_humanas** (*float64*): Nota obtida na prova de Ciências Humanas e suas Tecnologias.  
4. **nota_ciencias_natureza** (*float64*): Nota obtida na prova de Ciências da Natureza e suas Tecnologias.  
5. **nota_matematica** (*float64*): Nota obtida na prova de Matemática e suas Tecnologias.  
6. **nota_redacao** (*float64*): Nota obtida na redação.  
7. **nota_final** (*float64*): Média final do candidato, considerando os pesos das notas conforme os critérios do SISU.  
8. **sexo** (*object*): Gênero do candidato (masculino ou feminino).  
9. **data_nascimento** (*object*): Data de nascimento do candidato.  
10. **uf_candidato** (*object*): Unidade federativa de residência do candidato.  
11. **modalidade_concorrencia** (*object*): Categoria de concorrência na qual o candidato participou (ex.: ampla concorrência, cotas).

### Observação importante:
A análise exploratória atual foca em observar o desempenho dos candidatos aprovados, considerando observar principalmente as nota por universidade, apesar disso, **é importante ressaltar o potencial de exploração dos demais dados do dataset em futuras versões do projeto**. Informações como as notas específicas por área do conhecimento, o perfil demográfico dos candidatos (sexo, Estado e município de origem, idade) e as modalidades de concorrência oferecem oportunidades para análises mais amplas e aprofundadas. Esses dados poderão ser utilizados para investigar padrões de desempenho por região, disparidades entre categorias de concorrência e outras questões relacionadas à educação superior no Brasil. 

Assim, este dataset não apenas atende ao objetivo inicial, mas também proporciona uma base rica para extensões analíticas no futuro.

## 1 - Importação de Dados:
Comecei importando as bibliotecas necessárias, como Pandas e Datetime, e configurei as opções de exibição do pandas para facilitar a visualização dos dados. Em seguida, carreguei o arquivo inicial, criando o DataFrame com os registros originais.

In [1]:
# Importação da biblioteca Pandas para manipulação de dados
import pandas as pd

# Importação da biblioteca Matplotlib para criação de gráficos e visualizações básicas
import matplotlib.pyplot as plt

# Importação da biblioteca Seaborn para visualizações estatísticas mais avançadas e estilizadas
import seaborn as sns

In [2]:
# Formatando saída de dados
pd.set_option('display.max_columns', None)
pd.set_option('display.max_rows', None)
pd.options.display.float_format = '{:.2f}'.format

In [3]:
# Importação de dados
df = pd.read_csv("dataframe_sisu_limpo.csv")

In [4]:
# Visualizando o dataframe
df.head()

Unnamed: 0,universidade,nota_linguagens,nota_ciencias_humanas,nota_ciencias_natureza,nota_matematica,nota_redacao,nota_final,sexo,data_nascimento,idade,uf_candidato,municipio_candidato,modalidade_concorrencia
0,UFPE,588.5,648.6,547.1,651.0,820.0,657.53,Masculino,2004-12-26,18,TO,Ananás,"Cota - PPI, Escola Pública, Renda ≤ 1.5 SM"
1,UPE,560.5,551.3,476.5,410.1,580.0,515.68,Feminino,2001-06-01,21,SP,São Paulo,"Cota - Escola Pública, Renda ≤ 1.5 SM"
2,UPE,496.6,355.7,573.4,745.7,720.0,578.28,Masculino,2002-10-19,20,SP,Santo André,Ampla Concorrência
3,UFPE,506.9,579.5,512.6,623.2,580.0,576.44,Masculino,2003-01-21,19,SP,Campinas,"Cota - Escola Pública, Renda ≤ 1.5 SM"
4,UFPE,592.9,606.6,553.4,689.7,560.0,618.51,Masculino,1997-08-05,25,MG,Ipatinga,Ampla Concorrência


## 2 - Análise Descritiva do Conjunto de Dados:
Esta fase de análise representa uma continuidade aprimorada da etapa anterior de limpeza de dados, na qual foram realizados os ajustes necessários para assegurar a qualidade do conjunto de dados. Com isso, quaisquer tratamentos adicionais tornam-se desnecessários nesta etapa, permitindo que o foco seja direcionado exclusivamente à análise descritiva dos dados.

### 2.1 - Estatísticas Gerais:

In [5]:
# Estatísticas gerais das variáveis quantitativas
df.describe()

Unnamed: 0,nota_linguagens,nota_ciencias_humanas,nota_ciencias_natureza,nota_matematica,nota_redacao,nota_final,idade
count,418.0,418.0,418.0,418.0,418.0,418.0,418.0
mean,569.84,602.56,584.18,689.87,756.03,654.67,20.02
std,67.62,88.6,89.35,127.21,143.06,97.19,4.25
min,374.0,354.5,358.0,374.6,400.0,426.26,17.0
25%,525.65,548.8,528.23,612.6,640.0,573.83,18.0
50%,579.8,615.5,588.15,699.25,780.0,661.0,19.0
75%,621.85,667.1,657.5,788.35,880.0,732.48,20.0
max,725.4,827.0,765.8,953.1,980.0,844.95,65.0


### 2.2 - Sobre o Processo Seletivo:

#### Número de Aprovados:
De acordo com os dados, em 2022, o curso de Engenharia da Computação registrou 418 aprovados nas duas universidades analisadas, sendo 214 na UFPE e 204 na UPE.

In [6]:
# Contagem de candidatos aprovados por universidades
df[['nota_final', 'universidade']].groupby([ 'universidade']).agg(['count'])

Unnamed: 0_level_0,nota_final
Unnamed: 0_level_1,count
universidade,Unnamed: 1_level_2
UFPE,214
UPE,204


#### Modalidade de Concorrência:
A distribuição das modalidades de concorrência revela que a **Ampla Concorrência** é a categoria predominante, com 234 candidatos, representando 55,98% do total. Em seguida, destacam-se as cotas para **Escola Pública com Renda ≤ 1.5 SM** (66 candidatos, 15,79%) e para **Escola Pública com Qualquer Renda** (57 candidatos, 13,64%). As cotas para **PPI e Escola Pública, com Renda ≤ 1.5 SM** somam 31 candidatos (7,42%), enquanto a modalidade **PPI, Escola Pública, Qualquer Renda** possui 28 candidatos (6,70%). As categorias de **Deficiência, com ou sem PPI**, representam a menor parte, com apenas 1 candidato cada (0,24%).

In [7]:
# Criando tabela de frequência da modalidade de concorrência
# Frequência absoluta
frequencia_absoluta = df.groupby(['modalidade_concorrencia']).size()

# Frequência relativa
frequencia_relativa = frequencia_absoluta / frequencia_absoluta.sum()

# Criando a tabela de frequência
tabela_frequencia = pd.DataFrame({
    'Frequência Absoluta': frequencia_absoluta,
    'Frequência Relativa (%)': frequencia_relativa * 100
}).sort_values(by='Frequência Absoluta', ascending=False)

# Exibindo a tabela de frequência
tabela_frequencia

Unnamed: 0_level_0,Frequência Absoluta,Frequência Relativa (%)
modalidade_concorrencia,Unnamed: 1_level_1,Unnamed: 2_level_1
Ampla Concorrência,234,55.98
"Cota - Escola Pública, Renda ≤ 1.5 SM",66,15.79
"Cota - Escola Pública, Qualquer Renda",57,13.64
"Cota - PPI, Escola Pública, Renda ≤ 1.5 SM",31,7.42
"Cota - PPI, Escola Pública, Qualquer Renda",28,6.7
"Cota - Deficiência, Escola Pública, Renda ≤ 1.5 SM",1,0.24
"Cota - Deficiência, PPI, Escola Pública, Qualquer Renda",1,0.24


### 2.3 - Informações Demográficas:

#### Sexo:
Dos 418 candidatos aprovados, 342 são homens e 76 são mulheres, evidenciando uma predominância masculina significativa em relação às mulheres entre os aprovados.

In [8]:
# Candidatos aprovados por sexo em cada universidade
df.groupby(['sexo', 'universidade']).size().reset_index(name='count')

Unnamed: 0,sexo,universidade,count
0,Feminino,UFPE,33
1,Feminino,UPE,43
2,Masculino,UFPE,181
3,Masculino,UPE,161


#### Idade:
Os valores mínimos e máximos de idades observados foram, respectivamente, 17 e 65 anos, fornecendo uma visão sobre a amplitude dos dados analisados. Apesar disso, média de idade dos candidatos aprovados nas duas universidades varia entre 19 e 20 anos, refletindo o perfil predominante dos participantes.

In [9]:
# Média e mediana da idade dos candidatos aprovados entre as duas universidades
df[['idade', 'universidade']].groupby(['universidade']).agg(['mean', 'median'])

Unnamed: 0_level_0,idade,idade
Unnamed: 0_level_1,mean,median
universidade,Unnamed: 1_level_2,Unnamed: 2_level_2
UFPE,19.68,19.0
UPE,20.37,19.0


#### Local de Residência:

## 3 - Análise de Notas:

Para a etapa de análise de notas, com o objetivo de compreender o desempenho acadêmico entre duas universidades presentes no conjunto de dados, foram selecionadas as seguintes medidas estatísticas para observação:

**Mean (Média):** Para identificar o valor médio das notas dos candidatos em cada universidade.

**Count (Contagem):** Para determinar a quantidade total de registros de notas disponíveis em cada universidade.

**Std (Desvio Padrão):** Para medir a dispersão das notas em relação à média, avaliando a variabilidade nos desempenhos.

**Min (Valor Mínimo):** Para identificar a menor nota registrada em cada universidade.

**Max (Valor Máximo):** Para registrar a maior nota alcançada entre os candidatos.

Essas medidas oferecem uma visão ampla e detalhada do comportamento das notas, auxiliando na comparação entre as universidades e na fundamentação de análises mais aprofundadas.

### 3.1 - Análise Comparativa de Notas  por Universidade:
A análise das estatísticas de notas entre a Universidade Federal de Pernambuco (UFPE) e a Universidade Estadual de Pernambuco (UPE) revela uma diferença nas médias de desempenho. Observa-se que a UFPE apresenta uma média de notas superior à da UPE, destacando-se como a instituição com os melhores resultados entre as duas.

In [10]:
# Estatísticas de notas por universidades
df[['nota_final', 'universidade']].groupby([ 'universidade']).agg(['mean', 'median', 'count', 'std', 'min', 'max'])

Unnamed: 0_level_0,nota_final,nota_final,nota_final,nota_final,nota_final,nota_final
Unnamed: 0_level_1,mean,median,count,std,min,max
universidade,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2
UFPE,705.61,709.15,214,75.75,546.37,844.95
UPE,601.23,587.03,204,88.2,426.26,764.9


### 3.2 - Desempenho por Áreas do Conhecimento

### Observação:
Apesar da diferença evidente, é fundamental realizar validações estatísticas para interpretá-la de forma robusta e confiável.

### 3.1 - Notas por Estados:

In [52]:
# Análise de notas entre os diferentes Estados
notas_por_estado = df[['uf_candidato', 'nota_final']].groupby(['uf_candidato']).agg(['mean', 'median', 'count', 'std', 'min', 'max'])
notas_por_estado.sort_values(('nota_final', 'mean'), ascending=False)

Unnamed: 0_level_0,nota_final,nota_final,nota_final,nota_final,nota_final,nota_final
Unnamed: 0_level_1,mean,median,count,std,min,max
uf_candidato,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2
PB,798.01,798.01,2,56.28,758.22,837.81
RN,757.28,757.28,1,,757.28,757.28
AM,747.76,747.76,2,40.9,718.84,776.68
PI,726.75,756.73,11,68.66,574.88,798.83
MA,706.84,683.16,3,70.83,650.89,786.48
AL,685.2,755.99,4,172.5,429.5,799.34
DF,679.87,711.54,3,113.62,553.78,774.3
RR,668.94,668.94,1,,668.94,668.94
CE,667.76,698.12,4,143.7,483.52,791.27
TO,657.53,657.53,1,,657.53,657.53
