# Análise Exploratória de Dados e Formulação de Hipóteses

### Descrição do Conjunto de Dados

O conjunto de dados utilizado nesta análise contém informações detalhadas sobre os candidatos aprovados em um processo seletivo do SISU (Sistema de Seleção Unificada). Ele abrange 418 registros, cada um representando um candidato, com as seguintes variáveis:

1. **universidade** 
(*object*): Nome da universidade para a qual o candidato foi aprovado.   
2. **nota_linguagens** (*float64*): Nota obtida na prova de Linguagens, Códigos e suas Tecnologias.  
3. **nota_ciencias_humanas** (*float64*): Nota obtida na prova de Ciências Humanas e suas Tecnologias.  
4. **nota_ciencias_natureza** (*float64*): Nota obtida na prova de Ciências da Natureza e suas Tecnologias.  
5. **nota_matematica** (*float64*): Nota obtida na prova de Matemática e suas Tecnologias.  
6. **nota_redacao** (*float64*): Nota obtida na redação.  
7. **nota_final** (*float64*): Média final do candidato, considerando os pesos das notas conforme os critérios do SISU.  
8. **sexo** (*object*): Gênero do candidato (masculino ou feminino).  
9. **data_nascimento** (*object*): Data de nascimento do candidato.  
10. **uf_candidato** (*object*): Unidade federativa de residência do candidato.  
11. **modalidade_concorrencia** (*object*): Categoria de concorrência na qual o candidato participou (ex.: ampla concorrência, cotas). 

### Observação importante:
Embora a análise exploratória e estatística atual utilize principalmente as colunas **`'universidade'`** e **`'nota_final'`**, é importante ressaltar o potencial de exploração dos demais dados do dataset em futuras versões do projeto. Informações como as notas específicas por área do conhecimento, o perfil demográfico dos candidatos (sexo, UF de origem, data de nascimento) e as modalidades de concorrência oferecem oportunidades para análises mais amplas e aprofundadas. Esses dados poderão ser utilizados para investigar padrões de desempenho por região, disparidades entre categorias de concorrência e outras questões relacionadas à educação superior no Brasil. 

**Assim, este dataset não apenas atende ao objetivo inicial, mas também proporciona uma base rica para extensões analíticas no futuro.**

### 1 - Importação de Dados:
Comecei importando as bibliotecas necessárias, como Pandas e Datetime, e configurei as opções de exibição do pandas para facilitar a visualização dos dados. Em seguida, carreguei o arquivo inicial, criando o DataFrame com os registros originais.

In [1]:
# Importação da bibliteca Pandas para manipulação de dados
import pandas as pd

In [2]:
# Formatando saída de dados
pd.set_option('display.max_columns', None)
pd.set_option('display.max_rows', None)
pd.options.display.float_format = '{:.2f}'.format

In [3]:
# Importação de dados
df = pd.read_csv("dataframe_sisu_limpo.csv")

FileNotFoundError: [Errno 2] No such file or directory: 'dataframe_sisu_limpo.csv'

### 2 - Análise Descritiva dos Dados:
Esta fase de análise representa uma continuidade aprimorada da etapa anterior de limpeza de dados, na qual foram realizados os ajustes necessários para assegurar a qualidade do conjunto de dados. Com isso, quaisquer tratamentos adicionais tornam-se desnecessários nesta etapa, permitindo que o foco seja direcionado exclusivamente à análise descritiva dos dados.

### 2.1 - Seleção de Variáveis para a Análise Descritiva:
Para a primeira versão da análise descritiva, foram selecionadas apenas duas variáveis: **`'nota'`** dos candidatos e **`'universidade'`**. Essa escolha foi feita com o objetivo de manter o foco na comparação de desempenho entre as instituições, que é a essência da primeira pergunta do projeto.


Essas variáveis são suficientes para responder à questão inicial, pois permitem calcular e interpretar estatísticas descritivas, como média, mediana, e dispersão das notas, separadas por universidade. Essa abordagem inicial facilita uma compreensão clara e direta da diferença no desempenho acadêmico entre as instituições, sem adicionar complexidade desnecessária à análise nesta etapa.

In [17]:
# Criando o dataframe
df = df[['nota', 'universidade']]

In [21]:
# Pré-visualização do dataframe
df.head()

Unnamed: 0,nota,universidade
0,775.0,UFPE
1,702.74,UPE
2,721.92,UPE
3,798.83,UFPE
4,770.61,UFPE


### 2.2 - Analisando Estatísticas das Notas:

Durante a etapa de análise estatística das notas no projeto de análise de dados, com o objetivo de compreender o desempenho acadêmico entre duas universidades presentes no conjunto de dados, foram selecionadas as seguintes medidas descritivas para observação:

**Mean (Média):** Para identificar o valor médio das notas dos candidatos em cada universidade.

**Count (Contagem):** Para determinar a quantidade total de registros de notas disponíveis em cada universidade.

**Std (Desvio Padrão):** Para medir a dispersão das notas em relação à média, avaliando a variabilidade nos desempenhos.

**Min (Valor Mínimo):** Para identificar a menor nota registrada em cada universidade.

**Max (Valor Máximo):** Para registrar a maior nota alcançada entre os candidatos.

Essas medidas oferecem uma visão ampla e detalhada do comportamento das notas, auxiliando na comparação entre as universidades e na fundamentação de análises mais aprofundadas.

#### Estatísticas gerais:
Segundo dos dados, o ano de 2022 contou com 138 aprovados no Curso de Engenharia da COmputação em ambas universidades, sendo 

In [18]:
# Estatísticas gerais
df.describe()

Unnamed: 0,nota
count,138.0
mean,739.97
std,50.07
min,620.0
25%,703.87
50%,743.03
75%,776.89
max,844.95


In [28]:
# Contagem de candidatos aprovados por universidades
df[['nota', 'universidade']].groupby([ 'universidade']).agg(['count'])

Unnamed: 0_level_0,nota
Unnamed: 0_level_1,count
universidade,Unnamed: 1_level_2
UFPE,101
UPE,37


#### Nota por Universidade:
A análise das estatísticas de notas entre a Universidade Federal de Pernambuco (UFPE) e a Universidade Estadual de Pernambuco (UPE) revela uma diferença nas médias de desempenho. Observa-se que a UFPE apresenta uma média de notas superior à da UPE, destacando-se como a instituição com os melhores resultados entre as duas.

_**Observação:** Apesar da diferença evidente, é fundamental realizar validações estatísticas para interpretá-la de forma robusta e confiável._

In [9]:
# Estatísticas de notas por universidades
df[['nota', 'universidade', 'nome_curso']].groupby(['nome_curso', 'universidade']).agg(['mean', 'median', 'count', 'std', 'min', 'max'])

Unnamed: 0_level_0,Unnamed: 1_level_0,nota,nota,nota,nota,nota,nota
Unnamed: 0_level_1,Unnamed: 1_level_1,mean,median,count,std,min,max
nome_curso,universidade,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2
Engenharia Da Computação,UFPE,749.24,762.86,101,53.45,620.0,844.95
Engenharia Da Computação,UPE,714.68,723.76,37,26.55,641.12,750.3
