# Etapa 2 - Análise Exploratória de Dados

### Descrição do Conjunto de Dados

O conjunto de dados utilizado nesta análise contém informações detalhadas sobre os candidatos aprovados em um processo seletivo do SISU (Sistema de Seleção Unificada). Ele abrange 418 registros, cada um representando um candidato, com as seguintes variáveis:

1. **universidade** 
(*object*): Nome da universidade para a qual o candidato foi aprovado.  
2. **campus** 
(*object*): Identificação do campus associado à universidade.  
3. **nota_linguagens** (*float64*): Nota obtida na prova de Linguagens, Códigos e suas Tecnologias.  
4. **nota_ciencias_humanas** (*float64*): Nota obtida na prova de Ciências Humanas e suas Tecnologias.  
5. **nota_ciencias_natureza** (*float64*): Nota obtida na prova de Ciências da Natureza e suas Tecnologias.  
6. **nota_matematica** (*float64*): Nota obtida na prova de Matemática e suas Tecnologias.  
7. **nota_redacao** (*float64*): Nota obtida na redação.  
8. **nota_final** (*float64*): Média final do candidato, considerando os pesos das notas conforme os critérios do SISU.  
9. **sexo** (*object*): Gênero do candidato (masculino ou feminino).  
10. **data_nascimento** (*object*): Data de nascimento do candidato.  
11. **uf_candidato** (*object*): Unidade federativa de residência do candidato.  
12. **modalidade_concorrencia** (*object*): Categoria de concorrência na qual o candidato participou (ex.: ampla concorrência, cotas). 

### Observação importante:
Embora a análise exploratória e estatística atual utilize principalmente as colunas **`'universidade'`** e **`'nota_final'`**, é importante ressaltar o potencial de exploração dos demais dados do dataset em futuras versões do projeto. Informações como as notas específicas por área do conhecimento, o perfil demográfico dos candidatos (sexo, UF de origem, data de nascimento) e as modalidades de concorrência oferecem oportunidades para análises mais amplas e aprofundadas. Esses dados poderão ser utilizados para investigar padrões de desempenho por região, disparidades entre categorias de concorrência e outras questões relacionadas à educação superior no Brasil. 

**Assim, este dataset não apenas atende ao objetivo inicial, mas também proporciona uma base rica para extensões analíticas no futuro.**

### 1 - Importação de Dados:
Comecei importando as bibliotecas necessárias, como Pandas e Datetime, e configurei as opções de exibição do pandas para facilitar a visualização dos dados. Em seguida, carreguei o arquivo inicial, criando o DataFrame com os registros originais.

In [1]:
# Importação da bibliteca Pandas para manipulação de dados
import pandas as pd

In [2]:
# Formatando saída de dados
pd.set_option('display.max_columns', None)
pd.set_option('display.max_rows', None)
pd.options.display.float_format = '{:.2f}'.format

In [3]:
# Importação de dados
df = pd.read_csv("dataframe_sisu_limpo.csv")

### 2 - Compreendendo o Conjunto de Dados:
_**Observação:** Esta fase de análise é uma continuação de forma aprimorada da etapa anterior de limpeza de dados, onde foram realizados os ajustes necessários para garantir a qualidade do conjunto de dados._

#### Estrutura do Conjunto de Dados:
O dataset analisado é composto por 138 linhas e 15 colunas, distribuídas entre diferentes tipos de variáveis:  
- 7 variáveis do tipo flutuante **(float)** 
- 7 variáveis do tipo objeto **(string ou categóricas)**
- 1 variável do tipo inteiro **(int)**

#### Análise de Valores Nulos e Duplicidades:
Uma avaliação preliminar revelou que o conjunto de dados não apresenta valores nulos ou registros duplicados. Essa qualidade garante maior consistência e confiabilidade para as análises subsequentes.

In [4]:
# Visualizando forma do dataset em número de linhas e colunas
sp = df.shape
print(f"O conjunto de dados possui {sp[0]} linhas e {sp[1]} colunas.")

O conjunto de dados possui 138 linhas e 16 colunas.


In [5]:
# Visualizando cabeçalho do conjunto de dados
df.head()

Unnamed: 0,data_nascimento,idade,sexo,modalidade_concorrencia,municipio_candidato,uf_candidato,nota_linguagens,nota_ciencias_humanas,nota_ciencias_natureza,nota_matematica,nota_redacao,nota_corte,nota,nome_curso,universidade,campus
0,2003-02-07,19,Masculino,Ampla Concorrência,Belém,PA,635.8,714.8,693.3,803.2,900.0,770.26,775.0,Engenharia Da Computação,UFPE,Campus Universitário Cidade Do Recife
1,1996-07-03,26,Feminino,Egressos De Escolas Públicas Da Rede Federal. ...,Salvador,BA,634.8,677.1,672.9,648.9,880.0,677.24,702.74,Engenharia Da Computação,UPE,Escola Politécnica
2,2004-05-19,18,Masculino,Ampla Concorrência,Teresina,PI,641.5,679.6,682.2,826.3,780.0,721.92,721.92,Engenharia Da Computação,UPE,Escola Politécnica
3,2002-01-12,20,Feminino,Ampla Concorrência,Teresina,PI,697.4,667.5,704.1,823.8,960.0,770.26,798.83,Engenharia Da Computação,UFPE,Campus Universitário Cidade Do Recife
4,1999-01-09,23,Masculino,Ampla Concorrência,Teresina,PI,630.5,651.6,677.6,797.2,940.0,770.26,770.61,Engenharia Da Computação,UFPE,Campus Universitário Cidade Do Recife


### 2 - Analisando Estatísticas das Notas:

In [40]:
# Estatísticas gerais
df.describe()

Unnamed: 0,idade,nota_linguagens,nota_ciencias_humanas,nota_ciencias_natureza,nota_matematica,nota_redacao,nota_corte,nota
count,138.0,138.0,138.0,138.0,138.0,138.0,138.0,138.0
mean,19.54,616.32,660.77,649.82,790.85,862.61,702.84,739.97
std,2.5,44.19,60.11,55.14,73.63,77.4,63.58,50.07
min,17.0,470.5,450.9,505.2,621.9,600.0,570.28,620.0
25%,18.0,590.73,628.2,618.4,743.2,820.0,657.53,703.87
50%,19.0,622.45,666.8,657.95,791.75,880.0,721.92,743.03
75%,20.0,647.8,694.77,687.33,835.27,920.0,770.26,776.89
max,31.0,725.4,827.0,757.5,953.1,980.0,770.26,844.95


#### Nota por Universidade:

In [46]:
# Estatísticas de notas por universidades
df[['nota', 'universidade', 'nome_curso']].groupby(['nome_curso', 'universidade']).agg(['mean', 'count', 'std', 'min', 'max'])

Unnamed: 0_level_0,Unnamed: 1_level_0,nota,nota,nota,nota,nota
Unnamed: 0_level_1,Unnamed: 1_level_1,mean,count,std,min,max
nome_curso,universidade,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2
Engenharia Da Computação,UFPE,749.24,101,53.45,620.0,844.95
Engenharia Da Computação,UPE,714.68,37,26.55,641.12,750.3


#### Nota da Redação por Universidade:

In [51]:
# Estatísticas de notas por universidades
df[['nota_redacao', 'universidade', 'nome_curso']].groupby(['nome_curso', 'universidade']).agg(['mean', 'count', 'std', 'min', 'max'])

Unnamed: 0_level_0,Unnamed: 1_level_0,nota_redacao,nota_redacao,nota_redacao,nota_redacao,nota_redacao
Unnamed: 0_level_1,Unnamed: 1_level_1,mean,count,std,min,max
nome_curso,universidade,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2
Engenharia Da Computação,UFPE,860.99,101,79.77,600.0,980.0
Engenharia Da Computação,UPE,867.03,37,71.37,720.0,960.0


#### Nota por Área do Conhecimento:

In [49]:
# Estatísticas de notas entre as universidades por áreas do conhecimento
df[['nota_linguagens', 'nota_ciencias_humanas', 'nota_ciencias_natureza', 'nota_matematica', 'nota_redacao', 'universidade']].groupby(['universidade']).agg(['mean', 'count', 'std', 'min', 'max'])

Unnamed: 0_level_0,nota_linguagens,nota_linguagens,nota_linguagens,nota_linguagens,nota_linguagens,nota_ciencias_humanas,nota_ciencias_humanas,nota_ciencias_humanas,nota_ciencias_humanas,nota_ciencias_humanas,nota_ciencias_natureza,nota_ciencias_natureza,nota_ciencias_natureza,nota_ciencias_natureza,nota_ciencias_natureza,nota_matematica,nota_matematica,nota_matematica,nota_matematica,nota_matematica,nota_redacao,nota_redacao,nota_redacao,nota_redacao,nota_redacao
Unnamed: 0_level_1,mean,count,std,min,max,mean,count,std,min,max,mean,count,std,min,max,mean,count,std,min,max,mean,count,std,min,max
universidade,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2,Unnamed: 8_level_2,Unnamed: 9_level_2,Unnamed: 10_level_2,Unnamed: 11_level_2,Unnamed: 12_level_2,Unnamed: 13_level_2,Unnamed: 14_level_2,Unnamed: 15_level_2,Unnamed: 16_level_2,Unnamed: 17_level_2,Unnamed: 18_level_2,Unnamed: 19_level_2,Unnamed: 20_level_2,Unnamed: 21_level_2,Unnamed: 22_level_2,Unnamed: 23_level_2,Unnamed: 24_level_2,Unnamed: 25_level_2
UFPE,616.22,101,48.88,470.5,725.4,656.33,101,65.54,450.9,827.0,649.82,101,59.23,505.2,757.5,799.56,101,79.86,621.9,953.1,860.99,101,79.77,600.0,980.0
UPE,616.58,37,28.18,556.7,658.4,672.88,37,40.14,588.7,757.7,649.84,37,42.7,536.4,709.8,767.09,37,46.05,648.9,862.3,867.03,37,71.37,720.0,960.0
