# **📌 Análise de Dados de Vestibular e Vacinação com Pandas**

## **📖 Introdução**
A análise de dados desempenha um papel fundamental na tomada de decisões em diversas áreas, como **educação** e **saúde pública**. Neste estudo, exploramos dois conjuntos de dados distintos: **resultados de vestibular** e **registro de vacinação no Acre**, aplicando técnicas avançadas de **manipulação de dados com Pandas e NumPy**.

Os principais objetivos deste projeto são:
- **Analisar os resultados de um vestibular**, identificando padrões de acertos e reprovações.
- **Determinar a quantidade de alunos aprovados para a segunda fase** com base em critérios de corte.
- **Explorar dados de vacinação**, avaliando o número de vacinas aplicadas, a idade dos vacinados e os estabelecimentos responsáveis pela vacinação.
- **Identificar padrões de vacinação de menores de idade** e consolidar informações sobre os locais de aplicação.

Ao longo deste projeto, utilizamos operações vetorizadas para tornar os cálculos mais eficientes, além de métodos de indexação, filtragem e agregação no Pandas. 

---

## **📊 1️⃣ Análise de Resultados do Vestibular**
O primeiro conjunto de dados refere-se ao desempenho de **100 alunos** em um vestibular para um curso de exatas. Os candidatos responderam a questões de sete disciplinas com a seguinte distribuição:

| **Disciplina**  | **Número de Questões** |
|----------------|----------------------|
| Matemática     | 24                   |
| Português      | 18                   |
| Geografia      | 8                    |
| Inglês        | 8                    |
| História      | 8                    |
| Física        | 12                   |
| Química       | 12                   |

A partir desses dados, realizamos as seguintes análises:

1️⃣ **Cálculo do percentual de acertos por disciplina.**  
2️⃣ **Cálculo do total de acertos por aluno e seu percentual geral.**  
3️⃣ **Determinação da quantidade de alunos aprovados para a segunda fase.**  
4️⃣ **Identificação de alunos desqualificados** por terem zerado em disciplinas específicas.

### **📌 Percentual de Acertos por Disciplina**
Cada aluno teve seu percentual de acertos calculado por disciplina, normalizando os valores de acordo com o total de questões.

In [9]:
import pandas as pd
import numpy as np

In [11]:
np.random.seed(42)

**np.random.seed(42)** define a semente do gerador de números aleatórios do NumPy para 42. 
Isso garante que os números gerados aleatoriamente serão os mesmos em cada execução do código.

In [13]:
df_mat = pd.DataFrame(np.random.randint(24, size=(100, 1)), columns=['Qt_acertos'])
df_por = pd.DataFrame(np.random.randint(18, size=(100, 1)), columns=['Qt_acertos'])
df_geo = pd.DataFrame(np.random.randint(8, size=(100, 1)), columns=['Qt_acertos'])
df_ing = pd.DataFrame(np.random.randint(8, size=(100, 1)), columns=['Qt_acertos'])
df_his = pd.DataFrame(np.random.randint(8, size=(100, 1)), columns=['Qt_acertos'])
df_fis = pd.DataFrame(np.random.randint(12, size=(100, 1)), columns=['Qt_acertos'])
df_qui = pd.DataFrame(np.random.randint(12, size=(100, 1)), columns=['Qt_acertos']) 

As linhas acima criam sete DataFrames diferentes (df_mat, df_por, df_geo, df_ing, df_his, df_fis e df_qui) que armazenam uma coluna de 100 números inteiros aleatórios cada. A função np.random.randint() é usada para gerar esses números aleatórios e os parâmetros size e columns são usados para definir o tamanho do DataFrame e o nome da coluna, respectivamente. Cada DataFrame representa a quantidade de acertos dos alunos em um determinado assunto.

In [15]:
pc_mat = df_mat / 24
pc_por = df_por / 18
pc_geo = df_geo / 8
pc_ing = df_ing / 8
pc_his = df_his / 8
pc_fis = df_fis / 12
pc_qui = df_qui / 12

In [19]:
df_percentual = pd.concat([pc_mat, pc_por, pc_geo, pc_ing, pc_his, pc_fis, pc_qui], axis=1)
df_percentual.columns = ['Matemática (%)', 'Português (%)', 'Geografia (%)', 'Inglês (%)', 'História (%)', 'Física (%)', 'Química (%)']
print(df_percentual)

    Matemática (%)  Português (%)  Geografia (%)  Inglês (%)  História (%)  \
0         0.250000       0.388889          0.875       0.375         0.125   
1         0.791667       0.555556          0.000       0.000         0.000   
2         0.583333       0.888889          0.000       0.625         0.875   
3         0.416667       0.388889          0.375       0.500         0.000   
4         0.291667       0.111111          0.250       0.875         0.000   
..             ...            ...            ...         ...           ...   
95        0.250000       0.222222          0.875       0.125         0.500   
96        0.333333       0.055556          0.500       0.750         0.125   
97        0.958333       0.277778          0.000       0.250         0.500   
98        0.000000       0.555556          0.375       0.125         0.625   
99        0.458333       0.833333          0.000       0.125         0.750   

    Física (%)  Química (%)  
0     0.666667     0.250000  
1  

📌 **Resultado:** Criamos um DataFrame mostrando o percentual de acertos por disciplina para cada aluno.

### **📌 Total de Acertos e Percentual Geral**
Após calcular os acertos individuais, somamos os valores para obter o total de acertos de cada aluno:

In [23]:
total = df_mat + df_por + df_geo + df_ing + df_his + df_fis + df_qui

Em seguida, calculamos o **percentual geral** de acertos de cada aluno:

In [26]:
total / 90

Unnamed: 0,Qt_acertos
0,0.388889
1,0.533333
2,0.555556
3,0.355556
4,0.333333
...,...
95,0.377778
96,0.300000
97,0.444444
98,0.444444


✅ **Benefício:** Essa análise nos permite classificar os alunos por desempenho geral.

### **📌 Determinação dos Aprovados para a Segunda Fase**
A nota de corte para a segunda fase foi estabelecida em **45 pontos**. Para identificar os alunos aprovados, aplicamos um filtro ao DataFrame:

In [30]:
total_gt_45 = total[total['Qt_acertos'] > 45]
total_gt_45.count()

Qt_acertos    31
dtype: int64

📌 **Resultado:** **31 alunos** atingiram a nota mínima e avançaram para a próxima fase.

### **📌 Identificação de Alunos Desqualificados**
Os alunos que **zeraram em Matemática, Física ou Química** foram eliminados do vestibular. Para identificá-los, utilizamos um filtro lógico:

In [41]:
df_eliminados = total[(df_mat['Qt_acertos'] == 0) | 
                      (df_fis['Qt_acertos'] == 0) | 
                      (df_qui['Qt_acertos'] == 0)]

df_eliminados

Unnamed: 0,Qt_acertos
3,32
6,29
10,31
12,42
14,31
20,53
25,27
26,40
27,50
33,39


📌 **Resultado:** Um subconjunto com os alunos que foram eliminados por não atingirem o critério mínimo.

In [43]:
# concatenando as colunas 
df_percentual = pd.concat([(df_mat['Qt_acertos'] == 0), (df_fis['Qt_acertos'] == 0), (df_qui['Qt_acertos'] == 0)], axis=1)
df_percentual.columns = ['Matemática (%)', 'Física (%)', 'Química (%)']
print(df_percentual)

    Matemática (%)  Física (%)  Química (%)
0            False       False        False
1            False       False        False
2            False       False        False
3            False        True        False
4            False       False        False
..             ...         ...          ...
95           False       False        False
96           False       False        False
97           False       False        False
98            True       False        False
99           False       False        False

[100 rows x 3 columns]


## **💉 2️⃣ Análise dos Dados de Vacinação no Acre**
O segundo conjunto de dados corresponde a **registros de vacinação no estado do Acre**, obtidos do DATASUS. Este dataset contém informações sobre pacientes vacinados, doses administradas e estabelecimentos aplicadores.

A partir desse banco de dados, realizamos as seguintes análises:

1️⃣ **Quantidade total de vacinas registradas.**  
2️⃣ **Número total de pacientes vacinados.**  
3️⃣ **Número de pacientes únicos que tomaram a primeira dose.**  
4️⃣ **Pacientes menores de 18 anos vacinados.**  
5️⃣ **Número de estabelecimentos responsáveis pela vacinação.**  

### **📌 Quantidade de Vacinas Registradas**
Para contar o total de vacinas aplicadas no Acre:

In [49]:
df = pd.read_csv('registros_de_vacinacao_covid_ACRE.csv', sep=';')

In [51]:
n_vacinas = len(df)
print("Número de vacinas registradas:", n_vacinas)

Número de vacinas registradas: 169071


📌 **Resultado:** **169.071 vacinas** foram registradas na base de dados.

### **📌 Número de Pacientes Vacinados**
Para contar **pacientes únicos**, utilizamos:

In [55]:
n_pacientes = df['paciente_id'].nunique()
print("Número de pacientes vacinados:", n_pacientes)

Número de pacientes vacinados: 120517


📌 **Resultado:** **120.517 pacientes** receberam pelo menos uma dose da vacina.

### **📌 Identificação de Pacientes Menores de 18 Anos**
Podemos filtrar a base para identificar pacientes menores de idade:

In [61]:
df_menos_18 = df[df['paciente_idade'] < 18]
pacientes_menos_18 = df_menos_18['paciente_id'].nunique()
print("Número de pacientes com menos de 18 anos vacinados:", pacientes_menos_18)

Número de pacientes com menos de 18 anos vacinados: 47


📌 **Resultado:** Apenas **47 pacientes** com menos de 18 anos receberam a vacina.

### **📌 Número de Estabelecimentos Responsáveis pela Vacinação**
Para saber quantos locais diferentes aplicaram vacinas:

In [65]:
df['estabelecimento_razaosocial'].nunique()

42

📌 **Resultado:** **42 estabelecimentos** participaram da campanha de vacinação.

## **🏥 3️⃣ Análise dos Estabelecimentos que Aplicaram Vacinas em Menores**
Além das estatísticas globais, também analisamos **quais estabelecimentos vacinaram menores de 18 anos** e quantas vacinas cada um administrou.

Criamos um subconjunto de dados apenas com os registros de menores de idade:

In [69]:
df_menores = df[df['paciente_idade'] < 18]

Depois, agrupamos os registros por estabelecimento e contamos quantas vacinas foram aplicadas:

In [72]:
df_menores_por_estabelecimento = df_menores.groupby('estabelecimento_valor').agg({'vacina_categoria_nome': 'count'}).reset_index()
df_menores_por_estabelecimento = df_menores_por_estabelecimento.rename(columns={'vacina_categoria_nome': 'qtd_vacinas'})
print(df_menores_por_estabelecimento)

    estabelecimento_valor  qtd_vacinas
0                 2000040            2
1                 2001314            1
2                 2001748            8
3                 3323307            1
4                 5336171            1
5                 6159087            3
6                 6308740            2
7                 6428940            3
8                 6430201            4
9                 6612385            2
10                6697151            1
11                6748759            6
12                6917291            4
13                6917682            1
14                6955525            3
15                7123043            1
16                7625855            9
17                9648968            2


📌 **Resultado:** Criamos um DataFrame com **quantidade de vacinas aplicadas por cada estabelecimento**.

## **📌 Conclusão**
Neste estudo, utilizamos **Pandas e NumPy** para manipular e analisar dois conjuntos de dados distintos. As principais conclusões foram:

✅ **Vestibular:**
- **31 alunos** foram aprovados para a segunda fase.
- Alguns alunos foram **desqualificados** por zerar disciplinas essenciais.
- O cálculo de **percentuais de acertos e médias** ajudou na avaliação de desempenho.

✅ **Vacinação no Acre:**
- Foram **registradas 169.071 doses** de vacinas.
- **120.517 pacientes** receberam pelo menos uma dose.
- Apenas **47 menores de idade** foram vacinados.
- **42 estabelecimentos** participaram da aplicação de vacinas.

📌 **Este projeto demonstrou como manipular, filtrar e analisar grandes conjuntos de dados de maneira eficiente, utilizando técnicas avançadas de ciência de dados.** 🚀