## Exercício 1: Vestibular

Considere que a os dados gerados na célula abaixo contêm o número de acertos de 100 alunos em um vestibular para um curso de exatas, divididas pelos respectivos assuntos. Considere que cada assunto possui um número de questões conforme a tabela abaixo:

| assunto | número de questões |
|:---:|:---:|
| Matemática | 24 |
| Português | 18 |
| Geografia | 8 |
| Inglês | 8 |
| História | 8 |
| Física | 12 |
| Química | 12 |

Usando os comandos de operações com DataFrames que você aprendeu na Aula 03, calcule:

1. (operações com escalar) Calcule o percentual de acerto dos alunos por assunto.  
2. (operações entre *DataFrames) Calcule o total de acertos de cada aluno.  
3. Calcule o porcentual geral de cada aluno.  
4. Suponha que a nota de corte para a segunda fase seja 45. Quantos alunos tiveram nota maior que 45?  

In [48]:
import pandas as pd
import numpy as np

# Gerando os dados fornecidos
np.random.seed(42)

df_mat = pd.DataFrame(np.random.randint(24, size=(100, 1)), columns=['Matemática'])
df_por = pd.DataFrame(np.random.randint(18, size=(100, 1)), columns=['Português'])
df_geo = pd.DataFrame(np.random.randint(8, size=(100, 1)), columns=['Geografia'])
df_ing = pd.DataFrame(np.random.randint(8, size=(100, 1)), columns=['Inglês'])
df_his = pd.DataFrame(np.random.randint(8, size=(100, 1)), columns=['História'])
df_fis = pd.DataFrame(np.random.randint(12, size=(100, 1)), columns=['Física'])
df_qui = pd.DataFrame(np.random.randint(12, size=(100, 1)), columns=['Química'])

In [50]:
# Concatenando todos os DataFrames para criar o DataFrame final
df_total = pd.concat([df_mat, df_por, df_geo, df_ing, df_his, df_fis, df_qui], axis=1)

# Criando um dicionário com o número de questões por assunto
num_questoes = {
    'Matemática': 24,
    'Português': 18,
    'Geografia': 8,
    'Inglês': 8,
    'História': 8,
    'Física': 12,
    'Química': 12
}

In [37]:
# 1. Calcular o percentual de acerto dos alunos por assunto
percentual_acertos = df_total.div(num_questoes).mul(100)
print("Percentual de acertos por assunto (primeiras 5 linhas):")
print(percentual_acertos.head())

Percentual de acertos por assunto (primeiras 5 linhas):
   Matemática  Português  Geografia  Inglês  História     Física    Química
0   25.000000  38.888889       87.5    37.5      12.5  66.666667  25.000000
1   79.166667  55.555556        0.0     0.0       0.0  91.666667  66.666667
2   58.333333  88.888889        0.0    62.5      87.5  33.333333  33.333333
3   41.666667  38.888889       37.5    50.0       0.0   0.000000  66.666667
4   29.166667  11.111111       25.0    87.5       0.0  75.000000  25.000000


In [38]:
# 2. Calcular o total de acertos de cada aluno
total_acertos = df_total.sum(axis=1)
print("\nTotal de acertos de cada aluno (primeiras 5 linhas):")
print(total_acertos.head())


Total de acertos de cada aluno (primeiras 5 linhas):
0    35
1    48
2    50
3    32
4    30
dtype: int64


In [40]:
# 3. Calcular o percentual geral de cada aluno
total_questoes = sum(num_questoes.values())
percentual_geral = total_acertos / total_questoes * 100
print("\nPercentual geral de cada aluno (primeiras 5 linhas):")
print(percentual_geral.head())


Percentual geral de cada aluno (primeiras 5 linhas):
0    38.888889
1    53.333333
2    55.555556
3    35.555556
4    33.333333
dtype: float64


In [42]:
# 4. Quantos alunos tiveram nota maior que 45?
nota_corte = 45
alunos_acima_corte = total_acertos[total_acertos > nota_corte].count()
print(f"\nNúmero de alunos com nota maior que {nota_corte}: {alunos_acima_corte}")


Número de alunos com nota maior que 45: 31


## 2) Vestibular II

Ainda sobre o mesmo banco de dados:

1. Neste vestibular, quem 'zera' em matemática, física ou química está desqualificado. Monte um novo *DataFrame* com os alunos desqualificados por este critério.
2. Quantos são esses alunos?
3. Qual a média desses alunos em história e geografia?
4. Monte um *DataFrame* com os alunos que passaram para a segunda fase. Repare que estes alunos não podem ter sido desqualificados.

In [46]:
import pandas as pd

# 1. Criar DataFrame com alunos desqualificados (zeraram em Matemática, Física ou Química)
desqualificados = df_total[(df_total['Matemática'] == 0) | 
                           (df_total['Física'] == 0) | 
                           (df_total['Química'] == 0)]

# 2. Quantos alunos foram desqualificados?
num_desqualificados = desqualificados.shape[0]

# 3. Calcular a média de acertos dos alunos desqualificados em História e Geografia
media_hist_geo_desqualificados = desqualificados[['História', 'Geografia']].mean()

# 4. Somar total de acertos de cada aluno
df_total['total_acertos'] = df_total.sum(axis=1)

# 5. Criar DataFrame com alunos que passaram para a segunda fase
# Critérios: Não podem ter sido desqualificados e precisam ter nota maior que a nota de corte (45)
nao_desqualificados = df_total[(df_total['Matemática'] > 0) & 
                               (df_total['Física'] > 0) & 
                               (df_total['Química'] > 0)]

alunos_aprovados = nao_desqualificados[nao_desqualificados['total_acertos'] > 45]

# Exibir os resultados
print(f"Número de alunos desqualificados: {num_desqualificados}")
print("\nMédia de acertos dos desqualificados em História e Geografia:")
print(media_hist_geo_desqualificados)
print(f"\nNúmero de alunos aprovados para a segunda fase: {alunos_aprovados.shape[0]}")

Número de alunos desqualificados: 23

Média de acertos dos desqualificados em História e Geografia:
História     3.434783
Geografia    3.217391
dtype: float64

Número de alunos aprovados para a segunda fase: 26


## 3) Vacinações no Acre
Vamos trabalhar agora com a base de vacinações no Acre. Para facilitar a sua vida, copiamos o link do arquivo na célula abaixo.

1. Quantas vacinas estão registradas nessa base?  
2. Quantos pacientes foram vacinados? (considere um paciente para cada valor único de ```paciente_id```)  
3. Quantos pacientes únicos tomaram a primeira dose? OBS: Há um caractere especial neste campo. Receba os valores do campo com o método ```.unique()```.   
4. Quantos pacientes com menos de 18 anos foram vacinados?  
5. Quantos estabelecimentos aplicaram vacina no Acre?


**OBS:** O portal do DATASUS pode apresentar instabilidades, retornando um erro na segunda célula abaixo. Por este motivo está disponível uma base estática, que se for baixada para o seu *working directory* pode ser lida com este comando: ```df = pd.read_csv('registros de vacinacao covid ACRE.csv', sep=';')```.

**OBS2:** Para saber qual é o seu working directory, rode no jupyter: ```!pwd```.

In [52]:
arquivo = 'https://s3.sa-east-1.amazonaws.com/ckan.saude.gov.br/SIPNI/COVID/uf/uf%3DAC/part-00000-04bba03c-8b15-4b9a-9181-a5d53454596a.c000.csv'

In [54]:
import pandas as pd

# Carregar o arquivo CSV diretamente do link
arquivo = 'https://s3.sa-east-1.amazonaws.com/ckan.saude.gov.br/SIPNI/COVID/uf/uf%3DAC/part-00000-04bba03c-8b15-4b9a-9181-a5d53454596a.c000.csv'
df = pd.read_csv(arquivo, sep=';')

# Verificando as primeiras linhas do DataFrame
df.head()

# Número de vacinas registradas
num_vacinas = df.shape[0]
print(f"Total de vacinas registradas: {num_vacinas}")

Total de vacinas registradas: 390911


In [56]:
# 2) 
# Número de pacientes únicos vacinados
num_pacientes = df['paciente_id'].nunique()
print(f"Total de pacientes vacinados: {num_pacientes}")

Total de pacientes vacinados: 318850


In [58]:
# 3)
# Verificar os valores únicos no campo que indica a dose
df['vacina_descricao_dose'].unique()

# Filtrar pacientes que tomaram a primeira dose
primeira_dose = df[df['vacina_descricao_dose'].str.contains('1ª', na=False)]

# Número de pacientes únicos que tomaram a primeira dose
num_primeira_dose = primeira_dose['paciente_id'].nunique()
print(f"Total de pacientes que tomaram a primeira dose: {num_primeira_dose}")

Total de pacientes que tomaram a primeira dose: 144276


In [60]:
# 4)
# Filtrar pacientes com menos de 18 anos
menores_18 = df[df['paciente_idade'] < 18]

# Número de pacientes únicos menores de 18 anos
num_menores_18 = menores_18['paciente_id'].nunique()
print(f"Total de pacientes com menos de 18 anos vacinados: {num_menores_18}")

Total de pacientes com menos de 18 anos vacinados: 69726


In [62]:
# 5)
# Número de estabelecimentos únicos que aplicaram vacina
num_estabelecimentos = df['estabelecimento_razaoSocial'].nunique()
print(f"Total de estabelecimentos que aplicaram vacina no Acre: {num_estabelecimentos}")

Total de estabelecimentos que aplicaram vacina no Acre: 64


## 4) Vacinação II
Gere um *DataFrame* que contenha somente os estabelecimentos que aplicaram vcinas a menores de 18 anos. Nesse *DataFrame* devem conter somente os dados dos estabelecimentos, mais uma coluna sendo a quantidade de vacinas que o estabelecimento aplicou a menores de 18 anos.  
  
1. crie uma cópia do *DataFrame* original, contendo somente os registros de vacinas realizadas a menores de 18 anos.  
2. crie uma lista das colunas desse *DataFrame* com o atributo de *DataFrame* **.columns()**  
3. Nesse *DataFrame* faça uma contagem do campo ```vacina_categoria_nome```.
3. a partir da lista de colunas, escolha somente aquelas que são referentes ao estabelecimento, faça uma lista com esses valores.  
4. usando o método *.loc*, selecione somente essas variáveis  
5. Aplique o método **.drop_duplicates** e crie uma lista com uma linha para cada estabelecimento, com os dados do estabelecimento  

In [64]:
# 1)
# Criando uma cópia do DataFrame original com vacinas aplicadas a menores de 18 anos
df_menores_18 = df[df['paciente_idade'] < 18].copy()

# Verificando as primeiras linhas
df_menores_18.head()

Unnamed: 0,document_id,paciente_id,paciente_idade,paciente_dataNascimento,paciente_enumSexoBiologico,paciente_racaCor_codigo,paciente_racaCor_valor,paciente_endereco_coIbgeMunicipio,paciente_endereco_coPais,paciente_endereco_nmMunicipio,...,vacina_categoria_codigo,vacina_categoria_nome,vacina_lote,vacina_fabricante_nome,vacina_fabricante_referencia,vacina_dataAplicacao,vacina_descricao_dose,vacina_codigo,vacina_nome,sistema_origem
8,3274f24d-1591-4140-a8fa-190936d23a9b-i0b0,0632f0ea66d18401d3a4c7d82a91173178ab5a2730ce6a...,11,2011-06-26,F,3,PARDA,120020.0,10.0,CRUZEIRO DO SUL,...,,,210520,SINOVAC/BUTANTAN,29501,2022-08-24,1ª Dose,86,COVID-19 SINOVAC/BUTANTAN - CORONAVAC,Novo PNI
12,ea9e2f3d-e19c-4d77-b7ef-7b0fbe361729-i0b0,28846f11a1561850581aa34a0587e14a355445324f4de4...,10,2011-08-14,M,3,PARDA,120030.0,10.0,FEIJO,...,,,FN5988,PFIZER - PEDI?TRICA,28290,2022-03-17,1ª Dose,99,COVID-19 PEDIÁTRICA - PFIZER COMIRNATY,Novo PNI
19,ddbe8e75-ac1e-40b7-ad55-ead506189efd-i0b0,4a502fc943b8e62deca3f6cd1be3885f7b0d8a2ed88796...,14,2007-03-13,F,3,PARDA,120010.0,10.0,BRASILEIA,...,2.0,Faixa Etária,FF5107,PFIZER,Organization/00394544000851,2021-09-30,1ª Dose,87,COVID-19 PFIZER - COMIRNATY,Novo PNI
30,60826050-a458-48c6-bc03-9f75a76445eb-i0b0,de7cd2ad4cc949863e2f653fa0f4140e79b2794ca54466...,10,2011-07-08,M,3,PARDA,120040.0,10.0,RIO BRANCO,...,,,FP8290,PFIZER - PEDI?TRICA,28290,2022-03-24,1ª Dose,99,COVID-19 PEDIÁTRICA - PFIZER COMIRNATY,Novo PNI
34,0e034f62-83b9-4dea-ac5e-e3da277e49e4-i0b0,6deddf138a8750e47363a1dd3afe10b149b85a834218a9...,15,2005-12-21,M,3,PARDA,120020.0,10.0,CRUZEIRO DO SUL,...,114.0,Outros,FA9096,PFIZER,Organization/00394544000851,2021-08-04,1ª Dose,87,COVID-19 PFIZER - COMIRNATY,Novo PNI


In [66]:
# 2)
# Criando uma lista com os nomes das colunas do DataFrame
colunas = df_menores_18.columns.to_list()

# Exibindo as colunas
print(colunas)

['document_id', 'paciente_id', 'paciente_idade', 'paciente_dataNascimento', 'paciente_enumSexoBiologico', 'paciente_racaCor_codigo', 'paciente_racaCor_valor', 'paciente_endereco_coIbgeMunicipio', 'paciente_endereco_coPais', 'paciente_endereco_nmMunicipio', 'paciente_endereco_nmPais', 'paciente_endereco_uf', 'paciente_endereco_cep', 'paciente_nacionalidade_enumNacionalidade', 'estabelecimento_valor', 'estabelecimento_razaoSocial', 'estalecimento_noFantasia', 'estabelecimento_municipio_codigo', 'estabelecimento_municipio_nome', 'estabelecimento_uf', 'vacina_grupoAtendimento_codigo', 'vacina_grupoAtendimento_nome', 'vacina_categoria_codigo', 'vacina_categoria_nome', 'vacina_lote', 'vacina_fabricante_nome', 'vacina_fabricante_referencia', 'vacina_dataAplicacao', 'vacina_descricao_dose', 'vacina_codigo', 'vacina_nome', 'sistema_origem']


In [68]:
# 3)
# Contagem das categorias de vacina aplicadas a menores de 18 anos
contagem_vacinas_categoria = df_menores_18['vacina_categoria_nome'].value_counts()

# Exibindo a contagem
print(contagem_vacinas_categoria)

vacina_categoria_nome
Faixa Etária                                      49015
Povos Indígenas                                    4934
Outros                                             3755
Povos e Comunidades Tradicionais                    875
Trabalhadores de Saúde                              264
Comorbidades                                         58
População Privada de Liberdade                       53
Gestantes                                            47
Trabalhadores da Educação                            14
Trabalhadores de Transporte                          13
Pessoas com Deficiência                              11
Pessoas Institucionalizadas                           3
Pessoas de 60 anos ou mais institucionalizadas        1
Puérperas                                             1
Name: count, dtype: int64


In [70]:
# 4)
# Lista de colunas relacionadas aos estabelecimentos
colunas_estabelecimento = ['estabelecimento_razaoSocial', 
                           'estabelecimento_valor', 
                           'estabelecimento_municipio_nome', 
                           'estabelecimento_uf']

# Exibindo as colunas de estabelecimento
print(colunas_estabelecimento)

['estabelecimento_razaoSocial', 'estabelecimento_valor', 'estabelecimento_municipio_nome', 'estabelecimento_uf']


In [72]:
# 5)
# Selecionando as colunas relacionadas aos estabelecimentos
df_estabelecimentos_menores_18 = df_menores_18.loc[:, colunas_estabelecimento]

# Exibindo as primeiras linhas do DataFrame
df_estabelecimentos_menores_18.head()

Unnamed: 0,estabelecimento_razaoSocial,estabelecimento_valor,estabelecimento_municipio_nome,estabelecimento_uf
8,PREFEITURA MUNICIPAL DE SAUDE,7247435,CRUZEIRO DO SUL,AC
12,PREFEITURA MUNICIPAL DE FEIJO,924490,FEIJO,AC
19,PREFEITURA MUNICIPAL DE BRASILEIA,2001349,BRASILEIA,AC
30,PREFEITURA MUNICIPAL DE RIO BRANCO,6917291,RIO BRANCO,AC
34,SECRETARIA DE ESTADO DE SAUDE,3959082,CRUZEIRO DO SUL,AC
