## Exercício 1: Vestibular

Considere que a os dados gerados na célula abaixo contêm o número de acertos de 100 alunos em um vestibular para um curso de exatas, divididas pelos respectivos assuntos. Considere que cada assunto possui um número de questões conforme a tabela abaixo:

| assunto | número de questões |
|:---:|:---:|
| Matemática | 24 |
| Português | 18 |
| Geografia | 8 |
| Inglês | 8 |
| História | 8 |
| Física | 12 |
| Química | 12 |

Usando os comandos de operações com DataFrames que você aprendeu na Aula 03, calcule:

1. (operações com escalar) Calcule o percentual de acerto dos alunos por assunto.  
2. (operações entre *DataFrames) Calcule o total de acertos de cada aluno.  
3. Calcule o porcentual geral de cada aluno.  
4. Suponha que a nota de corte para a segunda fase seja 45. Quantos alunos tiveram nota maior que 45?  

In [89]:
import pandas as pd
import numpy as np

np.random.seed(42)
df_mat = pd.DataFrame(np.random.randint(24, size=(100, 1)), columns=['Qt_acertos'])

df_por = pd.DataFrame(np.random.randint(18, size=(100, 1)), columns=['Qt_acertos'])

df_geo = pd.DataFrame(np.random.randint(8, size=(100, 1)), columns=['Qt_acertos'])

df_ing = pd.DataFrame(np.random.randint(8, size=(100, 1)), columns=['Qt_acertos'])

df_his = pd.DataFrame(np.random.randint(8, size=(100, 1)), columns=['Qt_acertos'])

df_fis = pd.DataFrame(np.random.randint(12, size=(100, 1)), columns=['Qt_acertos'])

df_qui = pd.DataFrame(np.random.randint(12, size=(100, 1)), columns=['Qt_acertos'])

# Este código calcula o percentual de acertos dos alunos em cada disciplina, dividindo o número de acertos pelo total de questões e multiplicando por 100.

In [90]:
df_mat['Perc_acertos'] = df_mat['Qt_acertos'] / 24 * 100
df_por['Perc_acertos'] = df_por['Qt_acertos'] / 18 * 100
df_geo['Perc_acertos'] = df_geo['Qt_acertos'] / 8 * 100
df_ing['Perc_acertos'] = df_ing['Qt_acertos'] / 8 * 100
df_his['Perc_acertos'] = df_his['Qt_acertos'] / 8 * 100
df_fis['Perc_acertos'] = df_fis['Qt_acertos'] / 12 * 100
df_qui['Perc_acertos'] = df_qui['Qt_acertos'] / 12 * 100

# Aqui, é criado um novo DataFrame que agrega os acertos dos alunos em todas as disciplinas. Além disso, é calculada a quantidade total de acertos por aluno.

In [91]:
df_total = pd.concat([df_mat['Qt_acertos'], df_por['Qt_acertos'], df_geo['Qt_acertos'], 
                      df_ing['Qt_acertos'], df_his['Qt_acertos'], df_fis['Qt_acertos'], df_qui['Qt_acertos']], 
                     axis=1)

df_total.columns = ['Matemática', 'Português', 'Geografia', 'Inglês', 'História', 'Física', 'Química']

df_total['Total_acertos'] = df_total.sum(axis=1)

# Neste passo, o percentual geral de acertos de cada aluno é calculado, considerando a soma de todas as questões das disciplinas.

In [92]:
df_total['Perc_geral'] = df_total['Total_acertos'] / (24 + 18 + 8 + 8 + 8 + 12 + 12) * 100

# Este código conta o número de alunos que obtiveram um total de acertos maior que a nota de corte estipulada (45 acertos).

In [93]:
qt_alunos_acima_corte = len(df_total[df_total['Total_acertos'] > 45])
print(f'{qt_alunos_acima_corte} alunos tiveram nota maior que 45.')

31 alunos tiveram nota maior que 45.


## 2) Vestibular II

Ainda sobre o mesmo banco de dados:

1. Neste vestibular, quem 'zera' em matemática, física ou química está desqualificado. Monte um novo *DataFrame* com os alunos desqualificados por este critério.
2. Quantos são esses alunos?
3. Qual a média desses alunos em história e geografia?
4. Monte um *DataFrame* com os alunos que passaram para a segunda fase. Repare que estes alunos não podem ter sido desqualificados.

# O código primeiro identifica os alunos que 'zeraram' em Matemática, Física ou Química e cria um novo DataFrame (df_eliminados) com esses alunos.

# Em seguida, ele calcula a quantidade desses alunos e as suas médias em História e Geografia.

# Por fim, ele cria um DataFrame com os alunos que passaram para a segunda fase e não foram desqualificados.

In [94]:
eliminados_indices = df_total[(df_mat['Qt_acertos'] == 0) | 
                               (df_fis['Qt_acertos'] == 0) | 
                               (df_qui['Qt_acertos'] == 0)].index

df_eliminados = df_total.loc[eliminados_indices]

qt_eliminados = len(df_eliminados)
print(f'{qt_eliminados} alunos foram desqualificados.')

media_historia = df_eliminados['História'].mean()
media_geografia = df_eliminados['Geografia'].mean()
print(f'Média em História: {media_historia}\nMédia em Geografia: {media_geografia}')

df_aprovados = df_total.drop(eliminados_indices)
df_aprovados = df_aprovados[df_aprovados['Total_acertos'] > 45]

23 alunos foram desqualificados.
Média em História: 3.4347826086956523
Média em Geografia: 3.217391304347826


## 3) Vacinações no Acre
Vamos trabalhar agora com a base de vacinações no Acre. Para facilitar a sua vida, copiamos o link do arquivo na célula abaixo.

1. Quantas vacinas estão registradas nessa base?  
2. Quantos pacientes foram vacinados? (considere um paciente para cada valor único de ```paciente_id```)  
3. Quantos pacientes únicos tomaram a primeira dose? OBS: Há um caractere especial neste campo. Receba os valores do campo com o método ```.unique()```.   
4. Quantos pacientes com menos de 18 anos foram vacinados?  
5. Quantos estabelecimentos aplicaram vacina no Acre?


**OBS:** O portal do DATASUS pode apresentar instabilidades, retornando um erro na segunda célula abaixo. Por este motivo está disponível uma base estática, que se for baixada para o seu *working directory* pode ser lida com este comando: ```df = pd.read_csv('registros de vacinacao covid ACRE.csv', sep=';')```.

**OBS2:** Para saber qual é o seu working directory, rode no jupyter: ```!pwd```.

In [95]:
arquivo = 'https://s3.sa-east-1.amazonaws.com/ckan.saude.gov.br/SIPNI/COVID/uf/uf%3DAC/part-00000-67f63b13-e8cd-468a-9854-2d489356bf7a.c000.csv'

In [96]:
# Ler o arquivo csv
df = pd.read_csv(arquivo, sep=';', dtype={7: str, 8: str})
df = df.fillna({7: -1})  # Substitui os valores NA na coluna 7 por -1

# Exibindo as primeiras linhas do DataFrame para conferência
df.head()

# Contando o número total de linhas (ou seja, registros de vacinações)
num_vacinas = df.shape[0]
print(f'Número total de vacinas registradas: {num_vacinas}')

Número total de vacinas registradas: 355371


In [97]:
df.head()

Unnamed: 0,document_id,paciente_id,paciente_idade,paciente_dataNascimento,paciente_enumSexoBiologico,paciente_racaCor_codigo,paciente_racaCor_valor,paciente_endereco_coIbgeMunicipio,paciente_endereco_coPais,paciente_endereco_nmMunicipio,...,vacina_categoria_codigo,vacina_categoria_nome,vacina_lote,vacina_fabricante_nome,vacina_fabricante_referencia,vacina_dataAplicacao,vacina_descricao_dose,vacina_codigo,vacina_nome,sistema_origem
0,e4e2f0ee-1790-4113-b080-c8a2d9f9b497-i0b0,4021f346b35af3d248ae26fb153a684ecbb27e66867838...,45,1976-04-19,F,3,PARDA,120045,10,SENADOR GUIOMARD,...,2.0,Faixa Etária,217VCD239Z,ASTRAZENECA/FIOCRUZ,Organization/33781055000135,2021-09-17,2ª Dose,85,COVID-19 ASTRAZENECA/FIOCRUZ - COVISHIELD,Novo PNI
1,2d44fe1b-6a2b-4ad8-96b5-2877047f0145-i0b0,3d01398befe930537bf88fd9b8ced0c5099961f5cbed2c...,17,2003-11-26,F,1,BRANCA,120040,10,RIO BRANCO,...,2.0,Faixa Etária,FA9096,PFIZER,Organization/00394544000851,2021-08-06,1ª Dose,87,COVID-19 PFIZER - COMIRNATY,Novo PNI
2,eac68e2c-a0b2-4e3b-b493-31b544362485-i0b0,e601c3dc57ffd04368b1c3cedcc5f7f883b79114bbedc3...,66,1955-04-02,F,2,PRETA,120020,10,CRUZEIRO DO SUL,...,2.0,Faixa Etária,FJ4184,PFIZER,Organization/28290,2022-01-11,Reforço,87,COVID-19 PFIZER - COMIRNATY,Novo PNI
3,2d4fd69e-c85e-4389-ab3d-3eab1598d16f-i0b0,187e5105c2900a6b60a3f74fb682ebf949c5e50a9627d6...,58,1964-02-01,M,4,AMARELA,110020,10,PORTO VELHO,...,2.0,Faixa Etária,FX1188,PFIZER,28290,2023-01-27,2º Reforço,87,COVID-19 PFIZER - COMIRNATY,Novo PNI
4,b5d36cc9-e110-488a-960e-ed091641cd1b-i0b0,4b06b036f887bd7e466198d282adb25cad7a7311736c6f...,28,1993-04-18,F,3,PARDA,120020,10,CRUZEIRO DO SUL,...,2.0,Faixa Etária,FF8848,PFIZER,Organization/28290,2022-03-04,Reforço,87,COVID-19 PFIZER - COMIRNATY,Novo PNI


In [98]:
df.shape[0]

355371

In [99]:
# 2) 
# Contando o número de pacientes únicos
num_pacientes = df['paciente_id'].nunique()
print(f'Número total de pacientes vacinados: {num_pacientes}')

Número total de pacientes vacinados: 295672


In [100]:
# 3) 
# Identificando a descrição da primeira dose
primeira_dose = df['vacina_descricao_dose'].unique()[0]

# Contando o número de pacientes únicos que tomaram a primeira dose
num_pacientes_primeira_dose = df['paciente_id'].loc[df['vacina_descricao_dose'] == primeira_dose].nunique()
print(f'Número de pacientes únicos que tomaram a primeira dose: {num_pacientes_primeira_dose}')

Número de pacientes únicos que tomaram a primeira dose: 117646


In [101]:
# 3) solução alternativa
primeira_dose = df['vacina_descricao_dose'].unique()[0]
df_primeira_dose = df[df['vacina_descricao_dose'] == primeira_dose]
df_primeira_dose['paciente_id'].nunique()

117646

In [102]:
# 4) 
# Filtrando os registros de pacientes com menos de 18 anos
df_menor = df[df["paciente_idade"]<18]

# Contando o número de pacientes únicos com menos de 18 anos
num_pacientes_menor = df_menor['paciente_id'].nunique()
print(f'Número de pacientes com menos de 18 anos vacinados: {num_pacientes_menor}')

Número de pacientes com menos de 18 anos vacinados: 56115


In [103]:
# 5)

print(df.columns)
# Contando o número de estabelecimentos únicos que aplicaram a vacina
num_estabelecimentos = df['estabelecimento_razaoSocial'].nunique()
print(f'Número de estabelecimentos que aplicaram a vacina: {num_estabelecimentos}')

Index(['document_id', 'paciente_id', 'paciente_idade',
       'paciente_dataNascimento', 'paciente_enumSexoBiologico',
       'paciente_racaCor_codigo', 'paciente_racaCor_valor',
       'paciente_endereco_coIbgeMunicipio', 'paciente_endereco_coPais',
       'paciente_endereco_nmMunicipio', 'paciente_endereco_nmPais',
       'paciente_endereco_uf', 'paciente_endereco_cep',
       'paciente_nacionalidade_enumNacionalidade', 'estabelecimento_valor',
       'estabelecimento_razaoSocial', 'estalecimento_noFantasia',
       'estabelecimento_municipio_codigo', 'estabelecimento_municipio_nome',
       'estabelecimento_uf', 'vacina_grupoAtendimento_codigo',
       'vacina_grupoAtendimento_nome', 'vacina_categoria_codigo',
       'vacina_categoria_nome', 'vacina_lote', 'vacina_fabricante_nome',
       'vacina_fabricante_referencia', 'vacina_dataAplicacao',
       'vacina_descricao_dose', 'vacina_codigo', 'vacina_nome',
       'sistema_origem'],
      dtype='object')
Número de estabelecimentos qu

## 4) Vacinação II
Gere um *DataFrame* que contenha somente os estabelecimentos que aplicaram vcinas a menores de 18 anos. Nesse *DataFrame* devem conter somente os dados dos estabelecimentos, mais uma coluna sendo a quantidade de vacinas que o estabelecimento aplicou a menores de 18 anos.  
  
1. crie uma cópia do *DataFrame* original, contendo somente os registros de vacinas realizadas a menores de 18 anos.  
2. crie uma lista das colunas desse *DataFrame* com o atributo de *DataFrame* **.columns()**  
3. Nesse *DataFrame* faça uma contagem do campo ```vacina_categoria_nome```.
3. a partir da lista de colunas, escolha somente aquelas que são referentes ao estabelecimento, faça uma lista com esses valores.  
4. usando o método *.loc*, selecione somente essas variáveis  
5. Aplique o método **.drop_duplicates** e crie uma lista com uma linha para cada estabelecimento, com os dados do estabelecimento  

In [104]:
# 1) 
df_menor = df[df["paciente_idade"]<18].copy()

In [105]:
# 2) 
df_menor.columns

Index(['document_id', 'paciente_id', 'paciente_idade',
       'paciente_dataNascimento', 'paciente_enumSexoBiologico',
       'paciente_racaCor_codigo', 'paciente_racaCor_valor',
       'paciente_endereco_coIbgeMunicipio', 'paciente_endereco_coPais',
       'paciente_endereco_nmMunicipio', 'paciente_endereco_nmPais',
       'paciente_endereco_uf', 'paciente_endereco_cep',
       'paciente_nacionalidade_enumNacionalidade', 'estabelecimento_valor',
       'estabelecimento_razaoSocial', 'estalecimento_noFantasia',
       'estabelecimento_municipio_codigo', 'estabelecimento_municipio_nome',
       'estabelecimento_uf', 'vacina_grupoAtendimento_codigo',
       'vacina_grupoAtendimento_nome', 'vacina_categoria_codigo',
       'vacina_categoria_nome', 'vacina_lote', 'vacina_fabricante_nome',
       'vacina_fabricante_referencia', 'vacina_dataAplicacao',
       'vacina_descricao_dose', 'vacina_codigo', 'vacina_nome',
       'sistema_origem'],
      dtype='object')

In [106]:
# 3)
df_menor['vacina_categoria_nome'].value_counts()

Faixa Etária                                      35486
Outros                                             3701
Povos Indígenas                                    2145
Povos e Comunidades Tradicionais                    622
Trabalhadores de Saúde                              238
População Privada de Liberdade                       50
Comorbidades                                         39
Gestantes                                            23
Pessoas com Deficiência                               4
Pessoas Institucionalizadas                           3
Pessoas de 60 anos ou mais institucionalizadas        1
Trabalhadores da Educação                             1
Name: vacina_categoria_nome, dtype: int64

In [107]:
# 4)
lista_variaveis = ['estabelecimento_valor',
       'estabelecimento_razaoSocial', 'estalecimento_noFantasia',
       'estabelecimento_municipio_codigo', 'estabelecimento_municipio_nome',
       'estabelecimento_uf']
df_menor_lista = df_menor.loc[:,lista_variaveis]

In [108]:
# 5)
df_menor_lista = df_menor_lista.drop_duplicates()
df_menor_lista.shape

(117, 6)

In [109]:
# Conta a quantidade de vacinas aplicadas por cada estabelecimento
vacinas_por_estabelecimento = df_menor.groupby('estabelecimento_valor').size()

# Adiciona a contagem ao DataFrame de estabelecimentos
df_menor_lista['vacinas_aplicadas'] = df_menor_lista['estabelecimento_valor'].map(vacinas_por_estabelecimento)

In [110]:
df_menor_lista

Unnamed: 0,estabelecimento_valor,estabelecimento_razaoSocial,estalecimento_noFantasia,estabelecimento_municipio_codigo,estabelecimento_municipio_nome,estabelecimento_uf,vacinas_aplicadas
1,6917291,PREFEITURA MUNICIPAL DE RIO BRANCO,DEPARTAMENTO DE VIGILANCIA EPIDEMIOLOGICA E AM...,120040,RIO BRANCO,AC,25252
18,2000660,PREFEITURA MUNICIPAL DE SENADOR GUIOMARD,CENTRO DE SAUDE MARIA DO SOCORRO CAVALCANTE,120045,SENADOR GUIOMARD,AC,1662
30,2002566,PREFEITURA MUNICIPAL DE SENA MADUREIRA,UNIDADE BASICA DE SAUDE LAURO FONTES DA SILVA,120050,SENA MADUREIRA,AC,348
70,7232489,PREFEITURA MUNICIPAL DE SAUDE,UNIDADE DE SAUDE DA FAMILIA FRANCISCO SOUZA DO...,120020,CRUZEIRO DO SUL,AC,409
76,6428940,PREFEITURA MUNICIPAL DE ASSIS BRASIL,POLO BASE DE ASSIS BRASIL,120005,ASSIS BRASIL,AC,321
...,...,...,...,...,...,...,...
64181,2000091,PREFEITURA MUNICIPAL DE MANCIO LIMA,U S F JOSE ARAUJO,120033,MANCIO LIMA,AC,7
80306,2001470,PREFEITURA MUNICIPAL DE BRASILEIA,ESF FRANCISCO DE ASSIS,120010,BRASILEIA,AC,5
88527,2000881,PREFEITURA MUNICIPAL DE SENA MADUREIRA,UNIDADE BASICA DE SAUDE CARLOS AFONSO VIEIRA,120050,SENA MADUREIRA,AC,38
196739,7123043,PREFEITURA MUNICIPAL DE JORDAO,SAUDE DA FAMILIA RIBEIRINHA,120032,JORDAO,AC,1
