## Exercício 1: Vestibular

Considere que a os dados gerados na célula abaixo contêm o número de acertos de 100 alunos em um vestibular para um curso de exatas, divididas pelos respectivos assuntos. Considere que cada assunto possui um número de questões conforme a tabela abaixo:

| assunto | número de questões |
|:---:|:---:|
| Matemática | 24 |
| Português | 18 |
| Geografia | 8 |
| Inglês | 8 |
| História | 8 |
| Física | 12 |
| Química | 12 |

Usando os comandos de operações com DataFrames que você aprendeu na Aula 03, calcule:

1. (operações com escalar) Calcule o percentual de acerto dos alunos por assunto.  
2. (operações entre *DataFrames) Calcule o total de acertos de cada aluno.  
3. Calcule o porcentual geral de cada aluno.  
4. Suponha que a nota de corte para a segunda fase seja 45. Quantos alunos tiveram nota maior que 45?  

In [1]:
import pandas as pd
import numpy as np

np.random.seed(42)
df_mat = pd.DataFrame(np.random.randint(24, size=(100, 1)), columns=['Qt_acertos'])

df_por = pd.DataFrame(np.random.randint(18, size=(100, 1)), columns=['Qt_acertos'])

df_geo = pd.DataFrame(np.random.randint(8, size=(100, 1)), columns=['Qt_acertos'])

df_ing = pd.DataFrame(np.random.randint(8, size=(100, 1)), columns=['Qt_acertos'])

df_his = pd.DataFrame(np.random.randint(8, size=(100, 1)), columns=['Qt_acertos'])

df_fis = pd.DataFrame(np.random.randint(12, size=(100, 1)), columns=['Qt_acertos'])

df_qui = pd.DataFrame(np.random.randint(12, size=(100, 1)), columns=['Qt_acertos'])

# Juntar em um único DataFrame
df = pd.concat([df_mat, df_por, df_geo, df_ing, df_his, df_fis, df_qui], axis=1)

In [2]:
# 1) Percentual de acertos por aluno por assunto (operações com escalar)
# Renomear colunas
df.columns = ['Matemática', 'Português', 'Geografia', 'Inglês', 'História', 'Física', 'Química']

# Questões por disciplina
questoes = {
    'Matemática': 24,
    'Português': 18,
    'Geografia': 8,
    'Inglês': 8,
    'História': 8,
    'Física': 12,
    'Química': 12
}

# Percentuais por disciplina (%)
percentuais = df.div(pd.Series(questoes), axis=1) * 100
percentuais

Unnamed: 0,Matemática,Português,Geografia,Inglês,História,Física,Química
0,25.000000,38.888889,87.5,37.5,12.5,66.666667,25.000000
1,79.166667,55.555556,0.0,0.0,0.0,91.666667,66.666667
2,58.333333,88.888889,0.0,62.5,87.5,33.333333,33.333333
3,41.666667,38.888889,37.5,50.0,0.0,0.000000,66.666667
4,29.166667,11.111111,25.0,87.5,0.0,75.000000,25.000000
...,...,...,...,...,...,...,...
95,25.000000,22.222222,87.5,12.5,50.0,75.000000,25.000000
96,33.333333,5.555556,50.0,75.0,12.5,33.333333,25.000000
97,95.833333,27.777778,0.0,25.0,50.0,8.333333,41.666667
98,0.000000,55.555556,37.5,12.5,62.5,83.333333,91.666667


In [3]:
# 2) total de acertos por aluno (operações entre DataFrames)
df['Total_acertos'] = df.sum(axis=1)
df['Total_acertos']

0     35
1     48
2     50
3     32
4     30
      ..
95    34
96    27
97    40
98    40
99    42
Name: Total_acertos, Length: 100, dtype: int64

In [4]:
# 3) percentual de acertos por aluno
total_questoes = sum(questoes.values())  # 90
df['Percentual_geral'] = (df['Total_acertos'] / total_questoes) * 100
df['Percentual_geral']

0     38.888889
1     53.333333
2     55.555556
3     35.555556
4     33.333333
        ...    
95    37.777778
96    30.000000
97    44.444444
98    44.444444
99    46.666667
Name: Percentual_geral, Length: 100, dtype: float64

In [5]:
# 4) Alunos com nota maior que 45
aprovados = (df['Total_acertos'] > 45).sum()
print("Número de alunos classificados para a 2ª fase:", aprovados)

Número de alunos classificados para a 2ª fase: 31


## 2) Vestibular II

Ainda sobre o mesmo banco de dados:

1. Neste vestibular, quem 'zera' em matemática, física ou química está desqualificado. Monte um novo *DataFrame* com os alunos desqualificados por este critério.
2. Quantos são esses alunos?
3. Qual a média desses alunos em história e geografia?
4. Monte um *DataFrame* com os alunos que passaram para a segunda fase. Repare que estes alunos não podem ter sido desqualificados.

In [6]:
# 1) DataFrame com os alunos desqualificados (que zeraram em matemática, física ou química)
desqualificados = df[(df['Matemática'] == 0) | 
                     (df['Física'] == 0) | 
                     (df['Química'] == 0)]

desqualificados

Unnamed: 0,Matemática,Português,Geografia,Inglês,História,Física,Química,Total_acertos,Percentual_geral
3,10,7,3,4,0,0,8,32,35.555556
6,6,0,7,7,5,0,4,29,32.222222
10,10,8,3,2,1,7,0,31,34.444444
12,20,8,3,7,1,0,3,42,46.666667
14,7,11,1,7,1,4,0,31,34.444444
20,23,11,6,5,6,2,0,53,58.888889
25,0,4,7,4,0,4,8,27,30.0
26,11,14,6,2,7,0,0,40,44.444444
27,21,13,1,5,7,3,0,50,55.555556
33,14,8,0,5,6,6,0,39,43.333333


In [7]:
# 2) Quantidade de alunos desqualificados
qtd_desqualificados = len(desqualificados)

print("Número de desqualificados:", qtd_desqualificados) 

Número de desqualificados: 23


In [8]:
# 3) Média desses alunos em História e Geografia
media_hist_geo = desqualificados[['História', 'Geografia']].mean()

print(media_hist_geo)

História     3.434783
Geografia    3.217391
dtype: float64


In [9]:
# 4) DataFrame com os alunos aprovados para a segunda fase
# Critérios:
    # Total_acertos > 45
    # Não estar na lista de desqualificados

aprovados_final = df[(df['Total_acertos'] > 45) & 
                     (df['Matemática'] > 0) & 
                     (df['Física'] > 0) & 
                     (df['Química'] > 0)]

aprovados_final

Unnamed: 0,Matemática,Português,Geografia,Inglês,História,Física,Química,Total_acertos,Percentual_geral
1,19,10,0,0,0,11,8,48,53.333333
2,14,16,0,5,7,4,4,50,55.555556
5,20,2,5,3,2,9,9,50,55.555556
7,18,4,4,7,7,1,8,49,54.444444
8,22,9,2,7,6,5,7,58,64.444444
17,21,15,2,2,4,2,6,52,57.777778
18,20,4,3,5,3,11,4,50,55.555556
24,20,2,7,5,3,11,2,50,55.555556
31,15,13,3,1,3,9,10,54,60.0
36,22,9,6,6,1,4,8,56,62.222222


## 3) Vacinações no Acre
Vamos trabalhar agora com a base de vacinações no Acre. Para facilitar a sua vida, copiamos o link do arquivo na célula abaixo.

1. Quantas vacinas estão registradas nessa base?  
2. Quantos pacientes foram vacinados? (considere um paciente para cada valor único de ```paciente_id```)  
3. Quantos pacientes únicos tomaram a primeira dose? OBS: Há um caractere especial neste campo. Receba os valores do campo com o método ```.unique()```.   
4. Quantos pacientes com menos de 18 anos foram vacinados?  
5. Quantos estabelecimentos aplicaram vacina no Acre?


**OBS:** O portal do DATASUS pode apresentar instabilidades, retornando um erro na segunda célula abaixo. Por este motivo está disponível uma base estática, que se for baixada para o seu *working directory* pode ser lida com este comando: ```df = pd.read_csv('registros de vacinacao covid ACRE.csv', sep=';')```.

**OBS2:** Para saber qual é o seu working directory, rode no jupyter: ```!pwd```.

In [10]:
arquivo = 'vacinacao_covid19_acre_parte1.csv'

df = pd.read_csv(arquivo, sep=';')

df.head(5)

Unnamed: 0,document_id,paciente_id,paciente_idade,paciente_dataNascimento,paciente_enumSexoBiologico,paciente_racaCor_codigo,paciente_racaCor_valor,paciente_endereco_coIbgeMunicipio,paciente_endereco_coPais,paciente_endereco_nmMunicipio,...,vacina_categoria_codigo,vacina_categoria_nome,vacina_lote,vacina_fabricante_nome,vacina_fabricante_referencia,vacina_dataAplicacao,vacina_descricao_dose,vacina_codigo,vacina_nome,sistema_origem
0,eabf4056-cbc0-4cdf-856d-a122b5243917-i0b0,cf3c1f8005be8e3a6dcfd7476776b6d6de52afb20f4d30...,37,1984-02-10,M,3,PARDA,120040.0,10.0,RIO BRANCO,...,9.0,Trabalhadores de Saúde,FF8848,PFIZER,Organization/00394544000851,2021-10-20,Reforço,87,COVID-19 PFIZER - COMIRNATY,Novo PNI
1,dd097975-d896-4adc-97a1-5de3f51792a4-i0b0,5310f2da2074b4d20620f811323a6f7c4fc8853fc5a41f...,22,1998-08-09,F,99,SEM INFORMACAO,120013.0,10.0,BUJARI,...,2.0,Faixa Etária,FA9096,PFIZER,Organization/00394544000851,2021-07-23,1ª Dose,87,COVID-19 PFIZER - COMIRNATY,Novo PNI
2,ebfa081c-1001-4f43-9c70-2adcfe72fe4d-i0b0,d3c1512bbb340d89e7b1a10ce79ecbac7c69bb81204498...,19,2002-03-16,M,4,AMARELA,120030.0,10.0,FEIJO,...,2.0,Faixa Etária,217VCD231W,ASTRAZENECA/FIOCRUZ,Organization/33781055000135,2021-10-18,2ª Dose,85,COVID-19 ASTRAZENECA/FIOCRUZ - COVISHIELD,Novo PNI
3,dd180d26-5bee-44d5-a4d5-ea314976d7f1-i0b0,d0a264fe07e8b95225c45d61cd6f1c020c1dec5d5f1125...,68,1953-03-01,F,3,PARDA,120040.0,10.0,RIO BRANCO,...,2.0,Faixa Etária,FH4750,PFIZER,Organization/28290,2021-11-25,Reforço,87,COVID-19 PFIZER - COMIRNATY,Novo PNI
4,ce4b57f2-c312-4994-a10b-596071edeaaa-i0b0,452d3fa94d2313e35691d14ac26f7d1adfa1fabcd4b6ed...,31,1990-08-28,M,99,SEM INFORMACAO,120005.0,10.0,ASSIS BRASIL,...,2.0,Faixa Etária,FP8073,PFIZER,Organization/28290,2022-04-19,Dose Adicional,87,COVID-19 PFIZER - COMIRNATY,Novo PNI


In [11]:
# 1) Quantidade de vacinas registradas nesta base
total_vacinas = df.shape[0]
print("Total de vacinas registradas nesta base:", total_vacinas)

Total de vacinas registradas nesta base: 390911


In [12]:
# 2) Quantos pacientes foram vacinados? (considerar 1 paciente para cada valor unico de paciente_id)
pacientes_vacinados = df['paciente_id'].nunique()
print("Total de pacientes vacinados:", pacientes_vacinados)

Total de pacientes vacinados: 318850


In [13]:
# 3) Quantos pacientes tomaram a primeira dose? Obs: Utilizar o método .unique()
primeira_dose = df['vacina_descricao_dose'].unique()[0]
df['paciente_id'].loc[df['vacina_descricao_dose'] == primeira_dose].nunique()

72475

In [14]:
# 3) solução alternativa
primeira_dose = df['vacina_descricao_dose'].unique()[0]
df_primeira_dose = df[df['vacina_descricao_dose'] == primeira_dose]
df_primeira_dose['paciente_id'].nunique()

72475

In [15]:
# 4) Quantos pacientes menores de 18 anos foram vacinados?
df_menor = df[df["paciente_idade"]<18]
df_menor['paciente_id'].nunique()

69726

In [16]:
# 5) Quantos estabelecimentos aplicaram a vacina no Acre?
estabelecimentos_unicos = df['estabelecimento_valor'].nunique()
print("Número de estabelecimentos que aplicaram vacinas:", estabelecimentos_unicos)

Número de estabelecimentos que aplicaram vacinas: 229


## 4) Vacinação II
Gere um *DataFrame* que contenha somente os estabelecimentos que aplicaram vcinas a menores de 18 anos. Nesse *DataFrame* devem conter somente os dados dos estabelecimentos, mais uma coluna sendo a quantidade de vacinas que o estabelecimento aplicou a menores de 18 anos.  
  
1. crie uma cópia do *DataFrame* original, contendo somente os registros de vacinas realizadas a menores de 18 anos.  
2. crie uma lista das colunas desse *DataFrame* com o atributo de *DataFrame* **.columns()**  
3. Nesse *DataFrame* faça uma contagem do campo ```vacina_categoria_nome```.
3. a partir da lista de colunas, escolha somente aquelas que são referentes ao estabelecimento, faça uma lista com esses valores.  
4. usando o método *.loc*, selecione somente essas variáveis  
5. Aplique o método **.drop_duplicates** e crie uma lista com uma linha para cada estabelecimento, com os dados do estabelecimento  

In [17]:
# 1) Crie uma cópia do DataFrame original, contendo somente os registros de vacinados menores de 18 anos
df_menor = df[df["paciente_idade"]<18].copy()
df_menor

Unnamed: 0,document_id,paciente_id,paciente_idade,paciente_dataNascimento,paciente_enumSexoBiologico,paciente_racaCor_codigo,paciente_racaCor_valor,paciente_endereco_coIbgeMunicipio,paciente_endereco_coPais,paciente_endereco_nmMunicipio,...,vacina_categoria_codigo,vacina_categoria_nome,vacina_lote,vacina_fabricante_nome,vacina_fabricante_referencia,vacina_dataAplicacao,vacina_descricao_dose,vacina_codigo,vacina_nome,sistema_origem
12,3274f24d-1591-4140-a8fa-190936d23a9b-i0b0,0632f0ea66d18401d3a4c7d82a91173178ab5a2730ce6a...,11,2011-06-26,F,3,PARDA,120020.0,10.0,CRUZEIRO DO SUL,...,,,210520,SINOVAC/BUTANTAN,29501,2022-08-24,1ª Dose,86,COVID-19 SINOVAC/BUTANTAN - CORONAVAC,Novo PNI
18,5995f926-802d-401e-b4f9-a26798007f48-i0b0,141d2f6ef522fb00bd3bafd9b7a86fc97ef7f5894eba1f...,6,2017-06-08,F,3,PARDA,120060.0,10.0,TARAUACA,...,2.0,Faixa Etária,230094,SINOVAC/BUTANTAN,152,2024-04-10,2ª Dose,86,COVID-19 SINOVAC/BUTANTAN - CORONAVAC,Novo PNI
19,ddbe8e75-ac1e-40b7-ad55-ead506189efd-i0b0,4a502fc943b8e62deca3f6cd1be3885f7b0d8a2ed88796...,14,2007-03-13,F,3,PARDA,120010.0,10.0,BRASILEIA,...,2.0,Faixa Etária,FF5107,PFIZER,Organization/00394544000851,2021-09-30,1ª Dose,87,COVID-19 PFIZER - COMIRNATY,Novo PNI
26,ea9e2f3d-e19c-4d77-b7ef-7b0fbe361729-i0b0,28846f11a1561850581aa34a0587e14a355445324f4de4...,10,2011-08-14,M,3,PARDA,120030.0,10.0,FEIJO,...,,,FN5988,PFIZER - PEDI?TRICA,28290,2022-03-17,1ª Dose,99,COVID-19 PEDIÁTRICA - PFIZER COMIRNATY,Novo PNI
42,6faa9404-a376-4526-8490-7fda71066a67-i0b0,88fe29e67358b2fcf1205bb2c98d71b09e02d3fdb6e3f9...,12,2009-07-28,M,5,INDIGENA,120060.0,10.0,TARAUACA,...,7.0,Povos Indígenas,FF8848,PFIZER,Organization/28290,2021-12-05,1ª Dose,87,COVID-19 PFIZER - COMIRNATY,Novo PNI
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
390876,c3ba4343-3f22-4352-9f7d-76407352a54b-i0b0,d7302c9c223724caa0a96839b9796e5bde9eb5d3f74a2d...,8,2013-04-06,M,3,PARDA,120060.0,10.0,TARAUACA,...,,,FP8290,Pendente Identificação,Organization/28290,2022-02-14,1ª Dose,99,COVID-19 PEDIÁTRICA - PFIZER COMIRNATY,Novo PNI
390889,c67be324-62ec-4c56-a24d-bf52cecd8bc5-i0b0,ade63d0c13a4bbe9b1c717a463d6116f2912cb27151d30...,4,2019-08-03,F,3,PARDA,120040.0,10.0,RIO BRANCO,...,2.0,Faixa Etária,230165,BUTANTAN,152,2024-01-25,Única,33,INF3,Novo PNI
390898,c76240fc-b5c7-42fe-b197-5834997c5fe8-i0b0,3b0305b831b9d267ddfd5d691bf60cb69314d5d0780219...,10,2011-12-14,M,3,PARDA,120020.0,10.0,CRUZEIRO DO SUL,...,,,210342,SINOVAC/BUTANTAN,Organization/152,2022-02-03,1ª Dose,86,COVID-19 SINOVAC/BUTANTAN - CORONAVAC,Novo PNI
390903,c792701d-7d82-4f07-a441-b04b8d77fc73-i0b0,7d1e0926e87b64ba4e8b087d7ece2d5ffc983c1e1acdd8...,1,2023-03-11,F,3,PARDA,120030.0,10.0,FEIJO,...,2.0,Faixa Etária,gy0352,PFIZER - PEDIÁTRICA MENOR DE 5 ANOS,,2024-03-18,2ª Dose,102,COVID-19 PFIZER - COMIRNATY PEDIÁTRICA MENOR D...,ESUS APS - NACIONAL (OFFLINE)


In [18]:
# 2) Criar lista de colunas do df_menor, utilizando o atributo .columns()
df_menor.columns

Index(['document_id', 'paciente_id', 'paciente_idade',
       'paciente_dataNascimento', 'paciente_enumSexoBiologico',
       'paciente_racaCor_codigo', 'paciente_racaCor_valor',
       'paciente_endereco_coIbgeMunicipio', 'paciente_endereco_coPais',
       'paciente_endereco_nmMunicipio', 'paciente_endereco_nmPais',
       'paciente_endereco_uf', 'paciente_endereco_cep',
       'paciente_nacionalidade_enumNacionalidade', 'estabelecimento_valor',
       'estabelecimento_razaoSocial', 'estalecimento_noFantasia',
       'estabelecimento_municipio_codigo', 'estabelecimento_municipio_nome',
       'estabelecimento_uf', 'vacina_grupoAtendimento_codigo',
       'vacina_grupoAtendimento_nome', 'vacina_categoria_codigo',
       'vacina_categoria_nome', 'vacina_lote', 'vacina_fabricante_nome',
       'vacina_fabricante_referencia', 'vacina_dataAplicacao',
       'vacina_descricao_dose', 'vacina_codigo', 'vacina_nome',
       'sistema_origem'],
      dtype='object')

In [19]:
# 3) Fazer contagem do campo vacina_categoria_nome
df_menor['vacina_categoria_nome'].value_counts()

vacina_categoria_nome
Faixa Etária                                      49015
Povos Indígenas                                    4934
Outros                                             3755
Povos e Comunidades Tradicionais                    875
Trabalhadores de Saúde                              264
Comorbidades                                         58
População Privada de Liberdade                       53
Gestantes                                            47
Trabalhadores da Educação                            14
Trabalhadores de Transporte                          13
Pessoas com Deficiência                              11
Pessoas Institucionalizadas                           3
Pessoas de 60 anos ou mais institucionalizadas        1
Puérperas                                             1
Name: count, dtype: int64

In [20]:
# 4) Fazer lista com as colunas referente a estabelecimento
lista_variaveis = ['estabelecimento_valor',
       'estabelecimento_razaoSocial', 'estalecimento_noFantasia',
       'estabelecimento_municipio_codigo', 'estabelecimento_municipio_nome',
       'estabelecimento_uf']
df_menor_lista = df_menor.loc[:,lista_variaveis]
df_menor_lista

Unnamed: 0,estabelecimento_valor,estabelecimento_razaoSocial,estalecimento_noFantasia,estabelecimento_municipio_codigo,estabelecimento_municipio_nome,estabelecimento_uf
12,7247435,PREFEITURA MUNICIPAL DE SAUDE,UNIDADE DE SAUDE DA FAMILIA RAIMUNDO CELSO LIM...,120020,CRUZEIRO DO SUL,AC
18,3810771,PREFEITURA MUNICIPAL DE TARAUACA,UNIDADE DE S DA FAMILIA DR JOSE LEONCIO GOMES ...,120060,TARAUACA,AC
19,2001349,PREFEITURA MUNICIPAL DE BRASILEIA,ESF TUFIC MIZAEL SAADY,120010,BRASILEIA,AC
26,924490,PREFEITURA MUNICIPAL DE FEIJO,UNIDADE MOVEL DE SAUDE FLUVIAL PEDRO RODRIGUES...,120030,FEIJO,AC
42,6612385,PREFEITURA MUNICIPAL DE TARAUACA,UNIDADE ASSISTENCIAL A SAUDE INDIGENA DE TARAU...,120060,TARAUACA,AC
...,...,...,...,...,...,...
390876,3810771,PREFEITURA MUNICIPAL DE TARAUACA,UNIDADE DE S DA FAMILIA DR JOSE LEONCIO GOMES ...,120060,TARAUACA,AC
390889,3015548,PREFEITURA MUNICIPAL DE RIO BRANCO,USF PLATILDE OLIVEIRA,120040,RIO BRANCO,AC
390898,2002914,PREFEITURA MUNICIPAL DE CRUZEIRO DO SUL,UNIDADE SAUDE DA FAMILIA 25 DE AGOSTO,120020,CRUZEIRO DO SUL,AC
390903,7014147,PREFEITURA MUNICIPAL DE FEIJO,U S F ANTONIO DOMINGOS RODRIGUES,120030,FEIJO,AC


In [21]:
# 6) Aplique o método **.drop_duplicates** e crie uma lista com uma linha para cada estabelecimento, com os dados do estabelecimento
df_menor_lista = df_menor_lista.drop_duplicates()
df_menor_lista

Unnamed: 0,estabelecimento_valor,estabelecimento_razaoSocial,estalecimento_noFantasia,estabelecimento_municipio_codigo,estabelecimento_municipio_nome,estabelecimento_uf
12,7247435,PREFEITURA MUNICIPAL DE SAUDE,UNIDADE DE SAUDE DA FAMILIA RAIMUNDO CELSO LIM...,120020,CRUZEIRO DO SUL,AC
18,3810771,PREFEITURA MUNICIPAL DE TARAUACA,UNIDADE DE S DA FAMILIA DR JOSE LEONCIO GOMES ...,120060,TARAUACA,AC
19,2001349,PREFEITURA MUNICIPAL DE BRASILEIA,ESF TUFIC MIZAEL SAADY,120010,BRASILEIA,AC
26,924490,PREFEITURA MUNICIPAL DE FEIJO,UNIDADE MOVEL DE SAUDE FLUVIAL PEDRO RODRIGUES...,120030,FEIJO,AC
42,6612385,PREFEITURA MUNICIPAL DE TARAUACA,UNIDADE ASSISTENCIAL A SAUDE INDIGENA DE TARAU...,120060,TARAUACA,AC
...,...,...,...,...,...,...
202710,2001357,SECRETARIA MUNICIPAL DE SAUDE DE BRASILEIA,ESF PEDRO OLIVEIRA DE SOUZA,120010,BRASILEIA,AC
237408,4646770,USF SAO FRANCISCO,USF SAO FRANCISCO,120040,RIO BRANCO,AC
336717,6411312,PREFEITURA MUNICIPAL DE PLACIDO DE CASTRO,U S F LUCIO ALVES DA SILVA,120038,PLACIDO DE CASTRO,AC
357855,2000814,SECRETARIA DE ESTADO DE SAUDE DO ACRE,USF FRANCISCO EDUARDO DE PAIVA,120040,RIO BRANCO,AC
