## Exercício 1: Vestibular

Considere que a os dados gerados na célula abaixo contêm o número de acertos de 100 alunos em um vestibular para um curso de exatas, divididas pelos respectivos assuntos. Considere que cada assunto possui um número de questões conforme a tabela abaixo:

| assunto | número de questões |
|:---:|:---:|
| Matemática | 24 |
| Português | 18 |
| Geografia | 8 |
| Inglês | 8 |
| História | 8 |
| Física | 12 |
| Química | 12 |

Usando os comandos de operações com DataFrames que você aprendeu na Aula 03, calcule:

1. (operações com escalar) Calcule o percentual de acerto dos alunos por assunto.  
2. (operações entre *DataFrames) Calcule o total de acertos de cada aluno.  
3. Calcule o porcentual geral de cada aluno.  
4. Suponha que a nota de corte para a segunda fase seja 45. Quantos alunos tiveram nota maior que 45?  

In [4]:
import pandas as pd
import numpy as np

np.random.seed(42)
df_mat = pd.DataFrame(np.random.randint(24, size=(100, 1)), columns=['Qt_acertos'])

df_por = pd.DataFrame(np.random.randint(18, size=(100, 1)), columns=['Qt_acertos'])

df_geo = pd.DataFrame(np.random.randint(8, size=(100, 1)), columns=['Qt_acertos'])

df_ing = pd.DataFrame(np.random.randint(8, size=(100, 1)), columns=['Qt_acertos'])

df_his = pd.DataFrame(np.random.randint(8, size=(100, 1)), columns=['Qt_acertos'])

df_fis = pd.DataFrame(np.random.randint(12, size=(100, 1)), columns=['Qt_acertos'])

df_qui = pd.DataFrame(np.random.randint(12, size=(100, 1)), columns=['Qt_acertos'])

In [39]:
# Renomeando colunas para refletir cada matéria
df_mat.columns = ['Matemática']
df_por.columns = ['Português']
df_geo.columns = ['Geografia']
df_ing.columns = ['Inglês']
df_his.columns = ['História']
df_fis.columns = ['Física']
df_qui.columns = ['Química']

# Concatenação dos DataFrames para formar um único DataFrame com todas as matérias
df_resultados = pd.concat([df_mat, df_por, df_geo, df_ing, df_his, df_fis, df_qui], axis=1)

# Calculando o percentual de acertos por assunto
df_percentuais = df_resultados.copy()
df_percentuais['Matemática'] /= 24
df_percentuais['Português'] /= 18
df_percentuais['Geografia'] /= 8
df_percentuais['Inglês'] /= 8
df_percentuais['História'] /= 8
df_percentuais['Física'] /= 12
df_percentuais['Química'] /= 12

print("Percentuais de acerto por assunto:\n", df_percentuais.head())

Percentuais de acerto por assunto:
    Matemática  Português  Geografia  Inglês  História    Física   Química
0    0.250000   0.388889      0.875   0.375     0.125  0.666667  0.250000
1    0.791667   0.555556      0.000   0.000     0.000  0.916667  0.666667
2    0.583333   0.888889      0.000   0.625     0.875  0.333333  0.333333
3    0.416667   0.388889      0.375   0.500     0.000  0.000000  0.666667
4    0.291667   0.111111      0.250   0.875     0.000  0.750000  0.250000


In [40]:
# Calculando o total de acertos de cada aluno
df_resultados['Total_acertos'] = df_resultados.sum(axis=1)

print("\nTotal de acertos por aluno:\n", df_resultados['Total_acertos'].head())


Total de acertos por aluno:
 0    35
1    48
2    50
3    32
4    30
Name: Total_acertos, dtype: int64


In [41]:
# Calculando o percentual geral de acerto de cada aluno (total de questões é 90)
df_resultados['Percentual_geral'] = df_resultados['Total_acertos'] / 90

print("\nPercentual geral de acerto por aluno:\n", df_resultados['Percentual_geral'].head())


Percentual geral de acerto por aluno:
 0    0.388889
1    0.533333
2    0.555556
3    0.355556
4    0.333333
Name: Percentual_geral, dtype: float64


In [38]:
# Contando quantos alunos tiveram nota maior que 45
alunos_acima_corte = (df_resultados['Total_acertos'] > 45).sum()

print("\nNúmero de alunos com nota acima de 45:", alunos_acima_corte)


Número de alunos com nota acima de 45: 31


## 2) Vestibular II

Ainda sobre o mesmo banco de dados:

1. Neste vestibular, quem 'zera' em matemática, física ou química está desqualificado. Monte um novo *DataFrame* com os alunos desqualificados por este critério.
2. Quantos são esses alunos?
3. Qual a média desses alunos em história e geografia?
4. Monte um *DataFrame* com os alunos que passaram para a segunda fase. Repare que estes alunos não podem ter sido desqualificados.

In [43]:
# Identificação dos alunos desqualificados
df_desqualificados = df_resultados[(df_resultados['Matemática'] == 0) | (df_resultados['Física'] == 0) | (df_resultados['Química'] == 0)]

# Contagem dos alunos desqualificados
num_desqualificados = df_desqualificados.shape[0]

# Cálculo da média de História e Geografia para os alunos desqualificados
media_his_geo_desq = df_desqualificados[['História', 'Geografia']].mean()

# Criando o DataFrame para os alunos que passaram para a segunda fase
df_passaram = df_resultados[(df_resultados['Matemática'] > 0) & (df_resultados['Física'] > 0) & (df_resultados['Química'] > 0)]
df_passaram = df_passaram[df_passaram.sum(axis=1) > 45]  # Nota de corte é 45

# Resultados
print("Número de alunos desqualificados:", num_desqualificados)
print("Média de História e Geografia dos desqualificados:\n", media_his_geo_desq)
print("Número de alunos que passaram para a segunda fase:", df_passaram.shape[0])


Número de alunos desqualificados: 23
Média de História e Geografia dos desqualificados:
 História     3.434783
Geografia    3.217391
dtype: float64
Número de alunos que passaram para a segunda fase: 76


## 3) Vacinações no Acre
Vamos trabalhar agora com a base de vacinações no Acre. Para facilitar a sua vida, copiamos o link do arquivo na célula abaixo.

1. Quantas vacinas estão registradas nessa base?  
2. Quantos pacientes foram vacinados? (considere um paciente para cada valor único de ```paciente_id```)  
3. Quantos pacientes únicos tomaram a primeira dose? OBS: Há um caractere especial neste campo. Receba os valores do campo com o método ```.unique()```.   
4. Quantos pacientes com menos de 18 anos foram vacinados?  
5. Quantos estabelecimentos aplicaram vacina no Acre?


**OBS:** O portal do DATASUS pode apresentar instabilidades, retornando um erro na segunda célula abaixo. Por este motivo está disponível uma base estática, que se for baixada para o seu *working directory* pode ser lida com este comando: ```df = pd.read_csv('registros de vacinacao covid ACRE.csv', sep=';')```.

**OBS2:** Para saber qual é o seu working directory, rode no jupyter: ```!pwd```.

In [5]:
df = pd.read_csv('registros de vacinacao covid ACRE.csv', sep=';')

  df = pd.read_csv('registros de vacinacao covid ACRE.csv', sep=';')


In [7]:
num_vaccination_records = df.shape[0]
print(num_vaccination_records)

384612


In [8]:
num_unique_patients = df['paciente_id'].nunique()
print(num_unique_patients)

314795


In [10]:
first_dose_unique_patients = df[df['vacina_descricao_dose'].str.contains('1ª Dose')]['paciente_id'].nunique()
print(first_dose_unique_patients)


142984


In [11]:
patients_under_18 = df[df['paciente_idade'] < 18]['paciente_id'].nunique()
print(patients_under_18)


67031


In [12]:
num_unique_establishments = df['estabelecimento_valor'].nunique()
print(num_unique_establishments)

210


## 4) Vacinação II
Gere um *DataFrame* que contenha somente os estabelecimentos que aplicaram vcinas a menores de 18 anos. Nesse *DataFrame* devem conter somente os dados dos estabelecimentos, mais uma coluna sendo a quantidade de vacinas que o estabelecimento aplicou a menores de 18 anos.  
  
1. crie uma cópia do *DataFrame* original, contendo somente os registros de vacinas realizadas a menores de 18 anos.  
2. crie uma lista das colunas desse *DataFrame* com o atributo de *DataFrame* **.columns()**  
3. Nesse *DataFrame* faça uma contagem do campo ```vacina_categoria_nome```.
3. a partir da lista de colunas, escolha somente aquelas que são referentes ao estabelecimento, faça uma lista com esses valores.  
4. usando o método *.loc*, selecione somente essas variáveis  
5. Aplique o método **.drop_duplicates** e crie uma lista com uma linha para cada estabelecimento, com os dados do estabelecimento  

In [15]:
df_under_18 = df[df['paciente_idade'] < 18].copy()

In [17]:
columns_list = df_under_18.columns.tolist()
columns_list

['document_id',
 'paciente_id',
 'paciente_idade',
 'paciente_dataNascimento',
 'paciente_enumSexoBiologico',
 'paciente_racaCor_codigo',
 'paciente_racaCor_valor',
 'paciente_endereco_coIbgeMunicipio',
 'paciente_endereco_coPais',
 'paciente_endereco_nmMunicipio',
 'paciente_endereco_nmPais',
 'paciente_endereco_uf',
 'paciente_endereco_cep',
 'paciente_nacionalidade_enumNacionalidade',
 'estabelecimento_valor',
 'estabelecimento_razaoSocial',
 'estalecimento_noFantasia',
 'estabelecimento_municipio_codigo',
 'estabelecimento_municipio_nome',
 'estabelecimento_uf',
 'vacina_grupoAtendimento_codigo',
 'vacina_grupoAtendimento_nome',
 'vacina_categoria_codigo',
 'vacina_categoria_nome',
 'vacina_lote',
 'vacina_fabricante_nome',
 'vacina_fabricante_referencia',
 'vacina_dataAplicacao',
 'vacina_descricao_dose',
 'vacina_codigo',
 'vacina_nome',
 'sistema_origem']

In [19]:
vaccine_category_counts = df_under_18['vacina_categoria_nome'].value_counts()
vaccine_category_counts

Faixa Etária                                      46342
Povos Indígenas                                    4457
Outros                                             3755
Povos e Comunidades Tradicionais                    807
Trabalhadores de Saúde                              245
Comorbidades                                         56
População Privada de Liberdade                       53
Gestantes                                            41
Pessoas com Deficiência                              11
Pessoas Institucionalizadas                           3
Pessoas de 60 anos ou mais institucionalizadas        1
Puérperas                                             1
Trabalhadores da Educação                             1
Name: vacina_categoria_nome, dtype: int64

In [20]:
establishment_columns = [
    'estabelecimento_valor',
    'estabelecimento_razaoSocial',
    'estalecimento_noFantasia',
    'estabelecimento_municipio_codigo',
    'estabelecimento_municipio_nome',
    'estabelecimento_uf'
]

In [26]:
df_establishments = df_under_18[establishment_columns + ['vacina_categoria_nome']]
df_establishments

Unnamed: 0,estabelecimento_valor,estabelecimento_razaoSocial,estalecimento_noFantasia,estabelecimento_municipio_codigo,estabelecimento_municipio_nome,estabelecimento_uf,vacina_categoria_nome
2,6917291,PREFEITURA MUNICIPAL DE RIO BRANCO,DEPARTAMENTO DE VIGILANCIA EPIDEMIOLOGICA E AM...,120040,RIO BRANCO,AC,
8,6917291,PREFEITURA MUNICIPAL DE RIO BRANCO,DEPARTAMENTO DE VIGILANCIA EPIDEMIOLOGICA E AM...,120040,RIO BRANCO,AC,Faixa Etária
11,2001349,PREFEITURA MUNICIPAL DE BRASILEIA,ESF TUFIC MIZAEL SAADY,120010,BRASILEIA,AC,Faixa Etária
12,6159087,PREFEITURA MUNICIPAL DE CRUZEIRO DO SUL,SECRETARIA MUNICIPAL DE SAUDE DE CRUZEIRO DO SUL,120020,CRUZEIRO DO SUL,AC,Faixa Etária
20,3810771,PREFEITURA MUNICIPAL DE TARAUACA,UNIDADE DE S DA FAMILIA DR JOSE LEONCIO GOMES ...,120060,TARAUACA,AC,Faixa Etária
...,...,...,...,...,...,...,...
384594,2000105,PREFEITURA MUNICIPAL DE MANCIO LIMA,U S F QUINTINO RIO BRANCO LEBRE,120033,MANCIO LIMA,AC,Outros
384595,6917291,PREFEITURA MUNICIPAL DE RIO BRANCO,DEPARTAMENTO DE VIGILANCIA EPIDEMIOLOGICA E AM...,120040,RIO BRANCO,AC,Faixa Etária
384600,6612385,PREFEITURA MUNICIPAL DE TARAUACA,UNIDADE ASSISTENCIAL A SAUDE INDIGENA DE TARAU...,120060,TARAUACA,AC,Povos Indígenas
384602,6917291,PREFEITURA MUNICIPAL DE RIO BRANCO,DEPARTAMENTO DE VIGILANCIA EPIDEMIOLOGICA E AM...,120040,RIO BRANCO,AC,Faixa Etária


In [27]:
df_unique_establishments = df_establishments.drop_duplicates(subset=establishment_columns)
df_unique_establishments

Unnamed: 0,estabelecimento_valor,estabelecimento_razaoSocial,estalecimento_noFantasia,estabelecimento_municipio_codigo,estabelecimento_municipio_nome,estabelecimento_uf,vacina_categoria_nome
2,6917291,PREFEITURA MUNICIPAL DE RIO BRANCO,DEPARTAMENTO DE VIGILANCIA EPIDEMIOLOGICA E AM...,120040,RIO BRANCO,AC,
11,2001349,PREFEITURA MUNICIPAL DE BRASILEIA,ESF TUFIC MIZAEL SAADY,120010,BRASILEIA,AC,Faixa Etária
12,6159087,PREFEITURA MUNICIPAL DE CRUZEIRO DO SUL,SECRETARIA MUNICIPAL DE SAUDE DE CRUZEIRO DO SUL,120020,CRUZEIRO DO SUL,AC,Faixa Etária
20,3810771,PREFEITURA MUNICIPAL DE TARAUACA,UNIDADE DE S DA FAMILIA DR JOSE LEONCIO GOMES ...,120060,TARAUACA,AC,Faixa Etária
23,2000660,PREFEITURA MUNICIPAL DE SENADOR GUIOMARD,CENTRO DE SAUDE MARIA DO SOCORRO CAVALCANTE,120045,SENADOR GUIOMARD,AC,Faixa Etária
...,...,...,...,...,...,...,...
128240,197599,CENTRAL MUNICIPAL DE REDE DE FRIOS,CENTRAL MUNICIPAL DE REDE DE FRIOS,120020,CRUZEIRO DO SUL,AC,Faixa Etária
133958,9315578,MUNICIPIO DE PORTO WALTER,UBS FRANCISCA DAS CHAGAS LUSTOSA,120039,PORTO WALTER,AC,Faixa Etária
151264,2001357,SECRETARIA MUNICIPAL DE SAUDE DE BRASILEIA,ESF PEDRO OLIVEIRA DE SOUZA,120010,BRASILEIA,AC,Faixa Etária
205572,5493455,PREFEITURA MUNICIPAL DE PLACIDO DE CASTRO,U S F MARIO GOMES DA SILVA,120038,PLACIDO DE CASTRO,AC,Faixa Etária


In [28]:
vaccine_counts_per_establishment = df_under_18.groupby(establishment_columns).size().reset_index(name='quantidade_vacinas_menores_18')
vaccine_counts_per_establishment

Unnamed: 0,estabelecimento_valor,estabelecimento_razaoSocial,estalecimento_noFantasia,estabelecimento_municipio_codigo,estabelecimento_municipio_nome,estabelecimento_uf,quantidade_vacinas_menores_18
0,115606,K M OLIVEIRA EIRELI,MAIS SAUDE DIAGNOSTICO,120020,CRUZEIRO DO SUL,AC,1
1,117382,USF LIDIA RODRIGUES,USF LIDIA RODRIGUES,120040,RIO BRANCO,AC,26
2,197599,CENTRAL MUNICIPAL DE REDE DE FRIOS,CENTRAL MUNICIPAL DE REDE DE FRIOS,120020,CRUZEIRO DO SUL,AC,1
3,468363,REDE DE FRIOS,REDE DE FRIOS,120033,MANCIO LIMA,AC,907
4,499919,MUNICIPIO DE SANTA ROSA DO PURUS,UNIDADE BASICA DE SAUDE MANDUCA KULINA,120043,SANTA ROSA DO PURUS,AC,17
...,...,...,...,...,...,...,...
188,9648968,DISTRITO SANITARIO ESPECIAL DE SAUDE INDIGENA ...,UNIDADE BASICA DE SAUDE BUACU,120034,MANOEL URBANO,AC,97
189,9830464,MUNICIPIO DE BRASILEIA,ESF ANTONIO CORREIA DA CRUZ,120010,BRASILEIA,AC,11
190,9908382,USF AEROPORTO VELHO,USF AEROPORTO VELHO,120040,RIO BRANCO,AC,74
191,9948759,PREFEITURA DE BRASILEIA,ESF RAIMUNDA ANTONIA DE ARAUJO CARNEIRO LIMA,120010,BRASILEIA,AC,48


In [25]:
df_result = pd.merge(df_unique_establishments, vaccine_counts_per_establishment, on=establishment_columns)
df_result

Unnamed: 0,estabelecimento_valor,estabelecimento_razaoSocial,estalecimento_noFantasia,estabelecimento_municipio_codigo,estabelecimento_municipio_nome,estabelecimento_uf,vacina_categoria_nome,quantidade_vacinas_menores_18
0,6917291,PREFEITURA MUNICIPAL DE RIO BRANCO,DEPARTAMENTO DE VIGILANCIA EPIDEMIOLOGICA E AM...,120040,RIO BRANCO,AC,,25591
1,2001349,PREFEITURA MUNICIPAL DE BRASILEIA,ESF TUFIC MIZAEL SAADY,120010,BRASILEIA,AC,Faixa Etária,1165
2,6159087,PREFEITURA MUNICIPAL DE CRUZEIRO DO SUL,SECRETARIA MUNICIPAL DE SAUDE DE CRUZEIRO DO SUL,120020,CRUZEIRO DO SUL,AC,Faixa Etária,1819
3,3810771,PREFEITURA MUNICIPAL DE TARAUACA,UNIDADE DE S DA FAMILIA DR JOSE LEONCIO GOMES ...,120060,TARAUACA,AC,Faixa Etária,3213
4,2000660,PREFEITURA MUNICIPAL DE SENADOR GUIOMARD,CENTRO DE SAUDE MARIA DO SOCORRO CAVALCANTE,120045,SENADOR GUIOMARD,AC,Faixa Etária,2177
...,...,...,...,...,...,...,...,...
188,197599,CENTRAL MUNICIPAL DE REDE DE FRIOS,CENTRAL MUNICIPAL DE REDE DE FRIOS,120020,CRUZEIRO DO SUL,AC,Faixa Etária,1
189,9315578,MUNICIPIO DE PORTO WALTER,UBS FRANCISCA DAS CHAGAS LUSTOSA,120039,PORTO WALTER,AC,Faixa Etária,4
190,2001357,SECRETARIA MUNICIPAL DE SAUDE DE BRASILEIA,ESF PEDRO OLIVEIRA DE SOUZA,120010,BRASILEIA,AC,Faixa Etária,4
191,5493455,PREFEITURA MUNICIPAL DE PLACIDO DE CASTRO,U S F MARIO GOMES DA SILVA,120038,PLACIDO DE CASTRO,AC,Faixa Etária,3
