## Exercício 1: Vestibular

Considere que a os dados gerados na célula abaixo contêm o número de acertos de 100 alunos em um vestibular para um curso de exatas, divididas pelos respectivos assuntos. Considere que cada assunto possui um número de questões conforme a tabela abaixo:

| assunto | número de questões |
|:---:|:---:|
| Matemática | 24 |
| Português | 18 |
| Geografia | 8 |
| Inglês | 8 |
| História | 8 |
| Física | 12 |
| Química | 12 |

Usando os comandos de operações com DataFrames que você aprendeu na Aula 03, calcule:

1. (operações com escalar) Calcule o percentual de acerto dos alunos por assunto.  
2. (operações entre *DataFrames) Calcule o total de acertos de cada aluno.  
3. Calcule o porcentual geral de cada aluno.  
4. Suponha que a nota de corte para a segunda fase seja 45. Quantos alunos tiveram nota maior que 45?  

In [1]:
import pandas as pd
import numpy as np

np.random.seed(42)
df_mat = pd.DataFrame(np.random.randint(24, size=(100, 1)), columns=['Qt_acertos'])

df_por = pd.DataFrame(np.random.randint(18, size=(100, 1)), columns=['Qt_acertos'])

df_geo = pd.DataFrame(np.random.randint(8, size=(100, 1)), columns=['Qt_acertos'])

df_ing = pd.DataFrame(np.random.randint(8, size=(100, 1)), columns=['Qt_acertos'])

df_his = pd.DataFrame(np.random.randint(8, size=(100, 1)), columns=['Qt_acertos'])

df_fis = pd.DataFrame(np.random.randint(12, size=(100, 1)), columns=['Qt_acertos'])

df_qui = pd.DataFrame(np.random.randint(12, size=(100, 1)), columns=['Qt_acertos'])

In [2]:
# Número de questões por assunto
num_questoes = {
    'Matemática': 24,
    'Português': 18,
    'Geografia': 8,
    'Inglês': 8,
    'História': 8,
    'Física': 12,
    'Química': 12
}

# DataFrames contendo a quantidade de acertos por assunto
dfs = [df_mat, df_por, df_geo, df_ing, df_his, df_fis, df_qui]

# Calculando o percentual de acerto por assunto
for i, df in enumerate(dfs):
    assunto = list(num_questoes.keys())[i]
    df['Percentual_acerto'] = (df['Qt_acertos'] / num_questoes[assunto]) * 100
    print(f"Percentual de acerto em {assunto}:")
    print(df.head())


Percentual de acerto em Matemática:
   Qt_acertos  Percentual_acerto
0           6          25.000000
1          19          79.166667
2          14          58.333333
3          10          41.666667
4           7          29.166667
Percentual de acerto em Português:
   Qt_acertos  Percentual_acerto
0           7          38.888889
1          10          55.555556
2          16          88.888889
3           7          38.888889
4           2          11.111111
Percentual de acerto em Geografia:
   Qt_acertos  Percentual_acerto
0           7               87.5
1           0                0.0
2           0                0.0
3           3               37.5
4           2               25.0
Percentual de acerto em Inglês:
   Qt_acertos  Percentual_acerto
0           3               37.5
1           0                0.0
2           5               62.5
3           4               50.0
4           7               87.5
Percentual de acerto em História:
   Qt_acertos  Percentual_acerto
0  

In [3]:
# Calculando o total de acertos de cada aluno
df_total_acertos = pd.DataFrame()
for df in dfs:
    if df_total_acertos.empty:
        df_total_acertos = df.copy()
    else:
        df_total_acertos += df

# Adicionando uma coluna com o total de acertos de cada aluno
df_total_acertos['Total_acertos'] = df_total_acertos.sum(axis=1)
print("Total de acertos de cada aluno:")
print(df_total_acertos.head())

Total de acertos de cada aluno:
   Qt_acertos  Percentual_acerto  Total_acertos
0          35         293.055556     328.055556
1          48         293.055556     341.055556
2          50         363.888889     413.888889
3          32         234.722222     266.722222
4          30         252.777778     282.777778


In [4]:
# Calculando o percentual geral de cada aluno
total_questoes = sum(num_questoes.values())
df_total_acertos['Percentual_geral'] = (df_total_acertos['Total_acertos'] / total_questoes) * 100
print("Percentual geral de cada aluno:")
print(df_total_acertos.head())

Percentual geral de cada aluno:
   Qt_acertos  Percentual_acerto  Total_acertos  Percentual_geral
0          35         293.055556     328.055556        364.506173
1          48         293.055556     341.055556        378.950617
2          50         363.888889     413.888889        459.876543
3          32         234.722222     266.722222        296.358025
4          30         252.777778     282.777778        314.197531


In [5]:
# Contando o número de alunos com nota maior que 45
num_alunos_aprovados = len(df_total_acertos[df_total_acertos['Total_acertos'] > 45])
print(f"Número de alunos com nota maior que 45: {num_alunos_aprovados}")

Número de alunos com nota maior que 45: 100


## 2) Vestibular II

Ainda sobre o mesmo banco de dados:

1. Neste vestibular, quem 'zera' em matemática, física ou química está desqualificado. Monte um novo *DataFrame* com os alunos desqualificados por este critério.
2. Quantos são esses alunos?
3. Qual a média desses alunos em história e geografia?
4. Monte um *DataFrame* com os alunos que passaram para a segunda fase. Repare que estes alunos não podem ter sido desqualificados.

In [6]:
# Verificando alunos desqualificados em Matemática, Física ou Química
df_desqualificados = pd.DataFrame()
for df in [df_mat, df_fis, df_qui]:
    alunos_desqualificados = df[df['Qt_acertos'] == 0]
    df_desqualificados = pd.concat([df_desqualificados, alunos_desqualificados])

# Removendo duplicatas (alunos que zeraram mais de uma matéria)
df_desqualificados = df_desqualificados.drop_duplicates()

# Contando o número de alunos desqualificados
num_alunos_desqualificados = len(df_desqualificados)
print(f"Número de alunos desqualificados: {num_alunos_desqualificados}")

# Calculando a média dos alunos desqualificados em História e Geografia
media_hist_geog = df_desqualificados[['Qt_acertos']].mean()
print(f"Média dos alunos desqualificados em História e Geografia:\n{media_hist_geog}")

# Montando DataFrame com os alunos que passaram para a segunda fase
df_alunos_passaram = df_total_acertos[df_total_acertos['Total_acertos'] > 45]
df_alunos_passaram = df_alunos_passaram.drop(df_desqualificados.index, errors='ignore')

print("Alunos que passaram para a segunda fase:")
print(df_alunos_passaram.head())

Número de alunos desqualificados: 1
Média dos alunos desqualificados em História e Geografia:
Qt_acertos    0.0
dtype: float64
Alunos que passaram para a segunda fase:
   Qt_acertos  Percentual_acerto  Total_acertos  Percentual_geral
0          35         293.055556     328.055556        364.506173
1          48         293.055556     341.055556        378.950617
2          50         363.888889     413.888889        459.876543
3          32         234.722222     266.722222        296.358025
4          30         252.777778     282.777778        314.197531


## 3) Vacinações no Acre
Vamos trabalhar agora com a base de vacinações no Acre. Para facilitar a sua vida, copiamos o link do arquivo na célula abaixo.

1. Quantas vacinas estão registradas nessa base?  
2. Quantos pacientes foram vacinados? (considere um paciente para cada valor único de ```paciente_id```)  
3. Quantos pacientes únicos tomaram a primeira dose? OBS: Há um caractere especial neste campo. Receba os valores do campo com o método ```.unique()```.   
4. Quantos pacientes com menos de 18 anos foram vacinados?  
5. Quantos estabelecimentos aplicaram vacina no Acre?


**OBS:** O portal do DATASUS pode apresentar instabilidades, retornando um erro na segunda célula abaixo. Por este motivo está disponível uma base estática, que se for baixada para o seu *working directory* pode ser lida com este comando: ```df = pd.read_csv('registros de vacinacao covid ACRE.csv', sep=';')```.

**OBS2:** Para saber qual é o seu working directory, rode no jupyter: ```!pwd```.

In [7]:
arquivo = 'https://s3-sa-east-1.amazonaws.com/ckan.saude.gov.br/PNI/vacina/uf/2021-05-23/uf%3DAC/part-00000-63e5bee2-3684-4286-b709-7fe85483b04e.c000.csv'

In [8]:
# 1) link estava desaturalizado, atualizei
url = 'https://s3.sa-east-1.amazonaws.com/ckan.saude.gov.br/SIPNI/COVID/uf/uf%3DAC/part-00001-97829158-cc41-4c75-aec4-752344e6e938.c000.csv'
df = pd.read_csv(url, sep=';', decimal= ',')

# Contando o número de registros
num_vacinas = len(df)
print(f"Quantidade de vacinas registradas: {num_vacinas}")

Quantidade de vacinas registradas: 375262


In [9]:
# 2)Contando o número de pacientes foram vacinados
num_pacientes = df['paciente_id'].nunique()
print(f"Número de pacientes vacinados: {num_pacientes}")

Número de pacientes vacinados: 308567


In [10]:
# 3) Removendo caracteres especiais do campo 'vacina_descricao_dose'
df['vacina_descricao_dose'] = df['vacina_descricao_dose'].str.replace('\x89Ûª', '', regex=False)

# Filtrando para pegar apenas a primeira dose
primeira_dose = df[df['vacina_descricao_dose'] == '1ª Dose']

# Contando o número de pacientes únicos que tomaram a primeira dose
pacientes_primeira_dose = primeira_dose['paciente_id'].nunique()
print(f"Número de pacientes que tomaram a primeira dose: {pacientes_primeira_dose}")

Número de pacientes que tomaram a primeira dose: 141556


In [11]:
# 3) Contando o número de pacientes únicos que tomaram a primeira dose usando value_counts()
pacientes_primeira_dose_alt = df[df['vacina_descricao_dose'] == '1ª Dose']['paciente_id'].value_counts().shape[0]
print(f"Número de pacientes que tomaram a primeira dose (alternativa): {pacientes_primeira_dose_alt}")

Número de pacientes que tomaram a primeira dose (alternativa): 141556


In [12]:
# 4) Filtrando pacientes com menos de 18 anos
menores_18 = df[df['paciente_idade'] < 18]

# Contando o número de pacientes com menos de 18 anos
num_menores_18 = len(menores_18)
print(f"Número de pacientes com menos de 18 anos vacinados: {num_menores_18}")


Número de pacientes com menos de 18 anos vacinados: 70702


In [13]:
# 5)Contando o número de estabelecimentos únicos
num_estabelecimentos = df['estabelecimento_uf'].nunique()
print(f"Número de estabelecimentos que aplicaram vacina no Acre: {num_estabelecimentos}")

Número de estabelecimentos que aplicaram vacina no Acre: 1


## 4) Vacinação II
Gere um *DataFrame* que contenha somente os estabelecimentos que aplicaram vcinas a menores de 18 anos. Nesse *DataFrame* devem conter somente os dados dos estabelecimentos, mais uma coluna sendo a quantidade de vacinas que o estabelecimento aplicou a menores de 18 anos.  
  
1. crie uma cópia do *DataFrame* original, contendo somente os registros de vacinas realizadas a menores de 18 anos.  
2. crie uma lista das colunas desse *DataFrame* com o atributo de *DataFrame* **.columns()**  
3. Nesse *DataFrame* faça uma contagem do campo ```vacina_categoria_nome```.
3. a partir da lista de colunas, escolha somente aquelas que são referentes ao estabelecimento, faça uma lista com esses valores.  
4. usando o método *.loc*, selecione somente essas variáveis  
5. Aplique o método **.drop_duplicates** e crie uma lista com uma linha para cada estabelecimento, com os dados do estabelecimento  

In [14]:
# 1) Criar uma cópia do DataFrame original contendo somente os registros de vacinas realizadas a menores de 18 anos
df_menores_18 = df[df['paciente_idade'] < 18].copy()
df_menores_18_limitado = df_menores_18.head(20000)
df_menores_18_limitado

Unnamed: 0,document_id,paciente_id,paciente_idade,paciente_dataNascimento,paciente_enumSexoBiologico,paciente_racaCor_codigo,paciente_racaCor_valor,paciente_endereco_coIbgeMunicipio,paciente_endereco_coPais,paciente_endereco_nmMunicipio,...,vacina_categoria_codigo,vacina_categoria_nome,vacina_lote,vacina_fabricante_nome,vacina_fabricante_referencia,vacina_dataAplicacao,vacina_descricao_dose,vacina_codigo,vacina_nome,sistema_origem
1,e87ef9d4-15a0-42b6-9247-a347c4fba1f2-i0b0,47219b9a52a88ad8dd82573557a9be874acc6cb5536c78...,5.0,2017-03-20,F,3.0,PARDA,120030.0,10.0,FEIJO,...,,,FW4423,PFIZER - PEDIÁTRICA,28290,2022-12-13,2ª Dose,99,COVID-19 PFIZER - COMIRNATY PEDIÁTRICA,Novo PNI
8,8d61afe6-022a-460d-b174-f685973d101c-i0b0,5246f3d91ee2c206d92733b2121144ccfc4326c6ac48d2...,5.0,2017-04-29,F,3.0,PARDA,120070.0,10.0,XAPURI,...,,,FR8392,Pendente Identificação,Organization/28290,2022-05-30,1ª Dose,99,COVID-19 PEDIÁTRICA - PFIZER COMIRNATY,Novo PNI
15,e970bfe5-4357-4870-b4bd-7b12dab1ccd7-i0b0,9b466b4b4385e42d0d4d67a4ce71e02de22ee301b836b2...,13.0,2008-03-03,M,3.0,PARDA,120040.0,10.0,RIO BRANCO,...,2.0,Faixa Etária,FH4750,PFIZER,Organization/28290,2021-11-29,2ª Dose,87,COVID-19 PFIZER - COMIRNATY,Novo PNI
26,7dda5a6c-62ea-4d78-9ab2-50a9e4a0d6b1-i0b0,6a8d9569ea93dcff28097d012706153a56c891016c97bf...,14.0,2007-04-24,F,3.0,PARDA,120040.0,10.0,RIO BRANCO,...,2.0,Faixa Etária,FA9096,PFIZER,Organization/00394544000851,2021-08-10,1ª Dose,87,COVID-19 PFIZER - COMIRNATY,Novo PNI
34,e20987f3-b95e-4fae-9cf3-ad8bbc5e8cea-i0b0,de3b437f04ae77b033ec9f8fcc9bb5a660c1ece713f1b4...,15.0,2008-10-24,F,4.0,AMARELA,120070.0,10.0,XAPURI,...,2.0,Faixa Etária,230165,BUTANTAN,152,2023-12-04,Única,33,INF3,Novo PNI
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
104758,c1dc78a1-9718-4050-834e-26b92ec4a0c8-i0b0,ebf7fb452c27f9c980524f9421a39a41b9f2e368771619...,8.0,2014-04-04,M,3.0,PARDA,120020.0,10.0,CRUZEIRO DO SUL,...,,,FP0362,PFIZER - PEDIÁTRICA,28290,2022-08-02,1ª Dose,99,COVID-19 PEDIÁTRICA - PFIZER COMIRNATY,Novo PNI
104765,fe8816ad-c2e5-4113-94b6-82ae715f686b-i0b0,0a4c2ab94bc72dafaf98d801ddf5698ffb6345e29ea00f...,8.0,2015-03-06,F,3.0,PARDA,120040.0,10.0,RIO BRANCO,...,2.0,Faixa Etária,230165,BUTANTAN,152,2024-01-10,Única,33,INF3,Novo PNI
104768,f2328f1a-be40-4083-b547-57ffc95e751f-i0b0,856a577315cac837efc14d7ef4a7b200c2c3d85f96fc80...,12.0,2010-07-14,F,3.0,PARDA,120040.0,10.0,RIO BRANCO,...,,,FP7498,PFIZER,28290,2022-08-03,1ª Dose,87,COVID-19 PFIZER - COMIRNATY,Novo PNI
104772,e8978e71-a05d-44d8-b575-e1e9385a0cb8-i0b0,d6613795feb1915d1a0fa03653e94411b2d7051e82bc9c...,13.0,2008-08-07,F,3.0,PARDA,120040.0,10.0,RIO BRANCO,...,2.0,Faixa Etária,FF8848,PFIZER,Organization/00394544000851,2021-10-15,2ª Dose,87,COVID-19 PFIZER - COMIRNATY,Novo PNI


In [15]:
# 2)Criar uma lista das colunas desse DataFrame com o atributo de DataFrame .columns()
colunas = df_menores_18.columns.tolist()
colunas

['document_id',
 'paciente_id',
 'paciente_idade',
 'paciente_dataNascimento',
 'paciente_enumSexoBiologico',
 'paciente_racaCor_codigo',
 'paciente_racaCor_valor',
 'paciente_endereco_coIbgeMunicipio',
 'paciente_endereco_coPais',
 'paciente_endereco_nmMunicipio',
 'paciente_endereco_nmPais',
 'paciente_endereco_uf',
 'paciente_endereco_cep',
 'paciente_nacionalidade_enumNacionalidade',
 'estabelecimento_valor',
 'estabelecimento_razaoSocial',
 'estalecimento_noFantasia',
 'estabelecimento_municipio_codigo',
 'estabelecimento_municipio_nome',
 'estabelecimento_uf',
 'vacina_grupoAtendimento_codigo',
 'vacina_grupoAtendimento_nome',
 'vacina_categoria_codigo',
 'vacina_categoria_nome',
 'vacina_lote',
 'vacina_fabricante_nome',
 'vacina_fabricante_referencia',
 'vacina_dataAplicacao',
 'vacina_descricao_dose',
 'vacina_codigo',
 'vacina_nome',
 'sistema_origem']

In [16]:
# 3)Nesse DataFrame, fazer uma contagem do campo vacina_categoria_nome
contagem_categoria = df_menores_18['vacina_categoria_nome'].value_counts()
contagem_categoria

vacina_categoria_nome
Faixa Etária                                      42156
Povos Indígenas                                    3769
Outros                                             3733
Povos e Comunidades Tradicionais                    673
Trabalhadores de Saúde                              237
Comorbidades                                         49
População Privada de Liberdade                       47
Gestantes                                            38
Pessoas com Deficiência                               7
Puérperas                                             7
Pessoas Institucionalizadas                           2
Pessoas de 60 anos ou mais institucionalizadas        1
Name: count, dtype: int64

In [17]:
# 4)A partir da lista de colunas, escolher somente aquelas que são referentes ao estabelecimento, fazer uma lista com esses valores
colunas_estabelecimento = [coluna for coluna in colunas if 'estabelecimento' in coluna]
colunas_estabelecimento

['estabelecimento_valor',
 'estabelecimento_razaoSocial',
 'estabelecimento_municipio_codigo',
 'estabelecimento_municipio_nome',
 'estabelecimento_uf']

In [18]:
# 5)Usando o método .loc, selecionar somente essas variáveis
dados_estabelecimento = df_menores_18.loc[:, colunas_estabelecimento]
dados_estabelecimento

Unnamed: 0,estabelecimento_valor,estabelecimento_razaoSocial,estabelecimento_municipio_codigo,estabelecimento_municipio_nome,estabelecimento_uf
1,924490,PREFEITURA MUNICIPAL DE FEIJO,120030,FEIJO,AC
8,2001225,PREFEITURA MUNICIPAL DE XAPURI,120070,XAPURI,AC
15,6917291,PREFEITURA MUNICIPAL DE RIO BRANCO,120040,RIO BRANCO,AC
26,6917291,PREFEITURA MUNICIPAL DE RIO BRANCO,120040,RIO BRANCO,AC
34,2001217,PREFEITURA MUNICIPAL DE XAPURI,120070,XAPURI,AC
...,...,...,...,...,...
375245,2001934,PREFEITURA MUNICIPAL DE XAPURI,120070,XAPURI,AC
375246,2002132,PREFEITURA MUN DE MAL THAUMATURGO,120035,MARECHAL THAUMATURGO,AC
375255,2000342,PREFEITURA MUNICIPAL DE CRUZEIRO DO SUL,120020,CRUZEIRO DO SUL,AC
375258,2000598,PREFEITURA MUNICIPAL DE CRUZEIRO DO SUL,120020,CRUZEIRO DO SUL,AC


In [19]:
# 6) Aplicar o método .drop_duplicates e criar uma lista com uma linha para cada estabelecimento, com os dados do estabelecimento
estabelecimentos_unicos = dados_estabelecimento.drop_duplicates()

# Imprimir resultados
print("Contagem de vacinas por categoria:\n")
print(contagem_categoria.to_string())

print("\nDados dos estabelecimentos únicos:\n")
print(estabelecimentos_unicos.to_string(index=False))

Contagem de vacinas por categoria:

vacina_categoria_nome
Faixa Etária                                      42156
Povos Indígenas                                    3769
Outros                                             3733
Povos e Comunidades Tradicionais                    673
Trabalhadores de Saúde                              237
Comorbidades                                         49
População Privada de Liberdade                       47
Gestantes                                            38
Pessoas com Deficiência                               7
Puérperas                                             7
Pessoas Institucionalizadas                           2
Pessoas de 60 anos ou mais institucionalizadas        1

Dados dos estabelecimentos únicos:

 estabelecimento_valor                                  estabelecimento_razaoSocial  estabelecimento_municipio_codigo estabelecimento_municipio_nome estabelecimento_uf
                924490                                PREFEITURA 