# Base de dados usada para a realização desse projeto

[COVID-19 Vaccinations in the United States, County](https://catalog.data.gov/dataset/covid-19-vaccinations-in-the-united-statescounty-8204e/resource/5c3af69e-46fc-494e-888b-63cc36845ede)

In [None]:
#Instalando a Biblioteca Pandera (no Colab toda vez em que se inicia o notebook tem que fazer a instalação da bibliotera para ser utilizada)

!pip install pandera

# Importando Bibliotecas para a utlização do pandas e para acessar o bucket do GCP

In [None]:
from google.cloud import storage
import pandas as pd
import pandera as pa
import io
from io import BytesIO

In [None]:
# Criando o client object

storage_client = storage.Client.from_service_account_json("/content/chave_projeto-finalsc01-b94741ddd471.json")

# Acessando o Bucket do Projeto

In [None]:
BUCKET_NAME = 'projeto-finalsc01'

bucket = storage_client.get_bucket(BUCKET_NAME)

# Listando os arquivos contidos no Bucket

In [None]:
filename  = list(bucket.list_blobs(prefix=''))
for name in filename:
  print(name.name)

# Carregando o dataset .csv

In [None]:
blop = bucket.blob("dados-brutos/COVID-19_Vaccinations_in_the_United_States_County.csv")
data = blop.download_as_string()

# Criando um DataFrame utilizando pandas

In [None]:
df = pd.read_csv(io.BytesIO(data), encoding='utf-8', sep=',', parse_dates = ["Date"], dayfirst = True)

df

# Analisando a base de dados

In [None]:
print(df.info())

Podemos verificar que a base de dados contém 1 coluna do tipo datetime, 22 colunas do tipo float, 4 colunas do tipo int e 5 colunas do tipo string

Podemos verificar também que algumas colunas contém dados faltantes

# Traduzindo o Schema para Português-BR

In [None]:
df.rename(columns={'Date': 'Data',
                   'FIPS': 'CEPPIF', #Código Estadual Padrão de Processamento de Informações Federais
                   'MMWR_week': 'Relatorio_semanal_morbidade_mortalidade', #controle e prevenção de doenças
                   'Recip_County': 'Condado', #região em que reside o paciente
                   'Recip_State': 'Estado', #estado em que reside o paciente
                   'Series_Complete_Pop_Pct': 'Porcentagem_populacao_vacinada', #Porcentagem de pessoas que estão totalmente vacinadas (têm segunda dose de uma vacina de duas doses ou uma dose de uma vacina de dose única) com base na jurisdição e no condado onde vive o paciente
                   'Series_Complete_Yes': 'Numero_total_vacinados', #Número total de pessoas que estão totalmente vacinadas (têm segunda dose de uma vacina de duas doses ou uma dose de uma vacina de dose única) com base na jurisdição e no condado onde vive o paciente
                   'Series_Complete_12Plus': 'Numero_total_12+', #Número total de pessoas com mais de 12 anos que estão totalmente vacinadas (têm uma segunda dose de uma vacina de duas doses ou uma dose de uma vacina de dose única) com base na jurisdição onde vive o paciente
                   'Series_Complete_12PlusPop_Pct': 'Porcentagem_total_12+', #Porcentagem de pessoas com mais de 12 anos que estão totalmente vacinadas (têm uma segunda dose de uma vacina de duas doses ou uma dose de uma vacina de dose única) com base na jurisdição onde vive o paciente
                   'Series_Complete_18Plus': 'Numero_total_18+', #Número total de pessoas com mais de 18 anos que estão totalmente vacinadas (têm uma segunda dose de uma vacina de duas doses ou uma dose de uma vacina de dose única) com base na jurisdição e no condado onde vive o paciente
                   'Series_Complete_18PlusPop_Pct': 'Porcentagem_total_18+', #Porcentagem de pessoas com mais de 18 anos que estão totalmente vacinadas (têm uma segunda dose de uma vacina de duas doses ou uma dose de uma vacina de dose única) com base na jurisdição e no condado onde vive o paciente
                   'Series_Complete_65Plus': 'Numero_total_65+', #Número total de pessoas com mais de 65 anos que estão totalmente vacinadas (têm uma segunda dose de uma vacina de duas doses ou uma dose de uma vacina de dose única) com base na jurisdição onde vive o paciente
                   'Series_Complete_65PlusPop_Pct': 'Porcentagem_total_65+', #Porcentagem de pessoas com mais de 65 anos que estão totalmente vacinadas (têm uma segunda dose de uma vacina de duas doses ou uma dose de uma vacina de dose única) com base na jurisdição onde vive o paciente
                   'Completeness_pct': 'Porcentagem_total_pessoas_vacinadas', #Representa a proporção de pessoas totalmente vacinadas cujo código Federal Information Processing Standards (FIPS) é relatado e corresponde a um código FIPS de condado válido na jurisdição.
                   'Administered_Dose1_Recip': 'Primeira_dose', #Pessoas com pelo menos uma dose por estado de residência
                   'Administered_Dose1_Pop_Pct': 'Porcentagem_primeira_dose', #Porcentagem da População total com pelo menos uma dose por estado de residência
                   'Administered_Dose1_Recip_12Plus': 'Primeira_dose_12+', #Pessoas com mais de 12 anos com pelo menos uma dose por estado de residência
                   'Administered_Dose1_Recip_12PlusPop_Pct': 'Porcentagem_primeira_dose_12+', #Porcentagem de 12+ Pop com pelo menos uma dose por estado de residência
                   'Administered_Dose1_Recip_18Plus': 'Primeira_dose_18+', #Pessoas com mais de 18 anos com pelo menos uma dose por estado de residência
                   'Administered_Dose1_Recip_18PlusPop_Pct': 'Porcentagem_primeira_dose_18+', #Porcentagem de Pop 18+ com pelo menos uma dose por estado de residência
                   'Administered_Dose1_Recip_65Plus': 'Primeira_dose_65+', #Pessoas com mais de 65 anos com pelo menos uma dose por estado de residência
                   'Administered_Dose1_Recip_65PlusPop_Pct': 'Porcentagem_primeira_dose_65+', #Porcentagem de Pop com mais de 65 anos com pelo menos uma dose por estado de residência
                   'SVI_CTGY': 'IVS_Categoria', #Índice de Vulnerabilidade Social por Categoria
                   'Series_Complete_Pop_Pct_SVI': 'Porcentagem_total_pop_vacinada', #Porcentagem da população totalmente vacinada / IVS
                   'Series_Complete_12PlusPop_Pct_SVI': 'Porcentagem_total_12+_IVS', #Porcentagem da população com 12+ totalmente vacinadas / IVS
                   'Series_Complete_18PlusPop_Pct_SVI': 'Porcentagem_total_18+_IVS', #Porcentagem da população com 18+ totalmente vacinadas / IVS
                   'Series_Complete_65PlusPop_Pct_SVI': 'Porcentagem_total_65+_IVS', #Porcentagem da população com 65+ totalmente vacinadas / IVS
                   'Metro_status': 'Status_metropolitano', #Status da área metropolitana (se é uma área metropolitana ou não metropolitana)
                   'Series_Complete_Pop_Pct_UR_Equity': 'Porcentagem_total_metropolitana/NaoMetropolitana', #Porcentagem da população totalmente vacinada - Metropolitana / Não Metropolitana
                   'Series_Complete_12PlusPop_Pct_UR_Equity': 'Porcentagem_total_12+_metropolitana/NaoMetropolitana',  #Porcentagem da população com 12+ totalmente vacinada - Metropolitana / Não Metropolitana
                   'Series_Complete_18PlusPop_Pct_UR_Equity': 'Porcentagem_total_18+_metropolitana/NaoMetropolitana', #Porcentagem da população com 18+ totalmente vacinada - Metropolitana / Não Metropolitana
                   'Series_Complete_65PlusPop_Pct_UR_Equity': 'Porcentagem_total_65+_metropolitana/NaoMetropolitana' #Porcentagem da população com 65+ totalmente vacinada - Metropolitana / Não Metropolitana

                   }, inplace = True)

In [None]:
df.head()

# Verificando se a coluna **Relatorio_semanal_morbidade_mortalidade** contém valores únicos

In [None]:
#Verificação realizada para saber o que cada código significava
pd.unique(df['Relatorio_semanal_morbidade_mortalidade'])

# Deletando colunas que não fazem sentido para a análise de dados

In [None]:
df.drop(['CEPPIF', 'Relatorio_semanal_morbidade_mortalidade', 'Porcentagem_populacao_vacinada'], axis = 1, inplace = True)



1.   A coluna **CEPPIF** representa o código da região federal, como já temos o condado e o estado, não será necessária na base de dados.

2.   Como não foi encontrado o que representa cada código da coluna **Relatorio_semanal_morbidade_mortalidade**, resolvemos dropar para não atrapalhar a análise de dados.

3.   A coluna **Porcentagem_populacao_vacinada** faz referência a coluna **Relatorio_semanal_morbidade_mortalidade**, então não faz sentido deixar se não sabemos o que representa cada código da coluna de relatório.

In [None]:
df.head()

# Verificando os valores nulos

In [None]:
df.isna().sum()

# Deletando linhas com dados faltantes

In [None]:
#Verificando os valores conditos na coluna 'Status_metropolitano'
pd.unique(df['Status_metropolitano'])

array(['Metro', 'Non-metro', nan], dtype=object)

In [None]:
#Deletando valores nulos da coluna 'Status_metropolitano'
df.dropna(subset = ['Status_metropolitano'], inplace = True)

In [None]:
#Traduzindo os valores conditos na coluna 'Status_metropolitano'

df.loc[df.Status_metropolitano == 'Metro', ['Status_metropolitano']] = 'Metropolitano'
df.loc[df.Status_metropolitano == 'Non-metro', ['Status_metropolitano']] = 'Não Metropolitano'

df.head()

In [None]:
#Verificando os valores conditos na coluna 'IVS_Categoria'
pd.unique(df['IVS_Categoria'])

array(['A', 'D', 'B', 'C', nan], dtype=object)

In [None]:
#Deletando valores nulos da coluna 'IVS_Categoria'
df.dropna(subset = ['IVS_Categoria'], inplace = True)

In [None]:
#Conferindo se os valores nulos das colunas 'Status_metropolitano' e 'IVS_Categoria' foram deletados
df.isna().sum()

# Substituindo valores nulos por 0

In [None]:
#Substituindo os valores nulos das colunas restantes por 0 para facilitar a análise estatística do DataFrame
df.fillna(0, inplace = True)

In [None]:
df.head()

In [None]:
#Verificando se os valores nulos foram substituídos
df.isna().sum()

# Modificando o tipo de dado de algumas colunas para fazer a validação

In [None]:
print(df.info())

In [None]:
#Modificando a coluna 'Numero_total_12+' de float para int
df[['Numero_total_12+']] = df[['Numero_total_12+']].astype(int)

#Modificando a coluna 'Primeira_dose' de float para int
df[['Primeira_dose']] = df[['Primeira_dose']].astype(int)

#Modificando a coluna 'Primeira_dose_12+' de float para int
df[['Primeira_dose_12+']] = df[['Primeira_dose_12+']].astype(int)

#Modificando a coluna 'Primeira_dose_18+' de float para int
df[['Primeira_dose_18+']] = df[['Primeira_dose_18+']].astype(int)

#Modificando a coluna 'Primeira_dose_65+' de float para int
df[['Primeira_dose_65+']] = df[['Primeira_dose_65+']].astype(int)

# Validando os dados do DataFrame usando a biblioteca panderas

In [None]:
schema = pa.DataFrameSchema(
    columns = {
        "Data":pa.Column(pa.DateTime),
        "Condado":pa.Column(pa.String),
        "Estado":pa.Column(pa.String),
        "Numero_total_vacinados":pa.Column(pa.Int),
        "Numero_total_12+":pa.Column(pa.Int),
        "Porcentagem_total_12+":pa.Column(pa.Float),
        "Numero_total_18+":pa.Column(pa.Int),
        "Porcentagem_total_18+":pa.Column(pa.Float),
        "Numero_total_65+":pa.Column(pa.Int),
        "Porcentagem_total_65+":pa.Column(pa.Float),
        "Porcentagem_total_pessoas_vacinadas":pa.Column(pa.Float),
        "Primeira_dose":pa.Column(pa.Int),
        "Porcentagem_primeira_dose":pa.Column(pa.Float),
        "Primeira_dose_12+":pa.Column(pa.Int),
        "Porcentagem_primeira_dose_12+":pa.Column(pa.Float),
        "Primeira_dose_18+":pa.Column(pa.Int),
        "Porcentagem_primeira_dose_18+":pa.Column(pa.Float),
        "Primeira_dose_65+":pa.Column(pa.Int),
        "Porcentagem_primeira_dose_65+":pa.Column(pa.Float),
        "IVS_Categoria":pa.Column(pa.String),
        "Porcentagem_total_pop_vacinada":pa.Column(pa.Float),
        "Porcentagem_total_12+_IVS":pa.Column(pa.Float),
        "Porcentagem_total_18+_IVS":pa.Column(pa.Float),
        "Porcentagem_total_65+_IVS":pa.Column(pa.Float),
        "Status_metropolitano":pa.Column(pa.String),
        "Porcentagem_total_metropolitana/NaoMetropolitana":pa.Column(pa.Float),
        "Porcentagem_total_12+_metropolitana/NaoMetropolitana":pa.Column(pa.Float),
        "Porcentagem_total_18+_metropolitana/NaoMetropolitana":pa.Column(pa.Float),
        "Porcentagem_total_65+_metropolitana/NaoMetropolitana":pa.Column(pa.Float)

    }
)

schema.validate(df)

# Salvando as transformações realizadas no DataFrame para o Bucket do GCP

In [None]:
bucket = storage_client.get_bucket('projeto-finalsc01')
bucket.blob('dados-tratados/Vacinacoes_nos_EUA.csv').upload_from_string(df.to_csv(index=False),'Vacinacoes_nos_EUA.csv' )