## Base COVID-19 São Paulo

- `id`: dados Irrelevantes para a pesquisa
- `date`: dados bons
- `confirmed`: dados bons
- `deaths`: dados bons
- `recovered`: dados parciais - substituir NULL por 0 e FLOAT por INT
- `tests`: dados parciais - substituir NULL por 0 e FLOAT por INT
- `vaccines`: dados parciais - substituir NULL por 0 e FLOAT por INT
- `people_vaccinated`: dados parciais - substituir NULL por 0 e FLOAT por INT
- `people_fully_vaccinated`: dados parciais - substituir NULL por 0 e FLOAT por INT
- `hosp`: não há dados
- `icu`: não há dados
- `vent`: não há dados
- `school_closing`: substituir NULL por 0 e FLOAT por INT
- `workplace_closing`: substituir NULL por 0 e FLOAT por INT
- `cancel_events`:substituir NULL por 0 e FLOAT por INT
- `gatherings_restrictions`: substituir NULL por 0 e FLOAT por INT
- `transport_closing`: substituir NULL por 0 e FLOAT por INT
- `stay_home_restrictions`: substituir NULL por 0 e FLOAT por INT
- `internal_movement_restrictions`: substituir NULL por 0 e FLOAT por INT
- `international_movement_restrictions`: substituir NULL por 0 e FLOAT por INT
- `information_campaigns`: substituir NULL por 0 e FLOAT por INT
- `testing_policy`: substituir NULL por 0 e FLOAT por INT
- `contact_tracing`: substituir NULL por 0 e FLOAT por INT
- `facial_coverings`: substituir NULL por 0 e FLOAT por INT
- `vaccination_policy`: substituir NULL por 0 e FLOAT por INT
- `elderly_people_protection`: substituir NULL por 0 e FLOAT por INT
- `government_response_index`: substituir NULL por 0
- `stringency_index`: substituir NULL por 0
- `containment_health_index`: substituir NULL por 0
- `economic_support_index`: substituir NULL por 0
- `administrative_area_level`: dados Irrelevantes para a pesquisa
- `administrative_area_level_1`: dados Irrelevantes para a pesquisa
- `administrative_area_level_2`: dados Irrelevantes para a pesquisa
- `administrative_area_level_3`: dados Irrelevantes para a pesquisa
- `latitude`: dados Irrelevantes para a pesquisa
- `longitude`: dados Irrelevantes para a pesquisa
- `population`: dados Irrelevantes para a pesquisa
- `iso_alpha_3`: dados Irrelevantes para a pesquisa
- `iso_alpha_2`: dados Irrelevantes para a pesquisa
- `iso_numeric`: dados Irrelevantes para a pesquisa
- `iso_currency`: dados Irrelevantes para a pesquisa
- `key_local`: dados Irrelevantes para a pesquisa
- `key_google_mobility`: dados Irrelevantes para a pesquisa
- `key_apple_mobility`: dados Irrelevantes para a pesquisa
- `key_jhu_csse`: dados Irrelevantes para a pesquisa
- `key_nuts`: dados Irrelevantes para a pesquisa
- `key_gadm`: dados Irrelevantes para a pesquisa

`obs`: Toda as minhas decisões foram tomadas com base no site [Documentation • COVID-19 Data Hub](https://covid19datahub.io/articles/docs.html) e observando os resultados de colunas com valores faltantes e tipos errados.

### Passo 1: Importar as Bibliotecas Necessárias

In [None]:
import pandas as pd
import sqlite3

### Passo 2: Conectar ao Banco de Dados e Carregar a Tabela

In [None]:
DATABASE_NAME = '../data/covid_data.db'
conn = sqlite3.connect(DATABASE_NAME)

# Carregar a tabela 'covid_data' para um DataFrame do Pandas
df = pd.read_sql_query("SELECT * FROM covid_data", conn)

# Fechar a conexão com o banco de dados (manteremos a manipulação no DataFrame)
conn.close()

print("DataFrame carregado com sucesso:")
print(df.head())
print(df.info())

DataFrame carregado com sucesso:
         id        date  confirmed  deaths  recovered  tests  vaccines  \
0  6e83383f  2020-02-25          1       0        NaN    NaN       NaN   
1  6e83383f  2020-02-26          1       0        NaN    NaN       NaN   
2  6e83383f  2020-02-27          1       0        NaN    NaN       NaN   
3  6e83383f  2020-02-28          2       0        NaN    NaN       NaN   
4  6e83383f  2020-02-29          2       0        NaN    NaN       NaN   

   people_vaccinated  people_fully_vaccinated  hosp  ... iso_alpha_3  \
0                NaN                      NaN  None  ...         BRA   
1                NaN                      NaN  None  ...         BRA   
2                NaN                      NaN  None  ...         BRA   
3                NaN                      NaN  None  ...         BRA   
4                NaN                      NaN  None  ...         BRA   

  iso_alpha_2  iso_numeric  iso_currency  key_local  \
0          BR           76        

### Passo 3: Remover Colunas Irrelevantes

In [6]:
colunas_irrelevantes = [
    'id', 'administrative_area_level', 'administrative_area_level_1',
    'administrative_area_level_2', 'administrative_area_level_3',
    'latitude', 'longitude', 'population', 'iso_alpha_3', 'iso_alpha_2',
    'iso_numeric', 'iso_currency', 'key_local', 'key_google_mobility',
    'key_apple_mobility', 'key_jhu_csse', 'key_nuts', 'key_gadm'
]

df_cleaned = df.drop(columns=colunas_irrelevantes, errors='ignore')
print("\nDataFrame após remover colunas irrelevantes:")
print(df_cleaned.head())
print(df_cleaned.info())


DataFrame após remover colunas irrelevantes:
         date  confirmed  deaths  recovered  tests  vaccines  \
0  2020-02-25          1       0        NaN    NaN       NaN   
1  2020-02-26          1       0        NaN    NaN       NaN   
2  2020-02-27          1       0        NaN    NaN       NaN   
3  2020-02-28          2       0        NaN    NaN       NaN   
4  2020-02-29          2       0        NaN    NaN       NaN   

   people_vaccinated  people_fully_vaccinated  hosp   icu  ...  \
0                NaN                      NaN  None  None  ...   
1                NaN                      NaN  None  None  ...   
2                NaN                      NaN  None  None  ...   
3                NaN                      NaN  None  None  ...   
4                NaN                      NaN  None  None  ...   

  information_campaigns  testing_policy  contact_tracing  facial_coverings  \
0                   0.0             0.0              0.0               0.0   
1               

### Passo 4: Tratar Colunas com Dados Parciais (Substituir NULL por 0 e Converter para Inteiro)

In [7]:
colunas_para_tratar = [
    'recovered', 'tests', 'vaccines', 'people_vaccinated',
    'people_fully_vaccinated', 'school_closing', 'workplace_closing',
    'cancel_events', 'gatherings_restrictions', 'transport_closing',
    'stay_home_restrictions', 'internal_movement_restrictions',
    'international_movement_restrictions', 'information_campaigns',
    'testing_policy', 'contact_tracing', 'facial_coverings',
    'vaccination_policy', 'elderly_people_protection'
]

for col in colunas_para_tratar:
    # Substituir valores NULL (NaN no Pandas) por 0
    df_cleaned[col] = df_cleaned[col].fillna(0)

    # Converter para inteiro (se forem floats)
    if df_cleaned[col].dtype == float:
        df_cleaned[col] = df_cleaned[col].astype(int)

print("\nDataFrame após tratar colunas parciais:")
print(df_cleaned.head())
print(df_cleaned.info())


DataFrame após tratar colunas parciais:
         date  confirmed  deaths  recovered  tests  vaccines  \
0  2020-02-25          1       0          0      0         0   
1  2020-02-26          1       0          0      0         0   
2  2020-02-27          1       0          0      0         0   
3  2020-02-28          2       0          0      0         0   
4  2020-02-29          2       0          0      0         0   

   people_vaccinated  people_fully_vaccinated  hosp   icu  ...  \
0                  0                        0  None  None  ...   
1                  0                        0  None  None  ...   
2                  0                        0  None  None  ...   
3                  0                        0  None  None  ...   
4                  0                        0  None  None  ...   

  information_campaigns  testing_policy  contact_tracing  facial_coverings  \
0                     0               0                0                 0   
1                    

### Passo 5: Tratar Colunas sem Dados (Remover)

In [9]:
colunas_sem_dados = ['hosp', 'icu', 'vent']
df_cleaned = df_cleaned.drop(columns=colunas_sem_dados, errors='ignore')
print("\nDataFrame após remover colunas sem dados:")
print(df_cleaned.head())
print(df_cleaned.info())


DataFrame após remover colunas sem dados:
         date  confirmed  deaths  recovered  tests  vaccines  \
0  2020-02-25          1       0          0      0         0   
1  2020-02-26          1       0          0      0         0   
2  2020-02-27          1       0          0      0         0   
3  2020-02-28          2       0          0      0         0   
4  2020-02-29          2       0          0      0         0   

   people_vaccinated  people_fully_vaccinated  school_closing  \
0                  0                        0               0   
1                  0                        0               0   
2                  0                        0               0   
3                  0                        0               0   
4                  0                        0               0   

   workplace_closing  ...  information_campaigns  testing_policy  \
0                  0  ...                      0               0   
1                  0  ...                    

### Passo 6: Limpar Colunas com Dados NULL

In [10]:
colunas_para_limpar_null = [
    'government_response_index', 'stringency_index',
    'containment_health_index', 'economic_support_index'
]

for col in colunas_para_limpar_null:
    # Substituir valores NULL (NaN no Pandas) por 0
    df_cleaned[col] = df_cleaned[col].fillna(0)
    
print("\nDataFrame após substituir valores NULL nas colunas de índice:")
print(df_cleaned.head())
print(df_cleaned.info())


DataFrame após substituir valores NULL nas colunas de índice:
         date  confirmed  deaths  recovered  tests  vaccines  \
0  2020-02-25          1       0          0      0         0   
1  2020-02-26          1       0          0      0         0   
2  2020-02-27          1       0          0      0         0   
3  2020-02-28          2       0          0      0         0   
4  2020-02-29          2       0          0      0         0   

   people_vaccinated  people_fully_vaccinated  school_closing  \
0                  0                        0               0   
1                  0                        0               0   
2                  0                        0               0   
3                  0                        0               0   
4                  0                        0               0   

   workplace_closing  ...  information_campaigns  testing_policy  \
0                  0  ...                      0               0   
1                  0  ...

### Passo 8: Salvar o DataFrame Limpo em um Novo Arquivo (CSV ou Novo Banco de Dados)

In [11]:
# Salvar como CSV
df_cleaned.to_csv('covid_data_limpo.csv', index=False)
print("\nDataFrame limpo salvo como 'covid_data_limpo.csv'")

# Salvar em um novo banco de dados SQLite
DATABASE_NAME_CLEANED = 'covid_data_limpo.db'
conn_cleaned = sqlite3.connect(DATABASE_NAME_CLEANED)
df_cleaned.to_sql('covid_data_limpo', conn_cleaned, if_exists='replace', index=False)
conn_cleaned.close()
print(f"\nDataFrame limpo salvo no banco de dados '{DATABASE_NAME_CLEANED}', tabela 'covid_data_limpo'")


DataFrame limpo salvo como 'covid_data_limpo.csv'

DataFrame limpo salvo no banco de dados 'covid_data_limpo.db', tabela 'covid_data_limpo'
