Autor: William Liaw (11834011 - [willfliaw@usp.br](mailto:willfliaw@usp.br))

Relatório acadêmico apresentado à Escola Politécnica da Universidade de São Paulo como atividade da Disciplina Introdução à Ciência de Dados para Engenheiros (PME3573).

# Descrição dos bancos de dados

Os bancos de dados a serem analisados no presente Relatório podem ser encontrados em [Dados Abertos | Governo do Estado de São Paulo](https://www.saopaulo.sp.gov.br/planosp/simi/dados-abertos/).

## Casos e óbitos por município e data

Registro de casos e óbitos por município e data de notificação no Estado de São Paulo.

| Arquivo                                         | Descrição                                             |
|:-----------------------------------------------:|:-----------------------------------------------------:|
| `./data/20230418_Casos-e-obitos-ESP.csv`        | `./metadata/Dic.-dados_dados_covid_municipios_sp.pdf` |

Ao longo deste trabalho, apelidará-se este banco de dados de **COMuDa**.

## Microdados dos casos

Base de dados com registros individualizados e anonimizados, detalhados com os seguintes campos: Notificações, Evolução, Confirmação do caso para COVID-19, Idade, Gênero, Doenças Preexistentes, Sintomas, Raça/Cor, Etnia, Município, Profissionais de Saúde.

| Arquivo                                         | Descrição                             |
|:-----------------------------------------------:|:-------------------------------------:|
| `./data/20230418_dados_covid_municipios_sp.csv` | `./metadata/Dic-dados_microdados.pdf` |

Ao longo deste trabalho, apelidará-se este banco de dados de **MiCa**.

# Configurações de ambiente

## Estrutura do diretório

- `data`
  - `20230418_Casos_e_obitos_ESP.csv`
  - `20230418_dados_covid_municipios_sp-1.csv`
- `metadata`
  - `Dic-dados_microdados.pdf`
  - `Dic.-dados_dados_covid_municipios_sp.pdf`
- `E01 - Fluxo de Informação.pdf`
- `Exercício 1.ipynb`
- `README.md`

## Importando bibliotecas

In [None]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import scienceplots

%matplotlib inline

plt.style.use(["science", "ieee"])

# Observações iniciais

## COMuDa

In [None]:
dataCases = pd.read_csv("./data/20230418_dados_covid_municipios_sp-1.csv", sep = ";", decimal = ",", parse_dates = ["datahora"])

In [None]:
dataCases["nome_munic"] = dataCases["nome_munic"].replace("Ignorado", np.NaN)
dataCases["codigo_ibge"] = dataCases["codigo_ibge"].replace(9999999, np.NaN).astype("Int64")

In [None]:
dataCases.info()

In [None]:
dataCases.dtypes

Nota-se que, por mais que na descrição de COMuDa estejam presentes a descrição de 31 atributos diferentes, tem-se no arquivo `csv` apenas 11 atributos diferentes: 

| Coluna          | Atributo                                        |
|:---------------:|:-----------------------------------------------:|
| `nome_munic`    | Nome do município                               |
| `codigo_ibge`   | Código do município no IBGE (7 dígitos)         |
| `datahora`      | Data no formato YYYY-MM-DD                      |
| `casos`         | Casos totais registrados até a data             |
| `casos_novos`   | Casos novos registrados na data                 |
| `casos_mm7d`    | Média móvel dos últimos 7 dias dos novos casos  |
| `obitos`        | Óbitos totais registrados até a data            |
| `obitos_novos`  | Óbitos novos registrados na data                |
| `obitos_mm7d`   | Média móvel dos últimos 7 dias dos novos óbitos |
| `pop`           | População Estimada (fonte SEADE)                |
| `semana_epidem` | Semana Epidemológica                            |

In [None]:
dataCases.describe()

In [None]:
dataCases.describe(include = object)

In [None]:
list(dataCases["nome_munic"].value_counts().unique())

Nota-se, pela célula acima, que todos os $ 645 $ municípios diferentes apresentam $ 1148 $ ocorrências.

In [None]:
dataCases.head(10)

## MiCa

In [None]:
dataMicrodata = pd.read_csv("./data/20230418_Casos_e_obitos_ESP.csv", sep = ";", parse_dates = ["Data_Inicio_Sintomas"], dayfirst = True)

In [None]:
dataMicrodata = dataMicrodata.replace("IGNORADO", np.NaN)
dataMicrodata["Obito"] = dataMicrodata["Obito"].replace({1: "SIM", 0: "NÃO"})
# dataMicrodata["Idade"] = dataMicrodata["Idade"].astype("Int64")

In [None]:
dataMicrodata.info(show_counts = True)

In [None]:
dataMicrodata.describe()

In [None]:
dataMicrodata.describe(include = object)

In [None]:
dataMicrodata.head(10)

Observações...

- https://builtin.com/data-science/how-to-use-sql-python
- https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.to_sql.html

```julia
df.to_sql()
```

# Limpeza de dados

## Considerações finais

# Análise de dados