# Análise de Dados da COVID 19 no estado de São Paulo

Este projeto analisa os dados dos casos de covid 19 no estado de São Paulo do período de fevereiro de 2020 à setembro de 2021

Os dados esão disponíveis nos sites:

- https://www.seade.gov.br/coronavirus/#
- https://github.com/seade-R/dados-covid-sp
- https://www.seade.gov.br

### Importação dos dados

In [None]:
import numpy as np
import pandas as pd

In [None]:
# A variável "covid_sp" será uma tabela de dados
covid_sp = pd.read_csv("../dados_covid_sp.csv", sep=";", encoding="utf-8")

In [None]:
# Irá ler as primeiras linhas do arquivo, mas pode definir um número específico de linhas
# covid_sp.head(25)
covid_sp.head()

In [None]:
# Mostra a quantidade de registros (linhas(374034), colunas(26))
covid_sp.shape

O mesmo vale para arquivos de excel (.xlsx), é a mesma lógica dos arquivos .csv

### Organização dos dados

#### Renomeando variáveis (colunas)

In [None]:
# Vai renomear colunas selecionadas através de um dicionário
covid_sp = covid_sp.rename(columns={"nome_munic": "municipio", "datahora": "data", "map_leg": "rotulo_mapa", "map_leg_s": "codigo_mapa"})

In [None]:
covid_sp.head(2)

#### Excluindo variáveis (colunas)

In [None]:
# Vai dropar as colunas selecionadas através de uma lista
covid_sp_alterado = covid_sp.drop(columns=["dia", "mes", "data"])

In [None]:
covid_sp_alterado.head(3)

In [None]:
# Excluindo por número, aonde dentro dos colchetes está o índice da coluna a ser excluída, axis=1 refere-se à colunas, axis=0 refere-se à linhas
covid_sp_alterado = covid_sp_alterado.drop(covid_sp_alterado.columns[[2]], axis=1)

In [None]:
covid_sp_alterado.head(1)

In [None]:
covid_sp_alterado = covid_sp

#### Criando e alterando valores das colunas (variáveis)

In [None]:
# Alterando valores na coluna

covid_sp_alterado["area"] = covid_sp_alterado["area"] / 100
# ou
# covid_sp_alterado["area"] = covid_sp_alterado.area / 100

In [None]:
# Criando uma coluna com a densidade demográfica (hab/km2)

covid_sp_alterado["densidade_demo"] = covid_sp_alterado["pop"] / covid_sp_alterado["area"]

In [None]:
covid_sp_alterado.shape

In [None]:
# Criando uma coluna com índices
lista = list(range(1, 374035))
lista

In [30]:
df = pd.DataFrame(lista, columns=["indice"])
df

Unnamed: 0,indice
0,1
1,2
2,3
3,4
4,5
...,...
374029,374030
374030,374031
374031,374032
374032,374033


In [31]:
covid_sp_alterado.head(2)

Unnamed: 0,indice,nome_munic,codigo_ibge,dia,mes,datahora,casos,casos_novos,casos_pc,casos_mm7d,...,cod_drs,pop,pop_60,area,map_leg,map_leg_s,latitude,longitude,semana_epidem,densidade_demo
0,1,Adamantina,3500105,25,2,2020-02-25,0,0,"0,00000000000000e+00",0,...,5,33894,7398,411.99,0,8.0,-216820,-510737,9,82.268987
1,2,Adolfo,3500204,25,2,2020-02-25,0,0,"0,00000000000000e+00",0,...,15,3447,761,211.06,0,8.0,-212325,-496451,9,16.331849


In [None]:
# Juntando dois DataFrames
covid_sp_alterado = pd.concat([covid_sp_alterado, df], axis=1)
covid_sp_alterado.head()

In [None]:
covid_sp_alterado = covid_sp_alterado.reindex(columns=["indice"] + list(covid_sp_alterado.columns[:-1]))

In [None]:
covid_sp_alterado.head(5)

#### Contagem de Registros das Variáveis (Colunas)

In [None]:
# Por quantidade:
covid_sp_alterado["semana_epidem"].value_counts()

# Por ordem do index => .sort_index()

In [None]:
# Dessa forma trás os valores dentro de um dicionário
from collections import Counter
Counter(covid_sp_alterado.semana_epidem)

In [None]:
# Realiza a query aonde "obitos_novos" for maior que 50, trazendo junto o nome do município e os valores
covid_sp_alterado.query("obitos_novos > 50")["nome_munic"].value_counts()

#### Selecionar Variáveis (Colunas) por Índices

In [None]:
# "iloc"= localização do índice
# Separados pela vírgula, ao lado esquerdo as linhas, ao lado direito as colunas
x = covid_sp_alterado.iloc[:,5:13]
x

In [None]:
y = covid_sp_alterado.iloc[0:4, 2].values

In [None]:
y