# **PROJETO ANÁLISE DOS DADOS DO COVID 19 NO ESTADO DE SÃO PAULO**

Este projeto analisa os dados dos casos de covid 19 no estado de São Paulo do período de fevereiro de 2020 a setembro de 2021.

Os dados estão disponíveis nos sites:

https://www.seade.gov.br/coronavirus/#

https://github.com/seade-R/dados-covid-sp

https://www.seade.gov.br/


## **Importação dos Dados**

### **Importação de arquivo csv**

In [2]:
import numpy as np
import pandas as pd

In [3]:
covid_sp = pd.read_csv('dados_covid_sp.csv', sep=';', encoding='utf-8')
# encoding: codificação de caracteres, normalmente utiliza-se o iso-8859-1, utf-8, latin-1)

In [None]:
covid_sp.head()

In [None]:
covid_sp.shape

### **Importação de arquivo Excel**

In [None]:
covid_sp2 = pd.read_excel('dados_covid_sp.xlsx')

In [None]:
covid_sp2.head()

In [None]:
covid_sp2.shape

### **Importação através de uma url**

In [None]:
url = "https://archive.ics.uci.edu/ml/machine-learning-databases/iris/iris.data"

In [None]:
colnames = ['sepal-length', 'sepal-width', 'petal-length', 'petal-width', 'Class']

In [None]:
iris = pd.read_csv(url, names=colnames)

In [None]:
iris.head(10)

In [None]:
type(iris)

In [None]:
iris.shape

In [None]:
len(iris.Class)

### **Datasets das bibliotecas do Python**

https://www.statsmodels.org/stable/datasets/index.html

In [None]:
import statsmodels.api as sm

In [None]:
cancer = sm.datasets.cancer.load_pandas().data
cancer.head()

In [None]:
type(cancer)

In [None]:
cancer.shape

https://scikit-learn.org/stable/datasets/toy_dataset.html

In [None]:
import sklearn

In [None]:
from sklearn import datasets

In [None]:
iris = datasets.load_iris()
iris

In [None]:
iris.data

In [None]:
iris.target

In [None]:
iris.target_names

## **Organização dos dados**

### **Renomeando variáveis (colunas)**

In [4]:
covid_sp.head(3)

Unnamed: 0,nome_munic,codigo_ibge,dia,mes,datahora,casos,casos_novos,casos_pc,casos_mm7d,obitos,...,nome_drs,cod_drs,pop,pop_60,area,map_leg,map_leg_s,latitude,longitude,semana_epidem
0,Adamantina,3500105,25,2,2020-02-25,0,0,"0,00000000000000e+00",0,0,...,Marília,5,33894,7398,41199,0,8.0,-216820,-510737,9
1,Adolfo,3500204,25,2,2020-02-25,0,0,"0,00000000000000e+00",0,0,...,São José do Rio Preto,15,3447,761,21106,0,8.0,-212325,-496451,9
2,Aguaí,3500303,25,2,2020-02-25,0,0,"0,00000000000000e+00",0,0,...,São João da Boa Vista,14,35608,5245,47455,0,8.0,-220572,-469735,9


In [5]:
covid_sp = covid_sp.rename(columns={'nome_munic': 'municipio'})

In [6]:
covid_sp.head(3)

Unnamed: 0,municipio,codigo_ibge,dia,mes,datahora,casos,casos_novos,casos_pc,casos_mm7d,obitos,...,nome_drs,cod_drs,pop,pop_60,area,map_leg,map_leg_s,latitude,longitude,semana_epidem
0,Adamantina,3500105,25,2,2020-02-25,0,0,"0,00000000000000e+00",0,0,...,Marília,5,33894,7398,41199,0,8.0,-216820,-510737,9
1,Adolfo,3500204,25,2,2020-02-25,0,0,"0,00000000000000e+00",0,0,...,São José do Rio Preto,15,3447,761,21106,0,8.0,-212325,-496451,9
2,Aguaí,3500303,25,2,2020-02-25,0,0,"0,00000000000000e+00",0,0,...,São João da Boa Vista,14,35608,5245,47455,0,8.0,-220572,-469735,9


In [7]:
covid_sp.rename(columns={'datahora': 'data'}, inplace=True)

In [8]:
covid_sp.rename(columns={'map_leg': 'rotulo_mapa','map_leg_s':'codigo_mapa'},inplace=True) 

In [9]:
covid_sp.head(3)

Unnamed: 0,municipio,codigo_ibge,dia,mes,data,casos,casos_novos,casos_pc,casos_mm7d,obitos,...,nome_drs,cod_drs,pop,pop_60,area,rotulo_mapa,codigo_mapa,latitude,longitude,semana_epidem
0,Adamantina,3500105,25,2,2020-02-25,0,0,"0,00000000000000e+00",0,0,...,Marília,5,33894,7398,41199,0,8.0,-216820,-510737,9
1,Adolfo,3500204,25,2,2020-02-25,0,0,"0,00000000000000e+00",0,0,...,São José do Rio Preto,15,3447,761,21106,0,8.0,-212325,-496451,9
2,Aguaí,3500303,25,2,2020-02-25,0,0,"0,00000000000000e+00",0,0,...,São João da Boa Vista,14,35608,5245,47455,0,8.0,-220572,-469735,9


### **Excluindo variáveis (colunas)**

In [54]:
# Excluir por nome
covid_sp_alterado = covid_sp.drop(columns={'cod_ra'})

In [55]:
covid_sp_alterado.head(2)

Unnamed: 0,municipio,codigo_ibge,dia,mes,data,casos,casos_novos,casos_pc,casos_mm7d,obitos,...,nome_drs,cod_drs,pop,pop_60,area,rotulo_mapa,codigo_mapa,latitude,longitude,semana_epidem
0,Adamantina,3500105,25,2,2020-02-25,0,0,"0,00000000000000e+00",0,0,...,Marília,5,33894,7398,41199,0,8.0,-216820,-510737,9
1,Adolfo,3500204,25,2,2020-02-25,0,0,"0,00000000000000e+00",0,0,...,São José do Rio Preto,15,3447,761,21106,0,8.0,-212325,-496451,9


In [14]:
covid_sp_alterado.shape

(374034, 25)

In [56]:
# Excluir por número
covid_sp_alterado = covid_sp_alterado.drop(covid_sp_alterado.columns[[1]],axis=1)

In [58]:
# Excluir mais de uma variável
covid_sp_alterado.drop(columns=['rotulo_mapa','codigo_mapa','cod_drs'],inplace=True)

In [57]:
covid_sp_alterado.head()

Unnamed: 0,municipio,dia,mes,data,casos,casos_novos,casos_pc,casos_mm7d,obitos,obitos_novos,...,nome_drs,cod_drs,pop,pop_60,area,rotulo_mapa,codigo_mapa,latitude,longitude,semana_epidem
0,Adamantina,25,2,2020-02-25,0,0,"0,00000000000000e+00",0,0,0,...,Marília,5,33894,7398,41199,0,8.0,-216820,-510737,9
1,Adolfo,25,2,2020-02-25,0,0,"0,00000000000000e+00",0,0,0,...,São José do Rio Preto,15,3447,761,21106,0,8.0,-212325,-496451,9
2,Aguaí,25,2,2020-02-25,0,0,"0,00000000000000e+00",0,0,0,...,São João da Boa Vista,14,35608,5245,47455,0,8.0,-220572,-469735,9
3,Águas da Prata,25,2,2020-02-25,0,0,"0,00000000000000e+00",0,0,0,...,São João da Boa Vista,14,7797,1729,14267,0,8.0,-219319,-467176,9
4,Águas de Lindóia,25,2,2020-02-25,0,0,"0,00000000000000e+00",0,0,0,...,Campinas,3,18374,3275,6013,0,8.0,-224733,-466314,9


In [59]:
covid_sp_alterado.drop(covid_sp_alterado.columns[[13,14,18,19]],axis=1, inplace=True)


In [60]:
covid_sp_alterado.shape

(374034, 17)

### **Criando e alterando valores das colunas (Variáveis)**

In [65]:
covid_sp_alterado.head()

Unnamed: 0,municipio,dia,mes,data,casos,casos_novos,casos_pc,casos_mm7d,obitos,obitos_novos,obitos_pc,obitos_mm7d,letalidade,pop,pop_60,area,semana_epidem,densidade
0,Adamantina,25,2,2020-02-25,0,0,"0,00000000000000e+00",0,0,0,"0,00000000000000e+00",0,0,33894,7398,411.99,9,82.268987
1,Adolfo,25,2,2020-02-25,0,0,"0,00000000000000e+00",0,0,0,"0,00000000000000e+00",0,0,3447,761,211.06,9,16.331849
2,Aguaí,25,2,2020-02-25,0,0,"0,00000000000000e+00",0,0,0,"0,00000000000000e+00",0,0,35608,5245,474.55,9,75.035297
3,Águas da Prata,25,2,2020-02-25,0,0,"0,00000000000000e+00",0,0,0,"0,00000000000000e+00",0,0,7797,1729,142.67,9,54.650592
4,Águas de Lindóia,25,2,2020-02-25,0,0,"0,00000000000000e+00",0,0,0,"0,00000000000000e+00",0,0,18374,3275,60.13,9,305.571262


In [62]:
covid_sp_alterado['area'] = covid_sp_alterado['area']/100
# ou 
# covid_sp_alterado['area'] = covid_sp_alterado.area/100

In [63]:
# Criação de uma coluna com a densidade demográfica (hab/km2)
covid_sp_alterado['densidade'] = covid_sp_alterado['pop'] / covid_sp_alterado['area'] 

In [33]:
covid_sp_alterado.shape
len(covid_sp_alterado)

374034

In [37]:
covid_sp_alterado['novnovo'] = list(range(1,374035))

In [49]:
covid_sp_alterado = covid_sp_alterado.drop(columns={'indice'})

In [None]:
# Criação de uma coluna com índices
lista = list(range(1,374035))
lista

In [67]:
df = pd.DataFrame(lista,columns=['indice'])
df

Unnamed: 0,indice
0,1
1,2
2,3
3,4
4,5
...,...
374029,374030
374030,374031
374031,374032
374032,374033


In [68]:
# Juntando dois DataFrames
covid_sp_alterado = pd.concat([covid_sp_alterado,df],axis=1)
covid_sp_alterado.head()

Unnamed: 0,municipio,dia,mes,data,casos,casos_novos,casos_pc,casos_mm7d,obitos,obitos_novos,obitos_pc,obitos_mm7d,letalidade,pop,pop_60,area,semana_epidem,densidade,indice
0,Adamantina,25,2,2020-02-25,0,0,"0,00000000000000e+00",0,0,0,"0,00000000000000e+00",0,0,33894,7398,411.99,9,82.268987,1
1,Adolfo,25,2,2020-02-25,0,0,"0,00000000000000e+00",0,0,0,"0,00000000000000e+00",0,0,3447,761,211.06,9,16.331849,2
2,Aguaí,25,2,2020-02-25,0,0,"0,00000000000000e+00",0,0,0,"0,00000000000000e+00",0,0,35608,5245,474.55,9,75.035297,3
3,Águas da Prata,25,2,2020-02-25,0,0,"0,00000000000000e+00",0,0,0,"0,00000000000000e+00",0,0,7797,1729,142.67,9,54.650592,4
4,Águas de Lindóia,25,2,2020-02-25,0,0,"0,00000000000000e+00",0,0,0,"0,00000000000000e+00",0,0,18374,3275,60.13,9,305.571262,5


In [69]:
covid_sp_alterado = covid_sp_alterado.reindex(columns=['indice'] + list(covid_sp_alterado.columns[:-1]))
covid_sp_alterado.head()

Unnamed: 0,indice,municipio,dia,mes,data,casos,casos_novos,casos_pc,casos_mm7d,obitos,obitos_novos,obitos_pc,obitos_mm7d,letalidade,pop,pop_60,area,semana_epidem,densidade
0,1,Adamantina,25,2,2020-02-25,0,0,"0,00000000000000e+00",0,0,0,"0,00000000000000e+00",0,0,33894,7398,411.99,9,82.268987
1,2,Adolfo,25,2,2020-02-25,0,0,"0,00000000000000e+00",0,0,0,"0,00000000000000e+00",0,0,3447,761,211.06,9,16.331849
2,3,Aguaí,25,2,2020-02-25,0,0,"0,00000000000000e+00",0,0,0,"0,00000000000000e+00",0,0,35608,5245,474.55,9,75.035297
3,4,Águas da Prata,25,2,2020-02-25,0,0,"0,00000000000000e+00",0,0,0,"0,00000000000000e+00",0,0,7797,1729,142.67,9,54.650592
4,5,Águas de Lindóia,25,2,2020-02-25,0,0,"0,00000000000000e+00",0,0,0,"0,00000000000000e+00",0,0,18374,3275,60.13,9,305.571262


### **Contagem de Registros das Variáveis (Colunas)**

In [None]:
covid_sp_alterado['semana_epidem'].value_counts()

In [71]:
covid_sp_alterado['semana_epidem'].value_counts().sort_index()

1     4522
2     4522
3     4522
4     4522
5     4522
6     4522
7     4522
8     4522
9     7752
10    9044
11    9044
12    9044
13    9044
14    9044
15    9044
16    9044
17    9044
18    9044
19    9044
20    9044
21    9044
22    9044
23    9044
24    9044
25    9044
26    9044
27    9044
28    9044
29    9044
30    9044
31    9044
32    9044
33    9044
34    9044
35    9044
36    9044
37    9044
38    9044
39    4522
40    4522
41    4522
42    4522
43    4522
44    4522
45    4522
46    4522
47    4522
48    4522
49    4522
50    4522
51    4522
52    4522
53    4522
Name: semana_epidem, dtype: int64

In [None]:
from collections import Counter
Counter(covid_sp_alterado.semana_epidem)

In [79]:
covid_sp_alterado.query('obitos_novos > 50')['municipio'].value_counts()

São Paulo                295
Guarulhos                  9
São Bernardo do Campo      3
Taubaté                    3
Itapetininga               2
Campinas                   1
Sorocaba                   1
Name: municipio, dtype: int64

### **Selecionar Variáveis (Colunas) por Índices**

In [None]:
covid_sp_alterado

In [None]:
x = covid_sp_alterado.iloc[: , 5:13]
x

In [81]:
type(x)

pandas.core.frame.DataFrame

In [83]:
y = covid_sp_alterado.iloc[:,1]
y

0               Adamantina
1                   Adolfo
2                    Aguaí
3           Águas da Prata
4         Águas de Lindóia
                ...       
374029            Ignorado
374030            Ignorado
374031            Ignorado
374032            Ignorado
374033            Ignorado
Name: municipio, Length: 374034, dtype: object

In [84]:
type(y)

pandas.core.series.Series

In [85]:
y = covid_sp_alterado.iloc[:,1].values
y

array(['Adamantina', 'Adolfo', 'Aguaí', ..., 'Ignorado', 'Ignorado',
       'Ignorado'], dtype=object)

In [86]:
lista_y = list(y.flatten())
lista_y

['Adamantina',
 'Adolfo',
 'Aguaí',
 'Águas da Prata',
 'Águas de Lindóia',
 'Águas de Santa Bárbara',
 'Águas de São Pedro',
 'Agudos',
 'Alambari',
 'Alfredo Marcondes',
 'Altair',
 'Altinópolis',
 'Alto Alegre',
 'Alumínio',
 'Álvares Florence',
 'Álvares Machado',
 'Álvaro de Carvalho',
 'Alvinlândia',
 'Americana',
 'Américo Brasiliense',
 'Américo de Campos',
 'Amparo',
 'Analândia',
 'Andradina',
 'Angatuba',
 'Anhembi',
 'Anhumas',
 'Aparecida',
 "Aparecida d'Oeste",
 'Apiaí',
 'Araçariguama',
 'Araçatuba',
 'Araçoiaba da Serra',
 'Aramina',
 'Arandu',
 'Arapeí',
 'Araraquara',
 'Araras',
 'Arco-Íris',
 'Arealva',
 'Areias',
 'Areiópolis',
 'Ariranha',
 'Artur Nogueira',
 'Arujá',
 'Aspásia',
 'Assis',
 'Atibaia',
 'Auriflama',
 'Avaí',
 'Avanhandava',
 'Avaré',
 'Bady Bassitt',
 'Balbinos',
 'Bálsamo',
 'Bananal',
 'Barão de Antonina',
 'Barbosa',
 'Bariri',
 'Barra Bonita',
 'Barra do Chapéu',
 'Barra do Turvo',
 'Barretos',
 'Barrinha',
 'Barueri',
 'Bastos',
 'Batatais',
 '

In [87]:
type(lista_y)

list

In [88]:
df = pd.DataFrame(lista_y,columns=['municipio'])
df

Unnamed: 0,municipio
0,Adamantina
1,Adolfo
2,Aguaí
3,Águas da Prata
4,Águas de Lindóia
...,...
374029,Ignorado
374030,Ignorado
374031,Ignorado
374032,Ignorado


### **Excluindo, Filtrando e Substituindo Registros (Linhas)**

In [None]:
# Excluindo linhas por índices (valores absolutos)
covid_sp_alterado2 = covid_sp_alterado.drop(covid_sp_alterado.index[[1,3]])
covid_sp_alterado2

In [None]:
# Excluindo linhas por índices (intervalo de valores)
covid_sp_alterado2 = covid_sp_alterado2.drop(covid_sp_alterado.index[4:7])
covid_sp_alterado2

In [None]:
# Reordenar (resetar) índices
covid_sp_alterado2 = covid_sp_alterado2.reset_index(drop=True) # drop é para excluir índice anterior
covid_sp_alterado2

In [None]:
ignorado = covid_sp_alterado.loc[covid_sp_alterado.municipio == 'Ignorado'] 
ignorado

In [None]:
ignorado.shape

In [None]:
covid_sp_alterado = covid_sp_alterado.loc[covid_sp_alterado.municipio != 'Ignorado'] 
covid_sp_alterado

In [None]:
guarulhos = covid_sp_alterado.loc[covid_sp_alterado.municipio == 'Guarulhos'] 
guarulhos

In [None]:
guarulhos.drop(columns=['data','municipio'],inplace=True)
guarulhos.head()

In [None]:
guarulhos['semana_epidem']=guarulhos['semana_epidem'].replace({9:'nove', 10: 'dez'})
guarulhos.head(10)

In [None]:
guarulhos['semana_epidem']=guarulhos['semana_epidem'].replace([11,12,13],['onze','doze','treze'])
guarulhos.head(30)

In [None]:
guarulhos['casos_pc'] = guarulhos['casos_pc'].apply(lambda x: x.replace(',','.'))
guarulhos

In [None]:
guarulhos.shape

In [None]:
# Criar coluna com datas
import datetime

In [None]:
data = np.array('2020-02-25', dtype = np.datetime64())
data

In [None]:
data = data + np.arange(579)
data

In [None]:
data = pd.DataFrame(data)
data

In [None]:
data.columns = ['data']
data.head()

In [None]:
guarulhos2 = pd.concat([data,guarulhos],axis=1)
guarulhos2.head()

In [None]:
# Reordenar (resetar) índices
guarulhos = guarulhos.reset_index(drop=True) # drop é para excluir índice anterior
guarulhos

In [None]:
guarulhos2 = pd.concat([data,guarulhos],axis=1)
guarulhos2.head()

In [None]:
guarulhos2.shape

### **Valores Missing (NAN)**

In [None]:
# RELAÇÃO DA QUANTIDADE
covid_sp_alterado.isnull().sum()

In [None]:
covid_sp_alterado['casos'].isnull().sum()

In [None]:
# RELAÇÃO DA QUANTIDADE
covid_sp.isnull().sum()

In [None]:
# EXCLUIR TODOS OS VALORES MISSING
covid_sp2 = covid_sp.dropna()

In [None]:
covid_sp2.isnull().sum()

In [None]:
# SUBSTITUIR OS VALORES MISSING PELA MEDIANA
covid_sp['obitos_novos'].fillna(covid_sp['obitos_novos'].median(), inplace=True)

In [None]:
# SUBSTITUIR OS VALORES MISSING PELA MÉDIA
covid_sp['obitos_novos'].fillna(covid_sp['obitos_novos'].mean(), inplace=True)

In [None]:
# SUBSTITUIR OS VALORES MISSING POR QUALQUER OUTRO VALOR
covid_sp['obitos_novos'].fillna(10, inplace=True)

### **Classificação e alteração da tipagem dos atributos**

Análise dos tipos de atributos:

object: strings

int64: inteiros

float64: reais

complex: complexos


In [None]:
covid_sp_alterado.dtypes

In [None]:
covid_sp_alterado['casos_pc'] = covid_sp_alterado['casos_pc'].astype(float)

In [None]:
covid_sp_alterado['casos_pc'] = covid_sp_alterado['casos_pc'].apply(lambda x: x.replace(',','.'))
covid_sp_alterado

In [None]:
covid_sp_alterado['casos_pc'] = covid_sp_alterado['casos_pc'].astype(float)

In [None]:
covid_sp_alterado.dtypes

In [None]:
covid_sp_alterado['casos_mm7d'] = covid_sp_alterado['casos_mm7d'].apply(lambda x: x.replace(',','.'))

In [None]:
covid_sp_alterado['obitos_pc'] = covid_sp_alterado['obitos_pc'].apply(lambda x: x.replace(',','.'))

In [None]:
covid_sp_alterado['obitos_mm7d'] = covid_sp_alterado['obitos_mm7d'].apply(lambda x: x.replace(',','.'))

In [None]:
covid_sp_alterado['letalidade'] = covid_sp_alterado['letalidade'].apply(lambda x: x.replace(',','.'))

In [None]:
covid_sp_alterado.head()

In [None]:
covid_sp_alterado['casos_mm7d'] = covid_sp_alterado['casos_mm7d'].astype(float)

In [None]:
covid_sp_alterado['obitos_pc'] = covid_sp_alterado['obitos_pc'].astype(float)

In [None]:
covid_sp_alterado['obitos_mm7d'] = covid_sp_alterado['obitos_mm7d'].astype(float)

In [None]:
covid_sp_alterado['letalidade'] = covid_sp_alterado['letalidade'].astype(float)

In [None]:
covid_sp_alterado.dtypes

In [None]:
covid_sp_alterado['data'] = covid_sp_alterado['data'].astype('datetime64[D]')

In [None]:
covid_sp_alterado.dtypes

## **Salvando (Exportando) o Dataframe Tratado**

In [None]:
covid_sp_alterado.to_csv('covid_sp_tratado.csv', sep=';', encoding='utf-8', index = False)