<a href="https://colab.research.google.com/github/GuilhermeFogolin/Python-Dados-Machine-Learning/blob/main/Tratamento_Projeto01.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# **Projeto: Análise dos dados do COVID 19 no estado de São Paulo**

Este projeto analisa os dados dos casos de covid 19 no estado de São Paulo do período de fevereiro de 2020 a setembro de 2021.

Os dados estão disponíveis nos sites:

https://www.seade.gov.br/coronavirus/#

https://github.com/seade-R/dados-covid-sp

https://www.seade.gov.br/


## **Importação dos Dados**

### **Importação de arquivo csv**

In [4]:
import numpy as np
import pandas as pd

In [None]:
from google.colab import drive # Importando o Google Drive
drive.mount('/content/drive')

In [5]:
covid_sp = pd.read_csv('/content/drive/MyDrive/Python_Dados_Machine_Learning/Dados_COVID_SP.csv',
                    sep=';', encoding='utf-8')
# Encoding: codificação de caracteres, normalmente utiliza-se o ISO-8859-1 ou UTF-8 ou latin-1)

In [6]:
covid_sp.head()

Unnamed: 0,nome_munic,codigo_ibge,dia,mes,datahora,casos,casos_novos,casos_pc,casos_mm7d,obitos,...,nome_drs,cod_drs,pop,pop_60,area,map_leg,map_leg_s,latitude,longitude,semana_epidem
0,Adamantina,3500105,25,2,2020-02-25,0,0,"0,00000000000000e+00",0,0,...,Marília,5,33894,7398,41199,0,8.0,-216820,-510737,9
1,Adolfo,3500204,25,2,2020-02-25,0,0,"0,00000000000000e+00",0,0,...,São José do Rio Preto,15,3447,761,21106,0,8.0,-212325,-496451,9
2,Aguaí,3500303,25,2,2020-02-25,0,0,"0,00000000000000e+00",0,0,...,São João da Boa Vista,14,35608,5245,47455,0,8.0,-220572,-469735,9
3,Águas da Prata,3500402,25,2,2020-02-25,0,0,"0,00000000000000e+00",0,0,...,São João da Boa Vista,14,7797,1729,14267,0,8.0,-219319,-467176,9
4,Águas de Lindóia,3500501,25,2,2020-02-25,0,0,"0,00000000000000e+00",0,0,...,Campinas,3,18374,3275,6013,0,8.0,-224733,-466314,9


In [7]:
covid_sp.shape

(374034, 26)

### **Importação de arquivo Excel**

In [8]:
covid_sp2 = pd.read_excel('/content/drive/MyDrive/Python_Dados_Machine_Learning/Dados_COVID_SP.xlsx')

In [9]:
covid_sp2.head()

Unnamed: 0,nome_munic,codigo_ibge,dia,mes,datahora,casos,casos_novos,casos_pc,casos_mm7d,obitos,...,nome_drs,cod_drs,pop,pop_60,area,map_leg,map_leg_s,latitude,longitude,semana_epidem
0,Adamantina,3500105,25,2,2020-02-25,0,0,0,0,0,...,Marília,5,33894,7398,41199,0.0,8.0,-21.682,-51.0737,9
1,Adolfo,3500204,25,2,2020-02-25,0,0,0,0,0,...,São José do Rio Preto,15,3447,761,21106,0.0,8.0,-21.2325,-49.6451,9
2,Aguaí,3500303,25,2,2020-02-25,0,0,0,0,0,...,São João da Boa Vista,14,35608,5245,47455,0.0,8.0,-22.0572,-46.9735,9
3,Águas da Prata,3500402,25,2,2020-02-25,0,0,0,0,0,...,São João da Boa Vista,14,7797,1729,14267,0.0,8.0,-21.9319,-46.7176,9
4,Águas de Lindóia,3500501,25,2,2020-02-25,0,0,0,0,0,...,Campinas,3,18374,3275,6013,0.0,8.0,-22.4733,-46.6314,9


In [10]:
covid_sp2.shape

(374034, 26)

### **Importação através de uma url**

In [None]:
url = "https://archive.ics.uci.edu/ml/machine-learning-databases/iris/iris.data"

In [None]:
colnames = ['sepal-length', 'sepal-width', 'petal-length', 'petal-width', 'Class']

In [None]:
iris = pd.read_csv(url, names=colnames)

In [None]:
iris.head(10)

In [None]:
type(iris)

In [None]:
iris.shape

In [None]:
len(iris.Class)

### **Datasets das bibliotecas do Python**

https://www.statsmodels.org/stable/datasets/index.html

In [None]:
import statsmodels.api as sm

In [None]:
cancer = sm.datasets.cancer.load_pandas().data
cancer.head()

In [None]:
type(cancer)

In [None]:
cancer.shape

https://scikit-learn.org/stable/datasets/toy_dataset.html

In [None]:
import sklearn

In [None]:
from sklearn import datasets

In [None]:
iris = datasets.load_iris()
iris

In [None]:
iris.data

In [None]:
iris.target

In [None]:
iris.target_names

## **Organização dos dados**

### **Renomeando variáveis (colunas)**

In [None]:
covid_sp.head(3)

In [None]:
covid_sp = covid_sp.rename(columns={'nome_munic': 'municipio'})

In [None]:
covid_sp.head(3)

In [None]:
covid_sp.rename(columns={'datahora': 'data'}, inplace=True)

In [None]:
covid_sp.rename(columns={'map_leg': 'rotulo_mapa','map_leg_s':'codigo_mapa'},inplace=True)

In [None]:
covid_sp.head(3)

### **Excluindo variáveis (colunas)**

In [None]:
# Excluir por nome
covid_sp_alterado = covid_sp.drop(columns=['cod_ra'])

In [None]:
covid_sp_alterado.head(2)

In [None]:
covid_sp_alterado.shape

In [None]:
# Excluir por número
covid_sp_alterado = covid_sp_alterado.drop(covid_sp_alterado.columns[[1]],axis=1)

In [None]:
# Excluir mais de uma variável
covid_sp_alterado.drop(columns=['rotulo_mapa','codigo_mapa','cod_drs'],inplace=True)

In [None]:
covid_sp_alterado.head()

In [None]:
covid_sp_alterado.drop(covid_sp_alterado.columns[[13,14,18,19]],axis=1, inplace=True)


In [None]:
covid_sp_alterado.shape

### **Criando e alterando valores das colunas (Variáveis)**

In [None]:
covid_sp_alterado.head(3)

In [None]:
covid_sp_alterado['area'] = covid_sp_alterado['area']/100
# ou
# covid_sp_alterado['area'] = covid_sp_alterado.area/100

In [None]:
# Criação de uma coluna com a densidade demográfica (hab/km2)
covid_sp_alterado['densidade'] = covid_sp_alterado['pop'] / covid_sp_alterado['area']

In [None]:
covid_sp_alterado.shape

In [None]:
# Criação de uma coluna com índices
lista = list(range(1,374035))
lista

In [None]:
df = pd.DataFrame(lista,columns=['indice'])
df

In [None]:
# Juntando dois DataFrames
covid_sp_alterado = pd.concat([covid_sp_alterado,df],axis=1)
covid_sp_alterado.head()

In [None]:
covid_sp_alterado = covid_sp_alterado.reindex(columns=['indice'] + list(covid_sp_alterado.columns[:-1]))
covid_sp_alterado.head()

### **Contagem de Registros das Variáveis (Colunas)**

In [None]:
covid_sp_alterado['semana_epidem'].value_counts()

In [None]:
covid_sp_alterado['semana_epidem'].value_counts().sort_index()

In [None]:
from collections import Counter
Counter(covid_sp_alterado.semana_epidem)

In [None]:
covid_sp_alterado.query('obitos_novos > 50')['municipio'].value_counts()

### **Selecionar Variáveis (Colunas) por Índices**

In [None]:
covid_sp_alterado

In [None]:
x = covid_sp_alterado.iloc[: , 5:13]
x

In [None]:
type(x)

In [None]:
y = covid_sp_alterado.iloc[:,1]
y

In [None]:
type(y)

In [None]:
y = covid_sp_alterado.iloc[:,1].values
y

In [None]:
lista_y = list(y.flatten())
lista_y

In [None]:
type(lista_y)

In [None]:
df = pd.DataFrame(lista_y,columns=['municipio'])
df

### **Excluindo, Filtrando e Substituindo Registros (Linhas)**

In [None]:
# Excluindo linhas por índices (valores absolutos)
covid_sp_alterado2 = covid_sp_alterado.drop(covid_sp_alterado.index[[1,3]])
covid_sp_alterado2

In [None]:
# Excluindo linhas por índices (intervalo de valores)
covid_sp_alterado2 = covid_sp_alterado2.drop(covid_sp_alterado.index[4:7])
covid_sp_alterado2

In [None]:
# Reordenar (resetar) índices
covid_sp_alterado2 = covid_sp_alterado2.reset_index(drop=True) # drop é para excluir índice anterior
covid_sp_alterado2

In [None]:
ignorado = covid_sp_alterado.loc[covid_sp_alterado.municipio == 'Ignorado']
ignorado

In [None]:
ignorado.shape

In [None]:
covid_sp_alterado = covid_sp_alterado.loc[covid_sp_alterado.municipio != 'Ignorado']
covid_sp_alterado

In [None]:
guarulhos = covid_sp_alterado.loc[covid_sp_alterado.municipio == 'Guarulhos']
guarulhos

In [None]:
guarulhos.drop(columns=['data','municipio'],inplace=True)
guarulhos.head()

In [None]:
guarulhos['semana_epidem']=guarulhos['semana_epidem'].replace({9:'nove', 10: 'dez'})
guarulhos.head(10)

In [None]:
guarulhos['semana_epidem']=guarulhos['semana_epidem'].replace([11,12,13],['onze','doze','treze'])
guarulhos.head(30)

In [None]:
guarulhos['casos_pc'] = guarulhos['casos_pc'].apply(lambda x: x.replace(',','.'))
guarulhos

In [None]:
guarulhos.shape

In [None]:
# Criar coluna com datas
import datetime

In [None]:
data = np.array('2020-02-25', dtype = np.datetime64())
data

In [None]:
data = data + np.arange(579)
data

In [None]:
data = pd.DataFrame(data)
data

In [None]:
data.columns = ['data']
data.head()

In [None]:
guarulhos2 = pd.concat([data,guarulhos],axis=1)
guarulhos2.head()

In [None]:
# Reordenar (resetar) índices
guarulhos = guarulhos.reset_index(drop=True) # drop é para excluir índice anterior
guarulhos

In [None]:
guarulhos2 = pd.concat([data,guarulhos],axis=1)
guarulhos2.head()

In [None]:
guarulhos2.shape

### **Valores Missing (NAN)**

In [None]:
# RELAÇÃO DA QUANTIDADE
covid_sp_alterado.isnull().sum()

In [None]:
covid_sp_alterado['casos'].isnull().sum()

In [None]:
# RELAÇÃO DA QUANTIDADE
covid_sp.isnull().sum()

In [None]:
# EXCLUIR TODOS OS VALORES MISSING
covid_sp2 = covid_sp.dropna()

In [None]:
covid_sp2.isnull().sum()

In [None]:
# SUBSTITUIR OS VALORES MISSING PELA MEDIANA
covid_sp['obitos_novos'].fillna(covid_sp['obitos_novos'].median(), inplace=True)

In [None]:
# SUBSTITUIR OS VALORES MISSING PELA MÉDIA
covid_sp['obitos_novos'].fillna(covid_sp['obitos_novos'].mean(), inplace=True)

In [None]:
# SUBSTITUIR OS VALORES MISSING POR QUALQUER OUTRO VALOR
covid_sp['obitos_novos'].fillna(10, inplace=True)

### **Classificação e alteração da tipagem dos atributos**

Análise dos tipos de atributos:

object: strings

int64: inteiros

float64: reais

complex: complexos


In [None]:
covid_sp_alterado.dtypes

In [None]:
covid_sp_alterado['casos_pc'] = covid_sp_alterado['casos_pc'].astype(float)

In [None]:
covid_sp_alterado['casos_pc'] = covid_sp_alterado['casos_pc'].apply(lambda x: x.replace(',','.'))
covid_sp_alterado

In [None]:
covid_sp_alterado['casos_pc'] = covid_sp_alterado['casos_pc'].astype(float)

In [None]:
covid_sp_alterado.dtypes

In [None]:
covid_sp_alterado['casos_mm7d'] = covid_sp_alterado['casos_mm7d'].apply(lambda x: x.replace(',','.'))

In [None]:
covid_sp_alterado['obitos_pc'] = covid_sp_alterado['obitos_pc'].apply(lambda x: x.replace(',','.'))

In [None]:
covid_sp_alterado['obitos_mm7d'] = covid_sp_alterado['obitos_mm7d'].apply(lambda x: x.replace(',','.'))

In [None]:
covid_sp_alterado['letalidade'] = covid_sp_alterado['letalidade'].apply(lambda x: x.replace(',','.'))

In [None]:
covid_sp_alterado.head()

In [None]:
covid_sp_alterado['casos_mm7d'] = covid_sp_alterado['casos_mm7d'].astype(float)

In [None]:
covid_sp_alterado['obitos_pc'] = covid_sp_alterado['obitos_pc'].astype(float)

In [None]:
covid_sp_alterado['obitos_mm7d'] = covid_sp_alterado['obitos_mm7d'].astype(float)

In [None]:
covid_sp_alterado['letalidade'] = covid_sp_alterado['letalidade'].astype(float)

In [None]:
covid_sp_alterado.dtypes

In [None]:
covid_sp_alterado['data'] = covid_sp_alterado['data'].astype('datetime64[D]')

In [None]:
covid_sp_alterado.dtypes

## **Salvando (Exportando) o Dataframe Tratado**

In [None]:
covid_sp_alterado.to_csv('covid_sp_tratado.csv', sep=';', encoding='utf-8', index = False)