In [None]:
from google.colab import drive
drive.mount('/content/drive')

# **PROJETO ANÁLISE DOS DADOS DO COVID 19 NO ESTADO DE SÃO PAULO**

Este projeto analisa os dados dos casos de COVID-19 no estado de São Paulo do período de fevereiro de 2020 a setembro de 2021.

Os dados estão disponíveis nos sites:

https://www.seade.gov.br/coronavirus/#

https://github.com/seade-R/dados-covid-sp

https://www.seade.gov.br/

## **Importação dos Dados**

### Importação de arquivos csv

In [None]:
# Importar bibliotecas necessárias

import numpy as np
import pandas as pd

In [None]:
# Leitura de arquivo .csv:
# variavel_tabela = pd.read_csv('caminho_arquivo', sep='separador_no_arquivo', encoding='tipo_encoding')

# encoding: codificação de caracteres, normalmente utiliza-se o iso-8859-1, utf-8, latin-1)

covid_sp = pd.read_csv('/content/drive/MyDrive/Udemy/Análise de Dados e Machine Learning/Seção 3/dados_covid_sp.csv',
                       sep=';', encoding='utf-8')

In [None]:
# Exibir as informações do arquivo .csv:
# variavel_tabela.head(linhas_exibidas)

covid_sp.head(60)

# objeto.método() --> Permite colocar parâmetros (entre os parênteses)

In [None]:
# Quando passa do limite(60) de linhas exibidas, são exibidas as 5 primeiras e 5 ultimas linhas de acordo com "linhas_exibidas"

covid_sp.head(61)

In [None]:
# Verificar quantos registros (linhas) e variáveis (colunas) que o arquivo possui:
# variavel_tabela.shape 

covid_sp.shape

# objeto.atributo --> Não permite colocar parâmetros

### Importação de arquivos Excel

In [None]:
# Leitura de arquivo .xlsx:
# variavel_tabela = pd.read_excel('caminho_arquivo')

covid_sp_2 = pd.read_excel('/content/drive/MyDrive/Udemy/Análise de Dados e Machine Learning/Seção 3/dados_covid_sp.xlsx',)

# Arquivos excel demoram mais que os csv para carregar!!!

In [None]:
covid_sp_2.head()

In [None]:
covid_sp_2.shape

### Importação através de uma url

In [None]:
import numpy as np
import pandas as pd

In [None]:
# variavel_url = "endereço_url"

url = "https://archive.ics.uci.edu/ml/machine-learning-databases/iris/iris.data"

In [None]:
# Se não existir nomes nas colunas, é possível nomeá-las:
# variavel_colunas = ['nome_coluna_1', nome_coluna_2', ...]

colnames = ['sepal-length', 'sepal-width', 'petal-length', 'petal-width', 'Class']

In [None]:
# variavel_tabela = pd.read_csv(variavel_url, names=variavel_colunas)

iris = pd.read_csv(url, names=colnames)

In [None]:
iris.head()

In [None]:
type(iris)

In [None]:
# Utilizar para consultas

iris.shape

In [None]:
# Utilizar nos códigos (ex: for, while, funções, etc) 

len(iris)

### Datasets das bibliotecas do Python

https://www.statsmodels.org/stable/datasets/index.html

In [None]:
import statsmodels.api as sm

In [None]:
# Importar tabela de dados:
# variavel = sm.datasets.nome_tabela.load_pandas().data

cancer = sm.datasets.cancer.load_pandas().data
cancer.head()

In [None]:
type(cancer)

In [None]:
cancer.shape

https://scikit-learn.org/stable/datasets/toy_dataset.html

In [None]:
import sklearn
from sklearn import datasets

In [None]:
# Importar tabela de dados:
# variavel_dataset = datasets.load_nomeDataset()

iris = datasets.load_iris()

In [None]:
# Imprime um dicionário com as informações

iris

In [None]:
# Imprime um array com os dados

iris.data

In [None]:
# Imprime os alvos (ex: classificações das plantas)

iris.target

In [None]:
# Imprime os nomes dos alvos (ex: nomes das classificações das plantas)

iris.target_names

#           0             1            2  
# array(['setosa' , 'versicolor', 'virginica'], dtype='<U10')

## **Organização dos Dados**

### Renomeando variáveis (colunas)

In [None]:
import numpy as np
import pandas as pd

path = '/content/drive/MyDrive/Udemy/Análise de Dados e Machine Learning/Seção 3/dados_covid_sp.csv'
covid_sp = pd.read_csv(path, sep=';', encoding='utf-8')

In [None]:
covid_sp.head()

In [None]:
covid_sp.shape

In [None]:
# Sobrescrever tabela de dados:
# nome_tabela = nome_tabela.rename(columns={'nome_atual': 'nome_novo'})

covid_sp = covid_sp.rename(columns={'nome_munic': 'municipio'})

In [None]:
# Sem sobrescrever tabela de dados:
# nome_tabela.rename(columns={'nome_atual': 'nome_novo'}, inplace=True)

covid_sp.rename(columns={'datahora': 'data'}, inplace=True)

In [None]:
# Alterar vários nomes de uma vez:
# nome_tabela.rename(columns={'nome_1_atual': 'nome_1_novo', 'nome_2_atual': 'nome_2_novo', ...}, inplace=True)

covid_sp.rename(columns={'map_leg': 'rotulo_mapa','map_leg_s':'codigo_mapa'}, inplace=True)

### Excluindo variáveis (colunas)

In [None]:
covid_sp.head()

In [None]:
covid_sp.shape

In [None]:
# Excluir por nome (sobrescrevendo):
# nome_tabela_alterada = nome_tabela.drop(columns=['nome_coluna'])

covid_sp_alterado = covid_sp.drop(columns=['cod_ra'])

In [None]:
# Excluir por número (sobrescrevendo):
# nome_tabela_alterada = nome_tabela_alterada.drop(nome_tabela_alterada.columns[[num_coluna]], axis=0_ou_1)

# axis = 0 (p/ linha) ou 1(p/ coluna)

covid_sp_alterado = covid_sp_alterado.drop(covid_sp_alterado.columns[[1]], axis=1)

In [None]:
# Excluir mais de uma variável (sem sobrescrever):
# 1 --> nome_tabela_alterada.drop(columns=['nome_coluna_1', 'nome_coluna_2', ...], inplace=True)
# 2 --> nome_tabela_alterada.drop(nome_tabela_alterada.columns[[num_coluna_a, num_coluna_b, num_coluna_c, ...]], axis=0_ou_1)

covid_sp_alterado.drop(columns=['rotulo_mapa', 'codigo_mapa', 'cod_drs'], inplace=True)
covid_sp_alterado.drop(covid_sp_alterado.columns[[13, 14, 18, 19]], axis=1, inplace=True)

In [None]:
covid_sp_alterado.head()

In [None]:
covid_sp_alterado.shape

### Criando e alterando valores das colunas (variáveis)

In [None]:
covid_sp_alterado.head()

In [None]:
covid_sp_alterado.shape

In [None]:
# Exemplo de alteração de uma variável(coluna) inteira:
# nome_tabela['nome_coluna'] = nome_tabela['nome_coluna']/100

covid_sp_alterado['area'] = covid_sp_alterado['area']/100
# ou 
# covid_sp_alterado['area'] = covid_sp_alterado.area/100

In [None]:
# Exemplo de criação de nova variável(coluna):
# nome_tabela['nova_coluna'] = nome_tabela['nome_coluna_a'] / ['nome_coluna_b']

covid_sp_alterado['densidade'] = covid_sp_alterado['pop'] / covid_sp_alterado['area']

In [None]:
# Criação de uma coluna com índices (a partir do 1):
# lista = list(range(1, num_registros + 1))
# nome_tabela = pd.DataFrame(lista, columns=['indice'])

lista = list(range(1, covid_sp_alterado.shape[0] + 1))
df = pd.DataFrame(lista, columns=['indice'])
df

In [None]:
# Juntar dois DataFrames:
# nome_tabela = pd.concat([nome_tabela_a, nome_tabela_b], axis=0_ou_1)

covid_sp_alterado = pd.concat([covid_sp_alterado, df], axis=1)  # axis=1 --> Juntar por coluna

In [None]:
# Colocar a última coluna no começo:
# nome_tabela = nome_tabela.reindex(columns=['nome_coluna'] + list(nome_tabela.columns[:-1]))

covid_sp_alterado = covid_sp_alterado.reindex(columns=['indice'] + list(covid_sp_alterado.columns[:-1]))

### Contagem de Registros das Variáveis (Colunas)

In [None]:
# Contagem em uma coluna:
# nome_tabela['nome_coluna'].value_counts()

covid_sp_alterado['semana_epidem'].value_counts()

In [None]:
# Reordenar por índice:
# nome_tabela['nome_coluna'].value_counts().sort_index()

covid_sp_alterado['semana_epidem'].value_counts().sort_index()

In [None]:
# Contar utilizando a função Counter:
# Counter(nome_tabela.nome_coluna)

from collections import Counter

Counter(covid_sp_alterado.semana_epidem)

In [None]:
# Relacionando duas colunas:
# nome_tabela.query('condição')['verificar_por'].value_counts()

covid_sp_alterado.query('obitos_novos > 50')['municipio'].value_counts()
# ou seja,
# quantas vezes registrou óbitos novos (por dia) maiores que 50 em determinado município

### Selecionar Variáveis (Colunas) por Índices

In [None]:
# x = nome_tabela.iloc[linhas, colunas]

x = covid_sp_alterado.iloc[:, 5:13]
x

# OBS: [:, ...] --> Os ':' sozinhos representam pegar todas as linhas 

In [None]:
type(x)

In [None]:
y = covid_sp_alterado.iloc[:, 1]  # Reconhece como uma Serie
y

In [None]:
type(y)

In [None]:
y = covid_sp_alterado.iloc[:, 1].values  # Reconhece como um array
y

In [None]:
type(y)

In [None]:
# Transforma o array em lista

lista_y = list(y.flatten())
lista_y

In [None]:
# Criar um DataFrame utilizando uma lista:
# df = pd.DataFrame(lista, columns=['nome_coluna_para_lista'])

df = pd.DataFrame(lista_y, columns=['municipio_lista'])
df

### Excluindo, Filtrando e Substituindo Registros (Linhas)

In [None]:
# Excluindo linhas por índices (valores absolutos):
# nome_tabela = nome_tabela.drop(nome_tabela.index[[num_variavel_a, num_variavel_b, ...]])

covid_sp_alterado_2 = covid_sp_alterado.drop(covid_sp_alterado.index[[1, 3]])
covid_sp_alterado_2

In [None]:
# Excluindo linhas por índices (intervalo de valores):
# nome_tabela = nome_tabela.drop(nome_tabela.index[num_variavel_a:num_variavel_b])

covid_sp_alterado_2 = covid_sp_alterado_2.drop(covid_sp_alterado.index[4:7])
covid_sp_alterado_2

In [None]:
# Reordenar(resetar) os índices(padrões):
# nome_tabela = nome_tabela.reset_index(drop=True_False)

covid_sp_alterado_2 = covid_sp_alterado_2.reset_index(drop=True)  # drop é para excluir índice anterior

In [None]:
# Localizar a quantidade de linhas com um valor específico:
# variavel = nome_tabela.loc[nome_tabela.nome_coluna == 'valor_específico']

ignorado = covid_sp_alterado.loc[covid_sp_alterado.municipio == 'Ignorado']
ignorado

In [None]:
ignorado.shape  # (x, y)
                # x --> Quantidade de linhas em que 'Ignorado' aparece

In [None]:
# Localizar a quantidade de linhas que não possuem um valor específico:
# Também serve para excluir esse valor específico da tabela:
# variavel_ou_nome_tabela = nome_tabela.loc[nome_tabela.nome_coluna != 'valor_específico']

covid_sp_alterado = covid_sp_alterado.loc[covid_sp_alterado.municipio != 'Ignorado']
covid_sp_alterado

In [None]:
# Exemplo --> Análise de Guarulhos

guarulhos = covid_sp_alterado.loc[covid_sp_alterado.municipio == 'Guarulhos']
guarulhos

In [None]:
guarulhos.drop(columns=['data', 'municipio'], inplace=True)
guarulhos

In [None]:
# Realizar substituições nos valores de uma coluna em uma tabela (utilizando dicionário):
# nome_tabela['nome_coluna'] = nome_tabela['nome_coluna'].replace({valor_atual_1: valor_novo_1, valor_atual_2: valor_novo_2, ...})

guarulhos['semana_epidem'] = guarulhos['semana_epidem'].replace({9: 'nove', 10: 'dez'})
guarulhos.head(10)

In [None]:
# Realizar substituições nos valores de uma coluna em uma tabela (utilizando lista):
# nome_tabela['nome_coluna'] = nome_tabela['nome_coluna'].replace([valor_atual_1, valor_atual_2, ...], [valor_novo_1, valor_novo_2, ...])

guarulhos['semana_epidem'] = guarulhos['semana_epidem'].replace([11, 12, 13], ['onze', 'doze', 'treze'])
guarulhos.head(30)

In [None]:
# Python utiliza o sistema inglês (com . entre os números ao invés de , ), portanto:
# nome_tabela['nome_coluna'] = nome_tabela['nome_coluna'].apply(lambda x: x.replace(',', '.'))

guarulhos['casos_pc'] = guarulhos['casos_pc'].apply(lambda x: x.replace(',', '.'))
guarulhos.head(10)

In [None]:
guarulhos.shape

In [None]:
# Criar coluna com datas:
# data = np.array('data_início', dtype = np.datetime64())

import datetime

data = np.array('2020-02-25', dtype = np.datetime64()) 
data

In [None]:
# Criar um array com a data_início até a data final de acordo com num_datas:
# data = data + np.arange(num_datas)

data = data + np.arange(guarulhos.shape[0])
data

In [None]:
# Trasformar o array das datas em DataFrame:

data = pd.DataFrame(data)
data

In [None]:
# Nomear a coluna das datas:
# data.columns = ['nome_coluna']

data.columns = ['data']
data.head()

In [None]:
# Não ficará correta, pois os índices de 'guarulhos' não estão resetados

guarulhos_2 = pd.concat([data, guarulhos], axis=1)
guarulhos_2.head()

In [None]:
guarulhos = guarulhos.reset_index(drop=True)

In [None]:
# Agora sim!

guarulhos_2 = pd.concat([data, guarulhos], axis=1)
guarulhos_2.head()

In [None]:
guarulhos_2.shape

### Valores Missing (NAN)

In [None]:
# RELAÇÃO DA QUANTIDADE

# Quantidade de valores ausentes em cada coluna:
# nome_tabela.isnull().sum()

covid_sp_alterado.isnull().sum()

In [None]:
# RELAÇÃO DA QUANTIDADE

# Quantidade de valores ausentes em uma coluna específica:
# nome_tabela['nome_coluna'].isnull().sum()

covid_sp_alterado['casos'].isnull().sum()  

In [None]:
# RELAÇÃO DA QUANTIDADE

covid_sp.isnull().sum()

In [None]:
# Excluir todos os VALORES MISSING:
# nome_tabela = nome_tabela.dropna()

covid_sp_2 = covid_sp.dropna()
covid_sp_2.isnull().sum()

In [None]:
# Preencher os VALORES MISSING pela MEDIANA:
# nome_tabela['nome_coluna'].fillna(nome_tabela['nome_coluna'].median, inplace=True)

covid_sp['obitos_novos'].fillna(covid_sp['obitos_novos'].median, inplace=True)

In [None]:
# Preencher os VALORES MISSING pela MÉDIA:
# nome_tabela['nome_coluna'].fillna(nome_tabela['nome_coluna'].mean, inplace=True)

covid_sp['obitos_novos'].fillna(covid_sp['obitos_novos'].mean, inplace=True)

In [None]:
# Preencher os VALORES MISSING por QUALQUER OUTRO VALOR:
# nome_tabela['nome_coluna'].fillna(qualquer_valor, inplace=True)

covid_sp['obitos_novos'].fillna(10, inplace=True)

### Classificação e alteração da tipagem dos atributos

Análise dos tipos de atributos:

- object: strings

- int64: inteiros

- float64: reais

- complex: complexos

In [None]:
# Verificar tipos das colunas de uma tabelas:
# nome_tabela.dtypes

covid_sp_alterado.dtypes

In [None]:
# Transformar uma variável(coluna) em outro tipo:
# nome_tabela['nome_coluna'] = nome_tabela['nome_coluna'].astype(tipo_atributo)

covid_sp_alterado['casos_pc'] = covid_sp_alterado['casos_pc'].astype(float)

# Resultará em erro, pois 'casos_pc' está escrito com "," entre os números

In [None]:
covid_sp_alterado['casos_pc'] = covid_sp_alterado['casos_pc'].apply(lambda x: x.replace(',', '.'))

In [None]:
# Agora sim!

covid_sp_alterado['casos_pc'] = covid_sp_alterado['casos_pc'].astype(float)
covid_sp_alterado.dtypes

In [None]:
# Realizar o tratamento em todas as variáveis necessárias

covid_sp_alterado['casos_mm7d'] = covid_sp_alterado['casos_mm7d'].apply(lambda x: x.replace(',', '.'))
covid_sp_alterado['obitos_pc'] = covid_sp_alterado['obitos_pc'].apply(lambda x: x.replace(',', '.'))
covid_sp_alterado['obitos_mm7d'] = covid_sp_alterado['obitos_mm7d'].apply(lambda x: x.replace(',', '.'))
covid_sp_alterado['letalidade'] = covid_sp_alterado['letalidade'].apply(lambda x: x.replace(',', '.'))
covid_sp_alterado.head(1)

In [None]:
# Mudar a tipagem das variáveis necessárias

covid_sp_alterado['casos_mm7d'] = covid_sp_alterado['casos_mm7d'].astype(float)
covid_sp_alterado['obitos_pc'] = covid_sp_alterado['obitos_pc'].astype(float)
covid_sp_alterado['obitos_mm7d'] = covid_sp_alterado['obitos_mm7d'].astype(float)
covid_sp_alterado['letalidade'] = covid_sp_alterado['letalidade'].astype(float)
covid_sp_alterado.dtypes

In [None]:
# Tipagem para data --> 'datetime64[D]'

covid_sp_alterado['data'] = covid_sp_alterado['data'].astype('datetime64[D]')
covid_sp_alterado.dtypes

## Salvando (Exportando) o DataFrame Tratado

In [None]:
# nome_tabela.to_csv('nome_arquivo.csv', sep='separador_no_arquivo', encoding='tipo_encoding', index=True_False)

# index --> Se criará uma coluna com os índices padrões na tabela (não é necessário, pois o Python já faz isso quando abre o arquivo)

covid_sp_alterado.to_csv('covid_sp_tratado.csv', sep=';', encoding='utf-8', index=False)

# Exercício Desafio

Transformar o dataset "iris" em um DataFrame

In [None]:
import sklearn
from sklearn import datasets

iris = datasets.load_iris()

In [None]:
iris.data

In [None]:
iris.target

In [None]:
iris.feature_names

In [None]:
iris.target_names

In [None]:
# Maneira 1

import numpy as np
import pandas as pd

iris_data = pd.DataFrame(iris.data)

iris_data.rename(
    columns={0: 'sepal-length(cm)', 1: 'sepal-width(cm)', 2: 'petal-length(cm)', 3: 'petal-width(cm)'},
    inplace=True
)

iris_target = pd.DataFrame(iris.target)
iris_target.rename(
    columns={0: 'classification'},
    inplace=True
)

iris_df = pd.concat([iris_data, iris_target], axis=1)
iris_df['classification'] = iris_df['classification'].replace({0: 'setosa', 1: 'versicolor', 2: 'virginica'})

In [None]:
iris_df.head()

In [None]:
iris_df['classification'].value_counts()

In [None]:
# Maneira 2 (melhor)

import numpy as np
import pandas as pd

dados = pd.DataFrame(iris.data)
classes = pd.DataFrame(iris.target)

iris_df_2 = pd.concat([dados, classes], axis=1)

colnames = iris.feature_names
colnames.append('classification')

iris_df_2.columns = colnames

nomes = iris.target_names

iris_df_2['classification'] = iris_df_2['classification'].replace({0: nomes[0],
                                                                   1: nomes[1],
                                                                   2: nomes[2]})

In [None]:
iris_df_2.head()

In [None]:
iris_df_2['classification'].value_counts()