In [None]:
from google.colab import drive
drive.mount('/content/drive')

# **PROJETO ANÁLISE DOS DADOS DO COVID 19 NO ESTADO DE SÃO PAULO**

Este projeto analisa os dados dos casos de COVID-19 no estado de São Paulo do período de fevereiro de 2020 a setembro de 2021.

## **Importação dos Dados**

In [None]:
import numpy as np
import pandas as pd

path = '/content/drive/MyDrive/Udemy/Análise de Dados e Machine Learning/Seção 4/covid_sp_tratado.csv'
covid = pd.read_csv(path, sep=';', encoding='utf-8')

In [None]:
covid.head()

In [None]:
covid.shape

In [None]:
# Análise dos atributos

covid.dtypes

## **Filtrando duas cidades: São José do Rio Preto e Guarulhos**

In [None]:
covid_sjrp = covid.loc[covid.municipio == 'São José do Rio Preto']
covid_guarulhos = covid.loc[covid.municipio == 'Guarulhos']

In [None]:
# Criação de uma coluna com a porcentagem de idosos

covid_sjrp['porcentagem_idosos'] = 100 * covid_sjrp['pop_60'] / covid_sjrp['pop']
covid_guarulhos['porcentagem_idosos'] = 100 * covid_guarulhos['pop_60'] / covid_guarulhos['pop']

In [None]:
covid_sjrp.head(3)

In [None]:
covid_guarulhos.head(3)

In [None]:
covid_sjrp.shape

In [None]:
covid_guarulhos.shape

## **Medidas de Centralidade**

### Média

São José do Rio Preto

In [None]:
# Calcula a MÉDIA dos valores da coluna desejada:
# nome_tabela['nome_coluna'].mean()

covid_sjrp['obitos_novos'].mean()

In [None]:
# Outra maneira:
# nome_tabela.nome_coluna.mean()

covid_sjrp.casos_novos.mean()

Guarulhos

In [None]:
# Ver apenas a quantidade de casas decimais desejadas:
# round(..., num_casas_decimais)

round(covid_guarulhos['obitos_novos'].mean(), 3)

In [None]:
round(covid_guarulhos.casos_novos.mean(), 3)

### Mediana

São José do Rio Preto

In [None]:
# Calcula a MEDIANA dos valores da coluna desejada:
# nome_tabela['nome_coluna'].median()

covid_sjrp['obitos_novos'].median()

In [None]:
covid_sjrp['casos_novos'].median()

Guarulhos

In [None]:
covid_guarulhos['obitos_novos'].median()

In [None]:
covid_guarulhos['casos_novos'].median()

### Moda

In [None]:
# Calcula a MODA dos valores da coluna desejada:
# nome_tabela['nome_coluna'].mode()

covid_sjrp['obitos_novos'].mode()

In [None]:
covid_sjrp['dia'].mode()  # Dia 25 aparecerá mais pois é onde começa a análise no mês de fevereiro

In [None]:
covid_guarulhos['dia'].mode()

In [None]:
covid_guarulhos.mes.mode()  # Meses com mais dias vão aparecer mais

### Descrição Geral

In [None]:
# Aprensenta uma visão geral de todas as colunas:
# nome_tabela.describe()

covid_sjrp.describe()

In [None]:
round(covid_sjrp.describe(), 1)

In [None]:
# Apresenta uma visão geral de uma coluna específica:
# nome_tabela['nome_coluna'].describe()

round(covid_guarulhos['casos_novos'].describe(), 1)

### Distribuição de Frequências: Histograma

In [None]:
# Pega apenas as datas do ano de 2021
covid_sjrp_2021 = covid_sjrp.loc[covid_sjrp.data > '2020-12-31']

covid_sjrp_2021

In [None]:
covid_sjrp_2021.shape

In [None]:
covid_sjrp_2021.obitos_novos.mode()

In [None]:
covid_sjrp_2021.obitos_novos.median()

In [None]:
covid_sjrp_2021.obitos_novos.mean()

In [None]:
# média = mediana = moda --> Distribuição simétrica
# média = mediana (não existe moda) --> Distribuição uniforme (retangular)
# média < mediana < moda --> Distribuição assimétrica à esquerda (Assimetria negativa)
# moda < mediana < média --> Distribuição assimétrica à direita  (Assimetria positiva)

In [None]:
# Construir um histograma:

import plotly.express as px

# nome_grafico = px.histogram(nome_tabela, x = "itens_eixo_x", nbins=num_bins) --> Quanto menor o nbins, maior a faixa de valores(frequencia) 
# nome_grafico.update_layout(width=largura, height=altura, title_text='titulo_grafico') --> Layout gráfico
# nome_grafico.show() --> Exibe o gráfico

grafico = px.histogram(covid_sjrp_2021, x = "obitos_novos", nbins=30)
grafico.update_layout(width=400, height=400, title_text='Óbitos Novos de São José do Rio Preto em 2021')
grafico.show()

In [None]:
# Rio Preto 2021:

grafico = px.histogram(covid_sjrp_2021, x = "casos_novos", nbins=30)
grafico.update_layout(width=400, height=400, title_text='Casos Novos de São José do Rio Preto em 2021')
grafico.show()

In [None]:
# Rio Preto geral:

grafico = px.histogram(covid_sjrp, x = "casos_novos", nbins=30)
grafico.update_layout(width=400, height=400, title_text='Casos Novos de São José do Rio Preto')
grafico.show()

In [None]:
# Guarulhos geral:

grafico = px.histogram(covid_guarulhos, x = "casos_novos", nbins=30)
grafico.update_layout(width=400, height=400, title_text='Casos Novos de Guarulhos')
grafico.show()

## **Medidas de Posição**

In [None]:
# Obter valor MÍNIMO:
# nome_tabela['nome_coluna'].min()

covid_sjrp['obitos_novos'].min()

In [None]:
covid_sjrp.casos_novos.min()

In [None]:
# Obter valor MÁXIMO:
# nome_tabela['nome_coluna'].max()

covid_guarulhos['obitos_novos'].max()

In [None]:
covid_sjrp.obitos_novos.max()

In [None]:
covid_guarulhos['casos_novos'].max()

In [None]:
covid_sjrp['casos_novos'].max()

In [None]:
# DIVIDE A QUANTIDADE DE DADOS, NÃO O VALOR:
# Primeiro Quartil:
# nome_tabela['nome_coluna'].quantile(q=0.25)

covid_sjrp['casos_novos'].quantile(q=0.25)

In [None]:
# Segundo Quartil:
# nome_tabela['nome_coluna'].quantile(q=0.50)

covid_sjrp['casos_novos'].quantile(q=0.5)

In [None]:
# Terceiro Quartil:
# nome_tabela['nome_coluna'].quantile(q=0.75)

covid_sjrp['casos_novos'].quantile(q=0.75)

In [None]:
covid_sjrp['casos_novos'].quantile(q=0.99)

In [None]:
covid_sjrp['casos_novos'].describe()

In [None]:
covid_guarulhos['casos_novos'].describe()

In [None]:
covid_sjrp.obitos_novos.describe()  # min, 25%, 50%, 75%, max

In [None]:
covid_guarulhos.obitos_novos.describe()

## **Gráfico BoxPlot e Outliers**

São José do Rio Preto

In [None]:
# Criar BoxPlot:

import plotly.express as px

# nome_grafico = px.box(nome_tabela, y='nome_coluna')

grafico = px.box(covid_sjrp, y='casos_novos')
grafico.show()

In [None]:
# Outlier Superior:
# outlier_sup = quartil_3 + 1.5 * interquartil --> interquartil = quartil_3 - quartil_1
# ou seja, 
# outlier_sup = nome_tabela.nome_coluna.quantile(q=0.75) + 1.5 * (nome_tabela.nome_coluna.quantile(q=0.75) - nome_tabela.nome_coluna.quantile(q=0.25))

outlier_sup = covid_sjrp.casos_novos.quantile(q=0.75) + 1.5 * (covid_sjrp.casos_novos.quantile(q=0.75) - 
                                                               covid_sjrp.casos_novos.quantile(q=0.25))
outlier_sup

In [None]:
# Outlier Inferior:
# outlier_inf = quartil_1 - 1.5 * interquartil
# ou seja, 
# outlier_inf = nome_tabela.nome_coluna.quantile(q=0.25) + 1.5 * (nome_tabela.nome_coluna.quantile(q=0.75) - nome_tabela.nome_coluna.quantile(q=0.25))

outlier_inf = covid_sjrp.casos_novos.quantile(q=0.25) - 1.5 * (covid_sjrp.casos_novos.quantile(q=0.75) - 
                                                               covid_sjrp.casos_novos.quantile(q=0.25))
outlier_inf

In [None]:
# Excluir Outliers (CASO SEJA NECESSÁRIO!!!):
# nome_tabela = nome_tabela.loc[nome_tabela.nome_coluna <= outlier_sup]
# nome_tabela = nome_tabela.loc[nome_tabela.nome_coluna >= outlier_inf]

sem_outliers = covid_sjrp.loc[covid_sjrp.casos_novos <= outlier_sup]

In [None]:
sem_outliers.head()

In [None]:
grafico = px.box(sem_outliers, y='casos_novos')
grafico.show()

Guarulhos

In [None]:
grafico = px.box(covid_guarulhos, y='casos_novos')
grafico.show()

In [None]:
outlier_sup_2 = covid_guarulhos.casos_novos.quantile(q=0.75) + 1.5 * (covid_guarulhos.casos_novos.quantile(q=0.75) - 
                                                                      covid_guarulhos.casos_novos.quantile(q=0.25))
outlier_sup_2

In [None]:
outlier_inf_2 = covid_guarulhos.casos_novos.quantile(q=0.25) - 1.5 * (covid_guarulhos.casos_novos.quantile(q=0.75) - 
                                                                      covid_guarulhos.casos_novos.quantile(q=0.25))
outlier_inf_2

In [None]:
sem_outliers_2 = covid_guarulhos.loc[covid_guarulhos.casos_novos <= outlier_sup_2]

In [None]:
sem_outliers_2.head()

In [None]:
grafico = px.box(sem_outliers_2, y='casos_novos')
grafico.show()

## **Medidas de Dispersão**

In [None]:
# Variância:
# nome_tabela['nome_coluna'].var()

In [None]:
# Variância óbitos novos:

covid_sjrp['obitos_novos'].var()

In [None]:
covid_guarulhos['obitos_novos'].var()

In [None]:
# Variância casos novos:

covid_sjrp.casos_novos.var()

In [None]:
covid_guarulhos.casos_novos.var()

In [None]:
# Desvio padrão:
# nome_tabela['nome_coluna'].std()

In [None]:
# Desvio padrão óbitos novos:

covid_sjrp.obitos_novos.std()

In [None]:
covid_guarulhos.obitos_novos.std()

In [None]:
# Desvio padrão casos novos:

covid_sjrp.casos_novos.std()

In [None]:
covid_guarulhos.casos_novos.std()

In [None]:
covid_sjrp.casos_novos.describe()  # std

In [None]:
covid_guarulhos.casos_novos.describe()

## **Testes de Normalidade**

Existem testes de normalidade numéricos e testes gráficos:

Shapiro-Wilk (limite de 5000 amostras)

Kolmogorov_Smirnov

Histograma

QQplot

### Histograma

In [None]:
import seaborn as sns

# sns.histplot(nome_tabela, x='nome_coluna', bins=num_bins, color="cor_grafico", kde=False_True, stat="eixo_y");

sns.histplot(covid_sjrp, x='casos_novos', bins=32, color="orange", kde=True, stat="count",);

### QQPLOT

In [None]:
import scipy.stats as stats
import matplotlib.pyplot as plt

# stats.probplot(nome_tabela['nome_coluna'], dist="tipo_distribuição", plot=plt)
# plt.title("titulo_grafico")

stats.probplot(covid_sjrp['casos_novos'], dist="norm", plot=plt)
plt.title("Análise Normalidade")
plt.show()

# Eixo x --> Quantis de distribuições teóricas
# Eixo y --> Quantis de distribuições empíricas
# Quanto mais próximos (pontos azuis) da linha vermelha, mais normalidade

### Teste de Shapiro-Wilk

CRITÉRIOS:

NÍVEL DE SIGNIFICÂNCIA DE 0,05 ou 5% (MAIS UTILIZADO)

QUANDO p > 0,05 (distribuição normal)

In [None]:
import scipy.stats as stats

# stats.shapiro(nome_tabela.nome_coluna)

stats.shapiro(covid_sjrp.casos_novos,)

# Retorna estatística de teste (W) e p-valor

In [None]:
estatistica, p = stats.shapiro(covid_sjrp.casos_novos)
print(f'Estatística de teste (W) = {round(estatistica, 2)}')
print(f'p_valor = {p}')

### Teste Lillefors (Kolmogorov-Smirnov)

In [None]:
import statsmodels
from statsmodels.stats.diagnostic import lilliefors

# statsmodels.stats.diagnostic.lilliefors(nome_tabela.nome_tabela, dist='tipo_distribuição')

estatistica, p = statsmodels.stats.diagnostic.lilliefors(covid_sjrp.casos_novos, dist='norm')
print(f'Estatística de teste (D) = {round(estatistica, 2)}')
print(f'p_valor = {p}')

## **Correlação Linear**

### Gráfico Dispersão

In [None]:
import matplotlib.pyplot as plt

# plt.scatter(nome_tabela.nome_coluna_x, nome_tabela.nome_coluna_y)
# plt.title('titulo_grafico')
# plt.xlabel('nome_eixo_x')
# plt.ylabel('nome_eixo_y')
# plt.grid(True_False)

plt.scatter(covid_sjrp.casos, covid_sjrp.obitos)
plt.title('Correlação')
plt.xlabel('Casos')
plt.ylabel('Óbitos')
plt.grid(False)

plt.show()

In [None]:
# Cria um DataFrame apenas com as varáveis desejadas para a análise:

df = covid_sjrp[['casos', 'casos_novos', 'obitos', 'obitos_novos']]
df

**Determinação da correlação:**

method:

- "pearson" para dados paramétricos (normalidade e homocedasticidade)

- "spearman" (volume "grande" de dados não paramétricos: maior ou igual a 30)

- "kendall" (volume "pequeno" de dados não paramétricos: menor que 30)

Normalidade

In [None]:
import scipy.stats as stats
import matplotlib.pyplot as plt

stats.probplot(covid_sjrp['obitos'], dist="norm", plot=plt)
plt.title("Análise Normalidade")
plt.show()

In [None]:
estatistica, p = stats.shapiro(covid_sjrp.obitos)

print(p)

Correlação Linear

In [None]:
# nome_correlacao = df.corr(method='nome_metodo')

correlacoes = df.corr(method='spearman')
correlacoes

In [None]:
import seaborn as sns

# Mapa de calor:

# plt.figure()
# sns.heatmap(nome_correlacao, annot=True_False);  --> annot: Anotar valores no mapa

plt.figure()
sns.heatmap(correlacoes, annot=True);

In [None]:
# Criar gráficos de dispersões:
# sns.pairplot(nome_tabela);

sns.pairplot(df);

## **Introdução à Regressão Linear Simples com Statsmodels**

In [None]:
# Chamar regressão linear simples:

import statsmodels.formula.api as smf
import statsmodels.stats.api as sms

# nome_regressao = smf.ols('variavel_dependente(y) ~ variavel_independente(x)', data=nome_tabela).fit()

regressao = smf.ols('obitos ~ casos', data=covid_sjrp).fit()
print(regressao.summary())  # Imprime um sumário

In [None]:
# Coeficientes:

# nome_tabela_coef = pd.DataFrame(nome_regressao.params)
# nome_tabela_coef.columns = ['nome_coluna']

coefs = pd.DataFrame(regressao.params)
coefs.columns = ['Coeficientes']
print(coefs)

Equação:

obitos = -54.2 + 0.029 * casos

In [None]:
import matplotlib.pyplot as plt

# Gráfico de dispersão:
plt.scatter(y=covid_sjrp.obitos, x=covid_sjrp.casos, color='blue', s=2, alpha=0.5)  # Quanto maior o s, maior a bolinha

# Limitações para o gráfico:
x_plot = np.linspace(min(covid_sjrp.casos), max(covid_sjrp.casos), len(covid_sjrp.obitos))

# Equação:
plt.plot(x_plot, regressao.params[0] + x_plot*regressao.params[1], color='r')

plt.title('Reta de regressão')
plt.ylabel('Óbitos')
plt.xlabel('Casos')
plt.show()