# 03-Projeto 1: Análises Estatísticas

## Exploração dos Dados: Importação e Filtragem

In [None]:
import numpy as np
import pandas as pd

In [None]:
covid = pd.read_csv('./covid_sp_tratado.csv', sep=';', encoding='utf-8')

In [None]:
covid.head(5)

In [None]:
covid.shape

In [None]:
# Análise dos atributos
covid.dtypes

## Filtrando duas cidades: Campinas e Guarulhos

In [None]:
covid_campinas = covid.loc[covid.municipio == 'Campinas']

In [None]:
covid_campinas.head(3)

In [None]:
# Criação de uma coluna com a porcentagem de idosos

covid_campinas['porcentagem_idosos'] = 100*covid_campinas['pop_60'] / covid_campinas['pop']

In [None]:
covid_guarulhos = covid.loc[covid.municipio == 'Guarulhos']

In [None]:
covid_guarulhos.head(3)

In [None]:
# criação de uma coluna com a porcentagem de idosos

covid_guarulhos['porcentagem_idosos'] = 100*covid_guarulhos['pop_60'] / covid_guarulhos['pop']

In [None]:
covid_campinas.shape

In [None]:
covid_guarulhos.shape

## Medidas de Centralidade

### Média

In [None]:
# Campinas

covid_campinas['obitos_novos'].mean()

In [None]:
covid_campinas.casos_novos.mean()

In [None]:
# Guarulhos

round(covid_guarulhos['obitos_novos'].mean(),3)

In [None]:
covid_guarulhos.casos_novos.mean()

### Mediana

In [None]:
# Campinas

covid_campinas['obitos_novos'].median()

In [None]:
covid_campinas.casos_novos.median()

In [None]:
# Guarulhos

covid_guarulhos['obitos_novos'].median()

In [None]:
covid_guarulhos.casos_novos.median()

### Moda

In [None]:
# Campinas

covid_campinas['obitos_novos'].mode()

In [None]:
covid_campinas['dia'].mode()

In [None]:
covid_guarulhos['dia'].mode()

In [None]:
covid_campinas.mes.mode()

### Descrição Geral

In [None]:
round(covid_campinas.describe(),1)

In [None]:
round(covid_campinas['casos_novos'].describe(),1)

## Distribuição de Frenquências: Histograma

In [None]:
# filtro por datas

covid_campinas2021 = covid_campinas.loc[covid_campinas.data > '2020-12-31']

In [None]:
covid_campinas2021.head(5)

In [None]:
covid_campinas2021.shape

In [None]:
covid_campinas2021.obitos_novos.median()

In [None]:
covid_campinas2021.obitos_novos.mean()

In [None]:
# biblioteca gráfica Plotly

import plotly.express as px

In [None]:
grafico = px.histogram(covid_campinas2021, x="obitos_novos", nbins=30) # nbins = largura das faixas de distribuição de frequência
grafico.update_layout(width=400,height=400,title_text='Obitos novos de Campinas em 2021')
grafico.show()
# gráfico com uma distribuição assimétrica à direita ou positivamente assimétrica

In [None]:
grafico = px.histogram(covid_campinas2021, x="casos_novos", nbins=30)
grafico.update_layout(width=600,height=400,title_text='Casos novos de Campinas em 2021')
grafico.show()

In [None]:
grafico = px.histogram(covid_campinas, x="casos_novos", nbins=30)
grafico.update_layout(width=600,height=400,title_text='Casos novos de Campinas')
grafico.show()

In [None]:
grafico = px.histogram(covid_guarulhos, x="casos_novos", nbins=30)
grafico.update_layout(width=600,height=400,title_text='Casos novos de Guarulhos')
grafico.show()

## Medidas de Posição

In [None]:
# mínimo

covid_campinas['obitos_novos'].min()

In [None]:
# máximo

covid_campinas['obitos_novos'].max()

In [None]:
covid_guarulhos['obitos_novos'].max()

In [None]:
covid_campinas['casos_novos'].max()

In [None]:
covid_guarulhos['casos_novos'].max()

In [None]:
# primeiro quartil

covid_campinas['casos_novos'].quantile(q=0.25)

In [None]:
# segundo quartil (mediana)

covid_campinas['casos_novos'].quantile(q=0.50)

In [None]:
# terceiro quartile

covid_campinas['casos_novos'].quantile(q=0.75)

In [None]:
covid_campinas['casos_novos'].quantile(q=0.99)

In [None]:
covid_campinas['casos_novos'].describe()

## BoxPlot e Outliers

In [None]:
import plotly.express as px

In [None]:
### Campinas

grafico = px.box(covid_campinas, y='casos_novos')
grafico.show()

In [None]:
outlier_sup = covid_campinas.casos_novos.quantile(q=0.75) + 1.5 * (covid_campinas.casos_novos.quantile(q=0.75) - covid_campinas.casos_novos.quantile(q=0.25))
outlier_sup

In [None]:
outlier_inf = covid_campinas.casos_novos.quantile(q=0.25) - 1.5 * (covid_campinas.casos_novos.quantile(q=0.75) - covid_campinas.casos_novos.quantile(q=0.25))
outlier_inf

In [None]:
sem_outliers = covid_campinas.loc[covid_campinas.casos_novos <= outlier_sup]

In [None]:
sem_outliers.head(3)

In [None]:
grafico = px.box(sem_outliers, y='casos_novos')
grafico.show()

In [None]:
### Guarulhos

grafico = px.box(covid_guarulhos, y='casos_novos')
grafico.show()

In [None]:
outlier_sup2 = covid_guarulhos.casos_novos.quantile(q=0.75) + 1.5 * (covid_guarulhos.casos_novos.quantile(q=0.75) - covid_guarulhos.casos_novos.quantile(q=0.25))
outlier_sup2

In [None]:
outlier_inf2 = covid_guarulhos.casos_novos.quantile(q=0.25) - 1.5 * (covid_guarulhos.casos_novos.quantile(q=0.75) - covid_guarulhos.casos_novos.quantile(q=0.25))
outlier_inf2

In [None]:
sem_outliers2 = covid_guarulhos.loc[covid_guarulhos.casos_novos <= outlier_sup2]

In [None]:
grafico = px.box(sem_outliers2, y='casos_novos')
grafico.show()

## Medidades de Dispersão

In [None]:
# Variância para casos novos

covid_guarulhos['casos_novos'].var()

In [None]:
covid_campinas['casos_novos'].var()

In [None]:
# Variância para óbitos novos

covid_guarulhos['obitos_novos'].var()

In [None]:
covid_campinas['obitos_novos'].var()

In [None]:
# Desvio padrão óbitos novos

covid_guarulhos['obitos_novos'].std()

In [None]:
covid_campinas['obitos_novos'].std()

In [None]:
# Desvio padrão casos novos

covid_guarulhos['casos_novos'].std()

In [None]:
covid_campinas['casos_novos'].std()

## Testes de Normalidade

In [None]:
# Existem teste de normalidade numéricos e testes gráficos:
# Exemplos numéricos: Shapiro-Wilk e Kolmogorov_Smirnov
# Exemplos Gráficos: Histograma e QQplot

In [None]:
# Histograma

import seaborn as sns
sns.histplot(covid_campinas, x='casos_novos', bins=32, color='orange', kde=True, stat='count',);
# bins = intervalo da classe que analisa a distribuição
# kde = linha de tendência

# o histograma mostra que essa não é uma distribuição normal

In [None]:
# QQPLOT

import scipy.stats as stats
import matplotlib.pyplot as plt

In [None]:
stats.probplot(covid_campinas['casos_novos'], dist='norm', plot=plt)
plt.title('Análise Normalidade')
plt.show()

In [None]:
# Teste de Shapiro-Wilk

# Critérios:
# Nível de Significância de 0,05 ou 5% (mais utilizado)
# quando p > 0,05 (distribuição normal)

In [None]:
stats.shapiro(covid_campinas['casos_novos'])

In [None]:
estatistica, p = stats.shapiro(covid_campinas['casos_novos'])

In [None]:
print('Estatística do teste (w) =', round(estatistica,2))

In [None]:
print('p_valor =', p)

In [None]:
# Segundo o teste a distribuição não é normal.

# O teste de Shapiro-Wilk não se aplica a dados maiores que 5000

In [None]:
# Teste de Lilliefors (Kolmogorov-Smirnov)

import statsmodels
from statsmodels.stats.diagnostic import lilliefors

In [None]:
estatistica, p = statsmodels.stats.diagnostic.lilliefors(covid_campinas['casos_novos'], dist = 'norm')

In [None]:
print('Estatística do teste (D) =', round(estatistica,2))
print('p_valor =', p)

## Correlação Linear

In [None]:
# Gráfico de Dispersão

import matplotlib.pyplot as plt

In [None]:
plt.scatter(covid_campinas.casos, covid_campinas.obitos)
plt.title('Correlação')
plt.xlabel('Casos')
plt.ylabel('Óbitos')
plt.grid(False) # linhas de grade
plt.show()

# podemos observar que é uma correlação linear positiva, ou seja, quanto maior o número de casos
# maior o número de óbitos

In [None]:
# montar um dataframe com as variáveis que queremos trabalhar

df = covid_campinas[['casos', 'casos_novos', 'obitos', 'obitos_novos']]
df.head(3)

In [None]:
# Determinação da correlação
# method:
# 'pearson': para dados paramétricos (normalidade e homocedasticidade)
# 'spearman': (volume grande de dados não paramétricos: maior ou igual a 30)
# 'kendall': (volume pequeno de dados não paramétricos: menor que 30)

In [None]:
# gráfico qqplot para 'casos'

stats.probplot(covid_campinas['casos'], dist='norm', plot=plt)
plt.title('Análise Normalidade')
plt.show()

In [None]:
# não é uma distribuição normal

# correlação linear: 
correlacoes = df.corr(method='spearman')
correlacoes

In [None]:
import seaborn as sns
plt.figure()
sns.heatmap(correlacoes, annot=True);

In [None]:
sns.pairplot(df);

## Introdução à Regressão Linear Simples com StatsModels

In [None]:
import statsmodels.formula.api as smf
import statsmodels.stats.api as sms

In [None]:
regressao = smf.ols('obitos ~ casos', data = covid_campinas).fit()
print(regressao.summary())

# modelo de regressão linear

In [None]:
# coeficientes

coefs = pd.DataFrame(regressao.params)
coefs.columns = ['Coeficientes']
print(coefs)

In [None]:
# A equação seria:
# obitos = -62,2 + 0,039.casos

In [None]:
plt.scatter(y=covid_campinas.obitos, x=covid_campinas.casos, color='blue', s=2, alpha=0.5) # pontos reais
x_plot = np.linspace(min(covid_campinas.casos), max(covid_campinas.casos), len(covid_campinas.obitos))
plt.plot(x_plot, x_plot*regressao.params[1] + regressao.params[0], color='r') # ajuste de reta
plt.title('Reta de Regressão')
plt.ylabel('Óbitos')
plt.xlabel('Casos')
plt.show()