<a href="https://colab.research.google.com/github/GuilhermeFogolin/Python-Dados-Machine-Learning/blob/main/Ana%CC%81lise_Projeto_01.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# **Projeto Análise de dados do COVIV 19 no estado de São Paulo**

Este projeto analisa os dados dos casos de COVID 19 no estado de São Paulo do período de fevereiro de 2020 a setembro de 2021.

Os dados estão disponíveis nos sites:

https://www.seade.gov.br/coronavirus/#

https://github.com/seade-R/dados-covid-sp

https://www.seade.gov.br/


## **Importação dos Dados**

In [None]:
import numpy as np
import pandas as pd

In [None]:
covid = pd.read_csv('/content/drive/MyDrive/Cursos_Udemy/python_para_dados/covid_sp_tratado.csv',
                    sep=';', encoding='utf-8')

In [None]:
covid.head()

In [None]:
covid.shape

In [None]:
# Análise dos atributos
covid.dtypes

## Filtrando duas cidades: Campinas e Guarulhos

In [None]:
covid_campinas = covid.loc[covid.municipio == 'Campinas']
covid_campinas.head(3)

In [None]:
# Criação de uma coluna com a porcentagem de idosos
covid_campinas['porcentagem_idosos'] = 100*covid_campinas['pop_60'] / covid_campinas['pop']
covid_campinas.head(3)

In [None]:
covid_guarulhos = covid.loc[covid.municipio == 'Guarulhos']
covid_guarulhos.head(3)

In [None]:
# Criação de uma coluna com a porcentagem de idosos
covid_guarulhos['porcentagem_idosos'] = 100*covid_guarulhos['pop_60'] / covid_guarulhos['pop']
covid_guarulhos.head(3)

In [None]:
covid_campinas.shape

In [None]:
covid_guarulhos.shape

## **Medidas de Centralidade**

### Média

Campinas

In [None]:
covid_campinas['obitos_novos'].mean()

In [None]:
covid_campinas.casos_novos.mean()

Guarulhos

In [None]:
round(covid_guarulhos['obitos_novos'].mean(),4)

In [None]:
covid_guarulhos.casos_novos.mean()

### Mediana

Campinas

In [None]:
covid_campinas['obitos_novos'].median()

In [None]:
covid_campinas.casos_novos.median()

Guarulhos

In [None]:
covid_guarulhos['obitos_novos'].median()


In [None]:
covid_guarulhos['casos_novos'].median()

### Moda

In [None]:
covid_guarulhos['obitos_novos'].mode()

In [None]:
covid_guarulhos['dia'].mode()

In [None]:
covid_campinas['dia'].mode()

In [None]:
covid_campinas.mes.mode()

### Descrição Geral

In [None]:
covid_campinas.describe()

In [None]:
round(covid_campinas.describe(),1)

In [None]:
covid_guarulhos['casos_novos'].describe()

### Distribuição de Frequências: Histograma

In [None]:
covid_campinas2021 = covid_campinas.loc[covid_campinas.data > '2020-12-31']
covid_campinas2021

In [None]:
covid_campinas2021.shape

In [None]:
covid_campinas2021.obitos_novos.mode()

In [None]:
covid_campinas2021.obitos_novos.median()

In [None]:
covid_campinas2021.obitos_novos.mean()

In [None]:
import plotly.express as px

In [None]:
grafico =  px.histogram (covid_campinas2021,  x = "obitos_novos", nbins=30)
grafico.update_layout(width=300,height=300,title_text='Óbitos Novos de Campinas em 2021')
grafico.show()

In [None]:
grafico =  px.histogram (covid_campinas2021,  x = "casos_novos", nbins=30)
grafico.update_layout(width=400,height=400,title_text='Casos Novos em Campinas em 2021')
grafico.show()

In [None]:
grafico =  px.histogram (covid_campinas,  x = "casos_novos", nbins=30)
grafico.update_layout(width=400,height=400,title_text='Casos Novos em Campinas')
grafico.show()

In [None]:
grafico =  px.histogram (covid_guarulhos,  x = "casos_novos", nbins=30)
grafico.update_layout(width=400,height=400,title_text='Casos Novos em Guarulhos em 2021')
grafico.show()

## Medidas de Posição

In [None]:
# Mínimo
covid_campinas['obitos_novos'].min()

In [None]:
covid_campinas.casos_novos.min()

In [None]:
# Máximo
covid_guarulhos['obitos_novos'].max()

In [None]:
covid_campinas.obitos_novos.max()

In [None]:
covid_campinas['casos_novos'].max()

In [None]:
covid_guarulhos['casos_novos'].max()

In [None]:
# Primeiro Quartil
covid_campinas['casos_novos'].quantile(q=0.25)

In [None]:
# Segundo Quartil (Mediana)
covid_campinas['casos_novos'].quantile(q=0.5)

In [None]:
# Terceiro Quartil
covid_campinas['casos_novos'].quantile(q=0.75)

In [None]:
covid_campinas['casos_novos'].quantile(q=0.93)

In [None]:
covid_campinas['casos_novos'].describe()

In [None]:
covid_guarulhos['casos_novos'].describe()

In [None]:
covid_guarulhos.obitos_novos.describe()

In [None]:
covid_campinas.obitos_novos.describe()

## Gráfico BoxPlot e Outliers

In [None]:
import plotly.express as px

Campinas

In [None]:
grafico = px.box(covid_campinas, y='casos_novos')
grafico.show()

In [None]:
outlier_sup = covid_campinas.casos_novos.quantile(q=0.75) + 1.5 * (covid_campinas.casos_novos.quantile(q=0.75) - covid_campinas.casos_novos.quantile(q=0.25))
outlier_sup

In [None]:
outlier_inf = covid_campinas.casos_novos.quantile(q=0.25) - 1.5 * (covid_campinas.casos_novos.quantile(q=0.75) - covid_campinas.casos_novos.quantile(q=0.25))
outlier_inf

In [None]:
sem_outliers = covid_campinas.loc[covid_campinas.casos_novos <= outlier_sup ]

In [None]:
sem_outliers.head()

In [None]:
grafico = px.box(sem_outliers, y="casos_novos")
grafico.show()

Guarulhos

In [None]:
grafico = px.box(covid_guarulhos, y='casos_novos')
grafico.show()

In [None]:
outlier_sup2 = covid_guarulhos.casos_novos.quantile(q=0.75) + 1.5 * (covid_guarulhos.casos_novos.quantile(q=0.75) - covid_guarulhos.casos_novos.quantile(q=0.25))
outlier_sup2

In [None]:
outlier_inf2 = covid_guarulhos.casos_novos.quantile(q=0.25) - 1.5 * (covid_guarulhos.casos_novos.quantile(q=0.75) - covid_guarulhos.casos_novos.quantile(q=0.25))
outlier_inf2

In [None]:
sem_outliers2 = covid_guarulhos.loc[covid_guarulhos.casos_novos <= outlier_sup2]

In [None]:
sem_outliers2.head()

In [None]:
grafico = px.box(sem_outliers2, y="casos_novos")
grafico.show()

## Medidas de dispersão

In [None]:
# Variância óbitos novos
covid_guarulhos['obitos_novos'].var()

In [None]:
covid_campinas['obitos_novos'].var()

In [None]:
# Variância casos novos
covid_guarulhos.casos_novos.var()

In [None]:
covid_campinas.casos_novos.var()

In [None]:
# Desvio padrão Óbitos Novos
covid_campinas.obitos_novos.std()

In [None]:
covid_guarulhos.obitos_novos.std()

In [None]:
# Desvio padrão Casos Novos
covid_campinas.casos_novos.std()

In [None]:
covid_guarulhos.casos_novos.std()

In [None]:
covid_campinas.casos_novos.describe()

In [None]:
covid_guarulhos.casos_novos.describe()

## **Testes de Normalidade**

TESTES DE NORMALIDADE

Existem testes de normalidade numéricos e testes gráficos:

Shapiro-Wilk (limite de 5000 amostras)

Kolmogorov_Smirnov

Histograma

QQplot

### Histograma

In [None]:
import seaborn as sns
sns.histplot(covid_campinas, x='casos_novos', bins=20, color="orange", kde=True, stat="probability",);

### QQPLOT

In [None]:
import scipy.stats as stats
import matplotlib.pyplot as plt

In [None]:
stats.probplot(covid_campinas['casos_novos'], dist="norm", plot=plt)
plt.title("Análise Normalidade")
plt.show()

### Teste de Shapiro-Wilk

CRITÉRIOS:

NÍVEL DE SIGNIFICÂNCIA DE 0,05 ou 5% (MAIS UTILIZADO)

QUANDO p > 0,05 (distribuição normal).

In [None]:
stats.shapiro(covid_campinas.casos_novos)

In [None]:
estatistica, p = stats.shapiro(covid_campinas.casos_novos)

In [None]:
print ('Estatística do teste (W) =', round(estatistica,2))

In [None]:
print ('p_valor =', p)

O teste de Shapiro_Wilk não se aplica a dados maiores que 5000.

### Teste Lilliefors (Kolmogorov-Smirnov)

In [None]:
import statsmodels
from statsmodels.stats.diagnostic import lilliefors

In [None]:
estatistica, p = statsmodels.stats.diagnostic.lilliefors(covid_campinas.casos_novos, dist = 'norm',)
print ('Estatística do teste (D) =', round(estatistica,2))
print ('p_valor =', p)

## **Correlação Linear**

### Gráfico Dispersão

In [None]:
import matplotlib.pyplot as plt

In [None]:
plt.scatter(covid_campinas.casos,covid_campinas.obitos)
plt.title('Correlação Linear')
plt.xlabel('Casos')
plt.ylabel('Óbitos')
plt.grid(False)
plt.show()

In [None]:
df = covid_campinas[['casos','casos_novos','obitos','obitos_novos']]
df

Determinação da correlação:

method:

"pearson" para dados paramétricos(normalidade e homocedasticidade).

"spearman" (volume "grande" de dados não paramétricos: maior ou igual a 30).

"kendall" (volume "pequeno" de dados não paramétricos: menor que 30).

Normalidade

In [None]:
stats.probplot(covid_campinas['obitos'], dist="norm", plot=plt)
plt.title("Análise Normalidade")
plt.show()

In [None]:
estatistica, p = stats.shapiro(covid_campinas.obitos)

In [None]:
print(p)

Correlação Linear

In [None]:
correlacoes = df.corr(method='spearman')
correlacoes

In [None]:
import seaborn as sns

In [None]:
plt.figure()
sns.heatmap(correlacoes, annot=False);

In [None]:
sns.pairplot(df);

## Introdução à Regressão Linear Simples com Statsmodels

In [None]:
import statsmodels.formula.api as smf
import statsmodels.stats.api as sms

In [None]:
regressao = smf.ols('obitos ~ casos', data = covid_campinas).fit()
print(regressao.summary())

In [None]:
coefs = pd.DataFrame(regressao.params)
coefs.columns = ['Coeficientes']
print(coefs)

Equação:

obitos = -62,2 + 0,039.casos

In [None]:
import matplotlib.pyplot as plt


In [None]:
plt.scatter(y=covid_campinas.obitos, x=covid_campinas.casos, color='blue', s=2, alpha=0.9)
X_plot = np.linspace(min(covid_campinas.casos), max(covid_campinas.casos), len(covid_campinas.obitos))
plt.plot(X_plot, regressao.params[0] + X_plot*regressao.params[1], color='r')
plt.title('Reta de regressão')
plt.ylabel('Óbitos')
plt.xlabel('Casos')
plt.show()