In [None]:
from google.colab import drive
drive.mount('/content/drive')

# **PROJETO ANÁLISE DOS DADOS SOBRE A SÍNDROME RESPIRATÓRIA AGUDA GRAVE (SRAG)**

Este projeto analisa os dados referentes aos casos de síndrome respiratória aguda no estado de São Paulo do período de fevereiro de 2020 a setembro de 2021.

Os dados estão disponíveis nos sites:

https://www.seade.gov.br/coronavirus/#

https://github.com/seade-R/dados-covid-sp

https://www.seade.gov.br/

## **Importação dos Dados**

In [None]:
import numpy as np
import pandas as pd

path = '/content/drive/MyDrive/Udemy/Análise de Dados e Machine Learning/Seção 5/SRAG_2020.csv'
srag_sp = pd.read_csv(path, sep=';', encoding='utf-8')


In [None]:
srag_sp.head()

In [None]:
srag_sp.shape

## **Tratamento dos Dados**

**EXCLUINDO VARIÁVEIS**

In [None]:
# Excluir váriáveis da variável no índice 50 até o índice 132

lista = list(range(50, 133))

In [None]:
srag_mod = srag_sp.drop(srag_sp.columns[lista], axis=1)

In [None]:
srag_mod.head(2)

In [None]:
srag_mod.shape

In [None]:
# Excluindo variáveis específicas

srag_mod.drop(columns=['COD_IDADE', 'ID_PAIS', 'CO_PAIS', 'SG_UF', 'ID_RG_RESI', 'CO_RG_RESI', 'CO_MUN_RES'], inplace=True)

**RENOMEANDO VARIÁVEIS**

In [None]:
srag_mod = srag_mod.rename(columns={'DT_NOTIFIC': 'DATA', 'CS_SEXO': 'SEXO', 
                                    'NU_IDADE_N': 'IDADE', 'CS_RACA': 'RACA'})

In [None]:
srag_mod.head()

**ANALISANDO OS TIPOS DE VARIÁVEIS**

In [None]:
srag_mod.dtypes

In [None]:
srag_mod['DATA'] = srag_mod['DATA'].astype('datetime64[D]')

**ANALISANDO VALORES MISSING (NAN)**

In [None]:
srag_mod.isnull().sum()

**Contagem das classificações de RAÇAS**

In [None]:
srag_mod['RACA'].value_counts().sort_index()

In [None]:
# Preenchendo valores missing com o número 9 (ignorado)

srag_mod['RACA'].fillna(9, inplace=True)

**Contagem das classificações de CS_ZONA**

In [None]:
srag_mod['CS_ZONA'].value_counts().sort_index()

In [None]:
srag_mod['CS_ZONA'].fillna(9, inplace=True)

**Substituindo as classificações numéricas por palavras**

In [None]:
srag_mod['RACA'] = srag_mod['RACA'].replace({1: 'branca',
                                             2: 'preta',
                                             3: 'amarela',
                                             4: 'parda',
                                             5: 'indígena',
                                             9: 'ignorado'})

In [None]:
srag_mod['RACA'].value_counts().sort_index()

In [None]:
srag_mod['CS_ZONA'] = srag_mod['CS_ZONA'].replace({1: 'urbana', 
                                                   2: 'rural',
                                                   3: 'periurbana',
                                                   9: 'ignorado'})

In [None]:
srag_mod['CS_ZONA'].value_counts().sort_index()

## **Gráfico de Barras**

### **Matplotlib**

In [None]:
import matplotlib.pyplot as plt

In [None]:
graf_barras = srag_mod['SEXO'].value_counts()
graf_barras

In [None]:
graf_barras.index

In [None]:
# Criar gráfico de barras (vertical):

# plt.bar(eixo_x, eixo_y, color='cor_barra')

plt.bar(graf_barras.index, graf_barras, color='red')
plt.title('Análise da Distribuição por Sexo')
plt.ylabel('Quantidade')
plt.xlabel('Sexo')
plt.show()

In [None]:
# Criar gráfico de barras (horizontal):

# plt.bar(eixo_y, eixo_x, color='cor_barra')

plt.barh(graf_barras.index, graf_barras, color='red')
plt.title('Análise da Distribuição por Sexo')
plt.ylabel('Sexo')
plt.xlabel('Quantidade')
plt.show()

### **Seaborn**

In [None]:
import seaborn as sns

In [None]:
# Criar gráfico de barras (vertical):

sns.countplot(x='SEXO', data=srag_mod);

In [None]:
# Criar gráfico de barras (horizontal):

sns.countplot(y='SEXO', data=srag_mod);

In [None]:
# fig, ax = plt.subplots(figsize=(tamanho_gráfico))
# sns.countplot(x_ou_y = 'nome_coluna', data=nome_tabela)
# ax.set_title("título_gráfico", fontdict={'fontsize': tamanho_fonte})
# ax.set_xlabel("título_eixo_x", fontdict={'fontsize': tamanho_fonte})
# ax.set_ylabel("título_eixo_y", fontdict={'fontsize': tamanho_fonte});

fig, ax = plt.subplots(figsize=(8, 6))
sns.countplot(x='RACA', data=srag_mod)
ax.set_title("Análise da Distribuição por Raça", fontdict={'fontsize': 20})
ax.set_xlabel("Raça", fontdict={'fontsize': 15})
ax.set_ylabel("Quantidade", fontdict={'fontsize': 15});

## **Box Plot**

### **Plotly**

In [None]:
import plotly.express as px

Box Plot para idade em anos

In [None]:
srag_mod['TP_IDADE'].value_counts().sort_index()

In [None]:
srag_mod['IDADE'].value_counts().sort_index()

In [None]:
srag_mod.IDADE.describe()

In [None]:
srag_mod.IDADE.mode()

# Distribuição assimétrica p/ esquerda:    
#   média   --> 54   #   
#   mediana --> 57   # Tendência de distribuição simétrica, pois são valores próximos
#   moda    --> 59   #

In [None]:
# Quando o tipo de idade (TP_IDADE) for igual a 1 (Dias) ou 2 (Mêses),
# substitui o valor da variável 'IDADE' (na mesma linha) por 0. 

srag_mod.loc[srag_mod['TP_IDADE'] == 1, 'IDADE'] = 0
srag_mod.loc[srag_mod['TP_IDADE'] == 2, 'IDADE'] = 0

In [None]:
srag_mod['IDADE'].value_counts().sort_index()

In [None]:
# Criar Box Plot:

box = px.box(srag_mod, y='IDADE')
box.show()

In [None]:
# Excluir outliers considerados erros:

srag_sem_outliers = srag_mod.loc[srag_mod.IDADE < 118]

In [None]:
srag_sem_outliers.IDADE.describe()

In [None]:
# Criar Box Plot sem outliers:

box = px.box(srag_sem_outliers, y='IDADE')
box.show()

In [None]:
# Criar Box Plots de acordo com algo específico:

box = px.box(srag_mod, x='SEXO', y='IDADE')
box.show()

In [None]:
box = px.box(srag_mod, x='RACA', y='IDADE')
box.show()

### **Seaborn**

In [None]:
import seaborn as sns

In [None]:
# sns.boxplot(x_ou_y='nome_coluna', data='nome_tabela', color='cor_bloxplot')

sns.boxplot(y='IDADE', data=srag_mod, color='red');

In [None]:
sns.boxplot(x='IDADE', data=srag_mod, color='green');

In [None]:
sns.boxplot(x='SEXO', y='IDADE', data=srag_mod);

In [None]:
sns.boxplot(x='CS_ZONA', y='IDADE', data=srag_mod);

In [None]:
sns.boxplot(x='CS_ZONA', y='IDADE', hue='SEXO', data=srag_mod);

# hue --> relaciona as colunas x e y com uma terceira variável

In [None]:
fig, ax = plt.subplots(figsize=(16, 14))
sns.boxplot(x='CS_ZONA', y='IDADE', hue='RACA', data=srag_mod);

### **Matplotlib**

In [None]:
import matplotlib.pyplot as plt

In [None]:
# plt.boxplot(nome_tabela.nome_coluna)

plt.boxplot(srag_mod.IDADE)
plt.show()

In [None]:
# Box Plot na vertical:

plt.boxplot(srag_sem_outliers.IDADE)
plt.title('Box Plot da idade')
plt.ylabel('Idade')
plt.show()

In [None]:
# Box Plot na horizontal:

plt.boxplot(srag_sem_outliers.IDADE, vert=False)
plt.title('Box Plot da idade')
plt.ylabel('Idade')
plt.show()

## **Histograma**

### **Plotly**

In [None]:
import plotly.express as px

In [None]:
# nome_histograma = px.histogram(nome_tabela, x='nome_coluna', nbins=num_bins)
# nome_histograma.update_layout(width=largura, height=altura, title_text='título_histograma')

hist1 = px.histogram(srag_mod, x='IDADE', nbins=60)
hist1.update_layout(width=800, height=500, title_text='Distribuição das idades')
hist1.show()

### **Análise da Normalidade - Gráfico QQPlot**

In [None]:
srag_mod.IDADE.describe()

In [None]:
srag_mod.IDADE.mode()

In [None]:
import scipy.stats as stats
import matplotlib.pyplot as plt

In [None]:
stats.probplot(srag_mod['IDADE'], dist='norm', plot=plt)
plt.title("Análise Normalidade")
plt.show()

Teste de Shapiro-Wilk

CRITÉRIOS:

NÍVEL DE SIGNIFICÂNCIA DE 0,05 ou 5% (MAIS UTILIZADO)

QUANDO p > 0,05 (distribuição normal)

In [None]:
stats.shapiro(srag_mod.IDADE)

O teste de Shapiro_Wilk não se aplica a dados maiores que 5000.

Teste Lilliefors (Kolmogorov-Smirnov)

In [None]:
import statsmodels
from statsmodels.stats.diagnostic import lilliefors

In [None]:
estatistica, p = statsmodels.stats.diagnostic.lilliefors(srag_mod.IDADE, dist='norm')
print(f'Estatística do teste (D) = {round(estatistica, 2)}')
print(f'p_valor = {p}')

### **Seaborn**

In [None]:
import seaborn as sns
import matplotlib.pyplot as plt

In [None]:
fig, ax = plt.subplots(figsize=(8,6))
sns.histplot(srag_mod, x='IDADE', bins=20, color='orange', kde=True, stat='count')
ax.set_title('DIstribuição SRAG por idade', fontdict={'fontsize': 20});
# ax.set_xlabel('Idade', fontdict={'fontsize':15})
# ax.set_ylabel('Quantidade', fontdict={'fontsize':15});

### **Matplotlib**

In [None]:
import matplotlib.pyplot as plt

In [None]:
# plt.hist(nome_tabela.nome_coluna, color='cor_barras', density=True_False, bins=num_bins)
# plt.title('título_histograma', fontsize=tamanho_fonte)
# plt.xlabel('nome_eixo_x')
# plt.ylabel('nome_eixo_y')

# fig, ax = plt.subplots(figsize=(16,14))
plt.hist(srag_mod.IDADE, color='red', density=False, bins=20)
plt.title('Distribuição SRAG por idade', fontsize=20)
plt.xlabel('Idade')
plt.ylabel('Quantidade')
plt.show()

## **Gráfico de Dispersão**

In [None]:
srag_mod.head(2)

In [None]:
srag_sjrp = srag_mod.loc[srag_mod.ID_MN_RESI == 'SAO JOSE DO RIO PRETO']
srag_sjrp

In [None]:
srag_sjrp.shape

### **Matplotlib**

In [None]:
import matplotlib.pyplot as plt

In [None]:
# plt.scatter(nome_tabela.nome_coluna_x, nome_tabela.nome_coluna_y)
# plt.title('título_gráfico')
# plt.xlabel('nome_eixo_x')
# plt.ylabel('nome_eixo_y')
# plt.grid(True_False)

plt.scatter(srag_sjrp.DATA, srag_sjrp.IDADE)
plt.title('Gráfico de Dispersão')
plt.xlabel('Data')
plt.ylabel('Idade')
plt.grid(False)
plt.show()

### **Seaborn**

In [None]:
import seaborn as sns

In [None]:
# Criar gráfico de dispersão:

# fig, ax = plt.subplots(figsize=tamanho_gráfico)
# sns.scatterplot(x='nome_coluna_x', y='nome_coluna_y', data=nome_tabela, color='cor_pontos')
# ax.set_title('título_gráfico', fontdict={'fontsize': tamanho_fonte})
# ax.set_xlabel('nome_eixo_x', fontdict={'fontsize': tamanho_fonte})
# ax.set_ylabel('nome_eixo_y', fontdict={'fontsize': tamanho_fonte});

fig, ax = plt.subplots(figsize=(8,6))
sns.scatterplot(x='DATA', y='IDADE', data=srag_sjrp, color='brown')
ax.set_title('Gráfico de dispersão da Idade em função da Data', fontdict={'fontsize': 20})
ax.set_xlabel('Datas', fontdict={'fontsize': 12})
ax.set_ylabel('Idade', fontdict={'fontsize': 12});

### **Plotly**

In [None]:
import plotly.express as px

In [None]:
# nome_grafico = px.scatter(x=nome_tabela.nome_coluna_x, y=nome_tabela.nome_coluna_y, color='cor_pontos' OU  nome_tabela['nome_coluna']) --> Cria uma legenda para os valores da 'nome_coluna'
# nome_grafico.update_layout(width=largura, height=altura, title_text='tútulo_gráfico')
# nome_grafico.update_xaxes(title='nome_eixo_x')
# nome_grafico.update_yaxes(title='nome_eixo_y')
# nome_grafico.show()

disp = px.scatter(x=srag_sjrp.DATA, y=srag_sjrp.IDADE, color=srag_sjrp['SEXO'])
disp.update_layout(width=800, height=500, title_text='Gráfico de dispersão da Idade em função da Data')
disp.update_xaxes(title='Datas')
disp.update_yaxes(title='Idade')
disp.show()

## **Gráfico de Setores (Pizza)**

### **Plotly**

In [None]:
import plotly.express as px

In [None]:
srag_mod['SEXO'].value_counts()

In [None]:
# nome_grafico = px.pie(nome_tabela, 'nome_coluna')
# nome_grafico.update_layout(title_text='título_gráfico')

pizza = px.pie(srag_mod, 'SEXO')
pizza.update_layout(title_text='Gráfico de setores')
pizza.show()

In [None]:
srag_mod['RACA'].value_counts()

In [None]:
pizza = px.pie(srag_mod, 'RACA')
pizza.update_layout(title_text='Gráfico de setores')
pizza.show()

In [None]:
srag_mod['CS_ZONA'].value_counts()

In [None]:
pizza = px.pie(srag_mod, 'CS_ZONA')
pizza.update_layout(title_text='Gráfico de setores')
pizza.show()

### **Matplotlib**

In [None]:
import matplotlib.pyplot as plt

In [None]:
contagem = srag_mod['SEXO'].value_counts()
contagem

In [None]:
contagem.index

In [None]:
plt.figure(figsize=(8 ,8))
plt.pie(contagem, labels=contagem.index, autopct= '% .2f %%')
plt.show()

In [None]:
contagem2 = srag_mod['RACA'].value_counts()
contagem2

In [None]:
contagem2.index

In [None]:
plt.figure(figsize=(8 ,8))
plt.pie(contagem2, labels=contagem2.index, autopct= '% .2f %%')
plt.show()

In [None]:
contagem3 = srag_mod['CS_ZONA'].value_counts()
contagem3

In [None]:
contagem3.index

In [None]:
plt.figure(figsize=(8 ,8))
plt.pie(contagem3, labels=contagem3.index, autopct= '% .2f %%')
plt.show()

## **Gráfico de Bolhas**

### **Plotly**

In [None]:
import plotly.express as px

In [None]:
srag_mirassol = srag_mod.loc[srag_mod.ID_MN_RESI == 'MIRASSOL']
srag_mirassol.head(3)

In [None]:
srag_mirassol.shape

In [None]:
# bolhas = px.scatter(nome_tabela, x='nome_coluna_x', y='nome_coluna_y', color='nome_coluna_cor', size='nome_coluna_tamanho')

bolhas = px.scatter(srag_mirassol, x='DATA', y='CS_ZONA', color='SEXO', size='IDADE')
bolhas.show()

# Diferença entre gráfico de dispersão e bolha:
# size='IDADE' --> Quanto maior for a idade, maior a bolha

In [None]:
bolhas2 = px.scatter(srag_mirassol, x='DATA', y='RACA', color='SEXO', size='IDADE')
bolhas2.show()

### **Seaborn**

In [None]:
import seaborn as sns
import matplotlib.pyplot as plt

In [None]:
fig, ax = plt.subplots(figsize=(10,8))
sns.scatterplot(x='DATA', y='RACA', data=srag_mirassol, color='brown', size='IDADE')
ax.set_title('Gráfico de bolhas', fontdict={'fontsize': 18})
ax.set_xlabel('Datas', fontdict={'fontsize': 12})
ax.set_ylabel('Idade', fontdict={'fontsize': 12});

## **Gráfico de Linhas**

### **Matplotlib**

In [None]:
import matplotlib.pyplot as plt

In [None]:
plt.subplots(figsize=(8,6))
y = [4, 9, 6, 4, 0, 3, 5.1, 6, 8.4, 12.3]
x = range(len(y))
plt.plot(x, y, color='red', marker='o')  # marker='o' --> Tipo de marcador entre as linhas
plt.title('Gráfico de Linhas')
plt.show()

In [None]:
plt.subplots(figsize=(8,6))
n = [1, 5, 8, 0, 3, 1, 6.5, 4, 12.3, 15.8]  # y
m = range(len(n))                           # x
plt.plot(m, n, color='blue', marker='o')
plt.show()

In [None]:
# Mesclar 2 ou + gráficos de linhas:

plt.subplots(figsize=(8,6))
plt.title('Gráfico de Linhas')
plt.plot(x, y)
plt.plot(n, m)
plt.show()

### **Plotly**

In [None]:
import plotly.express as px

In [None]:
y = [4, 9, 6, 4, 0, 3, 5.1, 6, 8.4, 12.3]

In [None]:
type(y)

In [None]:
x = list(range(len(y)))
print(x)

In [None]:
linha = px.line(x, y)
linha.show()

# Não funciona corretamente!!! Deve ser DataFrame, Array ou Dicionário!!!

In [None]:
df = pd.DataFrame(x, columns=['eixo_x'])
df

In [None]:
df = pd.concat([df, pd.DataFrame(y, columns=['eixo_y'])], axis=1)
df

In [None]:
linha = px.line(df, 'eixo_x', 'eixo_y')
linha.show()

### **Seaborn**

In [None]:
import seaborn as sns
import matplotlib.pyplot as plt

In [None]:
fig, ax = plt.subplots(figsize=(8,6))
sns.lineplot(x, y)  # Com listas
ax.set_title('Gráfico de Linhas', fontdict={'fontsize': 18})
ax.set_xlabel('Eixo x', fontdict={'fontsize': 12})
ax.set_ylabel('Eixo y', fontdict={'fontsize': 12});

In [None]:
fig, ax = plt.subplots(figsize=(8,6))
sns.lineplot(df.eixo_x,df.eixo_y)  # Com DataFrames
ax.set_title("Gráfico de Linhas", fontdict={'fontsize':18})
ax.set_xlabel('Eixo x', fontdict={'fontsize':12})
ax.set_ylabel('Eixo y', fontdict={'fontsize':12});