# Projeto 2: Tratamento e Análise Gráfica dos Dados

Este projeto analisa os dados referentes aos casos de síndrome respiratória aguda no estado
de São Paulo do período de dezembro de 2019 à julho de 2020.

## Importação e Análise inicial da nova tabela de dados

In [None]:
import numpy as np
import pandas as pd

In [None]:
srag_sp = pd.read_csv('./SRAG_2020.csv', sep=';', encoding='utf-8')

In [None]:
srag_sp.head(5)

In [None]:
srag_sp.shape

## Tratamento dos Dados

### Excluindo Variáveis

In [None]:
lista = list(range(50,133))
lista

In [None]:
srag_mod = srag_sp.drop(srag_sp.columns[lista], axis=1)

In [None]:
srag_mod.head(2)

In [None]:
srag_mod.shape

In [None]:
srag_mod.drop(columns=['COD_IDADE','ID_PAIS','CO_PAIS','SG_UF','ID_RG_RESI','CO_RG_RESI','CO_MUN_RES'],inplace=True)

### Renomeando Variáveis

In [None]:
srag_mod = srag_mod.rename(columns={'DT_NOTIFIC': 'data', 'CS_SEXO': 'sexo', 'NU_IDADE_N': 'idade', 'CS_RACA': 'raca'})

### Analisando os tipos de variáveis

In [None]:
srag_mod.dtypes

In [None]:
srag_mod['data'] = srag_mod['data'].astype('datetime64[ms]')

### Analisando valores missing (NAN)

In [None]:
srag_mod.isnull().sum()

### Contagem das classificações de raças

In [None]:
srag_mod['raca'].value_counts().sort_index()

In [None]:
# preenchendo valores missing com o número 9 (ignorado)

srag_mod['raca'].fillna(9, inplace=True)

In [None]:
srag_mod['raca'].value_counts().sort_index()

### Contagem das Classificações de CS_ZONA

In [None]:
srag_mod['CS_ZONA'].value_counts().sort_index()

In [None]:
# preenchendo valores missing com o número 9 (ignorado)

srag_mod['CS_ZONA'].fillna(9, inplace=True)

### Substituindo as classificações numéricas por palavras

In [None]:
srag_mod['raca'] = srag_mod['raca'].replace({1:'branca',2:'preta',3:'amarela',4:'parda',5:'indigena',9:'ignorado'})

In [None]:
srag_mod['raca'].value_counts().sort_index()

In [None]:
srag_mod['CS_ZONA'] = srag_mod['CS_ZONA'].replace({1:'urbana',2:'rural',3:'periurbana',9:'ignorado'})

In [None]:
srag_mod['CS_ZONA'].value_counts().sort_index()

## Gráfico de Barras

### Matplotlib

In [None]:
import matplotlib.pyplot as plt

In [None]:
# o gráfico de barras é muito utilizado com variáveis categóricas

graf_barras = srag_mod['sexo'].value_counts()
graf_barras

In [None]:
graf_barras.index

In [None]:
plt.bar(graf_barras.index, graf_barras, color='red')
plt.title('Análise da Distribuição por Sexo')
plt.ylabel('Quantidade')
plt.xlabel('Sexo')
plt.show()

In [None]:
plt.barh(graf_barras.index, graf_barras, color='red')
plt.title('Análise da Distribuição por Sexo')
plt.xlabel('Quantidade')
plt.ylabel('Sexo')
plt.show()

### Seaborn

In [None]:
import seaborn as sns

In [None]:
sns.countplot(x='sexo', data=srag_mod);

In [None]:
sns.countplot(y='sexo', data=srag_mod);

In [None]:
fig, ax = plt.subplots(figsize=(8,6))
sns.countplot(x='raca', data=srag_mod)
ax.set_title('Análise da Distribuição por Raça', fontdict={'fontsize':20})
ax.set_xlabel('Raça', fontdict={'fontsize':15})
ax.set_ylabel('Quantidade', fontdict={'fontsize':15});

## Boxplot e Outliers

### Plotly

In [None]:
import plotly.express as px

In [None]:
# Boxplot para idade em anos

In [None]:
srag_mod['TP_IDADE'].value_counts().sort_index()

In [None]:
srag_mod['idade'].value_counts().sort_index()

In [None]:
srag_mod.idade.describe()

In [None]:
srag_mod.idade.mode()

In [None]:
srag_mod.loc[srag_mod['TP_IDADE'] == 1, 'idade'] = 0

In [None]:
srag_mod.loc[srag_mod['TP_IDADE'] == 2, 'idade'] = 0

In [None]:
# montando o boxplot

box = px.box(srag_mod, y='idade')
box.show()

In [None]:
# removendo os outliers

srag_sem_outliers = srag_mod.loc[srag_mod.idade < 118]

In [None]:
srag_sem_outliers.idade.describe()

In [None]:
box = px.box(srag_sem_outliers, y='idade')
box.show()

In [None]:
box = px.box(srag_mod, x='sexo', y='idade')
box.show()

In [None]:
box = px.box(srag_sem_outliers, x='raca', y='idade')
box.show()

### Seaborn

In [None]:
import seaborn as sns

In [None]:
sns.boxplot(y='idade', data=srag_mod, color='red');

In [None]:
sns.boxplot(y='idade', data=srag_sem_outliers, color='red');

In [None]:
sns.boxplot(x='sexo', y='idade', data=srag_mod, color='red');

In [None]:
sns.boxplot(x='CS_ZONA', y='idade', data=srag_mod, color='red');

In [None]:
sns.boxplot(x='CS_ZONA', y='idade', hue='sexo', data=srag_mod);

### Matplotlib

In [None]:
import matplotlib.pyplot as plt

In [None]:
plt.boxplot(srag_mod.idade)
plt.show()

In [None]:
plt.boxplot(srag_sem_outliers.idade)
plt.title('Box Plot da idade')
plt.ylabel('idade')
plt.show()

## Histograma

### Plotly

In [None]:
import plotly.express as px

In [None]:
hist1 = px.histogram(srag_mod, x='idade', nbins=60)
hist1.update_layout(width=800, height=500, title_text = 'Distribuição das Idades')
hist1.show()

### Análise da Normalidade - Gráfico QQPlot

In [None]:
srag_mod.idade.describe()

In [None]:
srag_mod.idade.mode()

In [None]:
import scipy.stats as stats
import matplotlib.pyplot as plt

In [None]:
stats.probplot(srag_mod['idade'], dist='norm', plot=plt)
plt.title('Análise Normalidade')
plt.show()

In [None]:
# Teste de Shapiro-Wilk
# Critérios:
# Nível de significância de 0,005 ou 5% (mais utilizado)
# quando p > 0,005 (distribuição normal)

In [None]:
stats.shapiro(srag_mod.idade)
# o teste de Shapiro-Wilk não se aplica a dados maiores que 5000.

In [None]:
# Teste Lilliefors(Kolmogorov-Smirnov)

import statsmodels
from statsmodels.stats.diagnostic import lilliefors

In [None]:
estatistica, p = statsmodels.stats.diagnostic.lilliefors(srag_mod.idade, dist = 'norm')
print('Estatística do Teste (D):', round(estatistica, 2))
print('p_valor:', p)

### Seaborn

In [None]:
import seaborn as sns

In [None]:
fig, ax = plt.subplots(figsize=(8,6))
sns.histplot(srag_mod, x='idade', bins=20, color='orange', kde=True, stat='count');
ax.set_title('Distribuição SRAG por idade', fontdict={'fontsize': 20});
# ax.set_xlabel('Idade',fontdict={'fontsize':15})
# ax.set_ylabel('Quantidade',fontdict={'fontsize':15})

### Matplotlib

In [None]:
import matplotlib.pyplot as plt

In [None]:
plt.hist(srag_mod.idade, color='red', density=False, bins=30)
plt.title('Distribuição SRAG por idade', fontsize=20)
plt.xlabel('Idade')
plt.ylabel('Quantidade')
plt.show()

## Gráfico de Dispersão

In [None]:
srag_mod.head(2)

In [None]:
srag_catanduva = srag_mod.loc[srag_mod['ID_MN_RESI'] == 'CATANDUVA']

In [None]:
srag_catanduva.head(2)

In [None]:
srag_catanduva.shape

### Matplotlib

In [None]:
import matplotlib.pyplot as plt

In [None]:
plt.scatter(srag_catanduva.data, srag_catanduva.idade)
plt.title('Gráfico de Dispersão')
plt.xlabel('Data')
plt.ylabel('Idade')
plt.grid(False)
plt.show()

### Seaborn

In [None]:
import seaborn as sns

In [None]:
fig, ax = plt.subplots(figsize=(8,6))
sns.scatterplot(x='data', y='idade', data=srag_catanduva, color='brown')
ax.set_title('Gráfico de dispersão da Idade em função da Data', fontdict={'fontsize':18});
ax.set_xlabel('Datas',fontdict={'fontsize':12})
ax.set_ylabel('Idade',fontdict={'fontsize':12});

### Plotly

In [None]:
import plotly.express as px

In [None]:
disp = px.scatter(x=srag_catanduva.data, y=srag_catanduva.idade, color=srag_catanduva['sexo'])
disp.update_layout(width=800,height=500,title_text='Gráfico de dispersão de Idade em função da Data')
disp.update_xaxes(title='Data')
disp.update_yaxes(title='Idade')
disp.show()

## Gráfico de Setores (pizza)

### Plotly

In [None]:
import plotly.express as px

In [None]:
srag_mod['sexo'].value_counts()

In [None]:
pizza = px.pie(srag_mod, 'sexo')
pizza.update_layout(title_text='Gráfico de Setores')
pizza.show()

In [None]:
srag_mod['raca'].value_counts()

In [None]:
pizza = px.pie(srag_mod, 'raca')
pizza.update_layout(title_text='Gráfico de Setores')
pizza.show()

In [None]:
srag_mod['CS_ZONA'].value_counts()

In [None]:
pizza = px.pie(srag_mod, 'CS_ZONA')
pizza.update_layout(title_text='Gráfico de Setores')
pizza.show()

### Matplotlib

In [None]:
import matplotlib.pyplot as plt

In [None]:
contagem = srag_mod['sexo'].value_counts()
contagem

In [None]:
contagem.index

In [None]:
plt.figure(figsize=(8,8))
plt.pie(contagem, labels=contagem.index, autopct='%.2f%%')
plt.show()

## Gráfico de Bolhas

### Plotly

In [None]:
import plotly.express as px

In [None]:
srag_tupa = srag_mod.loc[srag_mod.ID_MN_RESI == 'TUPA']

In [None]:
srag_tupa.head(3)

In [None]:
srag_tupa.shape

In [None]:
 bolhas = px.scatter(srag_tupa, x='data', y='CS_ZONA', color='sexo', size='idade')
bolhas.show()

In [None]:
 bolhas2 = px.scatter(srag_tupa, x='data', y='raca', color='sexo', size='idade')
bolhas2.show()

### Seaborn

In [None]:
import seaborn as sns
import matplotlib.pyplot as plt

In [None]:
fig, ax = plt.subplots(figsize=(15,12))
sns.scatterplot(x='data',y='raca',data=srag_tupa,color='brown',size='idade')
ax.set_title('Gráfico de Bolhas',fontdict={'fontsize':18});
ax.set_xlabel('Datas',fontdict={'fontsize':12})
ax.set_ylabel('Idade',fontdict={'fontsize':12});

## Gráfico de Linhas

### Matplotlib

In [None]:
import matplotlib.pyplot as plt

In [None]:
plt.subplots(figsize=(8,6))
y = [4,9,6,4,0,3,5.1,6,8.4,12.3]
x = range(len(y))
plt.plot(x,y, color='red', marker='o')
plt.title('Gráfico de Linhas')
plt.show()

In [None]:
plt.subplots(figsize=(8,6))
m = [1, 5, 8, 0, 3, 1, 6.5, 4, 12.3, 15.8]
n = range(len(m))
plt.plot(n,m, color='yellow', marker='x')
plt.title('Gráfico de Linhas 2')
plt.show()

In [None]:
plt.subplots(figsize=(8,6))
plt.title('Gráfico de Linha')
plt.plot(x,y)
plt.plot(n,m)
plt.show()

### Plotly

In [None]:
import plotly.express as px

In [None]:
y = [4,9,6,4,0,3,5.1,6,8.4,12.3]
type(y)

In [None]:
x = list(range(len(y)))
print(x)

In [None]:
linha = px.line(x,y)
linha.show()

In [None]:
df = pd.DataFrame(x, columns=['eixo_x'])
df

In [None]:
df = pd.concat([df, pd.DataFrame(y, columns=['eixo_y'])], axis=1)
df

In [None]:
linha = px.line(df, 'eixo_x', 'eixo_y')
linha.show()

### Seaborn

In [None]:
import seaborn as sns
import matplotlib.pyplot as plt

In [None]:
fig, ax = plt.subplots(figsize=(8,6))
sns.lineplot(x,y)
ax.set_title('Gráfico de Linhas', fontdict={'fontsize':18})
ax.set_xlabel('Eixo x',fontdict={'fontsize':12})
ax.set_ylabel('Eixo y',fontdict={'fontsize':12});

In [None]:
fig, ax = plt.subplots(figsize=(8,6))
sns.lineplot(df.eixo_x, df.eixo_y)
ax.set_title('Gráfico de Linhas', fontdict={'fontsize':18})
ax.set_xlabel('Eixo x',fontdict={'fontsize':12})
ax.set_ylabel('Eixo y',fontdict={'fontsize':12});