# Estatística Básica e Análise Exploratória

Nesse notebook, nós veremos uma parte da estatística básica já aplicada a uma análise exploratória. Aqui, o objetivo é ver a descrição dos dados e como eles podem nos gerar insights. É claro que essa parte é guiada conforme os dados que nós temos.

# Importando as bibliotecas

Somente importamos as bibliotecas essenciais para este notebook.

Link do SKLearn: https://scikit-learn.org/stable/modules/classes.html

In [None]:
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt
from sklearn.utils import resample

# Configurações básicas para a leitura de arquivos

In [None]:
pd.set_option('display.max_columns', None)  # Mostrar todas as colunas
pd.set_option('display.max_rows', 30)  # Mostrar apenas 10 linhas

df = pd.read_csv('AP_processed.csv', sep=';')

print("Tamanho da base: {}".format(len(df)))

df.head()

# Visualizando como está a tabela

Particularmente, essa propriedade nos traz quantas features nós temos e quantos rows (entrada de dados).

In [None]:
df.shape

# Visualizando tipos dados que nós temos

Essa propriedade retorna o tipo para cada feature, podendo ser: inteiro, string, object e entre outros. Essa informação é importante para sabermos que operações podemos executar conforme cada feature.

In [None]:
df.dtypes

# Resumo estatístico dos dados

Esse método traz todo um resumo estatístico do conjunto de dados. As informações trazidas são:

## Estimativas de localização
Variáveis com dados de medição ou contagem podem ter milhares de valores diferentes. Um passo fundamental na exploração de seus dados é definir um “valor típico” para cada característica (variável): uma estimativa de onde a maioria dos dados está localizada (ou seja, sua tendência central).

- Média: A soma de todos os valores, dividida pelo número de valores
- Média ponderada: A soma de todos os valores, multiplicada por um peso e dividida pela soma dos pesos
- Mediana: O valor que ocupa a posição central dos dados. Sinônimo: 50° percentil
- Mediana ponderada: Valor cuja posição está no centro da soma dos pesos, estando metade da soma antes e metade depois desse dado.
- Média aparada: A média de todos os valores depois da exclusão de um número fixo de valores extremos.
- Outlier: Um valor de dados que é muito diferente da maioria dos dados.

## Estimativas de Variabilidade
A localização é apenas uma dimensão na sumarização de uma característica. Uma segunda dimensão, variabilidade, também chamada de dispersão, mede se os valores de dados estão compactados ou espalhados. A variabilidade fica no centro da estatística: medindo, reduzindo, distinguindo variabilidade aleatória de real, identificando as diversas fontes de variabilidade real e tomando decisões em sua presença.

- Desvios: A diferença entre os valores observados e a estimativa de localização. Também conhecido como erros ou resíduos.
- Variância: A soma dos quadrados dos desvios da média, divididos por n – 1, em que n é o número de valores de dados. Também conhecido como erro médio quadrático.
- Desvio-padrão: A raiz quadrada da variância. Norma Euclidiana.
- Desvio absoluto médio; A média do valor absoluto dos desvios da média. Norma Manhattan.
- Amplitude: A diferença entre o maior e o menor valor no conjunto de dados.
- Estatísticas ordinais: Métricas baseadas nos valores de dados classificados do menor ao maior.
- Percentil: Valor tal que P por cento dos valores assumam esse valor ou menos, e (100 – P) por cento assumam esse valor ou mais.
- Amplitude interquartílica: A diferença entre o 75° percentil e o 25° percentil.

## Dados binários ou categóricos

São aqueles dados onde não possuem valores numéricos, ou seja, não dá para estimar um valor para uma determinada categoria.
- Moda: A categoria, ou valor, de maior ocorrência em um conjunto de dados.
- Valor esperado: Quando as categorias podem ser associadas a um valor numérico, isso nos dá um valor médio com base na probabilidade de ocorrência de uma categoria.
- Gráficos de barras: A frequência ou proporção de cada categoria representada por barras.
- Gráficos de pizza: A frequência ou proporção de cada categoria representada por fatias de uma pizza.

In [None]:
df.describe()

# Variáveis preditoras e variável alvo/destino

## Variáveis preditoras

As variáveis preditoras no contexto de machine learning são os dados de entrada ou as variáveis que são mapeadas para a variável de destino/saída por meio de uma relação empírica geralmente determinada por meio dos dados. Nas estatísticas, você se refere a elas como preditoras. Cada conjunto de preditores pode ser chamado como uma observação.

## Variável alvo/destino

A variável de destino, no contexto de machine learning, é a variável que é ou deveria ser a saída. Por exemplo, pode ser binário 0 ou 1 se você estiver classificando ou pode ser uma variável contínua se estiver fazendo uma regressão. Nas estatísticas, você também se refere a ela como a variável de resposta.

In [None]:
target = df.groupby('resultadoTeste').size()
target.plot.bar()

# Correlação

A análise exploratória de dados, em muitos projetos de modelagem (seja em ciências de dados ou em pesquisa), envolve o estudo da correlação entre preditores, e entre preditores e uma variável-alvo. As variáveis X e Y (cada uma com dados medidos) são tidas como positivamente correlacionadas se valores altos de X acompanharem os valores altos de Y, e os valores baixos de X acompanharem os valores baixos de Y. Se os valores altos de X acompanharem os valores baixos de Y, e vice-versa, as variáveis são negativamente correlacionadas.

- Coeficiente de correlação: Uma métrica que mede o nível em que as variáveis numéricas estão associadas umas às outras (varia de –1 a +1).
- Matriz de correlação: Uma tabela na qual as variáveis são mostradas tanto nas linhas quanto nas colunas, e os valores das células são a correlação entre as variáveis.

In [None]:
df.corr(method = 'pearson')

df_temp = df[['tosse', 'febre', 'garganta', 'dispneia', 'cabeca', 'coriza', 'hipogeusia', 'anosmia', 'fadiga', 'nauseas', 'mialgia', 'diarreia', 'resultadoTeste']]

sns.heatmap(df_temp.corr(method='pearson'), xticklabels=df_temp.columns, yticklabels=df_temp.columns, annot=True, fmt='.1f', linewidths=.6, cmap='YlGnBu')
plt.show()

# Correlação de Spearman

É um coeficiente de correlação baseado na classificação dos dados. Como trabalha com classificações, em vez de valores, essas estimativas são robustas contra outliers e podem manipular certos tipos de não linearidades.

In [None]:
df.corr(method = 'spearman')

df_temp = df[['tosse', 'febre', 'garganta', 'dispneia', 'cabeca', 'coriza', 'hipogeusia', 'anosmia', 'fadiga', 'nauseas', 'mialgia', 'diarreia', 'resultadoTeste']]

sns.heatmap(df_temp.corr(method='spearman'), xticklabels=df_temp.columns, yticklabels=df_temp.columns, annot=True, fmt='.1f', linewidths=.6, cmap='YlGnBu')
plt.show()

# Visualização dos dados

Como estão sendo tratados dados categóricos, binários, a visualização que melhor se adequa é a visualização em gráfico de barras.

In [None]:
def bar_plot(indexes_t, values_t, ylim=0, xlim=0):
    plt.figure(figsize=(14, 6))
    plt.bar(indexes_t, values_t, width=0.4)

    for index, value in enumerate(values_t):
        plt.text(index - 0.20, value + 0.02, str(value))

    if ylim != 0:
        plt.ylim(0, ylim + (ylim * 0.1))

    if xlim != 0:
        plt.xlim(0, xlim)

# Visualização dos sintomas

Cada sintoma corresponde a uma barra, onde representa o total de pessoas com aquele determinado sintoma.

In [None]:
values = []

symptoms = ['tosse', 'febre', 'garganta', 'dispneia', 'cabeca', 'coriza', 'hipogeusia', 'anosmia', 'fadiga', 'nauseas', 'mialgia', 'diarreia']

for i in symptoms:
    values.append((df[i] == 1).sum())

bar_plot(symptoms, values)

# Visualização das comorbidades

Cada comorbidade corresponde a uma barra, onde representa o tal de pessoas com aquela comorbidade.

In [None]:
values = []

conditions = ['cardiacas', 'diabetes', 'respiratorias', 'renais', 'imunologica', 'obesidade', 'imunossupressao']

for i in conditions:
    values.append((df[i] == 1).sum())

bar_plot(conditions, values)

# Amostragem

Um grande equívoco e ocorre até comumente é pensar que a era do big data significa o fim da necessidade de amostragem. Na verdade, a proliferação de dados de qualidade e relevâncias variáveis reforça a necessidade da amostragem como ferramenta para trabalhar eficientemente com uma variedade de dados e para minimizar o viés. Mesmo em um projeto de big data, os modelos preditivos são tipicamente desenvolvidos e conduzidos com amostras
<br>
<center><img src="Images/sample_population.png" alt="MarineGEO circle logo"/></center>
<br>

- Amostra: Um subconjunto de um conjunto maior de dados.
- População: O conjunto maior de dados, ou a ideia de um conjunto de dados.
- N (n): O tamanho da população (amostra).
- Amostragem aleatória: Elementos aleatoriamente obtidos para uma amostra.
- Amostragem estratificada: Divide a população em estratos e faz amostragens aleatórias em cada estrato.
- Amostra aleatória simples: A amostra que resulta de uma amostragem aleatória sem estratificar a população.
- Viés de amostragem: Uma amostra que não representa a população.

Na era do big data, muitas vezes é surpreendente que menos seja mais. O tempo e o esforço gastos em amostragens aleatórias não apenas reduzem o viés, mas também permitem maior atenção à exploração de dados e qualidade de dados.

## Então, quando quantidades massivas de dados são de fato necessárias?

O cenário clássico para o valor do big data é quando os dados não são apenas grandes, mas também esparsos. Considere as solicitações de pesquisa recebidas pelo Google, em que as colunas são termos, as linhas são as pesquisas individuais e os valores das células são 0 ou 1, dependendo de a pesquisa conter um termo. O objetivo é determinar o melhor destino previsto para a pesquisa de determinada consulta. Existem mais de 150 mil palavras na língua inglesa, e o Google processa mais de 1 trilhão de pesquisas por ano. Isso resulta em uma matriz enorme, e a grande maioria desses registros é “0”.

## Criando um conjunto de amostras

### Bootstrap

Um jeito fácil e eficaz de estimar a distribuição amostral de uma estatística ou de parâmetros de modelo é extrair amostras adicionais, com reposição, da própria amostra.

### Reamostragem

Às vezes, o termo reamostragem é usado como sinônimo do termo bootstrapping, em muitas situações. Mais comumente, o termo reamostragem também inclui procedimentos de permutação, em que múltiplas amostras são combinadas e a amostragem pode ser feita sem reposição.


In [None]:
backup_data = df.copy()  # Backup do dataset para garantir que o processo de balanceamento pega sem alterações

for kind in ['Unbalanced', 'Balanced', 'Symptoms_Amount']:
    df = backup_data.copy()  # Utiliza o backup para realizar operações em dataset normal

    if kind == 'Balanced':
        df_positives = df[df['resultadoTeste'] == 1]
        df_negatives = df[df['resultadoTeste'] == 0]
    elif kind == 'Symptoms_Amount':
        df_positives = df_positives[df_positives.iloc[:, 1:13].sum(axis=1) > 3]
        df_positives = df_positives[(df_positives['anosmia'] == 1) | (df_positives['hipogeusia'] == 1)]

    if kind != 'Unbalanced':
        if len(df_positives) > len(df_negatives):
            df_majority = df_positives
            df_minority = df_negatives
        else:
            df_majority = df_negatives
            df_minority = df_positives

        df_size = round((len(df_minority) * 2) * 0.60)
        df_reduced = resample(df_majority, replace=True, n_samples=df_size, random_state=123)
        df_balanced = pd.concat([df_reduced, df_minority])

        df_balanced.to_csv('AP_{}.csv'.format(kind), sep=';', encoding='utf-8', index=False)
    else:
        df.to_csv('AP_{}.csv'.format(kind), sep=';', encoding='utf-8', index=False)

# Base não balanceada

Essa é apenas a base do jeito que veio, passando apenas pelos processo de pré-processamento dos dados.

In [None]:
df = pd.read_csv('AP_Unbalanced.csv', sep=';')

print("Tamanho da base: {}".format(len(df)))

df.head()

# Base balanceada

Esta base já se encontra balanceada, com 40% dos casos para negativos e 60% dos casos para positivo com relação a COVID-19.

In [None]:
df = pd.read_csv('AP_Balanced.csv', sep=';')

print("Tamanho da base: {}".format(len(df)))

df.head()


# Base balanceada com customização

Nesta base, nós temos o balanceamento de 40/60 como mostrado na base anterior e os 60% dos casos positivos, pegamos registros de pessaos que melhor caracterizassem a doença.

In [None]:
df = pd.read_csv('AP_Symptoms_Amount.csv', sep=';')

print("Tamanho da base: {}".format(len(df)))

df.head()

In [None]:
import numpy as np
import matplotlib.pyplot as plt
from PIL import Image as im
import cv2

imagem = np.load('tc.npy')
#imagem = imagem.astype(np.float64) / imagem.max() # normalize the data to 0 - 1
#imagem = 255 * imagem # Now scale by 255
#img = imagem.astype(np.uint8)
#cv2.imshow("Window", img)

for i in range(0, 281):
    img = im.fromarray(np.uint8(imagem[:,:,i]))
    img.save('CT_Scan/{}.png'.format(i))