# An√°lise Explorat√≥ria de Dados em Python

Neste notebook, vamos praticar algumas das t√©cnicas e processos de pensamento para an√°lise explorat√≥ria de dados. Vamos praticar a an√°lise com um conjunto de dados real. √â importante enfatizar que n√£o existe um √∫nico caminho correto para a an√°lise explorat√≥ria de dados. A maneira como voc√™ explora seus dados depende das perguntas que voc√™ est√° tentando responder e dos dados em si. Dessa forma, deixe os dados e sua curiosidade gui√°-lo.

Se for necess√°rio acrescentar passos adicionais al√©m daqueles que est√£o indicados neste notebook, fa√ßa isso.


## O Conjunto de Dados

Este conjunto de dados √© basicamente uma tabela de amostras com dados de abund√¢ncia de prote√≠nas nucleares. Essas amostras s√£o de camundongos normais ou de camundongos com uma condi√ß√£o semelhante √† _S√≠ndrome de Down_. Alguns desses camundongos receberam uma droga chamada _memantina_, que os pesquisadores conjecturam que poderia resgatar a fun√ß√£o cognitiva em camundongos afetados. Existem 38 ratos normais e 34 ratos afetados, e cada rato contribuiu com 15 amostras para o conjunto de dados, para um total de 1080 amostras. A raz√£o de abund√¢ncia de 77 prote√≠nas √© medida para cada amostra.

O conjunto de dados pode ser obtido no [aqui](https://archive.ics.uci.edu/ml/datasets/Mice+Protein+Expression). Acesse o link `Data Folder`, e salve o arquivo `Data_Cortex_Nuclear.xls` na mesma pasta em que voc√™ gravou este notebook. Baixe este arquivo, e carregue-o em um dataframe do Pandas.

In [1]:
import numpy as np
import pandas as pd

df = pd.read_excel('Data_Cortex_Nuclear.xls')

FileNotFoundError: [Errno 2] No such file or directory: 'Data_Cortex_Nuclear.xls'

Em seguida inspecione o dataframe para verificar se h√° dados faltantes. Caso haja, preencha estes dados com a m√©dia dos dados existentes.

In [None]:
def check_df_nulls(df, verbose=False):
    
    # get columns with float64 values
    is_float = []
    for i in df.dtypes.keys():
        if df.dtypes[i] == 'float64':
            is_float.append(i)

    # get columns with null values      
    has_null = df.isnull().any()
    for i in has_null.keys():
        if has_null[i]:
            print(i, '=>', df[i].isnull().sum(), 'nulls')\
            if verbose else None
        else: has_null.pop(i)

    # get columns with null float64 values
    to_fill = [value for value in is_float if value in has_null.keys()]

    # print overview
    print(len(df.keys()), 'total columns')
    print(len(is_float), 'are float64')
    print(len(has_null), 'contain nulls')
    print(len(to_fill), 'columns to fill\n')
    # return to_fill

# first check
print('Checking data frame...')
check_df_nulls(df)
    
# fill values with mean
print('Filling null values with mean...', end=' ')
df = df.fillna(df.mean())

# for i in to_fill:
#     df[i] = df[i].fillna(df[i].mean())
    
# second check
print('OK.\n\nRechecking...')
check_df_nulls(df)

## Gerando Estat√≠sticas de Resumo Adicionais

Os dataframes do Pandas t√™m um m√©todo pr√°tico chamado `describe` que escreve uma variedade de estat√≠sticas de resumo para cada vari√°vel. As estat√≠sticas de resumo retornadas por esse m√©todo tamb√©m s√£o um dataframe, portanto, voc√™ pode alter√°-lo facilmente para incluir outras estat√≠sticas. Vamos fazer exatamente isso, adicionando o coeficiente de varia√ß√£o da vari√°vel (cova).

O coeficiente de varia√ß√£o √© apenas a raz√£o entre o desvio padr√£o e a m√©dia da distribui√ß√£o. Distribui√ß√µes com um grande coeficiente de varia√ß√£o s√£o mais propensas a sinalizar uma mudan√ßa no processo de gera√ß√£o de dados subjacente, ao contr√°rio da varia√ß√£o aleat√≥ria.

Adicionar uma nova linha no dataframe de `resumo` pode ser realizado da seguinte forma `resumo.loc['cova'] = ¬´dados da nova linha¬ª`.


In [None]:
resumo = df.describe()
resumo.loc['cova'] = df.std()/df.mean()
resumo

### Normaliza√ß√£o

Um passo inicial importante antes de qualquer an√°lise real √© realizado para normalizar os dados. Isso √© necess√°rio para evitar que vari√°veis com valores grandes tenham uma influ√™ncia indevida nos resultados. Existem alguns m√©todos diferentes de normalizar seus dados:

+ O m√©todo mais comum √© dividir os valores de uma dimens√£o pelo maior valor que ela cont√©m. Esse m√©todo √© f√°cil de interpretar e √© robusto para outliers quando o coeficiente de varia√ß√£o em uma dimens√£o √© baixo.
+ Outro m√©todo muito comum √© subtrair a m√©dia e dividir a dimens√£o por seu desvio padr√£o, um processo √†s vezes chamado de padroniza√ß√£o. Esse m√©todo fornece mais informa√ß√µes sobre a similaridade relativa de valores quando o coeficiente de varia√ß√£o em uma dimens√£o √© alto. Desempenha mal nas dimens√µes com um baixo coeficiente de varia√ß√£o e grandes outliers.
+ Uma op√ß√£o subutilizada √© usar a fun√ß√£o de distribui√ß√£o cumulativa da distribui√ß√£o emp√≠rica da dimens√£o para obter uma classifica√ß√£o de percentil. Esse m√©todo funciona bem na maioria dos casos e √© robusto para outliers. Sua utilidade se degrada um pouco quando o coeficiente de varia√ß√£o de uma dimens√£o fica muito pequeno.

O m√©todo de normaliza√ß√£o usado depende dos dados e dos aspectos que voc√™ deseja destacar. Voc√™ pode usar um m√©todo de normaliza√ß√£o diferente para cada dimens√£o de seus dados, embora eu n√£o recomende isso, a menos que seja absolutamente necess√°rio. Em geral, minha prefer√™ncia √© pelo m√©todo de distribui√ß√£o emp√≠rica.

O c√≥digo em Python necess√°rio para fazer os 3 tipos de normaliza√ß√£o √© exemplificado abaixo (supondo que o dataframe original se chame `df` e contenha apenas dados num√©ricos):

    minmax_normalized_df = pd.DataFrame(MinMaxScaler().fit_transform(df), 
    columns=df_numeric.columns, index=df_numeric.index)
    
    standardized_df = pd.DataFrame(StandardScaler().fit_transform(df), 
    columns=df_numeric.columns, index=df_numeric.index)
    
    ecdf_normalized_df = df.apply(lambda c: pd.Series(ECDF(c)(c), index=c.index))


In [None]:
# get columns with float values from data frame
df_floats = df.loc[:, df.dtypes == float]

# normalize values in data frame (MinMax)
from sklearn.preprocessing import MinMaxScaler
normalized_df = pd.DataFrame(MinMaxScaler().fit_transform(df_floats),
                             columns=df_floats.columns, index=df.index)

# normalize values in data frame (Standard)
# from sklearn.preprocessing import StandardScaler
# normalized_df = pd.DataFrame(StandardScaler().fit_transform(df_floats),
#                              columns=df_floats.columns, index=df.index)

# normalize data frame (ECDF)
# from statsmodels.distributions.empirical_distribution import ECDF
# normalized_df = df_floats.apply(lambda c: pd.Series(ECDF(c)(c), index=c.index))

### Explorando dados

Usaremos a estrat√©gia de explorar dados procurando coisas que s√£o fora do comum. Em um conjunto de dados que seja apenas vari√°veis aleat√≥rias gaussianas n√£o correlacionadas, n√£o poderiamos aprender nada com ele, seria literalmente ru√≠do branco. A maior parte do conte√∫do da informa√ß√£o na maioria dos conjuntos de dados √© sua varia√ß√£o da normalidade.

A distribui√ß√£o do coeficiente de varia√ß√£o informa sobre a variabilidade relativa desses dados. Altos coeficientes de varia√ß√£o para uma vari√°vel indicam um prov√°vel candidato a efeito experimental.

Plote o histograma do coeficiente de varia√ß√£o dos dados.

In [None]:
import matplotlib.pyplot as plt

%matplotlib inline

# get coefficient_of_variation
series_cova = normalized_df.std()/normalized_df.mean()
series_cova.head(1)

In [None]:
# plot histogram
plt.hist(series_cova, bins=30, alpha=0.7, rwidth=0.9)
plt.grid(axis='y', alpha=0.75)
plt.xlabel('Coeficiente de varia√ß√£o')
plt.ylabel('Frequ√™ncia')
plt.title('Histograma')
# plt.xlim(left=0.15, right=0.55) # <-- slice it further
plt.show()

# plot more histograms
# for i in df.keys():
#     if df.dtypes[i] == 'float64':
#         plt.hist(normalized_df[i], bins='auto', alpha=0.7, rwidth=0.9)
#         plt.grid(axis='y', alpha=0.75)
#         plt.xlabel(str(i))
#         plt.ylabel('Frequency')
#         plt.title(i)
#         plt.show()

Do gr√°fico acima √© poss√≠vel estimar um valor de corte para o coeficiente de varia√ß√£o? Um valor abaixo do qual poder√≠amos desprezar a altera√ß√£o das prote√≠nas como sendo um efeito do tratamento? Qual seria este valor?

Se voc√™ achar que sim, gere um novo dataframe apenas com as prote√≠nas que interessam segundo este crit√©rio (A).


**Resposta**: Considerando o gr√°fico acima, argumenta-se que o valor de corte deve visar as prote√≠nas que obtiveram um coeficiente de varia√ß√£o de aproximadamente >= 0.496 entre si, por raz√£o:
- a) da grande quantidade de prote√≠nas que exibiram esse padr√£o (de pouco variar entre si);
- b) de que distribui√ß√µes com um grande coeficiente de varia√ß√£o s√£o mais propensas a sinalizar uma mudan√ßa no processo de gera√ß√£o de dados subjacente, ao contr√°rio da varia√ß√£o aleat√≥ria.

Nota-se que uma an√°lise explorat√≥ria de cada vari√°vel em mais histogramas no conjunto subsequente pode ser √∫til para o entendimento dos dados.

In [None]:
df_A = df.copy()
proteins = []

# considering <= 0.4
float_cova = 0.4
for x in series_cova.items():
    if x[0] in df_A.keys()\
    and x[1] <= float_cova:
        df_A.pop(x[0])
        proteins.append(x[0])

int_total_old = len(df_floats.keys())
int_discarded = len(proteins)
int_total_new = int_total_old - int_discarded

print(int_total_old, 'total proteins')
print(int_discarded, 'proteins cova <=', float_cova, '(DISCARDED)')
print(int_total_new, 'proteins cova >=', float_cova, '(OK)')

Outro passo recomend√°vel √© realizar testes de normalidade nas vari√°veis. Vari√°veis que se desviam muito da normalidade s√£o mais prov√°veis de serem informativas. O teste de Anderson-Darling ou o teste de Shapiro-Wilks funciona bem para esse prop√≥sito.

Realize ambos os testes abaixo, plote um histograma com os resultados dos testes para as 77 vari√°veis (prote√≠nas), e verifique:
1. Se os dois testes diferem significativamente em seus resultados.
2. Se os testes permitem estimar um valor de corte abaixo do qual podemos desprezar as vari√°veis como ‚Äúprovavelmente n√£o-informativas‚Äù.


In [None]:
# # anderson-darling
# The Anderson-Darling tests the null hypothesis that a sample is drawn from a population
# that follows a particular distribution. If the returned statistic is larger than these
# critical values then for the corresponding significance level, the null hypothesis that
# the data come from the chosen distribution can be rejected.

from scipy.stats import anderson
from collections import defaultdict

# test if possible to reject H0
dict_anderson = defaultdict(dict)
for x in df.loc[:, df.dtypes == float].keys().tolist():
    anderson_stats = anderson(df[x])
    anderson_statistic = anderson_stats.statistic
    dict_anderson['statistic'][x] = anderson_statistic
#     print('\n'+x, 'Statistic: %.3f' % anderson_statistic)
#     for i in range(len(anderson_stats.critical_values)):
#         cv = anderson_stats.critical_values[i]
#         sl = anderson_stats.significance_level[i]
#         if anderson_statistic < cv:
#             print('%.3f: %.3f, data looks normal (fail to reject H0)' % (sl, cv))
#         else: print('%.3f: %.3f, data does not look normal (reject H0)' % (sl, cv))

# save lists of critical values and significance levels
anderson_cv = anderson_stats.critical_values.tolist()
anderson_sl = anderson_stats.significance_level.tolist()
        
# transform to series and append to described df
series_anderson = pd.Series(dict_anderson['statistic'])
resumo.loc['anderson'] = series_anderson

In [None]:
# shapiro-wilks
# Esta fun√ß√£o retorna dois valores, o primeiro √© a Estat√≠stica F da amostra
# e o segundo √© o valor ùëù da hip√≥tese de que a amostra seja normalmente distribu√≠da.
# Assim, se o segundo valor retornado pela fun√ß√£o shapiro for superior ao valor de alfa
# isso indica que a amostra deve ser, de fato, normalmente distribu√≠da.

from scipy.stats import shapiro

# get p value for hypothesis
dict_shapiro = defaultdict(dict)
for x in df.loc[:, df.dtypes == float].keys().tolist():
    f, p = shapiro(df[x])
    dict_shapiro['f'][x] = f
    dict_shapiro['p'][x] = p

# transform to series and append to described df
series_shapiro = pd.Series(dict_shapiro['p'])
resumo.loc['shapiro_p'] = series_shapiro
series_shapiro.head(1)


In [None]:
# shapiro histogram
plt.hist(series_shapiro, bins='auto', alpha=0.7, rwidth=0.9) # <-- plotar aqui pareceu levar uma eternidade!
plt.grid(axis='y', alpha=0.75)
plt.xlabel('shapiro p value')
plt.ylabel('Frequ√™ncia')
plt.title('Histograma')
plt.show()

In [None]:
# anderson histogram
plt.hist(series_anderson, bins='auto', alpha=0.7, rwidth=0.9) # <-- plotar aqui pareceu levar uma eternidade!
plt.grid(axis='y', alpha=0.75)
plt.xlabel('anderson statistic')
plt.ylabel('Frequ√™ncia')
plt.title('Histograma')
plt.show()

Se for poss√≠vel estabelecer um valor de corte para as vari√°veis, gere um novo dataframe apenas com as prote√≠nas que interessam segundo este crit√©rio (B).

In [None]:
df_B = df.copy()
proteins = []

# considering shapiro p > 0.05
for x in series_shapiro.items():
    if x[1] > 0.05:
        df_B.pop(x[0])
        proteins.append(x[0])

int_total_old = len(df_floats.keys())
int_discarded = len(proteins)
int_total_new = int_total_old - int_discarded

print(int_total_old, 'total proteins')
print(int_discarded, 'proteins look normal (fail to reject H0)')
print(int_total_new, 'proteins do not look normal (reject H0)')

Existe sobreposi√ß√£o entre vari√°veis com alto coeficiente de varia√ß√£o e vari√°veis altamente n√£o-normais? Caso exista, qual √© esta sobreposi√ß√£o?

Se criarmos conjuntos a partir dos dataframes gerados pela aplica√ß√£o dos crit√©rio (A) e (B) acima, poderemos ver quais prote√≠nas est√£o presentes em ambos os conjuntos. Fa√ßa isso.

In [None]:
df_C = df.copy()

proteins = df_floats.keys().tolist()
proteins_A = df_A.keys().tolist()
proteins_B = df_B.keys().tolist()

for x in proteins:
    if not all(x in k for k in [proteins_A, proteins_B]):
        df_C.pop(x)

proteins_C = df_C.loc[:, df.dtypes == float].keys().tolist()
print('Proteins =>', proteins_C)

Provavelmente, voc√™ chegou a um n√∫mero de prote√≠nas bem menor do que 77, correto? Essas s√£o as prote√≠nas que tem melhores chances de indicar resultados no tratamento. O que fizemos aqui se chama _redu√ß√£o de dimensionalidade_.

Isso nos deixa com um conjunto menor de vari√°veis que foram selecionadas atrav√©s de m√∫ltiplos mecanismos. Vamos em frente e visualiz√°-los todos ao mesmo tempo. Gere, em um √∫nico gr√°fico, o histograma para as concentra√ß√µes de todas as prote√≠nas candidatas que foram selecionadas at√© aqui.

In [None]:
%matplotlib inline

# plot histogram
plt.hist(df_C.mean(), bins='auto', alpha=0.7, rwidth=0.9)
plt.grid(axis='y', alpha=0.75)
plt.xlabel('Concentra√ß√£o m√©dia')
plt.ylabel('Frequ√™ncia')
plt.title('Histograma')
plt.show()

Outras m√©tricas interessantes a serem consideradas incluem o _skew_ (inclina√ß√£o) e _kurtosis_ (curtose) das distribui√ß√µes. A inclina√ß√£o mede a simetria de uma distribui√ß√£o sobre sua m√©dia, enquanto a curtose mede a parte dos dados nas caudas da distribui√ß√£o.

Skew e kurtosis podem ser combinadas em um bom gr√°fico de dispers√£o que informa muito sobre a estrutura do seu conjunto de dados.

In [None]:
### Defina abaixo o dataframe contendo apenas os atributos num√©ricos (concentra√ß√£o de prote√≠nas)
### Sinta-se √† vontade para melhorar o gr√°fico se quiser.

df_numeric = df_floats # df.loc[:, df.dtypes == float]

skews = df_numeric.apply(lambda x: pd.DataFrame.skew(x))
skews.name = "skew"

kurts = df_numeric.apply(lambda x: pd.DataFrame.kurtosis(x))
kurts.name = "kurtosis"

proteins = pd.Series([i.split("_")[0] for i in kurts.index], index=kurts.index, name="protein")
sk_df = pd.concat([skews, kurts, proteins], axis=1)
plt.scatter(sk_df['skew'], sk_df['kurtosis'])

No _scatter plot_ acima √© poss√≠vel identificar com certa facilidade os outliers.

Tr√™s outliers identificados fora da curva exibida:
1. x=~2.5, y=~35
2. x=~2.7, y=~43
3. x=~4.8, y=~62

In [None]:
# write proteins to output file
with open('candidate-columns.csv', 'w') as f:
    f.write('\n'.join('%s' % protein for protein in proteins_C))