In [None]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns


**0. Leitura do Dataset**

In [None]:
# Leitura do dataset. O ficheiro 'A.csv' deve estar colocado na diretoria de trabalho

df= pd.read_csv('A.csv')

pd.set_option('display.max_columns', 1000)
pd.set_option('display.max_rows', 1000)

In [None]:
# Dimensão do dataset: Exemplos / Atributos

print('Dimensão: ', df.shape)

df.head()

In [None]:
# Separar atributos do target (classe dos exemplos)
# A partir desta célula só iremos trabalhar com os dataframes Att e Classe

Att = df.drop(['ID'], axis=1)
Classe = df['ID']

print('Target: ', Classe.shape)
print('Atributos: ', Att.shape)

**1. Pré-processamento dos Dados**

In [None]:
# Pesquisar por dados em falta

print(Att.isnull().sum())

print('Total de dados em falta: ', df.isnull().sum().sum())


In [None]:
# Descrição Completa da Estatística univariada

Att.describe()

**Este Dataset tem 2 limitações que devem ser tratadas:**


1.   A gama de valores varia muito entre atributos diferentes. É essencial normalizar os dados
2.   Existem demasiados atributos. É essencial reduzir os dados


São estes os 2 passos seguintes do pré-processamento de dados



In [None]:
# Transformar Dados - Standardizar os atributos
from sklearn.preprocessing import StandardScaler

scaler = StandardScaler()
Att = pd.DataFrame(scaler.fit_transform(Att), columns = Att.columns)



In [None]:
# Visualização depois da normalização

Att.describe().round(2)

In [None]:
# Reduzir os dados

# Implementar 2 abordagens
# O valor 5 que é adotado nesta etapa é arbitrário - Num estudo a sério deveriam ser testadas várias alternativas

# 1. Escolher os melhores 5 atributos
# 2. Aplicar PCA e manter 5 componentes principais


In [None]:

# Opção 1: Selecionar os 5 melhores atributos com o método SelectKBest
# https://scikit-learn.org/stable/modules/generated/sklearn.feature_selection.SelectKBest.html


from sklearn.feature_selection import SelectKBest, f_classif

selector = SelectKBest(f_classif, k = 5)
Att_Best = selector.fit_transform(Att, Classe)

mask = selector.get_support()
new_features = Att.columns[mask]
Att_Best = pd.DataFrame(Att_Best, columns=new_features)

print('Dimesão do dataset: ', Att_Best.shape)

Att_Best.describe()


In [None]:
# Opção 2: Selecionar as 5 componentes principais com PCA
# https://scikit-learn.org/stable/modules/generated/sklearn.decomposition.PCA.html

from sklearn.decomposition import PCA

pca = PCA(n_components=5)
Att_PCA = pca.fit_transform(Att)

Att_PCA = pd.DataFrame(Att_PCA)

print('Variância explicada por componente:', pca.explained_variance_ratio_.round(3))
print('Soma da variância explicada:', pca.explained_variance_ratio_.sum().round(3))

print('Dimesão do dataset: ', Att_PCA.shape)

Att_PCA.describe()

**Questões:**

1. Qual a variância das 5 componentes principais?
2. Como analisa este valor?

**2. Visualização de Dados**

**2.1 - Visualização Univariada**

In [None]:
# Criar histogramas

Att_Best.hist(figsize=(10,10))
plt.show()

In [None]:
# Criar histogramas

Att_PCA.hist(figsize=(10,10))
plt.show()

In [None]:
# Criar Boxplots

Att_Best.boxplot(figsize=(10,10))
plt.show()

In [None]:
Att_PCA.boxplot(figsize=(10,10))
plt.show()

**Questões:**

1. Analise os histogramas
2. Analise os boxplots
3. Existem diferenças relevantes entre as 2 técnicas adotadas para reduzir os dados?


**2.2 - Visualização Multivariada**

In [None]:
# Criar matrizes de correlação

corr = Att_Best.corr()
sns.heatmap(corr, annot=True)
plt.show()

In [None]:
# Criar matrizes de correlação

corr = Att_PCA.corr()
sns.heatmap(corr, annot=True)
plt.show()

In [None]:
# Criar gráficos de dispersão

sns.scatterplot(data=Att_Best, x ='let-7d*', y='miR-10b', hue = Classe, sizes=(100,100))
plt.show()


In [None]:
sns.scatterplot(data=Att_PCA, x=0, y=1, hue = Classe, sizes=(100,100))
plt.show()

In [None]:
# Criar outros gráficos de análise multivariada
# Procurar informação aqui:
# https://seaborn.pydata.org/examples/index.html
# https://matplotlib.org/stable/plot_types/index.html


## Código ###



Questões:

1. Analise os resultados da análise multivariada

In [None]:
# Criar dataframes especificas para análise mais detalhada

# Classe: Dataframe com os targets
# Att: Dataframe com todos os atributos
# Att_N: Dataframe com os atributos dos exemplos


Att_N = df[df['ID'] == 'N']
Att_T = df[df['ID'] == 'T']

Att_N = Att_N.drop(['ID'], axis=1)
Att_T = Att_T.drop(['ID'], axis=1)

print('Atributos Negativos: ', Att_N.shape)
print('Atributos Positivos: ', Att_T.shape)



In [None]:
# Complementar a análise exploratória com visualizações detalhadas sobre diferentes classes

#### Código a partir daqui  #####




