Considere o DataSet column_diagnosis.arff composto por 6 features mecânicas para classificar 310 pacientes ortopédicos em 3 classes (Normal, disk hernia, spondilolysthesis). 

### **1)** Aplique a função f_classif de sklearn para aceder ao poder discriminativo das variáveis de input. Identifique as variáveis de input com o maior e menor poder discriminativo. Desenhe as funções de densidade de probabilidade condicionadas às 3 classes de output, para as duas variáveis de input identificadas acima. <h3>

Inicialmente há que ler o DataSet. 

In [None]:
import pandas as pd
from scipy.io.arff import loadarff
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from scipy.stats import norm
from scipy import stats
from sklearn.feature_selection import f_classif

data = loadarff('column_diagnosis.arff')
df = pd.DataFrame(data[0])
df['class'] = df['class'].str.decode('utf-8')

De seguida, é necessário separar os dados em dois grupos: um para as features (variáveis de input) e outro para as classes (variáveis de output).

In [None]:
target = df['class']
variables = df.drop('class', axis=1)

Com a função f_classif, é possível calcular o F-statistic e o p-value para cada feature.

In [None]:
fimportance = f_classif(variables, target)
fstat = fimportance[0]
pval = fimportance[1]

Para identificar as variáveis de input com o maior e menor poder discriminativo, cria-se um DataFrame em que cada linha corresponde a uma feature e as colunas correspondem ao F-statistic e ao p-value dessa feature. De seguida ordenou-se esse DataFrame pelo F-statistic(crescente). Selecionou-se a primeira e a última linha do DataFrame, que correspondem às features com maior e menor poder discriminativo, respetivamente.

In [None]:
fstat_df = pd.DataFrame({'F-statistic': fstat, 'p-value': pval})
fstat_df.index = variables.columns                                 # Set the index to the variable names
fstat_df = fstat_df.sort_values(by=['F-statistic'], ascending=False)
print(fstat_df)
print("The variables with the highest and lowest F-statistic are degree_spondylolisthesis and pelvic_radius, respectively.")

|        Class                  | F-statistic |    p-value   |
|:------------------------:|:-----------:|:------------:|
| degree_spondylolisthesis |  119.122881 | 5.114732e-39 |
|   lumbar_lordosis_angle  |  114.982840 | 5.357329e-38 |
|     pelvic_incidence     |  98.539709  | 8.752849e-34 |
|       sacral_slope       |  89.643953  | 2.175670e-31 |
|        pelvic_tilt       |  21.299194  | 2.176879e-09 |
|       pelvic_radius      |  16.866935  | 1.121996e-07 |

The variables with the highest and lowest F-statistic are degree_spondylolisthesis and pelvic_radius, respectively.

Por fim, há que desenhar as funções de densidade de probabilidade condicionadas às 3 classes de output, para as duas variáveis de input identificadas acima.

In [None]:
sns.set_style('whitegrid')
sns.kdeplot(df['degree_spondylolisthesis'][df['class'] == 'Hernia'], fill = False, label= 'Hernia', color = 'blue')
sns.kdeplot(df['degree_spondylolisthesis'][df['class'] == 'Spondylolisthesis'], fill = False, label='Spondylolisthesis', color = 'green')
sns.kdeplot(df['degree_spondylolisthesis'][df['class'] == 'Normal'], fill = False, label='Normal', color = 'orange')
plt.xlabel('Degree Spondylolisthesis')
plt.ylabel('Probability Density')
plt.title('Class-Conditional Prob. Dens. Func of Degree Spondylolisthesis')
plt.legend()
plt.show()

sns.set_style('whitegrid')
sns.kdeplot(df['pelvic_radius'][df['class'] == 'Hernia'], fill=False, label='Hernia', color = 'blue')
sns.kdeplot(df['pelvic_radius'][df['class'] == 'Spondylolisthesis'], fill=False, label='Spondylolisthesis', color = 'green')
sns.kdeplot(df['pelvic_radius'][df['class'] == 'Normal'], fill=False, label='Normal', color = 'orange')
plt.xlabel('Pelvic Radius')
plt.ylabel('Probability Density')
plt.title('Class-Conditional Prob. Dens Func of Pelvic Radius')
plt.legend()
plt.show()

!!!!!!!!! Por as imagens !!!!!!!!!

### **2)**  <h3>