# Trabajo 2 - 2021-2022

**Autor**: Sergio Rodríguez Calvo

Vamos a realizar las importaciones de librerías al principio, para poder ver de un vistazo qué se ha utilizado.

In [1]:
import numpy as np
import pandas as pd

# Descripción

El conjunto de datos ejegido es [_hepatitis_](https://archive.ics.uci.edu/ml/datasets/Hepatitis), que consiste en un conjunto multivariante con 19 atributos (categóricos, enteros y reales) y un valor de clasificación binaría: DIE que indica que el paciente muere; LIVE que indica que el paciente sobrevive. Cuenta con un total de 155 instancias o ejemplos.

A continuación, vamos a definir los nombres de las columnas o los atributos.

In [2]:
names = [   
            'class',
            'age',
            'sex',
            'steroid',
            'antivirals',
            'fatigue',
            'malaise',
            'anorexia',
            'liver_big',
            'liver_firm',
            'spleen_palpable',
            'spiders',
            'ascities',
            'varices',
            'bilirubin',
            'alk_phosphate',
            'sgot',
            'albumin',
            'protime',
            'histology'
        ]

Definimos qué símbolo se usa en el conjunto de datos para expresar que no se conoce el valor, para ser utilizado en la carga de los datos en un _dataframe_ de Pandas.

In [3]:
missing_values = ['?']

Cargamos los datos en el _dataframe_ utilizando la URL, los nombres de los atributos definidos previamente e indicamos los símbolos a utilizar para interpretar que un valor es nulo o no está presente.

In [4]:
url = 'https://archive.ics.uci.edu/ml/machine-learning-databases/hepatitis/hepatitis.data'
df = pd.read_csv(url, names=names, na_values=missing_values)

Vamos a mostrar la información general proporcionada por el _dataframe_, donde podemos ver el número de entradas (ejemplos o instancias), los atributos, el tipo de dato de cada atributo y los valores no nulos, aunque luego mostraremos más información respecto de los valores nulos.

In [5]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 155 entries, 0 to 154
Data columns (total 20 columns):
 #   Column           Non-Null Count  Dtype  
---  ------           --------------  -----  
 0   class            155 non-null    int64  
 1   age              155 non-null    int64  
 2   sex              155 non-null    int64  
 3   steroid          154 non-null    float64
 4   antivirals       155 non-null    int64  
 5   fatigue          154 non-null    float64
 6   malaise          154 non-null    float64
 7   anorexia         154 non-null    float64
 8   liver_big        145 non-null    float64
 9   liver_firm       144 non-null    float64
 10  spleen_palpable  150 non-null    float64
 11  spiders          150 non-null    float64
 12  ascities         150 non-null    float64
 13  varices          150 non-null    float64
 14  bilirubin        149 non-null    float64
 15  alk_phosphate    126 non-null    float64
 16  sgot             151 non-null    float64
 17  albumin         

Vamos a mostrar las primeras instancias para ver qué forma tienen.

In [6]:
df.head()

Unnamed: 0,class,age,sex,steroid,antivirals,fatigue,malaise,anorexia,liver_big,liver_firm,spleen_palpable,spiders,ascities,varices,bilirubin,alk_phosphate,sgot,albumin,protime,histology
0,2,30,2,1.0,2,2.0,2.0,2.0,1.0,2.0,2.0,2.0,2.0,2.0,1.0,85.0,18.0,4.0,,1
1,2,50,1,1.0,2,1.0,2.0,2.0,1.0,2.0,2.0,2.0,2.0,2.0,0.9,135.0,42.0,3.5,,1
2,2,78,1,2.0,2,1.0,2.0,2.0,2.0,2.0,2.0,2.0,2.0,2.0,0.7,96.0,32.0,4.0,,1
3,2,31,1,,1,2.0,2.0,2.0,2.0,2.0,2.0,2.0,2.0,2.0,0.7,46.0,52.0,4.0,80.0,1
4,2,34,1,2.0,2,2.0,2.0,2.0,2.0,2.0,2.0,2.0,2.0,2.0,1.0,,200.0,4.0,,1


Además, vamos a ver la cantidad de valores nulos por atributo.

In [7]:
df.isnull().sum()

class               0
age                 0
sex                 0
steroid             1
antivirals          0
fatigue             1
malaise             1
anorexia            1
liver_big          10
liver_firm         11
spleen_palpable     5
spiders             5
ascities            5
varices             5
bilirubin           6
alk_phosphate      29
sgot                4
albumin            16
protime            67
histology           0
dtype: int64

A continuación, vamos a transformar el _dataframe_ en un array de Numpy, para posteriormente poder separar los atributos de los valores de clasificación en dos arrays separados, y vamos a mostrar la cantidad de instancias para cada clasificación.

In [8]:
X = df.to_numpy()
np.unique(X[:,0],return_counts=True)

(array([1., 2.]), array([ 32, 123]))

Vemos que no estamos ante un conjunto de datos balanceado, por lo que tenemos que tener cuidado con esto a la hora de realizar los experimentos.

Vamos a ver la forma del array de Numpy, así como, separar los datos en dos arrays:
* `X_data`: los atributos y sus instancias.
* `y_data`: la clasificación de cada instancia. 

In [9]:
X.shape

(155, 20)

In [10]:
X_data,y_data = X[:,0],X[:,1:]

print('X_data.shape:',X_data.shape)
print('y_data.shape',y_data.shape)

X_data.shape: (155,)
y_data.shape (155, 19)


## Procesado de los datos

En esta sección vamos a realizar el procesado de los datos que consiste en, por un lado, manipular las características o atributos para tratar los datos nulos, así como, tratar temas como los datos categóricos o el escalado de los valores numéricos, lo que mejorará el proceso de aprendizaje y clasificación de los modelos. Por otro lado, vamos a ver si podemos reducir la dimensionalidad considerando sólo aquellos atributos que permitan clasificar, lo que mejorará el rendimiento de los modelos.
