Datos
=====

Tenemos a nuestra disposición 4 conjuntos de datos para trabajar sobre el problema. Estos son:

- cleveland.data: 
    - **Origen**: Cleveland Clinic Foundation.
    - **Ejemplos**: 303
- hungarian.data: 
    - **Origen**: Hungarian Institute of Cardiology, Budapest
    - **Ejemplos**: 294
- switzerland.data: 
    - **Origen**: University Hospital, Zurich, Switzerland
    - **Ejemplos**: 123
- long-beach-va.data: 
    - **Origen**: V.A. Medical Center, Long Beach, CA
    - **Ejemplos**: 200

Estos datos fueron recolectados por:

- Hungarian Institute of Cardiology. Budapest: Andras Janosi, M.D.
- University Hospital, Zurich, Switzerland: William Steinbrunn, M.D.
- University Hospital, Basel, Switzerland: Matthias Pfisterer, M.D.
- V.A. Medical Center, Long Beach and Cleveland Clinic Foundation: Robert Detrano, M.D., Ph.D.

A solicitud de los autores, se requiere que cualquier publicación que utilice estos datos, incluya las anteriores atribuciones.

## Presentación de los Datos

Los datos están en formato de archivo de texto plano, con extensión `.data`. Cada ejemplo tiene sus atributos separados por espacios, y se incluyen saltos de linea dentro de cada ejemplo, por lo que se precisa de un poco de procesamiento para poder leerlos.

In [56]:
import pandas as pd
import numpy as np

files = ['cleveland.data', 'hungarian.data', 'switzerland.data', 'long-beach-va.data']
datasets: dict[pd.DataFrame] = {}

columns = [
    ('id', 'Int64'),
    ('ccf', 'Int64'),
    ('age', 'Int64'),
    ('sex', 'category'),
    ('painloc', 'category'),
    ('painexer', 'category'),
    ('relrest', 'category'),
    ('pncaden', 'category'),
    ('cp', 'category'),
    ('trestbps', 'float'),
    ('htn', 'object'),
    ('chol', 'float'),
    ('smoke', 'category'),
    ('cigs', 'Int64'),
    ('years', 'Int64'),
    ('fbs', 'category'),
    ('dm', 'category'),
    ('famhist', 'category'),
    ('restecg', 'category'),
    ('ekgmo', 'Int64'),
    ('ekgday', 'Int64'),
    ('ekgyr', 'Int64'),
    ('dig', 'category'),
    ('prop', 'category'),
    ('nitr', 'category'),
    ('pro', 'category'),
    ('diuretic', 'category'),
    ('proto', 'category'),
    ('thaldur', 'float'),
    ('thaltime', 'float'),
    ('met', 'float'),
    ('thalach', 'float'),
    ('thalrest', 'float'),
    ('tpeakbps', 'float'),
    ('tpeakbpd', 'float'),
    ('dummy', 'object'),
    ('trestbpd', 'float'),
    ('exang', 'category'),
    ('xhypo', 'category'),
    ('oldpeak', 'float'),
    ('slope', 'category'),
    ('rldv5', 'float'),
    ('rldv5e', 'float'),
    ('ca', 'Int64'),
    ('restckm', 'object'),
    ('exerckm', 'object'),
    ('restef', 'float'),
    ('restwm', 'category'),
    ('exeref', 'float'),
    ('exerwm', 'float'),
    ('thal', 'category'),
    ('thalsev', 'object'),
    ('thalpul', 'object'),
    ('earlobe', 'object'),
    ('cmo', 'Int64'),
    ('cday', 'Int64'),
    ('cyr', 'Int64'),
    ('num', 'category'),
    ('lmt', 'object'),
    ('ladprox', 'object'),
    ('laddist', 'object'),
    ('diag', 'object'),
    ('cxmain', 'object'),
    ('ramus', 'object'),
    ('om1', 'object'),
    ('om2', 'object'),
    ('rcaprox', 'object'),
    ('rcadist', 'object'),
    ('lvx1', 'object'),
    ('lvx2', 'object'),
    ('lvx3', 'object'),
    ('lvx4', 'object'),
    ('lvf', 'object'),
    ('cathef', 'object'),
    ('junk', 'object'),
    ('name', 'string')
]

for file in files:
    with open(f'./datasets/originales/{file}', 'r', encoding='utf-8') as f:
        data = ''
        while True:
            try:
                char = f.read(1)
                if not char:
                    break
                data += char
            except:
                break

        data = data.replace('-9.', 'NaN')
        data = data.replace('-9', 'NaN')
        data = data.replace('\n', ' ')
        data = data.replace('name', 'name\n')
        data = data.split('\n')
        for i in range(len(data)):
            data[i] = data[i].split()
        data = [datum for datum in data if len(datum) == 76]
        dataset = pd.DataFrame(data)

        for i in range(len(dataset)):
            for j in range(len(dataset.columns)):
                if dataset[j][i] == 'NaN':
                    dataset[j][i] = np.nan

        for i in range(len(dataset.columns)):
            dataset[i] = dataset[i].astype(columns[i][1])

        dataset.columns = [column[0] for column in columns]

        dataset.fillna(np.nan)

        datasets[file] = dataset

print([ds.info() for ds in datasets.values()])

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 282 entries, 0 to 281
Data columns (total 76 columns):
 #   Column    Non-Null Count  Dtype   
---  ------    --------------  -----   
 0   id        282 non-null    Int64   
 1   ccf       282 non-null    Int64   
 2   age       282 non-null    Int64   
 3   sex       282 non-null    category
 4   painloc   0 non-null      category
 5   painexer  0 non-null      category
 6   relrest   0 non-null      category
 7   pncaden   0 non-null      category
 8   cp        282 non-null    category
 9   trestbps  282 non-null    float64 
 10  htn       282 non-null    object  
 11  chol      282 non-null    float64 
 12  smoke     0 non-null      category
 13  cigs      277 non-null    Int64   
 14  years     277 non-null    Int64   
 15  fbs       282 non-null    category
 16  dm        23 non-null     category
 17  famhist   282 non-null    category
 18  restecg   282 non-null    category
 19  ekgmo     282 non-null    Int64   
 20  ekgday    


## Descripción de los Datos

Dentro de cada conjunto de datos, cada línea representa un paciente. Cada línea contiene 76 atributos, separados por comas. El atributo objetivo es el numero 58, indicando con un numero entero de 0 a 4, la presencia de enfermedad cardíaca en el paciente, siendo 0 la ausencia. Existen varios ejemplos con valores faltantes en algunos atributos, esto es denotado por el numero -9.0. Existen varios atributos que no son usados directamente, o que contienen datos que fueron remplazados por valores falsos debido a contener información sensible. Igualmente, estos atributos son cosas como el nombre del paciente, o su número de seguridad social, aspectos que no son relevantes para el problema.

## Estadística

Exploremos los datos un poco, para ver sus características estadísticas. Para esto, usaremos la librería `pandas` de Python, que nos permite leer los datos de una manera muy sencilla, y nos permite hacer operaciones estadísticas sobre ellos.

In [53]:
pd.set_option('display.max_rows', None)

for name, dataset in datasets.items():
    statistic = pd.DataFrame([], index=['mean', 'std', 'min', 'max', 'median', 'mising'])
    for column in statistic.columns:
        statistic[column] = statistic[column].astype('float')

    for column in dataset.columns:
        if dataset[column].dtype in ('object', 'category', 'string'):
            statistic[column] = [np.nan] * 5 + [dataset[column].isna().sum()]
            continue

        if dataset[column].isna().all():
            statistic[column] = [np.nan] * 5 + [len(dataset[column])]
            continue

        statistic[column] = [
            dataset[column].mean(),
            dataset[column].std(),
            dataset[column].min(),
            dataset[column].max(),
            dataset[column].median(),
            np.isnan(dataset[column]).sum()
        ]
    statistic = statistic.T
    print(name)
    print(statistic)
    print('\n')

pd.set_option('display.max_rows', 10)

cleveland.data
                mean        std    min    max  median  mising
id        151.517730  87.131234    1.0  298.0   151.5     0.0
ccf         0.000000   0.000000    0.0    0.0     0.0     0.0
age        54.411348   9.053083   29.0   77.0    55.0     0.0
sex              NaN        NaN    NaN    NaN     NaN     0.0
painloc          NaN        NaN    NaN    NaN     NaN   282.0
painexer         NaN        NaN    NaN    NaN     NaN   282.0
relrest          NaN        NaN    NaN    NaN     NaN   282.0
pncaden          NaN        NaN    NaN    NaN     NaN   282.0
cp               NaN        NaN    NaN    NaN     NaN     0.0
trestbps  131.563830  17.757496   94.0  200.0   130.0     0.0
htn              NaN        NaN    NaN    NaN     NaN     0.0
chol      249.092199  51.217546  126.0  564.0   244.0     0.0
smoke            NaN        NaN    NaN    NaN     NaN   282.0
cigs       16.920578  19.451934    0.0   99.0    10.0     0.0
years      15.259928  15.367867    0.0   54.0    15.0  

## Exportación de los Datos

Dentro de este articulo, hemos leído los datos y hemos realizado un procesamiento preliminar donde hemos eliminado datos inválidos, y hemos convertido los datos a un formato que es más fácil de leer. Para futuro proceso, tanto en Python como en RapidMiner, es más sencillo trabajar con los datos en formato CSV, por lo que exportaremos los datos a este formato.

In [54]:
import warnings
warnings.simplefilter(action='ignore', category=FutureWarning)

for name, dataset in datasets.items():
    dataset.insert(0, 'dataset', name)

full_dataset = pd.concat(datasets.values())

full_dataset.to_csv(f'./datasets/procesados/full.csv', index=False, encoding='utf-8', header=True)

## Seleccion de Algoritmo

Analizando los datos nos encontramos con que tenemos un problema de clasificación, donde tenemos que predecir la presencia de enfermedad cardíaca en un paciente. La variable de salida es categórica, y tiene 2 posibles valores: 0 y 1. Dadas estas características, podemos considerar de los algoritmos vistos lo siguiente:

- **Regresión lineal**: No es un algoritmo adecuado para este problema, ya que la variable de salida es categórica, y no continua.
- **Regresión logística**: Se trata de un problema de clasificación de 5 clases, pero como solo nos importa la ausencia o no de enfermedad cardíaca, podemos utilizarlo. Requiere convertir la variable de salida a una variable binaria.
- **Análisis discriminante lineal**: Utilizado mayormente para problemas de clasificación multiclase, lo cual se acerca mas al problema sin necesidad de convertir la variable de salida. Pero como solo nos importa la ausencia o no de enfermedad cardíaca, el problema se reduce a un problema de clasificación binaria. Sigue siendo posible utilizarlo, dado que 2 clases es un caso especial de N clases.
- **kNN**: Este algoritmo es adecuado para el problema, ya que es un problema de clasificación, y la variable de salida es categórica.
- **Bayesiano ingenuo**: Debido a la presencia de atributos continuos, este algoritmo solo podria ser utilizado si se discretizan los datos.

Con estas consideraciones, estudiaremos la creación de un modelo utilizando el algoritmo de regresión logística, tanto en Python como en RapidMiner.