<a href="https://colab.research.google.com/github/ricardogr07/trabajo-final-aprendizaje/blob/main/src/Analisis_ML_Workflow.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Análisis de dataset

## Importar librerías

In [None]:
# Correr esta celda unicamente si se hace desde Colab
%pip install pandas numpy ucimlrepo

!git clone https://github.com/ricardogr07/trabajo-final-aprendizaje.git
%cd trabajo-final-aprendizaje/src
from evaluation_functions import *

fatal: destination path 'trabajo-final-aprendizaje' already exists and is not an empty directory.
fatal: not a git repository (or any of the parent directories): .git
/content/trabajo-final-aprendizaje/src


In [None]:
# Manipulación y análisis de datos
import pandas as pd
import numpy as np


# Visualización de datos
import matplotlib.pyplot as plt
import matplotlib.colors as mcolors
import seaborn as sns

## Carga y Preprocesamiento de Datos

En esta sección se carga el conjunto de datos de los archivos .data que contiene información sobre enfermedades cardíacas, disponible en el repositorio de UCI Machine Learning. Las columnas del conjunto de datos se especifican manualmente ya que el archivo no tiene encabezados. El dataset contiene información sobre varios factores de riesgo y el objetivo es predecir la presencia de una enfermedad cardíaca (`target`).

### Carga del dataset

In [6]:
cleveland_data_file_path = '../dataset/cleveland.data'
hungarian_data_file_path = '../dataset/hungarian.data'
switzerland_data_file_path = '../dataset/switzerland.data'
va_data_file_path = '../dataset/va.data'

column_names = ['age', 'sex', 'cp', 'trestbps', 'chol', 'fbs', 'restecg', 'thalach', 'exang', 'oldpeak', 'slope', 'ca', 'thal', 'target']

# Cargar todos los datos y generar un solo dataframe
try:
    data_cleveland = pd.read_csv(cleveland_data_file_path, names = column_names)
    data_hungarian = pd.read_csv(hungarian_data_file_path, names = column_names)
    data_switzerland = pd.read_csv(switzerland_data_file_path, names = column_names)
    data_va = pd.read_csv(va_data_file_path, names = column_names)

    # Agregar location como parte de las variables, pues se usan las 4 bases de datos
    data_cleveland['location'] = 0
    data_hungarian['location'] = 1
    data_switzerland['location'] = 2
    data_va['location'] = 3

    df = pd.concat([data_cleveland, data_hungarian, data_switzerland, data_va], ignore_index=True)

except Exception as e:
    print(f"Error reading the file: {e}")


### Exploración inicial del dataset

En esta sección se realiza una inspección de la estructura del conjunto de datos para entender el tipo de variables con las que estamos trabajando. Se revisa la cantidad de entradas, los nombres de las columnas, los tipos de datos, y si hay valores faltantes. Es importante notar que algunas columnas tienen el tipo `object`, lo que indica que pueden contener valores categóricos o valores que no han sido correctamente identificados como numéricos.

In [7]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 920 entries, 0 to 919
Data columns (total 15 columns):
 #   Column    Non-Null Count  Dtype  
---  ------    --------------  -----  
 0   age       920 non-null    float64
 1   sex       920 non-null    float64
 2   cp        920 non-null    float64
 3   trestbps  920 non-null    object 
 4   chol      920 non-null    object 
 5   fbs       920 non-null    object 
 6   restecg   920 non-null    object 
 7   thalach   920 non-null    object 
 8   exang     920 non-null    object 
 9   oldpeak   920 non-null    object 
 10  slope     920 non-null    object 
 11  ca        920 non-null    object 
 12  thal      920 non-null    object 
 13  target    920 non-null    int64  
 14  location  920 non-null    int64  
dtypes: float64(3), int64(2), object(10)
memory usage: 107.9+ KB


In [8]:
for columna in df.columns:
    valores_unicos = df[columna].unique()
    print(f"Valores únicos en la columna '{columna}':")
    print(valores_unicos)
    print('\n')

Valores únicos en la columna 'age':
[63. 67. 37. 41. 56. 62. 57. 53. 44. 52. 48. 54. 49. 64. 58. 60. 50. 66.
 43. 40. 69. 59. 42. 55. 61. 65. 71. 51. 46. 45. 39. 68. 47. 34. 35. 29.
 70. 77. 38. 74. 76. 28. 30. 31. 32. 33. 36. 72. 73. 75.]


Valores únicos en la columna 'sex':
[1. 0.]


Valores únicos en la columna 'cp':
[1. 4. 3. 2.]


Valores únicos en la columna 'trestbps':
[145.0 160.0 120.0 130.0 140.0 172.0 150.0 110.0 132.0 117.0 135.0 112.0
 105.0 124.0 125.0 142.0 128.0 170.0 155.0 104.0 180.0 138.0 108.0 134.0
 122.0 115.0 118.0 100.0 200.0 94.0 165.0 102.0 152.0 101.0 126.0 174.0
 148.0 178.0 158.0 192.0 129.0 144.0 123.0 136.0 146.0 106.0 156.0 154.0
 114.0 164.0 '130' '120' '140' '170' '100' '105' '110' '125' '150' '98'
 '112' '145' '190' '160' '115' '142' '180' '132' '135' '?' '108' '124'
 '113' '122' '92' '118' '106' '200' '138' '136' '128' '155' '95' '165'
 '80' '185' '126' '152' '116' '0' '144' '154' '104' '134' '178' '146'
 '158' '102' '96' '172' '156' '114' '127']




Al examinar los valores únicos presentes en las columnas se descubre que existen múltiples columnas que contienen el valor '?' en lugar de un valor numérico. Este es un indicador de datos faltantes o incorrectos que deberán ser manejados antes de continuar con el análisis.
Adicionalmente, hay columnas que tienen como valor un `string` en lugar de un `int` o `float`, por lo que va a ser necesario estandarizar estos valores.

### Preprocesar Datos

## Análisis exploratorio de datos


## Selección de modelo usando técnicas de aprendizaje supervisado


### Selección de características


### Validación de balanceo de clases


### Selección de modelo supervisado


### Ajuste de hiperparámetros del modelo


### Evaluación del modelo seleccionado


## Análisis de clúster con aprendizaje no supervisado


### PCA


### Clustering
