In [1]:
import pandas as pd
from sklearn.model_selection import train_test_split

In [2]:
pacientes = pd.read_csv("problemas_del_corazon.csv")

In [3]:
pacientes

Unnamed: 0,edad,genero,presion,colesterol,diabetico,cardiaco
0,53,0,128,216,0,1
1,53,0,138,234,0,1
2,51,0,130,256,0,1
3,66,1,120,302,0,1
4,62,1,130,231,0,1
...,...,...,...,...,...,...
95,57,1,128,229,0,0
96,61,1,120,260,0,0
97,39,1,118,219,0,0
98,61,0,145,307,0,0


In [4]:
X_entrenamiento, X_validacion, Y_entrenamiento, Y_validacion = train_test_split(
    pacientes[['edad', 'genero', 'presion', 'colesterol', 'diabetico']],
    pacientes['cardiaco'],
    test_size=0.20,
    random_state=42
    )

In [5]:
X_entrenamiento.head()

Unnamed: 0,edad,genero,presion,colesterol,diabetico
55,56,1,130,256,1
88,68,1,180,274,1
26,43,0,122,213,0
42,48,1,124,255,1
69,50,1,150,243,0


In [6]:
X_validacion.head()

Unnamed: 0,edad,genero,presion,colesterol,diabetico
83,62,1,120,267,0
53,63,1,130,254,0
70,44,1,112,290,0
45,54,0,132,288,1
44,52,1,138,223,0


In [7]:
Y_entrenamiento.head()

55    0
88    0
26    1
42    1
69    0
Name: cardiaco, dtype: int64

In [8]:
Y_validacion.head()

83    0
53    0
70    0
45    1
44    1
Name: cardiaco, dtype: int64

In [9]:
X_entrenamiento, X_prueba, Y_entrenamiento, Y_prueba = train_test_split(
    X_entrenamiento[['edad', 'genero', 'presion', 'colesterol', 'diabetico']],
    Y_entrenamiento,
    test_size=0.25,
    random_state=42
    )

In [10]:
X_entrenamiento.head()

Unnamed: 0,edad,genero,presion,colesterol,diabetico
72,54,1,124,266,0
1,53,0,138,234,0
15,41,1,135,203,0
68,58,1,112,230,0
8,48,1,122,222,0


In [11]:
X_prueba.head()

Unnamed: 0,edad,genero,presion,colesterol,diabetico
24,29,1,130,204,0
55,56,1,130,256,1
7,52,1,134,201,0
3,66,1,120,302,0
35,52,1,152,298,1


In [12]:
Y_entrenamiento.head()

72    0
1     1
15    1
68    0
8     1
Name: cardiaco, dtype: int64

In [13]:
Y_prueba.head()

24    1
55    0
7     1
3     1
35    1
Name: cardiaco, dtype: int64

# Entrenar y Evaluar Modelo

In [14]:
len(X_entrenamiento)

60

In [15]:
len(X_validacion)

20

In [16]:
len(Y_entrenamiento)

60

In [17]:
len(Y_validacion)

20

# Modelo Entrenado y Se Aplica Prueba

In [18]:
len(X_entrenamiento)

60

In [19]:
len(X_prueba)

20

In [20]:
len(Y_entrenamiento)

60

In [21]:
len(Y_prueba)

20

In [22]:
from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split
from sklearn.ensemble import RandomForestClassifier

# Cargar datos
data = load_iris()
X = data.data
y = data.target

# Dividir datos en entrenamiento y prueba
X_train, X_test, y_train, y_test = train_test_split(X, y, random_state=42)

# Crear un clasificador
model = RandomForestClassifier(random_state=42)

# Entrenar el modelo
model.fit(X_train, y_train)

# Evaluar el modelo
print("Precisión en el conjunto de prueba:", model.score(X_test, y_test))


Precisión en el conjunto de prueba: 1.0


In [23]:
from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import accuracy_score

# Cargar datos
data = load_iris()
X = data.data
y = data.target

# Dividir datos en entrenamiento y prueba
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Crear un estimador de Regresión Logística
model = LogisticRegression(max_iter=200)

# Ajustar el modelo a los datos de entrenamiento
model.fit(X_train, y_train)

# Hacer predicciones con el modelo
y_pred = model.predict(X_test)

# Evaluar el rendimiento del modelo
accuracy = accuracy_score(y_test, y_pred)
print("Precisión:", accuracy)


Precisión: 1.0


In [24]:
from sklearn.pipeline import Pipeline
from sklearn.impute import SimpleImputer
from sklearn.preprocessing import StandardScaler

num_pipeline = Pipeline([
    ("impute", SimpleImputer(strategy="median")),
    ("standardize", StandardScaler()),
])

In [25]:
# from sklearn.pipeline import make_pipeline

# num_pipeline = make_pipeline(SimpleImputer(strategy="median"), StandardScaler())

In [26]:
from sklearn import set_config

set_config(display='diagram')

num_pipeline

In [27]:
num_pipeline.fit(X_train)

In [28]:
# Importar las bibliotecas necesarias
import pandas as pd
from sklearn.pipeline import Pipeline
from sklearn.impute import SimpleImputer
from sklearn.preprocessing import StandardScaler
from sklearn.linear_model import LinearRegression
from sklearn.model_selection import train_test_split
from sklearn.metrics import mean_squared_error
from sklearn.datasets import load_diabetes  # Cambiado a load_diabetes

# Cargar un conjunto de datos de ejemplo
diabetes = load_diabetes()
X = pd.DataFrame(diabetes.data, columns=diabetes.feature_names)
y = pd.Series(diabetes.target, name='target')

# Dividir el conjunto de datos en entrenamiento y prueba
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Definir el pipeline
pipeline = Pipeline([
    ("impute", SimpleImputer(strategy="median")),  # Imputar valores faltantes con la mediana
    ("standardize", StandardScaler()),             # Estandarizar las características
    ("regressor", LinearRegression())              # Entrenar un modelo de regresión lineal
])

# Ajustar el pipeline con los datos de entrenamiento
pipeline.fit(X_train, y_train)

# Realizar predicciones en el conjunto de prueba
y_pred = pipeline.predict(X_test)

# Evaluar el modelo
mse = mean_squared_error(y_test, y_pred)
print(f"Error cuadrático medio: {mse}")

# Mostrar la estructura del pipeline
from sklearn import set_config
set_config(display='diagram')
pipeline

Error cuadrático medio: 2900.1936284934827


Vamos a desglosar y explicar el código paso a paso, línea por línea, de manera detallada y sencilla, para que cualquier persona, incluso sin experiencia, pueda entender qué hace cada parte.

### Función `column_ratio`

```python
def column_ratio(X):
    return X[:, [0]] / X[:, [1]]
```

- **Propósito**: Esta función calcula la proporción (ratio) entre dos columnas de un conjunto de datos.
- **Entrada**: `X` es una matriz de datos.
  - `X[:, [0]]` selecciona la primera columna de `X`.
  - `X[:, [1]]` selecciona la segunda columna de `X`.
- **Salida**: Devuelve una nueva matriz que contiene la división de los valores de la primera columna por los de la segunda columna. Esto es útil, por ejemplo, para calcular cuántas habitaciones hay por cada casa (`total_rooms / households`).

### Función `ratio_name`

```python
def ratio_name(function_transformer, feature_names_in):
    return ["ratio"]  # feature names out
```

- **Propósito**: Proporciona el nombre de la característica de salida para la transformación de proporción.
- **Entrada**:
  - `function_transformer`: El transformador que aplica la función `column_ratio`.
  - `feature_names_in`: Los nombres de las características de entrada.
- **Salida**: Devuelve una lista con un único nombre de característica, `["ratio"]`. Esto renombra la nueva columna creada por `column_ratio` como "ratio".

### Pipeline `ratio_pipeline`

```python
def ratio_pipeline():
    return make_pipeline(
        SimpleImputer(strategy="median"),
        FunctionTransformer(column_ratio, feature_names_out=ratio_name),
        StandardScaler())
```

- **Propósito**: Crea un pipeline que preprocesa los datos en varios pasos.
- **Pasos del Pipeline**:
  1. **`SimpleImputer(strategy="median")`**:
     - Rellena los valores faltantes en los datos con la mediana de la columna. Esto es útil para manejar datos incompletos.
  2. **`FunctionTransformer(column_ratio, feature_names_out=ratio_name)`**:
     - Aplica la función `column_ratio` para calcular la proporción entre las columnas especificadas.
     - Usa `ratio_name` para nombrar la nueva característica como "ratio".
  3. **`StandardScaler()`**:
     - Estandariza los datos para que tengan una media de 0 y una desviación estándar de 1. Esto es útil para normalizar los datos antes de usarlos en un modelo de machine learning.

### Pipeline `log_pipeline`

```python
log_pipeline = make_pipeline(
    SimpleImputer(strategy="median"),
    FunctionTransformer(np.log, feature_names_out="one-to-one"),
    StandardScaler())
```

- **Propósito**: Crea un pipeline que aplica una transformación logarítmica a los datos.
- **Pasos del Pipeline**:
  1. **`SimpleImputer(strategy="median")`**:
     - Rellena los valores faltantes con la mediana.
  2. **`FunctionTransformer(np.log, feature_names_out="one-to-one")`**:
     - Aplica la función logarítmica `np.log` a los datos, manteniendo los nombres de las características iguales.
     - La transformación logarítmica puede ayudar a manejar datos con una distribución sesgada.
  3. **`StandardScaler()`**:
     - Estandariza los datos.

### `ClusterSimilarity`

```python
cluster_simil = ClusterSimilarity(n_clusters=10, gamma=1., random_state=42)
```

- **Propósito**: Crea un transformador que agrupa los datos en clústeres y calcula la similitud de cada punto de datos a estos clústeres.
- **Parámetros**:
  - `n_clusters=10`: Número de clústeres a crear.
  - `gamma=1.`: Parámetro de ajuste para la similitud.
  - `random_state=42`: Asegura reproducibilidad en los resultados.

### Pipeline `default_num_pipeline`

```python
default_num_pipeline = make_pipeline(SimpleImputer(strategy="median"),
                                     StandardScaler())
```

- **Propósito**: Crea un pipeline para preprocesar columnas numéricas restantes.
- **Pasos del Pipeline**:
  1. **`SimpleImputer(strategy="median")`**:
     - Rellena los valores faltantes con la mediana.
  2. **`StandardScaler()`**:
     - Estandariza los datos.

### `ColumnTransformer` para Preprocesamiento

```python
preprocessing = ColumnTransformer([
        ("bedrooms", ratio_pipeline(), ["total_bedrooms", "total_rooms"]),
        ("rooms_per_house", ratio_pipeline(), ["total_rooms", "households"]),
        ("people_per_house", ratio_pipeline(), ["population", "households"]),
        ("log", log_pipeline, ["total_bedrooms", "total_rooms", "population",
                               "households", "median_income"]),
        ("geo", cluster_simil, ["latitude", "longitude"]),
        ("cat", cat_pipeline, make_column_selector(dtype_include=object)),
    ],
    remainder=default_num_pipeline)  # one column remaining: housing_median_age
```

- **Propósito**: Crea un `ColumnTransformer` que aplica diferentes transformaciones a diferentes columnas de datos.
- **Transformaciones Específicas**:
  - **`("bedrooms", ratio_pipeline(), ["total_bedrooms", "total_rooms"])`**:
    - Aplica `ratio_pipeline` para calcular la proporción entre `total_bedrooms` y `total_rooms`.
  - **`("rooms_per_house", ratio_pipeline(), ["total_rooms", "households"])`**:
    - Aplica `ratio_pipeline` para calcular la proporción entre `total_rooms` y `households`.
  - **`("people_per_house", ratio_pipeline(), ["population", "households"])`**:
    - Aplica `ratio_pipeline` para calcular la proporción entre `population` y `households`.
  - **`("log", log_pipeline, ["total_bedrooms", "total_rooms", "population", "households", "median_income"])`**:
    - Aplica `log_pipeline` a varias características numéricas.
  - **`("geo", cluster_simil, ["latitude", "longitude"])`**:
    - Aplica `ClusterSimilarity` a las columnas `latitude` y `longitude` para obtener similitudes de clúster.
  - **`("cat", cat_pipeline, make_column_selector(dtype_include=object))`**:
    - Aplica un pipeline (no definido en el código proporcionado) para las columnas categóricas.
- **Columnas Restantes**:
  - **`remainder=default_num_pipeline`**:
    - Aplica `default_num_pipeline` a cualquier columna no especificada en las transformaciones anteriores, incluyendo `housing_median_age`.

### Resumen

El código configura un proceso de preprocesamiento complejo y detallado que incluye:

1. **Cálculo de Proporciones**: Calcula relaciones entre pares de columnas (e.g., habitaciones por casa).
2. **Transformación Logarítmica**: Aplica la función logarítmica para manejar distribuciones sesgadas.
3. **Similitud de Clústeres**: Agrupa puntos de datos y calcula similitudes.
4. **Manejo de Datos Faltantes**: Imputa valores faltantes utilizando la mediana.
5. **Estandarización**: Normaliza los datos para que tengan media 0 y desviación estándar 1.
6. **Transformación de Columnas Categóricas**: Aplica un pipeline específico para columnas categóricas.
7. **Procesamiento de Columnas Restantes**: Maneja cualquier columna no especificada usando un pipeline predeterminado.

Esta configuración asegura que todos los datos estén bien preparados y normalizados antes de ser utilizados en modelos de machine learning, mejorando así la calidad y la consistencia de los resultados del modelo.