<a href="https://colab.research.google.com/github/dtoralg/IE_Calidad_ML/blob/main/Ejercicios/Errores_Frecuentes_Programacion_ML.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Errores frecuentes en Machine Learning con Python


En cuaderno resumo los errores más comunes que me he encontrado al programar en Python para proyectos de Machine Learning.

Esta lista no es extensiva, existen muchos otros errores que pueden surgir durante la programación de aprendizaje automático. Si encuentras algún error no contenido aquí, te recomiendo que:

*   Revises documentación de las funciones, puede que encuentres las razones del fallo, aunque este proceso puede ser largo y muy técnico.
*   Busques el código de error en Google. Casi con total seguridad exista algún post en StackOverflow en el que ya han resuelto esa duda.
*   ChatGPT (también Claude, Gemini, etc) son buenas opciones para entender mejor las razones de fallo al programar. Puedes usar un prompt como el siguiente:

> Estoy recibiendo este error: `error tomado del output`
>
> Mi código: `copia la celda completa que ha dado el error`

Por ejemplo:

> Estoy recibiendo este error:
> "ValueError: Expected 2D array, got 1D array instead"
>
> Mi código:
> model.fit(df["Temperatura"], y)


## Error 1: Expected 2D array, got 1D array instead


### Descripción:
Esto sucede cuando se intenta entrenar un modelo con un array 1D (por ejemplo, una Series de Pandas) en lugar de una matriz 2D.

### Solución:
Usar doble corchete `[[ ]]` para asegurarse de que `X` sea una matriz 2D, incluso si solo tiene una columna.


In [None]:
# Incorrecto:
X = df["Temperatura"]  # Esto es una Serie (1D)
model.fit(X, y)        # ValueError

# Correcto:
X = df[["Temperatura"]]  # Esto es un DataFrame (2D)
model.fit(X, y)

## Error 2: Unknown label type: 'continuous'


### Descripción:
Intentar aplicar un modelo de clasificación sobre una variable objetivo continua.

### Solución:
Convertir la variable `y` a una clase discreta (por ejemplo, usando 0 y 1) o usar un modelo de regresión en su lugar.


In [None]:
# Incorrecto: usar clasificación con un objetivo continuo
from sklearn.linear_model import LogisticRegression
model = LogisticRegression()
y = df["Precio"]  # Valor continuo
model.fit(X, y)  # Error

# Correcto: convertir a clasificación binaria si tiene sentido
y = (df["Precio"] > 1000).astype(int)  # Ahora es 0 o 1
model.fit(X, y)

## Error 3: Input contains NaN, infinity or a value too large


### Descripción:
Ocurre cuando los datos contienen valores nulos (NaN), infinitos o números extremos.

### Solución:
Revisar y limpiar los datos antes de entrenar.


In [None]:
# Comprobar si hay valores nulos
df.isnull().sum()

# Solución: eliminar o imputar
df = df.dropna()  # Eliminar filas con NaN
# o
df = df.fillna(0)  # Imputar con cero (según el contexto)

## Error 4: y_true and y_pred have different number of samples


### Descripción:
Esto ocurre al evaluar un modelo con `y_test` e `y_pred` de longitudes diferentes.

### Solución:
Verificar que las predicciones se hayan realizado exactamente sobre `X_test`.


In [None]:
# Verificar las longitudes
print(len(y_test), len(y_pred))

# Asegurarse de predecir sobre X_test, no sobre X_train
y_pred = model.predict(X_test)

## Error 5: Found input variables with inconsistent numbers of samples


### Descripción:
Ocurre cuando `X` e `y` no tienen el mismo número de filas.

### Solución:
Comprobar las formas (`.shape`) antes de dividir o entrenar.


In [None]:
print(X.shape)
print(y.shape)

# Si son diferentes, revisar qué ocurrió antes (por ejemplo, un filtro aplicado solo a X o y)

## Error 6: NotFittedError - Este modelo aún no ha sido entrenado


### Descripción:
Este error aparece al intentar predecir o transformar datos con un modelo que aún no ha sido entrenado con `.fit()`.

### Solución:
Asegúrate de entrenar el modelo antes de usar `.predict()` o `.transform()`.


In [None]:
from sklearn.linear_model import LogisticRegression
model = LogisticRegression()
# y_pred = model.predict(X)  # Error: el modelo aún no ha sido entrenado
model.fit(X_train, y_train)
y_pred = model.predict(X_test)

## Error 7: AttributeError: 'numpy.ndarray' object has no attribute 'values'


### Descripción:
Intentar usar `.values` en un objeto que ya es un array de NumPy.

### Solución:
No uses `.values` si ya estás trabajando con arrays.


In [None]:
import numpy as np
arr = np.array([1, 2, 3])
# arr.values  # Error
print(arr)  # Correcto

## Error 8: KeyError - Columna no encontrada


### Descripción:
Ocurre cuando se intenta acceder a una columna que no existe en el DataFrame.

### Solución:
Verificar el nombre exacto con `df.columns`.


In [None]:
print(df.columns)  # Revisa qué columnas hay
# df["Estadoo"]  # Error: columna mal escrita
df["Estado"]  # Correcto

## Error 9: ValueError: operands could not be broadcast together


### Descripción:
Ocurre cuando intentas operar entre arrays de diferente forma (`shape`).

### Solución:
Asegúrate de que los arrays tengan la misma dimensión o sean compatibles para operaciones.


In [None]:
import numpy as np
a = np.array([1, 2, 3])
b = np.array([[1], [2], [3]])
# a + b  # Error
a.reshape(-1, 1) + b  # Correcto

## Error 10: Confusión entre clasificación binaria y multiclase


### Descripción:
Usar `softmax` y `categorical_crossentropy` cuando solo hay 2 clases, o usar `sigmoid` con `categorical_crossentropy`.

### Solución:
- Para clasificación binaria: 1 neurona + `sigmoid` + `binary_crossentropy`
- Para multiclase: n neuronas + `softmax` + `categorical_crossentropy`


In [None]:
# Clasificación binaria
model.add(Dense(1, activation='sigmoid'))
model.compile(loss='binary_crossentropy', optimizer='adam')

# Clasificación multiclase
model.add(Dense(3, activation='softmax'))
model.compile(loss='categorical_crossentropy', optimizer='adam')

## Error 11: Tipos incompatibles en operaciones con Pandas


### Descripción:
Al realizar operaciones con columnas categóricas no convertidas a numéricas.

### Solución:
Usar `LabelEncoder` o `get_dummies()` antes de aplicar operaciones o modelos.


In [None]:
# Error al operar con columnas tipo objeto
# df["Categoria"] * 2  # Error si es texto

# Solución
df["Categoria_cod"] = LabelEncoder().fit_transform(df["Categoria"])
df["Categoria_cod"] * 2

## Error 12: Entrenamiento con clases muy desbalanceadas


### Descripción:
Si una clase aparece mucho más que la otra, el modelo puede aprender a ignorar la clase minoritaria.

### Solución:
Usar técnicas de rebalanceo como `class_weight='balanced'` o `SMOTE`.


In [None]:
from sklearn.linear_model import LogisticRegression
model = LogisticRegression(class_weight='balanced')

## Error 13: Usar métricas binarias en clasificación multiclase


### Descripción:
Usar `precision_score`, `recall_score`, etc. sin especificar `average='macro'` o `average='weighted'` en clasificación multiclase.

### Solución:
Indicar el tipo de promedio al evaluar modelos multiclase.


In [None]:
from sklearn.metrics import precision_score
# precision_score(y_test, y_pred)  # Error en multiclase

precision_score(y_test, y_pred, average='macro')  # Correcto

## Error 14: Formato incorrecto de entrada en redes neuronales


### Descripción:
Error al alimentar datos con forma incorrecta en `Keras`. Las redes esperan una matriz 2D (`(n_muestras, n_features)`).

### Solución:
Verifica la forma de `X` con `.shape` antes de pasarlo al modelo.


In [None]:
print(X_train.shape)  # (n_muestras, n_features)
model.fit(X_train, y_train)

## Error 15: Resultados diferentes cada vez que entrenas


### Descripción:
Los modelos de ML pueden tener aleatoriedad si no fijas la semilla (`random_state`).

### Solución:
Usa `random_state` en todos los métodos que lo permitan.


In [None]:
from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(X, y, random_state=42)

model = RandomForestClassifier(random_state=42)