# **Errores comunes al aprender Machine Learning**

¿Qué creen ustedes que se necesita para aprender Machine Learning? ¿Matemáticas, computadoras potentes, o algo más?

![image.png](attachment:5a3ccf63-1def-463f-8082-fc7e3dadeb23.png)

- 

## **Error 1: Creer que necesitas matemáticas avanzadas**

- Regresión Lineal
$$ y = \beta_0 + \beta_1 x_1 + \beta_2 x_2 + \dots + \beta_n x_n + \epsilon $$


- Regresión Logística
$$
P(Y=1|X) = \frac{1}{1 + e^{-(\beta_0 + \beta_1 x_1 + \beta_2 x_2 + \dots + \beta_n x_n)}}
$$



- Error Absoluto Medio (MAE)
$$ MAE = \frac{1}{n} \sum_{i=1}^{n} | y_i - \hat{y}_i | $$


- Error Cuadrático Medio (MSE)
$$ MSE = \frac{1}{n} \sum_{i=1}^{n} ( y_i - \hat{y}_i )^2 $$


La realidad:

- Los frameworks como scikit-learn, TensorFlow o PyTorch ya implementan la matemática.

- Lo importante al inicio es entender los conceptos:

    - ¿Qué es un modelo?

    - ¿Qué son datos de entrada y salida?

    - ¿Qué significa entrenar?

In [2]:
# importación de librerías
from sklearn.datasets import fetch_california_housing
import pandas as pd
# Cargar dataset de ejemplo
data = fetch_california_housing(as_frame=True)
df = data.frame

# Mostrar las primeras 5 filas
df.head()

Unnamed: 0,MedInc,HouseAge,AveRooms,AveBedrms,Population,AveOccup,Latitude,Longitude,MedHouseVal
0,8.3252,41.0,6.984127,1.02381,322.0,2.555556,37.88,-122.23,4.526
1,8.3014,21.0,6.238137,0.97188,2401.0,2.109842,37.86,-122.22,3.585
2,7.2574,52.0,8.288136,1.073446,496.0,2.80226,37.85,-122.24,3.521
3,5.6431,52.0,5.817352,1.073059,558.0,2.547945,37.85,-122.25,3.413
4,3.8462,52.0,6.281853,1.081081,565.0,2.181467,37.85,-122.25,3.422


## **Error 2: Pensar que se necesita una supercomputadora**

Mito: Necesitas una PC gamer con tarjeta gráfica costosa.

Realidad:

- Con Google Colab, cualquiera puede entrenar modelos gratis en la nube.

- Al inicio, datasets pequeños son suficientes para aprender.

- Computadoras potentes solo son necesarias para Big Data o Deep Learning muy grande.

In [5]:
# Modelo simple de Regresión Lineal
from sklearn.linear_model import LinearRegression

X = df.drop('MedHouseVal', axis=1) # Variable independiente
y = df['MedHouseVal'] # Variable dependiente

# Modelo predictivo
modelo = LinearRegression()
# Entrenando
modelo.fit(X, y)

0,1,2
,fit_intercept,True
,copy_X,True
,tol,1e-06
,n_jobs,
,positive,False


In [7]:
print('Coeficiente:', modelo.coef_)
print('Intercepto:', modelo.intercept_)

Coeficiente: [ 4.36693293e-01  9.43577803e-03 -1.07322041e-01  6.45065694e-01
 -3.97638942e-06 -3.78654265e-03 -4.21314378e-01 -4.34513755e-01]
Intercepto: -36.941920207184424


## **Error 3: Frustrarse si el modelo no predice perfecto**

La gente piensa que su modelo debe dar predicciones exactas.

Realidad:

- Un modelo siempre tendrá error.

- Lo importante es mejorar poco a poco:

    - Revisar los datos.

    - Probar diferentes variables.

    - Ajustar parámetros.

In [13]:
# Predecir con el modelo anterior
y_pred = modelo.predict(X)
print(y_pred) # Predicciones

[4.13164983 3.97660644 3.67657094 ... 0.17125141 0.31910524 0.51580363]


In [12]:
y.values # Datos reales

array([4.526, 3.585, 3.521, ..., 0.923, 0.847, 0.894], shape=(20640,))

In [14]:
# Evaluar con una metrica
from sklearn.metrics import mean_squared_error, mean_absolute_error
mae = mean_absolute_error(y, y_pred)

print('Error Absoluto Medio:', mae)

Error Absoluto Medio: 0.5311643817546473


In [15]:
0.5311643817546473 * 100000

53116.43817546473

In [16]:
4.13164983 * 100000

413164.98299999995

## **Otros errores comunes**
- Querer aprender todo de golpe

- Olvidar limpiar los datos (Pandas, Polars, PySpark)

- Compararse con expertos 