In [57]:
import pandas as pd

In [58]:
df = pd.read_csv('customer_data.csv')
df.head(5)

Unnamed: 0,CustomerID,Gender,Age,Income,City
0,1,Male,25,50000,New York
1,2,Female,30,60000,Los Angeles
2,3,Male,35,70000,Chicago
3,4,Female,40,80000,New York
4,5,Male,22,45000,Los Angeles


In [59]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 10 entries, 0 to 9
Data columns (total 5 columns):
 #   Column      Non-Null Count  Dtype 
---  ------      --------------  ----- 
 0   CustomerID  10 non-null     int64 
 1   Gender      10 non-null     object
 2   Age         10 non-null     int64 
 3   Income      10 non-null     int64 
 4   City        10 non-null     object
dtypes: int64(3), object(2)
memory usage: 532.0+ bytes


In [60]:
# Check for missing values
print("Missing values before dropping:")
print(df.isnull().sum())

# Drop rows with missing values
df_cleaned = df.dropna()

print("\nMissing values after dropping:")
print(df_cleaned.isnull().sum())

display(df_cleaned.head())

Missing values before dropping:
CustomerID    0
Gender        0
Age           0
Income        0
City          0
dtype: int64

Missing values after dropping:
CustomerID    0
Gender        0
Age           0
Income        0
City          0
dtype: int64


Unnamed: 0,CustomerID,Gender,Age,Income,City
0,1,Male,25,50000,New York
1,2,Female,30,60000,Los Angeles
2,3,Male,35,70000,Chicago
3,4,Female,40,80000,New York
4,5,Male,22,45000,Los Angeles


In [61]:
df = df.drop('CustomerID',axis=1)
df.head()

Unnamed: 0,Gender,Age,Income,City
0,Male,25,50000,New York
1,Female,30,60000,Los Angeles
2,Male,35,70000,Chicago
3,Female,40,80000,New York
4,Male,22,45000,Los Angeles


In [62]:
from sklearn.preprocessing import LabelEncoder

le = LabelEncoder()
df['Gender'] = le.fit_transform(df['Gender']) #Salen Male 1, y Female 0
df.head()

Unnamed: 0,Gender,Age,Income,City
0,1,25,50000,New York
1,0,30,60000,Los Angeles
2,1,35,70000,Chicago
3,0,40,80000,New York
4,1,22,45000,Los Angeles


In [63]:
from sklearn.preprocessing import OneHotEncoder

ohe = OneHotEncoder()
df_ohe = ohe.fit_transform(df[['City']]).toarray()
df_ohe

array([[0., 0., 1.],
       [0., 1., 0.],
       [1., 0., 0.],
       [0., 0., 1.],
       [0., 1., 0.],
       [1., 0., 0.],
       [0., 0., 1.],
       [0., 1., 0.],
       [1., 0., 0.],
       [0., 0., 1.]])

In [64]:
from sklearn.preprocessing import MinMaxScaler, StandardScaler
import pandas as pd

# Assuming df is the DataFrame before the 'City' column was replaced by the array
# Select the 'Income' column and reshape it to a 2D array
income_column = df[['Income']]

# Initialize StandardScaler
scaler = StandardScaler()

# Fit and transform the 'Income' column
df_StandardScaler = scaler.fit_transform(income_column)
display(df_StandardScaler)

array([[-1.09881309],
       [-0.40336177],
       [ 0.29208956],
       [ 0.98754088],
       [-1.44653875],
       [-0.75108743],
       [-0.05563611],
       [ 1.33526654],
       [ 1.6829922 ],
       [-0.54245203]])

In [66]:
scaler = MinMaxScaler()
df_MinMaxScaler = scaler.fit_transform(df[['Age']])
display(df_MinMaxScaler)

array([[0.10714286],
       [0.28571429],
       [0.46428571],
       [0.64285714],
       [0.        ],
       [0.21428571],
       [0.39285714],
       [0.82142857],
       [1.        ],
       [0.17857143]])

Hablemos de las diferencias entre el Escalado Min-Max y el Escalado Estándar y cuándo usar cada uno.

**Escalado Min-Max (Normalización):**

*   **Cómo funciona:** Esta técnica escala los datos a un rango fijo, generalmente entre 0 y 1. Resta el valor mínimo de una característica y divide por el rango (máximo - mínimo).
*   **Fórmula:** $X_{escalado} = \frac{X - X_{min}}{X_{max} - X_{min}}$
*   **Efecto en los datos:** Preserva las relaciones relativas entre los puntos de datos y no cambia la forma de la distribución. Sin embargo, es sensible a los valores atípicos (outliers), ya que estos influirán en los valores mínimo y máximo y comprimirán el rango de la mayoría de los datos.
*   **Cuándo usar:**
    *   Cuando necesitas que los datos estén dentro de un rango específico (por ejemplo, para algoritmos que son sensibles a la escala de las características de entrada como las redes neuronales).
    *   Cuando la distribución de los datos no es Gaussiana (normal).
    *   Cuando tienes tareas de procesamiento de imágenes donde los valores de los píxeles se escalan a un rango específico.

**Escalado Estándar (Estandarización):**

*   **Cómo funciona:** Esta técnica escala los datos para tener una media de 0 y una desviación estándar de 1. Resta la media de una característica y divide por su desviación estándar.
*   **Fórmula:** $X_{escalado} = \frac{X - \mu}{\sigma}$
    *   $\mu$ es la media de la característica.
    *   $\sigma$ es la desviación estándar de la característica.
*   **Efecto en los datos:** Centra los datos alrededor de 0 y los escala según su dispersión. Es menos sensible a los valores atípicos que el Escalado Min-Max porque utiliza la media y la desviación estándar, que se ven menos afectadas por los valores extremos en comparación con el mínimo y el máximo. Asume que los datos están distribuidos normalmente, aunque aún puede ser útil para datos que no son estrictamente Gaussianos.
*   **Cuándo usar:**
    *   Cuando los datos siguen una distribución Gaussiana (normal) o son aproximadamente Gaussianos.
    *   Cuando se utilizan algoritmos que asumen que las características están centradas alrededor de cero y tienen varianzas similares (por ejemplo, Máquinas de Soporte Vectorial, Regresión Lineal, Regresión Logística, K-Means).
    *   Cuando se trabaja con algoritmos que utilizan métricas de distancia, ya que evita que las características con escalas más grandes dominen los cálculos de distancia.

**Diferencias Clave Resumidas:**

| Característica      | Escalado Min-Max                 | Escalado Estándar                  |
| :------------------ | :------------------------------- | :--------------------------------- |
| Rango de Salida     | Rango fijo (generalmente 0 a 1)  | Sin rango fijo (media=0, desv. est.=1) |
| Sensibilidad a Atípicos | Altamente sensible               | Menos sensible                     |
| Distribución de Datos | Sin suposición sobre distribución | Asume o se beneficia de la Gaussiana |
| Fórmula             | Usa min y max                   | Usa media y desviación estándar    |

En general, el Escalado Estándar suele ser la opción predeterminada a menos que haya una razón específica para usar el Escalado Min-Max, como cuando se requiere un rango de salida específico o cuando se sabe que el algoritmo utilizado funciona mejor con datos escalados a un rango fijo. A menudo es una buena práctica probar ambos y ver cuál produce mejores resultados para tu tarea y modelo específicos.

Hablemos de las diferencias entre las distancias Manhattan, Euclidiana y Minkowski.

**Distancia Manhattan (o Distancia City Block):**

*   **Cómo se calcula:** Es la suma de las diferencias absolutas entre las coordenadas de dos puntos en un espacio. Imagina que solo puedes moverte horizontal o verticalmente en una cuadrícula, como en las calles de Manhattan.
*   **Fórmula:** $D_{Manhattan}(P, Q) = \sum_{i=1}^{n} |p_i - q_i|$
*   **Interpretación:** Mide la distancia "en línea recta" si solo te permitieran moverte en ángulos rectos. Es menos sensible a los valores atípicos que la distancia euclidiana porque no eleva al cuadrado las diferencias.

**Distancia Euclidiana:**

*   **Cómo se calcula:** Es la distancia en línea recta entre dos puntos en un espacio euclidiano. Se calcula como la raíz cuadrada de la suma de las diferencias cuadradas entre las coordenadas de los puntos.
*   **Fórmula:** $D_{Euclidiana}(P, Q) = \sqrt{\sum_{i=1}^{n} (p_i - q_i)^2}$
*   **Interpretación:** Es la distancia más intuitiva, la que usaríamos en la vida cotidiana. Es sensible a los valores atípicos debido al cuadrado de las diferencias.

**Distancia Minkowski:**

*   **Cómo se calcula:** Es una métrica de distancia generalizada que incluye la distancia Manhattan y la distancia Euclidiana como casos especiales. Se define por un parámetro `p`.
*   **Fórmula:** $D_{Minkowski}(P, Q) = (\sum_{i=1}^{n} |p_i - q_i|^p)^{1/p}$
*   **Casos especiales:**
    *   Cuando $p=1$, la Distancia Minkowski es igual a la Distancia Manhattan.
    *   Cuando $p=2$, la Distancia Minkowski es igual a la Distancia Euclidiana.

**¿Qué información adicional proporciona la Distancia Minkowski con p=3?**

La Distancia Minkowski con $p=3$ es una métrica intermedia entre la distancia Manhattan y la distancia Euclidiana. Al usar $p=3$, le damos más peso a las diferencias más grandes entre las coordenadas de los puntos en comparación con la distancia Manhattan ($p=1$), pero menos peso que la distancia Euclidiana ($p=2$).

En general, al aumentar el valor de `p` en la distancia Minkowski:

*   Se da más importancia a las dimensiones donde los puntos tienen mayores diferencias.
*   La distancia se vuelve más influenciada por la mayor diferencia entre cualquier par de coordenadas.

Usar $p=3$ en la distancia Minkowski significa que las diferencias al cubo se suman y luego se toma la raíz cúbica. Esto hace que las diferencias más grandes entre las coordenadas tengan un impacto más significativo en la distancia final que con la distancia Euclidiana o Manhattan. Puede ser útil en situaciones donde las grandes diferencias en una sola dimensión son particularmente importantes para la métrica de distancia que se desea capturar.

Hablemos sobre cuándo es apropiado usar Label Encoding y One-Hot Encoding en problemas de Machine Learning.

**Label Encoding:**

*   **Cómo funciona:** Asigna un valor numérico único a cada categoría en una columna categórica. Por ejemplo, si tienes una columna "Color" con categorías "Rojo", "Verde" y "Azul", Label Encoding podría asignarlas como 0, 1 y 2 respectivamente.
*   **Cuándo usar:**
    *   **Variables Categóricas Ordinales:** Es más adecuado cuando las categorías tienen un orden intrínseco o jerarquía. Por ejemplo, si tienes una columna "Nivel Educativo" con categorías "Primaria", "Secundaria", "Universidad", hay un orden claro. Aplicar Label Encoding en este caso preserva esta relación ordinal.
    *   **Cuando el modelo de ML puede manejar relaciones ordinales:** Algunos algoritmos de Machine Learning (como árboles de decisión y modelos basados en árboles) pueden trabajar directamente con variables codificadas con Label Encoding y beneficiarse de la relación ordinal implícita.
    *   **Cuando el número de categorías es muy grande:** Si tienes una columna con una gran cantidad de categorías únicas, One-Hot Encoding crearía una gran cantidad de nuevas columnas, lo que podría aumentar la dimensionalidad del conjunto de datos de manera significativa (el "problema de la maldición de la dimensionalidad"). En estos casos, Label Encoding podría ser una opción si no hay una relación ordinal fuerte, aunque se debe tener cuidado ya que el modelo podría interpretar una relación numérica donde no la hay.

*   **Precauciones:**
    *   **No usar en variables nominales:** Si las categorías no tienen un orden (por ejemplo, nombres de ciudades, colores), Label Encoding puede introducir una relación numérica artificial que el modelo podría interpretar incorrectamente, asumiendo que hay una relación de "mayor que" o "menor que" entre las categorías. Esto puede llevar a resultados inesperados o incorrectos, especialmente en algoritmos que calculan distancias (como K-Means, SVM con kernels lineales, Regresión Lineal).

**One-Hot Encoding:**

*   **Cómo funciona:** Crea nuevas columnas binarias (0 o 1) para cada categoría única en la columna original. Si un ejemplo pertenece a una categoría, la columna correspondiente tendrá un 1 y las demás tendrán un 0. Por ejemplo, para la columna "Color" ("Rojo", "Verde", "Azul"), se crearían tres nuevas columnas: "Color\_Rojo", "Color\_Verde", "Color\_Azul".
*   **Cuándo usar:**
    *   **Variables Categóricas Nominales:** Es la técnica recomendada cuando las categorías no tienen un orden intrínseco. One-Hot Encoding evita que el modelo interprete una relación ordinal artificial entre las categorías.
    *   **Para la mayoría de los modelos de ML:** La mayoría de los algoritmos de Machine Learning funcionan mejor con datos que no tienen relaciones ordinales artificiales introducidas por la codificación. Esto incluye algoritmos basados en distancias, modelos lineales y redes neuronales.
    *   **Cuando el número de categorías no es excesivamente grande:** Si el número de categorías es manejable, One-Hot Encoding es una forma segura de representar variables categóricas nominales sin introducir sesgos.

*   **Precauciones:**
    *   **Problema de la multicolinealidad (Dummy Variable Trap):** Si incluyes todas las columnas binarias creadas por One-Hot Encoding, puede haber una dependencia lineal perfecta entre ellas (si conoces los valores de n-1 columnas, puedes deducir el valor de la enésima columna). Esto puede causar problemas en algunos modelos lineales. La solución común es eliminar una de las columnas binarias. Scikit-learn's `OneHotEncoder` maneja esto por defecto si configuras `drop='first'`.
    *   **Aumento de la dimensionalidad:** Para columnas con muchas categorías únicas, One-Hot Encoding puede crear un conjunto de datos muy disperso y de alta dimensión, lo que puede afectar el rendimiento y el tiempo de entrenamiento de algunos modelos.

**En resumen:**

*   Usa **Label Encoding** para variables categóricas **ordinales** o cuando el número de categorías es muy grande y el modelo puede manejar la relación ordinal.
*   Usa **One-Hot Encoding** para variables categóricas **nominales** (sin orden) y para la mayoría de los modelos de Machine Learning, teniendo en cuenta el número de categorías para evitar una dimensionalidad excesiva.