<a href="https://colab.research.google.com/github/calerovillalobos10/Label_Encoding_Python/blob/main/Grupo4_LabelEncoding.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

Explicarlo y mostrar la implementación. Mencionar restricciones, ventajas, desventajas

# Que es label encoding



Label Encoding es una técnica utilizada para convertir etiquetas de categorías en datos numéricos en Machine Learning. Específicamente, se aplica cuando tienes datos categóricos que necesitas transformar en un formato que los algoritmos de Machine Learning puedan procesar, ya que la mayoría de los algoritmos no trabajan directamente con datos categóricos.

# ¿Por qué se usa Label Encoding?

Muchos algoritmos de Machine Learning solo pueden manejar valores numéricos. Sin embargo, en muchos conjuntos de datos, hay variables categóricas (por ejemplo, colores, tipos de productos, géneros) que deben ser convertidas a números antes de ser utilizadas en un modelo. Label Encoding es una forma sencilla de hacer esta transformación.

# ¿Cómo funciona?

En Label Encoding, cada categoría única dentro de una columna es asignada a un número entero. Esta técnica es muy simple y convierte las categorías en secuencias de números enteros.

Ejemplo:
Supongamos que tienes una columna con los valores categóricos de colores:

# Restricciones de Label Encoding
*   Suposición de orden: Label Encoding induce una ordenación de las categorías que puede ser incorrecta en algunos contextos.
*   Peligro en algoritmos basados en distancias: Los modelos que dependen de distancias pueden interpretar incorrectamente las diferencias numéricas asignadas por Label Encoding.
*   No apto para tareas multiclase/multietiqueta: Label Encoding no puede representar adecuadamente observaciones que pertenezcan a múltiples categorías.
*   Sensibilidad a nuevas categorías: No puede manejar nuevas categorías no vistas durante el entrenamiento.
*   Problemas de escalabilidad: En conjuntos de datos con muchas categorías, puede generar un rango numérico amplio, lo que puede no ser manejable.
*   No apto para datos ordinales extremos: No maneja bien casos con grandes diferencias entre niveles ordinales.


# Ventajas
*  Simplicidad: Es facil de implementar ya que solo asigna un unico numero a cada categoria.
*  Uso de memoria: En comparacion con otros metodos, este usa una menor cantidad de memoria ya que no aumenta el numero de columnas del conjunto

# Desventajas
*  Problemas en la interpretación de modelos: En algunos modelos, como árboles de decisión o redes neuronales, el label encoding puede llevar a interpretaciones incorrectas de la importancia de las variables, ya que los valores numéricos asignados a las categorías pueden influir en cómo el modelo hace predicciones.

*   Induce orden artificial: Si las categorías no tienen un orden inherente, el label encoding puede introducir una jerarquía que no existe en los datos.

# Alternativas a Label Encoding

Para evitar estas restricciones, algunas alternativas útiles incluyen:

*   One-Hot Encoding: Ideal para datos categóricos sin orden y algoritmos que no interpretan la diferencia numérica entre categorías.
*   Target Encoding: Asigna a cada categoría el promedio de la variable objetivo, útil cuando tienes muchas categorías.
*   Embeddings: En problemas de gran escala con datos categóricos, como en sistemas de recomendación, embeddings son más eficientes y flexibles para representar relaciones entre categorías.

# Uso Práctico

Este código tiene como objetivo cargar un dataset, limpiar los datos eliminando valores nulos y luego codificar una característica categórica (deck) usando el Label Encoding de la biblioteca scikit-learn. A continuación te explico cada línea del código:

In [None]:
import seaborn as sns
import pandas as pd

# Carga el dataset titanic utilizando seaborn, una biblioteca que facilita el uso de conjuntos de datos comunes.
# Almacena el dataset del Titanic en un DataFrame de pandas llamado titanic.
titanic = sns.load_dataset('titanic')

titanic.head()

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone
0,0,3,male,22.0,1,0,7.25,S,Third,man,True,,Southampton,no,False
1,1,1,female,38.0,1,0,71.2833,C,First,woman,False,C,Cherbourg,yes,False
2,1,3,female,26.0,0,0,7.925,S,Third,woman,False,,Southampton,yes,True
3,1,1,female,35.0,1,0,53.1,S,First,woman,False,C,Southampton,yes,False
4,0,3,male,35.0,0,0,8.05,S,Third,man,True,,Southampton,no,True


In [None]:
#Crea un nuevo DataFrame (titanic_cleaned) que contiene solo las filas con datos completos, eliminando cualquier fila con valores faltantes.
titanic_cleaned = titanic.dropna()

#Calcula el número de valores nulos en cada columna del DataFrame titanic_cleaned.
#Muestra un resumen del total de valores faltantes para asegurarse de que no queden NaN en el dataset después de haber aplicado dropna().
titanic_cleaned.isnull().sum()

Unnamed: 0,0
survived,0
pclass,0
sex,0
age,0
sibsp,0
parch,0
fare,0
embarked,0
class,0
who,0


In [None]:
# Importa la clase LabelEncoder del módulo sklearn.preprocessing.
from sklearn.preprocessing import LabelEncoder

#Almacena la característica deck (que indica en qué cubierta del barco estaba el pasajero) en un nuevo DataFrame llamado deck_feat
deck_feat = titanic_cleaned[['deck']]

#El objeto label_encoder será usado para transformar los valores categóricos de la columna deck en valores numéricos.
label_encoder = LabelEncoder()

#fit_transform ajusta el LabelEncoder a los valores únicos de la columna deck y los convierte a números enteros. Cada valor categórico en deck será reemplazado por un número, almacenado en deck_encoded
deck_encoded = label_encoder.fit_transform(deck_feat)

  y = column_or_1d(y, warn=True)


In [None]:
#Reemplaza la columna original deck en titanic_cleaned con los valores codificados.
#Actualiza el DataFrame con los valores numéricos resultantes del label encoding. Se asegura de mantener las mismas columnas e índices.
titanic_cleaned['deck'] = pd.DataFrame(deck_encoded, columns=deck_feat.columns, index=deck_feat.index)

#Muestra las primeras cinco filas del DataFrame titanic_cleaned.
titanic_cleaned.head()

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  titanic_cleaned['deck'] = pd.DataFrame(deck_encoded, columns=deck_feat.columns, index=deck_feat.index)


Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone
1,1,1,female,38.0,1,0,71.2833,C,First,woman,False,2,Cherbourg,yes,False
3,1,1,female,35.0,1,0,53.1,S,First,woman,False,2,Southampton,yes,False
6,0,1,male,54.0,0,0,51.8625,S,First,man,True,4,Southampton,no,True
10,1,3,female,4.0,1,1,16.7,S,Third,child,False,6,Southampton,yes,False
11,1,1,female,58.0,0,0,26.55,S,First,woman,False,2,Southampton,yes,True


In [None]:
#Muestra las clases o categorías que el LabelEncoder ha identificado y codificado.
#Permite conocer cuáles eran los valores originales de deck antes de la codificación.
label_encoder.classes_

array(['A', 'B', 'C', 'D', 'E', 'F', 'G'], dtype=object)

In [None]:
#Muestra la frecuencia de cada valor en la columna deck codificada.
#Proporciona un conteo de cuántos pasajeros están asociados a cada valor numérico en la columna deck.
titanic_cleaned['deck'].value_counts()

Unnamed: 0_level_0,count
deck,Unnamed: 1_level_1
2,51
1,43
3,31
4,30
0,12
5,11
6,4


#¿Cómo se aprovecha el Label Encoding?
El Label Encoding convierte valores categóricos (como las diferentes cubiertas del barco representadas por letras) en números enteros, lo que es necesario porque muchos algoritmos de machine learning solo pueden manejar valores numéricos. En este caso, la columna deck, que originalmente contiene valores como 'A', 'B', etc., se transforma en números (por ejemplo, 'A' podría convertirse en 0, 'B' en 1, y así sucesivamente). Este proceso permite que los modelos interpreten y procesen estas características categóricas.


# Cuándo usar Label Encoding

Label Encoding se puede usar con algoritmos que no se basan en la distancia o el orden de las características y que pueden tratar correctamente con variables categóricas codificadas como enteros. A continuación, un resumen de los algoritmos más adecuados:

# Algoritmos recomendados para Label Encoding:

*   Árboles de Decisión (Decision Trees)
*   Random Forests
*   Gradient Boosting Machines (GBM) (XGBoost, LightGBM, CatBoost)
*   Naive Bayes
*   K-Means Clustering (con precaución, solo si hay orden implícito)

# Algoritmos donde se debe evitar o usar con precaución:

*   K-Nearest Neighbors (KNN)
*   Support Vector Machines (SVM)
*   Redes Neuronales
*   Regresión Lineal
*   Regresión Logística
*   Cualquier algoritmo basado en distancias


# Ejemplo

In [None]:
from sklearn.preprocessing import LabelEncoder

# Ejemplo de datos categóricos
colores = ['Rojo', 'Azul', 'Verde', 'Rojo', 'Azul']

# Crear el objeto LabelEncoder
label_encoder = LabelEncoder()

# Aplicar Label Encoding
colores_codificados = label_encoder.fit_transform(colores)

print("Original:", colores)
print("Codificado:", colores_codificados)

Original: ['Rojo', 'Azul', 'Verde', 'Rojo', 'Azul']
Codificado: [1 0 2 1 0]


# Ejemplo

In [None]:
import pandas as pd

# Crear un DataFrame de ejemplo
data = {
    'Mascota': ['Perro', 'Gato', 'Pájaro', 'Perro', 'Gato', 'Perro'],
    'Color': ['Negro', 'Blanco', 'Verde', 'Marrón', 'Blanco', 'Negro'],
    'Edad': [5, 3, 2, 6, 4, 7]
}

df = pd.DataFrame(data)
print("Datos originales:")
print(df)

Datos originales:
  Mascota   Color  Edad
0   Perro   Negro     5
1    Gato  Blanco     3
2  Pájaro   Verde     2
3   Perro  Marrón     6
4    Gato  Blanco     4
5   Perro   Negro     7


In [None]:
from sklearn.preprocessing import LabelEncoder

# Crear un LabelEncoder
label_encoder = LabelEncoder()

# Aplicar Label Encoding a la columna 'Mascota'
df['Mascota_Codificada'] = label_encoder.fit_transform(df['Mascota'])

# Aplicar Label Encoding a la columna 'Color'
df['Color_Codificado'] = label_encoder.fit_transform(df['Color'])

print("\nDatos con Label Encoding aplicado:")
print(df)


Datos con Label Encoding aplicado:
  Mascota   Color  Edad  Mascota_Codificada  Color_Codificado
0   Perro   Negro     5                   1                 2
1    Gato  Blanco     3                   0                 0
2  Pájaro   Verde     2                   2                 3
3   Perro  Marrón     6                   1                 1
4    Gato  Blanco     4                   0                 0
5   Perro   Negro     7                   1                 2


In [None]:
# Ver los mapeos de categorías a números para 'Mascota'
print("\nMapping de la columna 'Mascota':")
print(dict(zip(label_encoder.classes_, label_encoder.transform(label_encoder.classes_))))

# Volver a ajustar el LabelEncoder a la columna 'Color'
label_encoder.fit(df['Color'])
print("\nMapping de la columna 'Color':")
print(dict(zip(label_encoder.classes_, label_encoder.transform(label_encoder.classes_))))


Mapping de la columna 'Mascota':
{'Blanco': 0, 'Marrón': 1, 'Negro': 2, 'Verde': 3}

Mapping de la columna 'Color':
{'Blanco': 0, 'Marrón': 1, 'Negro': 2, 'Verde': 3}
