<a href="https://colab.research.google.com/github/M4teoSandoval/Clase-Inteligencia-Artificiall/blob/main/Notebooks/Fundamento_Cuaderno_3_Manejo_de_Datos_Categ%C3%B3ricos.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# <font color="red">Cuaderno 3:Manejo de Datos Categóricos

Los datos categóricos son aquellos que representan categorías o etiquetas, en lugar de valores numéricos continuos. Se dividen en datos nominales y datos ordinales, y su tratamiento es esencial para la preparación del dataset, especialmente en el contexto de modelos de aprendizaje automático.


---

## <font color="red">3.1 Datos Nominales
Los datos nominales no tienen un orden inherente. Ejemplos comunes son colores, ciudades o géneros. El tratamiento de estos datos suele implicar transformarlos en representaciones numéricas comprensibles para los algoritmos de machine learning.

### <font color="blue">3.1.1 Métodos de Codificación para Datos Nominales
#### Codificación One-Hot (One-Hot Encoding):
* Genera una columna binaria para cada categoría, asignando un 1 si la fila pertenece a esa categoría y 0 en caso contrario.
* Es útil para datos sin orden jerárquico.

#### Codificación Binaria:
* Convierte las categorías en representaciones binarias compactas.
* Es útil cuando hay muchas categorías para reducir la dimensionalidad.

#### Codificación de Frecuencia:
* Reemplaza cada categoría con su frecuencia de aparición en los datos.
* Puede ser útil para ciertos modelos donde la frecuencia tiene significado.

#### Otros Métodos Avanzados:
* Codificación de Puntuación (Target Encoding): Usa estadísticas derivadas de las etiquetas objetivo.
* Embeddings de Categorías: Técnicas avanzadas que utilizan representaciones en espacios vectoriales.


---

## <font color="red">3.2 Datos Ordinales
Los datos ordinales tienen un orden jerárquico o relación entre las categorías, como niveles de educación o tamaños de ropa.

### <font color="blue">3.2.1 Codificación de Datos Ordinales

#### Respeto al Orden Jerárquico:
* Las categorías deben asignarse a valores numéricos que reflejen su relación de orden.

#### Mapeo a Escalas Numéricas:
* Ejemplo: "Bajo", "Medio", "Alto" → 1, 2, 3.

---

## <font color="red">3.3 Ejercicio Práctico con Python
Para este Sesion, trabajaremos con un dataset simulado que contiene tanto datos nominales como ordinales.

####Crear el Dataset




In [None]:
import pandas as pd

# Dataset simulado
data = {
    "ID": [1, 2, 3, 4, 5],
    "Ciudad": ["Madrid", "Barcelona", "Sevilla", "Madrid", "Valencia"],  # Nominal
    "Educación": ["Secundaria", "Primaria", "Universitaria", "Primaria", "Universitaria"],  # Ordinal
    "Género": ["F", "M", "F", "M", "F"],  # Nominal
}
df = pd.DataFrame(data)
print("Dataset original:")
print(df)


Dataset original:
   ID     Ciudad      Educación Género
0   1     Madrid     Secundaria      F
1   2  Barcelona       Primaria      M
2   3    Sevilla  Universitaria      F
3   4     Madrid       Primaria      M
4   5   Valencia  Universitaria      F


In [None]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 5 entries, 0 to 4
Data columns (total 4 columns):
 #   Column     Non-Null Count  Dtype 
---  ------     --------------  ----- 
 0   ID         5 non-null      int64 
 1   Ciudad     5 non-null      object
 2   Educación  5 non-null      object
 3   Género     5 non-null      object
dtypes: int64(1), object(3)
memory usage: 292.0+ bytes


## <font color="red">3.4 Codificación de Datos Nominales
### 1. Codificación One-Hot


In [None]:
# Usando get_dummies para One-Hot Encoding
df_onehot = pd.get_dummies(df, columns=["Ciudad"], prefix="Ciudad")
print("\nCodificación One-Hot para 'Ciudad':")
print(df_onehot)



Codificación One-Hot para 'Ciudad':
   ID      Educación Género  Ciudad_Barcelona  Ciudad_Madrid  Ciudad_Sevilla  \
0   1     Secundaria      F             False           True           False   
1   2       Primaria      M              True          False           False   
2   3  Universitaria      F             False          False            True   
3   4       Primaria      M             False           True           False   
4   5  Universitaria      F             False          False           False   

   Ciudad_Valencia  
0            False  
1            False  
2            False  
3            False  
4             True  


### 2. Codificación con Scikit-learn


In [None]:
from sklearn.preprocessing import OneHotEncoder
import pandas as pd

# Configuración del codificador
encoder = OneHotEncoder(sparse_output=False)  # Cambiado de sparse a sparse_output
onehot_encoded = encoder.fit_transform(df[["Ciudad"]])

# Crear un DataFrame con los resultados
onehot_df = pd.DataFrame(onehot_encoded, columns=encoder.get_feature_names_out(["Ciudad"]))
print("\nCodificación One-Hot con Scikit-learn:")
print(onehot_df)



Codificación One-Hot con Scikit-learn:
   Ciudad_Barcelona  Ciudad_Madrid  Ciudad_Sevilla  Ciudad_Valencia
0               0.0            1.0             0.0              0.0
1               1.0            0.0             0.0              0.0
2               0.0            0.0             1.0              0.0
3               0.0            1.0             0.0              0.0
4               0.0            0.0             0.0              1.0


In [None]:
dfc=df.copy()
dfc

Unnamed: 0,ID,Ciudad,Educación,Género
0,1,Madrid,Secundaria,F
1,2,Barcelona,Primaria,M
2,3,Sevilla,Universitaria,F
3,4,Madrid,Primaria,M
4,5,Valencia,Universitaria,F


In [None]:
#concatenar dfc con onehot_df
dfc=pd.concat([dfc,onehot_df],axis=1)
dfc


Unnamed: 0,ID,Ciudad,Educación,Género,Ciudad_Barcelona,Ciudad_Madrid,Ciudad_Sevilla,Ciudad_Valencia
0,1,Madrid,Secundaria,F,0.0,1.0,0.0,0.0
1,2,Barcelona,Primaria,M,1.0,0.0,0.0,0.0
2,3,Sevilla,Universitaria,F,0.0,0.0,1.0,0.0
3,4,Madrid,Primaria,M,0.0,1.0,0.0,0.0
4,5,Valencia,Universitaria,F,0.0,0.0,0.0,1.0


In [None]:
dfc.drop(["ID","Ciudad","Ciudad_Valencia"],axis=1,inplace=True)
dfc

Unnamed: 0,Educación,Género,Ciudad_Barcelona,Ciudad_Madrid,Ciudad_Sevilla
0,Secundaria,F,0.0,1.0,0.0
1,Primaria,M,1.0,0.0,0.0
2,Universitaria,F,0.0,0.0,1.0
3,Primaria,M,0.0,1.0,0.0
4,Universitaria,F,0.0,0.0,0.0


In [None]:
df["Ciudad"].value_counts()

Unnamed: 0_level_0,count
Ciudad,Unnamed: 1_level_1
Madrid,2
Barcelona,1
Sevilla,1
Valencia,1


### 3. Codificación de Frecuencia


In [None]:
# Codificación basada en la frecuencia
df["Ciudad_Frecuencia"] = df["Ciudad"].map(df["Ciudad"].value_counts())
print("\nCodificación de Frecuencia para 'Ciudad':")
print(df)



Codificación de Frecuencia para 'Ciudad':
   ID     Ciudad      Educación Género  Ciudad_Frecuencia
0   1     Madrid     Secundaria      F                  2
1   2  Barcelona       Primaria      M                  1
2   3    Sevilla  Universitaria      F                  1
3   4     Madrid       Primaria      M                  2
4   5   Valencia  Universitaria      F                  1


## <font color="red">3.5 Codificación de Datos Ordinales
### 1. Mapeo Directo a Valores Numéricos

In [None]:
# Mapeo manual de las categorías
orden_educacion = {"Primaria": 1, "Secundaria": 2, "Universitaria": 3}
df["Educación_Ordinal"] = df["Educación"].map(orden_educacion)
print("\nCodificación Ordinal para 'Educación':")
print(df)



Codificación Ordinal para 'Educación':
   ID     Ciudad      Educación Género  Ciudad_Frecuencia  Educación_Ordinal
0   1     Madrid     Secundaria      F                  2                  2
1   2  Barcelona       Primaria      M                  1                  1
2   3    Sevilla  Universitaria      F                  1                  3
3   4     Madrid       Primaria      M                  2                  1
4   5   Valencia  Universitaria      F                  1                  3


### 2. Usar OrdinalEncoder de Scikit-learn


In [None]:
from sklearn.preprocessing import OrdinalEncoder
import pandas as pd

# Ejemplo de DataFrame
data = {"Educación": ["Primaria", "Secundaria", "Universitaria", "Primaria"]}
df = pd.DataFrame(data)

# Configuración del codificador
ordinal_encoder = OrdinalEncoder(categories=[["Primaria", "Secundaria", "Universitaria"]])
df["Educación_Ordinal"] = ordinal_encoder.fit_transform(df[["Educación"]])
print("\nCodificación Ordinal con Scikit-learn:")
print(df)



Codificación Ordinal con Scikit-learn:
       Educación  Educación_Ordinal
0       Primaria                0.0
1     Secundaria                1.0
2  Universitaria                2.0
3       Primaria                0.0


## <font color="blue">3.5.1 Combinar Métodos
A menudo, los datasets contienen tanto datos nominales como ordinales. Un flujo completo podría incluir:


* Codificación One-Hot para variables nominales.
* Codificación Ordinal para variables con orden jerárquico.

### Ejemplo Completo:




In [None]:
import pandas as pd

# Crear el DataFrame
data = {
    "Ciudad": ["Bogotá", "Cali", "Medellín", "Cali", "Bogotá"],
    "Educación": ["Universitaria", "Secundaria", "Primaria", "Universitaria", "Secundaria"]
}
df = pd.DataFrame(data)

# Aplicar One-Hot Encoding a 'Ciudad'
df_onehot = pd.get_dummies(df, columns=["Ciudad"], prefix="Ciudad")

# Aplicar codificación ordinal a 'Educación'
orden_educacion = {"Primaria": 1, "Secundaria": 2, "Universitaria": 3}
df_onehot["Educación_Ordinal"] = df["Educación"].map(orden_educacion)

# Mostrar el resultado
print("\nDataset procesado con One-Hot y Codificación Ordinal:")
print(df_onehot)


Dataset procesado con One-Hot y Codificación Ordinal:
       Educación  Ciudad_Bogotá  Ciudad_Cali  Ciudad_Medellín  \
0  Universitaria           True        False            False   
1     Secundaria          False         True            False   
2       Primaria          False        False             True   
3  Universitaria          False         True            False   
4     Secundaria           True        False            False   

   Educación_Ordinal  
0                  3  
1                  2  
2                  1  
3                  3  
4                  2  


## <font color="red">3.6 Complemento: Cuándo y Por Qué Codificar Datos

### <font color="blue">3.6.1 ¿Cuándo es necesario codificar datos?
La codificación de datos categóricos es necesaria en la mayoría de los modelos de machine learning basados en Scikit-learn, ya que estos algoritmos funcionan exclusivamente con valores numéricos. Las razones incluyen:
* Algoritmos matemáticos: Los modelos como regresión logística, máquinas de soporte vectorial (SVM), árboles de decisión, etc., dependen de cálculos matemáticos que no pueden procesar datos categóricos directamente.
* Significado contextual: Las transformaciones (por ejemplo, One-Hot Encoding) convierten las categorías en formatos que los algoritmos pueden interpretar sin perder información.

### <font color="blue">3.6.2 ¿Cuándo no es necesario codificar datos?
No siempre es obligatorio codificar datos categóricos. Algunos escenarios incluyen:<p>

####Modelos basados en árboles de decisión (como Random Forest, Gradient Boosting, XGBoost)
* En muchos casos, estos algoritmos pueden trabajar directamente con datos categóricos si usan librerías que soportan esta funcionalidad (por ejemplo, CatBoost o XGBoost).
* Nota: En Scikit-learn, incluso los árboles requieren codificación porque la implementación no incluye soporte nativo para categorías.

#### Análisis Exploratorio de Datos (EDA):
* Si el objetivo es solo visualizar o explorar los datos, no es obligatorio realizar la codificación.


---

## <font color="red">3.7 Uso de Librerías para Guardar Procesos: Joblib y Pickle
Cuando entrenamos un modelo usando datos transformados (por ejemplo, con OneHotEncoder o LabelEncoder), es esencial guardar estos procesos para aplicarlos posteriormente a nuevos datos. Las librerías Joblib y Pickle son herramientas eficientes para guardar objetos de Python, como transformadores, modelos entrenados o pipelines.

### <font color="blue">3.7.1  Introducción a Joblib

Joblib es ideal para serializar objetos grandes como modelos de machine learning o encoders. Es rápido y eficiente para matrices grandes.







In [None]:
from sklearn.preprocessing import OneHotEncoder
from joblib import dump, load
import numpy as np

# Datos de ejemplo
datos = np.array([["Bogotá"], ["Cali"], ["Medellín"], ["Cali"], ["Bogotá"]])

# Crear y ajustar el encoder
encoder = OneHotEncoder(sparse_output=False,drop="first")
encoder.fit(datos)

datos_finales=encoder.transform(datos)
print(datos_finales)


[[0. 0.]
 [1. 0.]
 [0. 1.]
 [1. 0.]
 [0. 0.]]


In [None]:
# Cargar el encoder desde el archivo
loaded_encoder = load("onehot_encoder.joblib")


In [None]:
datos_china = np.array([["Cali"], ["Cali"], ["Medellín"],["Bogotá"]])

# Usar el encoder cargado para transformar datos
transformados = loaded_encoder.transform(datos_china)
print("Datos transformados:")
print(transformados)

Datos transformados:
[[1. 0.]
 [1. 0.]
 [0. 1.]
 [0. 0.]]


In [None]:
# Guardar el encoder en un archivo
dump(encoder, "onehot_encoder.joblib")


['onehot_encoder.joblib']

### <font color="blue">3.7.2 Introducción a Pickle
Pickle también es una herramienta para serializar objetos en Python, aunque es menos eficiente con grandes matrices.


In [None]:
import pickle

# Guardar un objeto
with open("label_encoder.pkl", "wb") as f:
    pickle.dump(encoder, f)

# Cargar el objeto guardado
with open("label_encoder.pkl", "rb") as f:
    loaded_encoder = pickle.load(f)
df

Unnamed: 0,Ciudad,Educación
0,Bogotá,Universitaria
1,Cali,Secundaria
2,Medellín,Primaria
3,Cali,Universitaria
4,Bogotá,Secundaria


## <font color="red">3.8 Ejercicio: Guardar y Utilizar Procesos de Codificación
### <font color="blue">3.8.1 Ejemplo Completo: Transformación y Predicción con Modelos de Scikit-learn

* Crear Dataset y Codificar Variables Categóricas:


In [None]:
import pandas as pd
from sklearn.preprocessing import LabelEncoder
from joblib import dump

# Dataset simulado
data = {
    "Género": ["F", "M", "F", "M", "F"],
    "Edad": [25, 32, 18, 40, 22],
    "Compró": ["Sí", "No", "No", "Sí", "Sí"],  # Etiqueta
}
df = pd.DataFrame(data)

# Codificar la columna 'Género'
gender_encoder = LabelEncoder()
df["Género"] = gender_encoder.fit_transform(df["Género"])

# Codificar la columna 'Compró' (etiqueta)
compró_encoder = LabelEncoder()
df["Compró"] = compró_encoder.fit_transform(df["Compró"])

# Guardar los encoders para uso posterior
dump(gender_encoder, "gender_encoder.joblib")
dump(compró_encoder, "compró_encoder.joblib")

print("Datos codificados:")
print(df)


Datos codificados:
   Género  Edad  Compró
0       0    25       1
1       1    32       0
2       0    18       0
3       1    40       1
4       0    22       1


* Entrenar el Modelo:


In [None]:
import pandas as pd
from sklearn.ensemble import RandomForestClassifier
from joblib import dump


# Separar las variables independientes (X) y la dependiente (y)
X = df[["Género", "Edad"]]
y = df["Compró"]

# Entrenar el modelo
model = RandomForestClassifier()
model.fit(X, y)

# Guardar el modelo entrenado
dump(model, "random_forest_model.joblib")

print("Modelo guardado correctamente.")


Modelo guardado correctamente.


* Uso del Modelo en Nuevos Datos:


In [None]:
import pandas as pd
from joblib import load

# Nuevos datos (puedes ajustarlos a tus necesidades)
new_data = pd.DataFrame({
    "Género": ["F", "M", "F"],
    "Edad": [28, 34, 21],
})

# Cargar los encoders previamente guardados
gender_encoder = load("gender_encoder.joblib")
compró_encoder = load("compró_encoder.joblib")

# Transformar la columna 'Género' usando el encoder cargado
new_data["Género"] = gender_encoder.transform(new_data["Género"])

# Cargar el modelo entrenado
model = load("random_forest_model.joblib")

# Hacer predicciones con el modelo
X_new = new_data[["Género", "Edad"]]  # Seleccionar las mismas columnas que usaste para entrenar el modelo
predictions = model.predict(X_new)

# Decodificar las predicciones (convertir las etiquetas numéricas a las originales)
decoded_predictions = compró_encoder.inverse_transform(predictions)

# Mostrar las predicciones decodificadas
print("Predicciones para nuevos datos:")
for i, pred in enumerate(decoded_predictions):
    print(f"Nuevo dato {i+1}: Compró = {pred}")


Predicciones para nuevos datos:
Nuevo dato 1: Compró = Sí
Nuevo dato 2: Compró = No
Nuevo dato 3: Compró = Sí


## <font color="red">3.9 Resultados y Atributos de Modelos

Al usar modelos con datos codificados, es importante analizar los atributos del modelo. Por ejemplo, para un modelo de árbol de decisión:
* feature_importances_: Muestra la importancia relativa de cada característica (incluidas las codificadas).
* predict_proba(): Proporciona la probabilidad de cada clase para un conjunto de datos.

Ejemplo


In [None]:
# Importancia de las características
print("Importancia de las características:")
print(loaded_model.feature_importances_)

# Probabilidad de predicción
proba = loaded_model.predict_proba(new_data)
print("\nProbabilidad de cada clase:")
print(proba)


Importancia de las características:


NameError: name 'loaded_model' is not defined

In [None]:
import pandas as pd
from sklearn.preprocessing import OneHotEncoder

# Crear un DataFrame con cinco colores
colores = pd.DataFrame({
    'Codigo': [1, 2, 3, 4, 5],
    'Color': ['Rojo', 'Verde', 'Azul', 'Amarillo', 'Cian']
})

# Aplicar OneHotEncoder
encoder = OneHotEncoder(sparse_output=False)
ohe_result = encoder.fit_transform(colores[['Color']])

# Crear un DataFrame con los valores codificados
ohe_columns = encoder.get_feature_names_out(['Color'])
codificado_df = pd.DataFrame(ohe_result, columns=ohe_columns)

# Agregar la columna Código al DataFrame codificado
codificado_df.insert(0, 'Codigo', colores['Codigo'])

# Mostrar los DataFrames
print("DataFrame Original:")
print(colores)
print("\nDataFrame Codificado:")
print(codificado_df)

In [None]:
import numpy as np
import matplotlib.pyplot as plt
from sklearn.datasets import make_classification
from sklearn.model_selection import train_test_split
from sklearn.svm import SVC

# Generar datos sintéticos para clasificación binaria
X, y = make_classification(n_samples=200, n_features=2, n_informative=2, n_redundant=0,
                           n_clusters_per_class=1, random_state=42)

# Dividir en datos de entrenamiento y prueba
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Entrenar un modelo de clasificación (SVM)
clf = SVC(kernel='linear', probability=True)
clf.fit(X_train, y_train)

# Crear una malla para visualizar la frontera de decisión
xx, yy = np.meshgrid(np.linspace(X[:,0].min()-1, X[:,0].max()+1, 100),
                     np.linspace(X[:,1].min()-1, X[:,1].max()+1, 100))
Z = clf.predict(np.c_[xx.ravel(), yy.ravel()])
Z = Z.reshape(xx.shape)

# Graficar los puntos de datos y la frontera de decisión
plt.contourf(xx, yy, Z, alpha=0.3, cmap=plt.cm.coolwarm)
plt.scatter(X[:, 0], X[:, 1], c=y, cmap=plt.cm.coolwarm, edgecolors='k')
plt.xlabel("Característica 1")
plt.ylabel("Característica 2")
plt.title("Modelo de Clasificación Binaria")
plt.show()


In [None]:
import numpy as np
import matplotlib.pyplot as plt
from sklearn.datasets import make_regression
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression

# Generar datos sintéticos para regresión
X, y = make_regression(n_samples=200, n_features=1, noise=10, random_state=42)

# Dividir en datos de entrenamiento y prueba
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Entrenar un modelo de regresión lineal
reg = LinearRegression()
reg.fit(X_train, y_train)

# Predecir valores
y_pred = reg.predict(X)

# Graficar los puntos de datos y la línea de regresión
plt.scatter(X, y, color='blue', label='Datos reales')
plt.plot(X, y_pred, color='red', linewidth=2, label='Regresión lineal')
plt.xlabel("Característica X")
plt.ylabel("Valor Y")
plt.title("Modelo de Regresión Lineal")
plt.legend()
plt.show()


In [None]:
import numpy as np
import matplotlib.pyplot as plt
from sklearn.datasets import make_blobs
from sklearn.cluster import KMeans

# Generar datos sintéticos para clusterización
X, _ = make_blobs(n_samples=200, centers=3, cluster_std=1.0, random_state=42)

# Aplicar el algoritmo K-Means
kmeans = KMeans(n_clusters=3, random_state=42, n_init=10)
kmeans.fit(X)
labels = kmeans.labels_
centroids = kmeans.cluster_centers_

# Graficar los datos con sus clusters
plt.scatter(X[:, 0], X[:, 1], c=labels, cmap='viridis', edgecolors='k', alpha=0.7, label='Puntos de datos')
plt.scatter(centroids[:, 0], centroids[:, 1], c='red', marker='X', s=200, label='Centroides')
plt.xlabel("Característica 1")
plt.ylabel("Característica 2")
plt.title("Modelo de Clusterización con K-Means")
plt.legend()
plt.show()

In [None]:
import numpy as np
import matplotlib.pyplot as plt
from sklearn.svm import SVC
from sklearn.datasets import make_classification

# Generar datos sintéticos para clasificación binaria
X, y = make_classification(n_samples=100, n_features=2, n_informative=2, n_redundant=0, n_clusters_per_class=1, random_state=42)

# Entrenar un modelo SVM
svm = SVC(kernel='linear', C=1.0)
svm.fit(X, y)

# Obtener los coeficientes del hiperplano
w = svm.coef_[0]
b = svm.intercept_[0]

# Crear la malla de puntos para graficar el hiperplano y los márgenes
xx = np.linspace(X[:, 0].min() - 1, X[:, 0].max() + 1, 100)
yy = -(w[0] / w[1]) * xx - b / w[1]
yy_margin1 = yy + 1 / w[1]
yy_margin2 = yy - 1 / w[1]

# Graficar los puntos de datos
plt.scatter(X[:, 0], X[:, 1], c=y, cmap='coolwarm', edgecolors='k')

# Graficar el hiperplano y los márgenes
plt.plot(xx, yy, 'k-', label='Hiperplano')
plt.plot(xx, yy_margin1, 'k--', label='Margen positivo')
plt.plot(xx, yy_margin2, 'k--', label='Margen negativo')

# Graficar los vectores de soporte
support_vectors = svm.support_vectors_
plt.scatter(support_vectors[:, 0], support_vectors[:, 1], s=100, facecolors='none', edgecolors='k', label='Vectores de soporte')

# Configuración del gráfico
plt.xlabel("Característica 1")
plt.ylabel("Característica 2")
plt.title("Clasificación con SVM: Hiperplano y Márgenes")
plt.legend()
plt.show()

In [None]:
import numpy as np
import matplotlib.pyplot as plt
from mpl_toolkits.mplot3d import Axes3D
from sklearn.svm import SVC
from sklearn.datasets import make_classification

# Generar datos sintéticos para clasificación binaria
X, y = make_classification(n_samples=100, n_features=2, n_informative=2, n_redundant=0,
                           n_clusters_per_class=1, random_state=42)

# Entrenar un modelo SVM lineal
svm_linear = SVC(kernel='linear', C=1.0)
svm_linear.fit(X, y)

# Obtener los coeficientes del hiperplano
w = svm_linear.coef_[0]
b = svm_linear.intercept_[0]

# Crear la malla de puntos para graficar el hiperplano y los márgenes
xx = np.linspace(X[:, 0].min() - 1, X[:, 0].max() + 1, 100)
yy = -(w[0] / w[1]) * xx - b / w[1]
yy_margin1 = yy + 1 / w[1]
yy_margin2 = yy - 1 / w[1]

# Graficar los puntos de datos y el hiperplano en 2D
plt.figure(figsize=(8, 6))
plt.scatter(X[:, 0], X[:, 1], c=y, cmap='coolwarm', edgecolors='k')
plt.plot(xx, yy, 'k-', label='Hiperplano')
plt.plot(xx, yy_margin1, 'k--', label='Margen positivo')
plt.plot(xx, yy_margin2, 'k--', label='Margen negativo')
plt.scatter(svm_linear.support_vectors_[:, 0], svm_linear.support_vectors_[:, 1], s=100,
            facecolors='none', edgecolors='k', label='Vectores de soporte')
plt.xlabel("Característica 1")
plt.ylabel("Característica 2")
plt.title("Clasificación con SVM: Hiperplano en 2D")
plt.legend()
plt.show()

# Generar datos sintéticos para kernel trick en 3D
X, y = make_classification(n_samples=100, n_features=2, n_informative=2, n_redundant=0,
                           n_clusters_per_class=1, random_state=42)
Z = X[:, 0]**2 + X[:, 1]**2  # Aplicar transformación a 3D

# Entrenar un modelo SVM con kernel RBF
svm_rbf = SVC(kernel='rbf', C=1.0)
svm_rbf.fit(X, y)

# Graficar los puntos en 3D
fig = plt.figure(figsize=(10, 7))
ax = fig.add_subplot(111, projection='3d')
ax.scatter(X[:, 0], X[:, 1], Z, c=y, cmap='coolwarm', edgecolors='k')
ax.set_xlabel("Característica 1")
ax.set_ylabel("Característica 2")
ax.set_zlabel("Transformación Z")
ax.set_title("Truco del Kernel: SVM en 3D")
plt.show()


In [None]:
import numpy as np
import matplotlib.pyplot as plt
from mpl_toolkits.mplot3d import Axes3D
from sklearn.svm import SVC
from sklearn.datasets import make_moons

# Generar datos sintéticos no linealmente separables
X, y = make_moons(n_samples=200, noise=0.2, random_state=42)

# Entrenar un modelo SVM lineal para mostrar la limitación en 2D
svm_linear = SVC(kernel='linear', C=1.0)
svm_linear.fit(X, y)

# Crear una malla de puntos para graficar la frontera de decisión
xx, yy = np.meshgrid(np.linspace(X[:, 0].min()-0.5, X[:, 0].max()+0.5, 100),
                     np.linspace(X[:, 1].min()-0.5, X[:, 1].max()+0.5, 100))
Z = svm_linear.predict(np.c_[xx.ravel(), yy.ravel()]).reshape(xx.shape)

# Graficar los puntos de datos y la frontera de decisión en 2D
plt.figure(figsize=(8, 6))
plt.contourf(xx, yy, Z, alpha=0.3, cmap='coolwarm')
plt.scatter(X[:, 0], X[:, 1], c=y, cmap='coolwarm', edgecolors='k')
plt.xlabel("Característica 1")
plt.ylabel("Característica 2")
plt.title("SVM Lineal en Datos No Linealmente Separables")
plt.show()

# Transformación a 3D para el truco del kernel
Z_kernel = X[:, 0]**2+ X[:, 1]**2  # Nueva dimensión basada en transformación radial

# Entrenar un modelo SVM con kernel RBF
svm_rbf = SVC(kernel='rbf', C=1.0)
svm_rbf.fit(X, y)

# Graficar los datos en 3D mostrando la transformación del truco del kernel
fig = plt.figure(figsize=(10, 7))
ax = fig.add_subplot(111, projection='3d')
ax.scatter(X[:, 0], X[:, 1], Z_kernel, c=y, cmap='coolwarm', edgecolors='k')
ax.set_xlabel("Característica 1")
ax.set_ylabel("Característica 2")
ax.set_zlabel("Transformación Z (Kernel)")
ax.set_title("Truco del Kernel: SVM en 3D")
plt.show()


In [None]:
import numpy as np
import matplotlib.pyplot as plt
from sklearn.linear_model import LogisticRegression, LinearRegression
from sklearn.datasets import make_classification
from scipy.special import expit

# Generar datos sintéticos corregidos
X, y = make_classification(n_samples=200, n_features=1, n_informative=1, n_redundant=0, n_clusters_per_class=1, random_state=42)

# Entrenar modelo de regresión logística
log_reg = LogisticRegression()
log_reg.fit(X, y)

# Entrenar modelo de regresión lineal
lin_reg = LinearRegression()
lin_reg.fit(X, y)

# Obtener valores para graficar la función sigmoide y la regresión lineal
X_values = np.linspace(X.min(), X.max(), 300).reshape(-1, 1)
y_prob = log_reg.predict_proba(X_values)[:, 1]
y_pred_lin = lin_reg.predict(X_values)

# Graficar la función sigmoide con los datos y la regresión lineal
plt.figure(figsize=(8, 6))
plt.scatter(X, y, color='blue', label='Datos')
plt.plot(X_values, y_prob, color='red', linewidth=2, label='Regresión Logística')
plt.plot(X_values, y_pred_lin, color='green', linestyle='dashed', linewidth=2, label='Regresión Lineal')
plt.xlabel("Valor de X")
plt.ylabel("Probabilidad / Predicción")
plt.title("Comparación: Regresión Logística vs. Regresión Lineal")
plt.legend()
plt.show()

# Graficar la función sigmoide pura
X_sigmoid = np.linspace(-10, 10, 300)
y_sigmoid = expit(X_sigmoid)  # Función sigmoide

plt.figure(figsize=(8, 6))
plt.plot(X_sigmoid, y_sigmoid, color='green', linewidth=2, label='Función Sigmoide')
plt.xlabel("X (Entrada)")
plt.ylabel("Salida Sigmoide")
plt.title("Gráfica de la Función Sigmoide")
plt.legend()
plt.show()

In [None]:
import numpy as np
import matplotlib.pyplot as plt

def plot_distance_metrics():
    point_A = np.array([1, 1])
    point_B = np.array([4, 4])

    fig, axes = plt.subplots(1, 2, figsize=(12, 6))

    # Distancia Euclidiana
    axes[0].scatter(*point_A, color='blue', label='Punto A', s=100)
    axes[0].scatter(*point_B, color='red', label='Punto B', s=100)
    axes[0].plot([point_A[0], point_B[0]], [point_A[1], point_B[1]], 'k--', label='Distancia Euclidiana')
    axes[0].set_title("Distancia Euclidiana")
    axes[0].legend()

    # Distancia de Manhattan
    axes[1].scatter(*point_A, color='blue', label='Punto A', s=100)
    axes[1].scatter(*point_B, color='red', label='Punto B', s=100)
    axes[1].plot([point_A[0], point_A[0]], [point_A[1], point_B[1]], 'g-', label='Camino Manhattan')
    axes[1].plot([point_A[0], point_B[0]], [point_B[1], point_B[1]], 'g-')
    axes[1].set_title("Distancia de Manhattan")
    axes[1].legend()

    plt.show()

plot_distance_metrics()