**Generación del dataset**

El dataset que vamos a crear tendrá 5 columnas de características (
𝑥
1
,
𝑥
2
,
𝑥
3
,
𝑥
4
,
𝑥
5
x
1
​
 ,x
2
​
 ,x
3
​
 ,x
4
​
 ,x
5
​
 ) y 1 columna de clase (etiqueta, “Clase”). La idea es simular, por ejemplo, un escenario en el que cada muestra corresponde a un producto con distintas medidas (tamaño, peso, etc.) y queremos clasificarlo en Clase = 1 (producto de "Alta calidad") o Clase = 0 (producto de "Baja calidad").

La generación se realizará de manera aleatoria, controlando ligeramente la distribución para que sea un ejemplo “realista”


**Importar librerias**

In [1]:
import numpy as np
import pandas as pd

**import numpy as np**
numpy es una biblioteca para trabajar con arrays y cálculos matemáticos eficientes

Usos: álgebra lineal, estadísticas, manipulación de datos numéricos y generación de números aleatorios

**import pandas as pd**

pandas es una biblioteca para análisis y manipulación de datos tabulares

Usos: manejar datos estructurados (DataFrames y Series), limpieza, análisis, y transformación de datos.

In [2]:
# Fijamos una semilla para reproducibilidad
np.random.seed(42)

Semilla para el generador de números aleatorios de numpy, garantizando que los resultados de las operaciones aleatorias sean reproducibles

**¿Por qué se usa?**

Para asegurar que los experimentos o simulaciones con números aleatorios produzcan los mismos resultados en cada ejecución

Muy útil en pruebas, análisis reproducibles, y depuración de código

In [3]:
# Cantidad de muestras
n_muestras = 100

Definimos una variable llamada **n_muestra**s y le asigna el valor 100
 Esto indica que el programa trabajará con 100 muestras en un contexto de datos o simulaciones

**¿Por qué se usa?**

Es una forma de establecer la cantidad de datos o iteraciones que se generarán o procesarán

Permite modificar el tamaño de las muestras fácilmente si se necesita un experimento con diferentes cantidades de datos

In [4]:
# Generamos datos aleatorios para 5 características
# Supondremos que cada característica tiene valores en distintos rangos
x1 = np.random.normal(loc=50, scale=5, size=n_muestras)   # Ej. peso en kg (promedio 50)
x2 = np.random.normal(loc=30, scale=10, size=n_muestras)  # Ej. tamaño en cm (promedio 30)
x3 = np.random.uniform(0, 1, n_muestras)                  # Ej. porcentaje de un componente
x4 = np.random.normal(loc=100, scale=20, size=n_muestras) # Ej. otro índice
x5 = np.random.normal(loc=0, scale=1, size=n_muestras)    # Ej. ruido o factor extra

Genera datos con una distribución normal (gaussiana)

**np.random.normal**

- **loc="valor"**: Media del valor

- **scale="valor**: Desviación estándar (± del valor)

- **size=n_muestras**: 100 muestras

**np.random.uniform(0, 1, n_muestras)**

Genera datos con una distribución uniforme entre 0 y 1

Puede representar porcentajes o probabilidades

**¿Para qué se usa?**

Modelar datos simulados con diferentes características estadísticas, que podrían representar mediciones físicas, índices, o factores experimentales



In [5]:
# Generamos la clase (0 o 1) con cierta lógica:
# Por ejemplo, los productos con x1 > 50 y x2 > 25 y x3 > 0.5 tenderán a ser de "Alta calidad" osea 1.
# Con algo de aleatoriedad para no hacerlo tan estricto.
clase = []
for i in range(n_muestras):
    score = 0
    if x1[i] > 50:
        score += 1
    if x2[i] > 25:
        score += 1
    if x3[i] > 0.5:
        score += 1
    # Añadimos un poco de ruido/azar
    if np.random.rand() < 0.1:
        score += 1
    # Si score >= 2 será 1 (Alta calidad), sino 0
    if score >= 2:
        clase.append(1)
    else:
        clase.append(0)

**Definición de clase**

- clase = [] : Inicializa una lista vacía para almacenar las clasificaciones de las muestras

**Iteración sobre las muestras**

- for i in range(n_muestras): Recorre las 100 muestras (o el valor definido en n_muestras)

**Cálculo del score**

- score = 0
if x1[i] > 50:
    score += 1
if x2[i] > 25:
    score += 1
if x3[i] > 0.5:
    score += 1

Se evalúan condiciones basadas en los valores de x1, x2, y x3
Por cada condición cumplida se incrementa el score

**Ruido/Aleatoriedad**

- if np.random.rand() < 0.1:
    score += 1

Introduce un pequeño componente aleatorio hay un 10% de probabilidad de sumar 1 al score. Esto hace que la clasificación no sea completamente determinista

**Clasificación final**

if score >= 2:

  clase.append(1)  # Alta calidad

else:

  clase.append(0)  # Baja calidad

Si el score es mayor o igual a 2 la muestra se clasifica como 1 (Alta calidad)

Si no se clasifica como 0 (Baja calidad)

**¿Para qué sirve?**

Simula una clasificación binaria basada en características predefinidas con cierto margen de aleatoriedad


In [6]:
# Convertimos la lista a array para manipular más cómodamente
clase = np.array(clase)

Convierte la lista clase (actualmente de tipo list) en un arreglo de numpy (tipo numpy.ndarray)


**¿Por qué se hace esto?**

- Eficiencia: Los arreglos de numpy son más rápidos y consumen menos memoria que las listas de Python

- Operaciones vectorizadas: Permite realizar operaciones matemáticas y de manipulación de datos sobre el array de forma más eficiente y con menos código

- Compatibilidad: Los arreglos son más adecuados para trabajar con bibliotecas científicas y de aprendizaje automático como **pandas o scikit-learn**

In [7]:
# Creamos un DataFrame
df = pd.DataFrame({
    'x1': x1,
    'x2': x2,
    'x3': x3,
    'x4': x4,
    'x5': x5,
    'Clase': clase
})

Creamos un DataFrame de pandas llamado df que organiza los datos generados en una estructura tabular con columnas correspondientes a las características (x1 a x5) y la clase (Clase)

**¿Por qué se usa?**

- Organización: Estructura los datos en formato tabular, fácil de leer y manipular

- Análisis: Facilita operaciones como filtrado, estadísticas, y visualización de los datos

- Compatibilidad: Los DataFrames son el formato estándar para bibliotecas de análisis y machine learning




In [8]:
# Guardamos el dataframe a un archivo CSV
df.to_csv('dataset_svm.csv', index=False)

Guarda el DataFrame df en un archivo CSV llamado dataset_svm.csv


**df.to_csv:** Método de pandas que exporta el DataFrame a un archivo en formato CSV

**'dataset_svm.csv':** Nombre del archivo donde se guardará el DataFrame

**index=False:** Omite la inclusión del índice del DataFrame como una columna en el archivo CSV

**¿Por qué se hace esto?**

- Almacenamiento: Permite guardar el DataFrame para su uso posterior sin necesidad de regenerar los datos

- Compatibilidad: Los archivos CSV son un formato estándar compatible con la mayoría de herramientas de análisis de datos y aprendizaje automático

- Portabilidad: Puedes compartir los datos fácilmente o utilizarlos en otros scripts

In [9]:
print("Dataset generado y guardado en 'dataset_svm.csv'")
print(df.head())

Dataset generado y guardado en 'dataset_svm.csv'
          x1         x2        x3          x4        x5  Clase
0  52.483571  15.846293  0.877373   96.964298  0.341756      1
1  49.308678  25.793547  0.740769  111.766344  1.876171      1
2  53.238443  26.572855  0.697016  105.619837  0.950424      1
3  57.615149  21.977227  0.702484   87.546010 -0.576904      1
4  48.829233  28.387143  0.359491   95.837555 -0.898415      0


**print("Dataset generado y guardado en 'dataset_svm.csv'"):**

Muestra un mensaje en la consola indicando que el archivo dataset_svm.csv ha sido creado con éxito

**print(df.head()):**

Imprime las primeras 5 filas del DataFrame df en la consola para que el usuario pueda visualizar una muestra de los datos

**¿Por qué se hace esto?**

- Confirmación: Proporciona retroalimentación visual de que el archivo se generó y guardó correctamente

- Verificación: Muestra un resumen de los datos en el DataFrame para revisar su estructura y contenido