**Generaci√≥n del dataset**

El dataset que vamos a crear tendr√° 5 columnas de caracter√≠sticas (
ùë•
1
,
ùë•
2
,
ùë•
3
,
ùë•
4
,
ùë•
5
x
1
‚Äã
 ,x
2
‚Äã
 ,x
3
‚Äã
 ,x
4
‚Äã
 ,x
5
‚Äã
 ) y 1 columna de clase (etiqueta, ‚ÄúClase‚Äù). La idea es simular, por ejemplo, un escenario en el que cada muestra corresponde a un producto con distintas medidas (tama√±o, peso, etc.) y queremos clasificarlo en Clase = 1 (producto de "Alta calidad") o Clase = 0 (producto de "Baja calidad").

La generaci√≥n se realizar√° de manera aleatoria, controlando ligeramente la distribuci√≥n para que sea un ejemplo ‚Äúrealista‚Äù


**Importar librerias**

In [1]:
import numpy as np
import pandas as pd

**import numpy as np**
numpy es una biblioteca para trabajar con arrays y c√°lculos matem√°ticos eficientes

Usos: √°lgebra lineal, estad√≠sticas, manipulaci√≥n de datos num√©ricos y generaci√≥n de n√∫meros aleatorios

**import pandas as pd**

pandas es una biblioteca para an√°lisis y manipulaci√≥n de datos tabulares

Usos: manejar datos estructurados (DataFrames y Series), limpieza, an√°lisis, y transformaci√≥n de datos.

In [2]:
# Fijamos una semilla para reproducibilidad
np.random.seed(42)

Semilla para el generador de n√∫meros aleatorios de numpy, garantizando que los resultados de las operaciones aleatorias sean reproducibles

**¬øPor qu√© se usa?**

Para asegurar que los experimentos o simulaciones con n√∫meros aleatorios produzcan los mismos resultados en cada ejecuci√≥n

Muy √∫til en pruebas, an√°lisis reproducibles, y depuraci√≥n de c√≥digo

In [3]:
# Cantidad de muestras
n_muestras = 100

Definimos una variable llamada **n_muestra**s y le asigna el valor 100
 Esto indica que el programa trabajar√° con 100 muestras en un contexto de datos o simulaciones

**¬øPor qu√© se usa?**

Es una forma de establecer la cantidad de datos o iteraciones que se generar√°n o procesar√°n

Permite modificar el tama√±o de las muestras f√°cilmente si se necesita un experimento con diferentes cantidades de datos

In [4]:
# Generamos datos aleatorios para 5 caracter√≠sticas
# Supondremos que cada caracter√≠stica tiene valores en distintos rangos
x1 = np.random.normal(loc=50, scale=5, size=n_muestras)   # Ej. peso en kg (promedio 50)
x2 = np.random.normal(loc=30, scale=10, size=n_muestras)  # Ej. tama√±o en cm (promedio 30)
x3 = np.random.uniform(0, 1, n_muestras)                  # Ej. porcentaje de un componente
x4 = np.random.normal(loc=100, scale=20, size=n_muestras) # Ej. otro √≠ndice
x5 = np.random.normal(loc=0, scale=1, size=n_muestras)    # Ej. ruido o factor extra

Genera datos con una distribuci√≥n normal (gaussiana)

**np.random.normal**

- **loc="valor"**: Media del valor

- **scale="valor**: Desviaci√≥n est√°ndar (¬± del valor)

- **size=n_muestras**: 100 muestras

**np.random.uniform(0, 1, n_muestras)**

Genera datos con una distribuci√≥n uniforme entre 0 y 1

Puede representar porcentajes o probabilidades

**¬øPara qu√© se usa?**

Modelar datos simulados con diferentes caracter√≠sticas estad√≠sticas, que podr√≠an representar mediciones f√≠sicas, √≠ndices, o factores experimentales



In [5]:
# Generamos la clase (0 o 1) con cierta l√≥gica:
# Por ejemplo, los productos con x1 > 50 y x2 > 25 y x3 > 0.5 tender√°n a ser de "Alta calidad" osea 1.
# Con algo de aleatoriedad para no hacerlo tan estricto.
clase = []
for i in range(n_muestras):
    score = 0
    if x1[i] > 50:
        score += 1
    if x2[i] > 25:
        score += 1
    if x3[i] > 0.5:
        score += 1
    # A√±adimos un poco de ruido/azar
    if np.random.rand() < 0.1:
        score += 1
    # Si score >= 2 ser√° 1 (Alta calidad), sino 0
    if score >= 2:
        clase.append(1)
    else:
        clase.append(0)

**Definici√≥n de clase**

- clase = [] : Inicializa una lista vac√≠a para almacenar las clasificaciones de las muestras

**Iteraci√≥n sobre las muestras**

- for i in range(n_muestras): Recorre las 100 muestras (o el valor definido en n_muestras)

**C√°lculo del score**

- score = 0
if x1[i] > 50:
    score += 1
if x2[i] > 25:
    score += 1
if x3[i] > 0.5:
    score += 1

Se eval√∫an condiciones basadas en los valores de x1, x2, y x3
Por cada condici√≥n cumplida se incrementa el score

**Ruido/Aleatoriedad**

- if np.random.rand() < 0.1:
    score += 1

Introduce un peque√±o componente aleatorio hay un 10% de probabilidad de sumar 1 al score. Esto hace que la clasificaci√≥n no sea completamente determinista

**Clasificaci√≥n final**

if score >= 2:

  clase.append(1)  # Alta calidad

else:

  clase.append(0)  # Baja calidad

Si el score es mayor o igual a 2 la muestra se clasifica como 1 (Alta calidad)

Si no se clasifica como 0 (Baja calidad)

**¬øPara qu√© sirve?**

Simula una clasificaci√≥n binaria basada en caracter√≠sticas predefinidas con cierto margen de aleatoriedad


In [6]:
# Convertimos la lista a array para manipular m√°s c√≥modamente
clase = np.array(clase)

Convierte la lista clase (actualmente de tipo list) en un arreglo de numpy (tipo numpy.ndarray)


**¬øPor qu√© se hace esto?**

- Eficiencia: Los arreglos de numpy son m√°s r√°pidos y consumen menos memoria que las listas de Python

- Operaciones vectorizadas: Permite realizar operaciones matem√°ticas y de manipulaci√≥n de datos sobre el array de forma m√°s eficiente y con menos c√≥digo

- Compatibilidad: Los arreglos son m√°s adecuados para trabajar con bibliotecas cient√≠ficas y de aprendizaje autom√°tico como **pandas o scikit-learn**

In [7]:
# Creamos un DataFrame
df = pd.DataFrame({
    'x1': x1,
    'x2': x2,
    'x3': x3,
    'x4': x4,
    'x5': x5,
    'Clase': clase
})

Creamos un DataFrame de pandas llamado df que organiza los datos generados en una estructura tabular con columnas correspondientes a las caracter√≠sticas (x1 a x5) y la clase (Clase)

**¬øPor qu√© se usa?**

- Organizaci√≥n: Estructura los datos en formato tabular, f√°cil de leer y manipular

- An√°lisis: Facilita operaciones como filtrado, estad√≠sticas, y visualizaci√≥n de los datos

- Compatibilidad: Los DataFrames son el formato est√°ndar para bibliotecas de an√°lisis y machine learning




In [8]:
# Guardamos el dataframe a un archivo CSV
df.to_csv('dataset_svm.csv', index=False)

Guarda el DataFrame df en un archivo CSV llamado dataset_svm.csv


**df.to_csv:** M√©todo de pandas que exporta el DataFrame a un archivo en formato CSV

**'dataset_svm.csv':** Nombre del archivo donde se guardar√° el DataFrame

**index=False:** Omite la inclusi√≥n del √≠ndice del DataFrame como una columna en el archivo CSV

**¬øPor qu√© se hace esto?**

- Almacenamiento: Permite guardar el DataFrame para su uso posterior sin necesidad de regenerar los datos

- Compatibilidad: Los archivos CSV son un formato est√°ndar compatible con la mayor√≠a de herramientas de an√°lisis de datos y aprendizaje autom√°tico

- Portabilidad: Puedes compartir los datos f√°cilmente o utilizarlos en otros scripts

In [9]:
print("Dataset generado y guardado en 'dataset_svm.csv'")
print(df.head())

Dataset generado y guardado en 'dataset_svm.csv'
          x1         x2        x3          x4        x5  Clase
0  52.483571  15.846293  0.877373   96.964298  0.341756      1
1  49.308678  25.793547  0.740769  111.766344  1.876171      1
2  53.238443  26.572855  0.697016  105.619837  0.950424      1
3  57.615149  21.977227  0.702484   87.546010 -0.576904      1
4  48.829233  28.387143  0.359491   95.837555 -0.898415      0


**print("Dataset generado y guardado en 'dataset_svm.csv'"):**

Muestra un mensaje en la consola indicando que el archivo dataset_svm.csv ha sido creado con √©xito

**print(df.head()):**

Imprime las primeras 5 filas del DataFrame df en la consola para que el usuario pueda visualizar una muestra de los datos

**¬øPor qu√© se hace esto?**

- Confirmaci√≥n: Proporciona retroalimentaci√≥n visual de que el archivo se gener√≥ y guard√≥ correctamente

- Verificaci√≥n: Muestra un resumen de los datos en el DataFrame para revisar su estructura y contenido