## Generar Datos Sintéticos Usando Interpolación y Transformaciones


#### Cargando Datos

In [4]:
import pandas as pd
import numpy as np
# Path
path = './data/'
# Cargar el dataset
df = pd.read_csv(path+'data.csv')

In [5]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 4746 entries, 0 to 4745
Data columns (total 21 columns):
 #   Column         Non-Null Count  Dtype  
---  ------         --------------  -----  
 0   gender         4746 non-null   int64  
 1   C_api          4746 non-null   object 
 2   C_man          4746 non-null   int64  
 3   E_NEds         4746 non-null   int64  
 4   E_Bpag         4746 non-null   int64  
 5   firstDay       4746 non-null   int64  
 6   lastDay        4746 non-null   int64  
 7   NEds           4746 non-null   int64  
 8   NDays          4746 non-null   int64  
 9   NActDays       4746 non-null   int64  
 10  NPages         4746 non-null   int64  
 11  NPcreated      4746 non-null   int64  
 12  pagesWomen     4746 non-null   int64  
 13  wikiprojWomen  4746 non-null   int64  
 14  ns_user        4746 non-null   int64  
 15  ns_wikipedia   4746 non-null   int64  
 16  ns_talk        4746 non-null   int64  
 17  ns_userTalk    4746 non-null   int64  
 18  ns_conte

In [6]:
import pandas as pd
import numpy as np
from datetime import datetime

# Cargar tu DataFrame original
original_data = df

#lista para almacenar las filas sintéticas
synthetic_rows = []

# Generar datos sintéticos
for index, row in original_data.iterrows():
    # Crear una copia de la fila
    new_row = row.copy()
    
    # Generar datos sintéticos basados en la lógica de cada columna
    new_row['gender'] = np.random.choice([0, 1, 2], p=[0.2, 0.4, 0.4])  # Proporción arbitraria para gender
    new_row['C_api'] = np.random.choice(['male', 'female', 'unknown'], p=[0.4, 0.4, 0.2])
    new_row['C_man'] = np.random.choice([1, 2, 3], p=[0.4, 0.4, 0.2])
    
    new_row['E_NEds'] = np.random.randint(0, 4)  # Estrato entre 0 y 3
    new_row['E_Bpag'] = np.random.randint(0, 4)  # Estrato entre 0 y 3

    # Generar fechas en formato YYYYMMDDHHMMSS
    first_day_timestamp = np.random.randint(20000000000000, 20230000000000)  # 2000-01-01 00:00:00 hasta 2023-12-31 23:59:59
    last_day_timestamp = first_day_timestamp + np.random.randint(0, 1000000)  # Se asume que la fecha final es posterior a la inicial
    new_row['firstDay'] = first_day_timestamp
    new_row['lastDay'] = last_day_timestamp

    # Calcular los valores restantes
    new_row['NEds'] = np.random.randint(1, 100)  # Total de ediciones (al menos 1)
    new_row['NDays'] = (last_day_timestamp - first_day_timestamp) // 1000000 + 1  # Días totales (HHMMSS)
    new_row['NActDays'] = np.random.randint(1, new_row['NDays'] + 1)  # Días activos, al menos 1 y no más que NDays
    new_row['NPages'] = np.random.randint(1, 50)  # Número de páginas editadas
    new_row['NPcreated'] = np.random.randint(0, 20)  # Páginas creadas
    
    # Asegurarse de que NEds sea mayor que 0 antes de usarlo
    if new_row['NEds'] > 0:
        new_row['pagesWomen'] = np.random.randint(0, new_row['NEds'])  # Ediciones en páginas relacionadas con mujeres
        new_row['wikiprojWomen'] = np.random.randint(0, new_row['NEds'])  # Ediciones en WikiProjects relacionados con mujeres
        new_row['ns_user'] = np.random.randint(0, new_row['NEds'])  # Ediciones en el namespace de usuario
        new_row['ns_wikipedia'] = np.random.randint(0, new_row['NEds'])  # Ediciones en el namespace de Wikipedia
        new_row['ns_talk'] = np.random.randint(0, new_row['NEds'])  # Ediciones en el namespace de talk
        new_row['ns_userTalk'] = np.random.randint(0, new_row['NEds'])  # Ediciones en el namespace de user talk
        new_row['ns_content'] = np.random.randint(0, new_row['NEds'])  # Ediciones en páginas de contenido
    else:
        # Asignar 0 si NEds es 0
        new_row['pagesWomen'] = 0
        new_row['wikiprojWomen'] = 0
        new_row['ns_user'] = 0
        new_row['ns_wikipedia'] = 0
        new_row['ns_talk'] = 0
        new_row['ns_userTalk'] = 0
        new_row['ns_content'] = 0

    new_row['weightIJ'] = np.random.uniform(0.5, 1.5)  # Peso de corrección para el estrato IJ
    new_row['NIJ'] = np.random.randint(1, 100)  # Número de elementos en el estrato IJ

    # Agregar la nueva fila a la lista
    synthetic_rows.append(new_row)

# Crear un DataFrame a partir de la lista de filas
synthetic_data = pd.DataFrame(synthetic_rows, columns=original_data.columns)

for column in original_data.select_dtypes(include=[np.int64]).columns:
    synthetic_data[column] = synthetic_data[column].astype(np.int64)

for column in original_data.select_dtypes(include=[np.float64]).columns:
    synthetic_data[column] = synthetic_data[column].astype(np.float64)

# Para asegurar que las columnas de fechas mantengan su tipo de dato

date_columns = ['firstDay', 'lastDay']  # Lista las columnas que representan días
for column in date_columns:
    synthetic_data[column] = synthetic_data[column].astype(np.int64)  # Asegúrate de que sean enteros


# Obtener la hora actual
now = datetime.now()

current_time = now.strftime("%Y-%m-%d_%H:%M:%S")




# Guardar el nuevo dataset sintético en un archivo CSV
synthetic_data.to_csv(path+'synthetic_interpolated_dataset'+current_time+'.csv', index=False)


In [7]:
synthetic_data.info()

<class 'pandas.core.frame.DataFrame'>
Index: 4746 entries, 0 to 4745
Data columns (total 21 columns):
 #   Column         Non-Null Count  Dtype  
---  ------         --------------  -----  
 0   gender         4746 non-null   int64  
 1   C_api          4746 non-null   object 
 2   C_man          4746 non-null   int64  
 3   E_NEds         4746 non-null   int64  
 4   E_Bpag         4746 non-null   int64  
 5   firstDay       4746 non-null   int64  
 6   lastDay        4746 non-null   int64  
 7   NEds           4746 non-null   int64  
 8   NDays          4746 non-null   int64  
 9   NActDays       4746 non-null   int64  
 10  NPages         4746 non-null   int64  
 11  NPcreated      4746 non-null   int64  
 12  pagesWomen     4746 non-null   int64  
 13  wikiprojWomen  4746 non-null   int64  
 14  ns_user        4746 non-null   int64  
 15  ns_wikipedia   4746 non-null   int64  
 16  ns_talk        4746 non-null   int64  
 17  ns_userTalk    4746 non-null   int64  
 18  ns_content   

## Generar Datos Sintéticos Usando Interpolación y Transformaciones

La generación de datos sintéticos mediante interpolación y transformaciones es una técnica utilizada para crear conjuntos de datos artificiales que imitan las características estadísticas de un conjunto de datos real. Este método es útil para mantener la privacidad de los datos sensibles y para entrenar modelos de machine learning sin la necesidad de usar datos reales.

### Proceso General:

1. **Selección de un Conjunto de Datos Base**: Se comienza con un conjunto de datos real que contiene las variables de interés.

2. **Análisis Estadístico**: Se realiza un análisis para entender la distribución y la correlación entre las variables. Esto puede incluir el cálculo de medias, varianzas, y otros estadísticos descriptivos.

3. **Interpolación**: Se utilizan técnicas de interpolación para estimar nuevos valores basados en los existentes. Esto permite generar datos adicionales que se ajusten a las distribuciones observadas.

4. **Transformaciones**: Se pueden aplicar transformaciones a los datos, como escalado o normalización, para garantizar que los datos sintéticos mantengan las propiedades del conjunto original.

5. **Validación**: Finalmente, se valida el conjunto de datos sintéticos para asegurarse de que su estructura y propiedades sean coherentes con el conjunto de datos original.

Este enfoque es particularmente útil en escenarios donde se necesita crear datos para pruebas o para simular situaciones en entornos controlados.

---


## Generar Datos Sintéticos Usando  Faker


In [11]:
import pandas as pd
import numpy as np
from faker import Faker
from datetime import datetime

# Inicializar Faker
fake = Faker()

# Número de filas que deseas generar
num_rows = 1000  # Ajusta este valor según lo necesites

# Crear una lista para almacenar las filas sintéticas
synthetic_rows = []

# Generar datos sintéticos
for _ in range(num_rows):
    # Generar firstDay y lastDay asegurando que firstDay es antes que lastDay
    first_day = fake.date_time_this_decade(before_now=True)
    last_day = fake.date_time_this_decade(after_now=True)

    # Asegurarse de que last_day sea después de first_day
    if last_day < first_day:
        first_day, last_day = last_day, first_day

    new_row = {
        'gender': np.random.choice([0, 1, 2], p=[0.2, 0.4, 0.4]),  # Proporción de género
        'C_api': fake.random_element(elements=['male', 'female', 'unknown']),
        'C_man': np.random.choice([1, 2, 3], p=[0.4, 0.4, 0.2]),
        'E_NEds': np.random.randint(0, 4),  # Estrato entre 0 y 3
        'E_Bpag': np.random.randint(0, 4),  # Estrato entre 0 y 3
        'firstDay': first_day.strftime("%Y%m%d%H%M%S"),
        'lastDay': last_day.strftime("%Y%m%d%H%M%S"),
        'NEds': np.random.randint(1, 100),  # Total de ediciones (al menos 1)
        'NPages': np.random.randint(1, 50),  # Número de páginas editadas
        'NPcreated': np.random.randint(0, 20),  # Páginas creadas
        'weightIJ': np.random.uniform(0.5, 1.5),  # Peso de corrección para el estrato IJ
        'NIJ': np.random.randint(1, 100),  # Número de elementos en el estrato IJ
    }
    
    # Calcular los valores derivados
    new_row['NDays'] = (int(new_row['lastDay']) - int(new_row['firstDay'])) // 1000000 + 1  # Días totales

    # Verificar que NDays sea mayor que 0
    if new_row['NDays'] > 0:
        new_row['NActDays'] = np.random.randint(1, new_row['NDays'] + 1)  # Días activos
    else:
        new_row['NActDays'] = 0  # Asignar 0 si NDays es 0

    # Asegurarse de que NEds sea mayor que 0 antes de usarlo para generar otros campos
    if new_row['NEds'] > 0:
        new_row['pagesWomen'] = np.random.randint(0, new_row['NEds'] + 1)  # Ediciones en páginas relacionadas con mujeres
        new_row['wikiprojWomen'] = np.random.randint(0, new_row['NEds'] + 1)  # Ediciones en WikiProjects relacionados con mujeres
        new_row['ns_user'] = np.random.randint(0, new_row['NEds'] + 1)  # Ediciones en el namespace de usuario
        new_row['ns_wikipedia'] = np.random.randint(0, new_row['NEds'] + 1)  # Ediciones en el namespace de Wikipedia
        new_row['ns_talk'] = np.random.randint(0, new_row['NEds'] + 1)  # Ediciones en el namespace de talk
        new_row['ns_userTalk'] = np.random.randint(0, new_row['NEds'] + 1)  # Ediciones en el namespace de user talk
        new_row['ns_content'] = np.random.randint(0, new_row['NEds'] + 1)  # Ediciones en páginas de contenido
    else:
        # Asignar 0 si NEds es 0
        new_row['pagesWomen'] = 0
        new_row['wikiprojWomen'] = 0
        new_row['ns_user'] = 0
        new_row['ns_wikipedia'] = 0
        new_row['ns_talk'] = 0
        new_row['ns_userTalk'] = 0
        new_row['ns_content'] = 0

    # Agregar la nueva fila a la lista
    synthetic_rows.append(new_row)

# Crear un DataFrame a partir de la lista de filas
synthetic_data = pd.DataFrame(synthetic_rows)

# Asegurarse de que las columnas numéricas mantengan su tipo original
for column in synthetic_data.select_dtypes(include=[np.int64]).columns:
    synthetic_data[column] = synthetic_data[column].astype(np.int64)

for column in synthetic_data.select_dtypes(include=[np.float64]).columns:
    synthetic_data[column] = synthetic_data[column].astype(np.float64)

# Generar un nombre de archivo único usando la fecha y hora actual
now = datetime.now()
current_time = now.strftime("%Y-%m-%d_%H-%M-%S")

# Guardar el nuevo dataset sintético en un archivo CSV
synthetic_data.to_csv(path + f'synthetic_faker_dataset_{current_time}.csv', index=False)


In [12]:
synthetic_data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1000 entries, 0 to 999
Data columns (total 21 columns):
 #   Column         Non-Null Count  Dtype  
---  ------         --------------  -----  
 0   gender         1000 non-null   int64  
 1   C_api          1000 non-null   object 
 2   C_man          1000 non-null   int64  
 3   E_NEds         1000 non-null   int64  
 4   E_Bpag         1000 non-null   int64  
 5   firstDay       1000 non-null   object 
 6   lastDay        1000 non-null   object 
 7   NEds           1000 non-null   int64  
 8   NPages         1000 non-null   int64  
 9   NPcreated      1000 non-null   int64  
 10  weightIJ       1000 non-null   float64
 11  NIJ            1000 non-null   int64  
 12  NDays          1000 non-null   int64  
 13  NActDays       1000 non-null   int64  
 14  pagesWomen     1000 non-null   int64  
 15  wikiprojWomen  1000 non-null   int64  
 16  ns_user        1000 non-null   int64  
 17  ns_wikipedia   1000 non-null   int64  
 18  ns_talk  

## Generar Datos Sintéticos Usando Faker

Faker es una biblioteca de Python que permite generar datos ficticios de manera rápida y eficiente. Esta herramienta es ideal para pruebas, desarrollo y cualquier situación en la que se necesite un conjunto de datos sintéticos realista.

### Descripción
- **Generar Datos Sintéticos Usando Interpolación y Transformaciones**: Este apartado describe el enfoque de usar datos reales como base para crear un conjunto sintético mediante técnicas de interpolación y transformaciones.
  
- **Generar Datos Sintéticos Usando Faker**: Aquí se explica cómo usar la biblioteca Faker para generar datos sintéticos de manera eficiente y práctica.

Puedes personalizar y ampliar cada sección según sea necesario para adaptarse a tu audiencia y contexto. ¡Avísame si necesitas más detalles o ajustes!





