# Análisis Exploratorio Inicial

Este notebook realiza un análisis exploratorio de los datos ficticios generados para el proyecto. Se incluyen pasos para importar librerías, definir el esquema, generar datos sintéticos, guardarlos y verificar su estructura.

## 1. Importar librerías necesarias

In [None]:
import pandas as pd
import numpy as np
from faker import Faker

fake = Faker()

## 2. Definir el esquema de los datos ficticios

In [None]:
# Estructura basada en el dataset real de Greenmart
columns = [
    ("customer_name", "str"),
    ("age", "int"),
    ("city", "str"),
    ("purchase_date", "date"),
    ("purchase_quantity", "int"),
    ("price_per_unit", "float"),
    ("total_spent", "float"),
    ("product_name", "str"),
    ("category", "str")
]
N = 100  # Número de filas ficticias

## 3. Generar datos sintéticos con pandas y numpy

In [None]:
def generate_row():
    row = {}
    for col, tipo in columns:
        if tipo == "int":
            if col == "age":
                row[col] = np.random.randint(18, 80)
            elif col == "purchase_quantity":
                row[col] = np.random.randint(1, 10)
            else:
                row[col] = np.random.randint(1, 1000)
        elif tipo == "str":
            if col == "customer_name":
                row[col] = fake.name()
            elif col == "city":
                row[col] = fake.city()
            elif col == "product_name":
                products = ["Laptop", "Mouse", "Keyboard", "Monitor", "Headphones", "Tablet", "Phone"]
                row[col] = np.random.choice(products)
            elif col == "category":
                categories = ["Electronics", "Accessories", "Computing", "Audio", "Mobile"]
                row[col] = np.random.choice(categories)
            else:
                row[col] = fake.word()
        elif tipo == "date":
            row[col] = fake.date_between(start_date="-2y", end_date="today")
        elif tipo == "float":
            if col == "price_per_unit":
                row[col] = round(np.random.uniform(10, 500), 2)
            elif col == "total_spent":
                # Calcular basado en quantity y price (con algo de variación)
                quantity = np.random.randint(1, 10)
                price = round(np.random.uniform(10, 500), 2)
                row[col] = round(quantity * price * np.random.uniform(0.9, 1.1), 2)
            else:
                row[col] = round(np.random.uniform(100, 10000), 2)
        else:
            row[col] = None
    return row

data = [generate_row() for _ in range(N)]
df = pd.DataFrame(data)

## 4. Guardar los datos generados en un archivo CSV

In [None]:
df.to_csv("../data/greenmart_customers_products.csv", index=False)
print("Datos ficticios guardados en ../data/greenmart_customers_products.csv")

## 6. Análisis de calidad de datos (Simulando problemas reales)

In [None]:
# Simular valores faltantes como en el dataset real
np.random.seed(42)
# Introducir valores faltantes en customer_name, age y city (como en el dataset original)
missing_indices_name = np.random.choice(df.index, size=int(0.7 * len(df)), replace=False)
missing_indices_age = np.random.choice(df.index, size=int(0.6 * len(df)), replace=False)
missing_indices_city = np.random.choice(df.index, size=int(0.65 * len(df)), replace=False)

df.loc[missing_indices_name, 'customer_name'] = None
df.loc[missing_indices_age, 'age'] = None
df.loc[missing_indices_city, 'city'] = None

print("Valores faltantes por columna:")
print(df.isnull().sum())

## 5. Verificar la estructura y muestra de los datos generados

In [None]:
print("Columnas y tipos de datos:")
print(df.dtypes)
display(df.head())