<a href="https://colab.research.google.com/github/owners06/Veterinaria/blob/master/dataset_800.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

In [None]:
import numpy as np
import pandas as pd

# =======================
# 1. Generar Dataset Simulado (1200 registros)
# =======================
np.random.seed(42)

n_registros = 1200

# Listas de valores posibles para el contexto de comercio electrónico
nombres = ["Ana", "Luis", "Carlos", "María", "Pedro", "Sofía", "Javier", "Paula", "Juan", "Desconocido"]
ciudades = ["Bogotá", "Medellín", "Cali", "Barranquilla", "Cartagena", "Bucaramanga", "Pereira", "Manizales"]
categorias = ["Electrónica", "Ropa", "Hogar", "Deportes", "Juguetes", "Libros", "Salud", "Belleza"]
metodos_pago = ["Tarjeta de crédito", "Tarjeta de débito", "PayPal", "Efectivo", "Criptomoneda"]
estado_pedido = ["Entregado", "En proceso", "Cancelado", "Pendiente"]

# Generar datos aleatorios
datos = {
    "ID": np.arange(1, n_registros + 1),
    "Nombre": np.random.choice(nombres, n_registros, p=[0.12, 0.12, 0.1, 0.1, 0.1, 0.1, 0.1, 0.1, 0.1, 0.06]),
    "Edad": np.random.randint(18, 75, n_registros),
    "Ciudad": np.random.choice(ciudades, n_registros),
    "Categoría de Producto": np.random.choice(categorias, n_registros),
    "Método de Pago": np.random.choice(metodos_pago, n_registros),
    "Estado del Pedido": np.random.choice(estado_pedido, n_registros),
    "Valor de la Compra": np.random.uniform(5000, 1000000, n_registros)
}

# Crear DataFrame
df = pd.DataFrame(datos)

# Introducir valores nulos aleatorios en algunas columnas
df.loc[np.random.choice(df.index, size=80, replace=False), "Nombre"] = np.nan
df.loc[np.random.choice(df.index, size=60, replace=False), "Edad"] = np.nan
df.loc[np.random.choice(df.index, size=50, replace=False), "Ciudad"] = np.nan
df.loc[np.random.choice(df.index, size=40, replace=False), "Estado del Pedido"] = np.nan

# Guardar dataset en CSV
df.to_csv("dataset_comercio_1200.csv", index=False)

# =======================
# 2. Cargar el Dataset
# =======================
df = pd.read_csv("dataset_comercio_1200.csv")

# =======================
# 3. Limpieza de Datos
# =======================

# a) Identificar valores nulos y duplicados
print("\nValores nulos por columna:")
print(df.isnull().sum())
print("\nFilas duplicadas:", df.duplicated().sum())

# b) Eliminar filas con más del 50% de valores nulos
df = df.dropna(thresh=df.shape[1] * 0.5)

# c) Imputar valores faltantes
df["Nombre"] = df["Nombre"].fillna("Desconocido")
df["Edad"] = df["Edad"].astype(float).fillna(df["Edad"].median()).astype(int)
df["Ciudad"] = df["Ciudad"].fillna(df["Ciudad"].dropna().mode().iloc[0])
df["Estado del Pedido"] = df["Estado del Pedido"].fillna(df["Estado del Pedido"].dropna().mode().iloc[0])

# d) Convertir tipos de datos
df = df.astype({"ID": int, "Edad": int, "Valor de la Compra": float})

# e) Eliminar duplicados
df = df.drop_duplicates()

# =======================
# 4. Guardar el Dataset Limpio
# =======================
print("\nDataset limpio:")
print(df.head())

df.to_csv("dataset_comercio_1200_limpio.csv", index=False)



Valores nulos por columna:
ID                        0
Nombre                   80
Edad                     60
Ciudad                   50
Categoría de Producto     0
Método de Pago            0
Estado del Pedido        40
Valor de la Compra        0
dtype: int64

Filas duplicadas: 0

Dataset limpio:
   ID       Nombre  Edad        Ciudad Categoría de Producto  \
0   1        María    29      Medellín                 Salud   
1   2  Desconocido    24  Barranquilla               Belleza   
2   3       Javier    46       Pereira                 Hogar   
3   4  Desconocido    28          Cali              Juguetes   
4   5         Luis    45       Pereira                  Ropa   

       Método de Pago Estado del Pedido  Valor de la Compra  
0  Tarjeta de crédito         Cancelado       934196.613132  
1              PayPal        En proceso       405212.616173  
2            Efectivo         Cancelado       471445.931104  
3              PayPal         Pendiente       707107.219387  
4 

In [None]:
from google.colab import files
files.download("dataset_comercio_1200_limpio.csv")

<IPython.core.display.Javascript object>

<IPython.core.display.Javascript object>