<a href="https://colab.research.google.com/github/owners06/Veterinaria/blob/master/dataset_800.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

In [None]:
import numpy as np
import pandas as pd

# =======================
# 1. Generar Dataset Simulado (800 registros)
# =======================
np.random.seed(42)

n_registros = 800

# Listas de valores posibles para el contexto bancario
nombres = ["Ana", "Luis", "Carlos", "María", "Pedro", "Sofía", "Javier", "Paula", "Juan", "Desconocido"]
ciudades = ["Bogotá", "Medellín", "Cali", "Barranquilla", "Cartagena", "Bucaramanga", "Pereira", "Manizales"]
tipo_cuenta = ["Ahorros", "Corriente", "Empresarial", "Nómina"]
historial_crediticio = ["Bueno", "Regular", "Malo"]

# Generar datos aleatorios
datos = {
    "ID": np.arange(1, n_registros + 1),
    "Nombre": np.random.choice(nombres, n_registros, p=[0.12, 0.12, 0.1, 0.1, 0.1, 0.1, 0.1, 0.1, 0.1, 0.06]),
    "Edad": np.random.randint(18, 75, n_registros),
    "Salario": np.random.randint(2000, 30000, n_registros),
    "Ciudad": np.random.choice(ciudades, n_registros),
    "Tipo de Cuenta": np.random.choice(tipo_cuenta, n_registros),
    "Historial Crediticio": np.random.choice(historial_crediticio, n_registros),
    "Saldo Promedio": np.random.uniform(500, 50000, n_registros)
}

# Crear DataFrame
df = pd.DataFrame(datos)

# Introducir valores nulos aleatorios en algunas columnas
df.loc[np.random.choice(df.index, size=50, replace=False), "Nombre"] = np.nan
df.loc[np.random.choice(df.index, size=40, replace=False), "Edad"] = np.nan
df.loc[np.random.choice(df.index, size=30, replace=False), "Salario"] = np.nan
df.loc[np.random.choice(df.index, size=25, replace=False), "Ciudad"] = np.nan

# Guardar dataset en CSV
df.to_csv("dataset_clientes_800.csv", index=False)

# =======================
# 2. Cargar el Dataset
# =======================
df = pd.read_csv("dataset_clientes_800.csv")

# =======================
# 3. Limpieza de Datos
# =======================

# a) Identificar valores nulos y duplicados
print("\nValores nulos por columna:")
print(df.isnull().sum())
print("\nFilas duplicadas:", df.duplicated().sum())

# b) Eliminar filas con más del 50% de valores nulos
df = df.dropna(thresh=df.shape[1] * 0.5)

# c) Imputar valores faltantes
df["Nombre"] = df["Nombre"].fillna("Desconocido")
df["Edad"] = df["Edad"].astype(float).fillna(df["Edad"].median()).astype(int)
df["Salario"] = df["Salario"].astype(float).fillna(df["Salario"].median())
df["Ciudad"] = df["Ciudad"].fillna(df["Ciudad"].dropna().mode().iloc[0])

# d) Convertir tipos de datos
df = df.astype({"ID": int, "Edad": int, "Salario": float, "Saldo Promedio": float})

# e) Eliminar duplicados
df = df.drop_duplicates()

# =======================
# 4. Guardar el Dataset Limpio
# =======================
print("\nDataset limpio:")
print(df.head())

df.to_csv("dataset_clientes_800_limpio.csv", index=False)



Valores nulos por columna:
ID                        0
Nombre                   80
Edad                     60
Ciudad                   50
Categoría de Producto     0
Método de Pago            0
Estado del Pedido        40
Valor de la Compra        0
dtype: int64

Filas duplicadas: 0

Dataset limpio:
   ID       Nombre  Edad        Ciudad Categoría de Producto  \
0   1        María    29      Medellín                 Salud   
1   2  Desconocido    24  Barranquilla               Belleza   
2   3       Javier    46       Pereira                 Hogar   
3   4  Desconocido    28          Cali              Juguetes   
4   5         Luis    45       Pereira                  Ropa   

       Método de Pago Estado del Pedido  Valor de la Compra  
0  Tarjeta de crédito         Cancelado       934196.613132  
1              PayPal        En proceso       405212.616173  
2            Efectivo         Cancelado       471445.931104  
3              PayPal         Pendiente       707107.219387  
4 

In [None]:
from google.colab import files
files.download("dataset_clientes_800_limpio.csv")

<IPython.core.display.Javascript object>

<IPython.core.display.Javascript object>