# Preparación: Creación del Dataset Sucio

In [None]:
import pandas as pd 
import numpy as np 

: 

In [None]:
# Simulamos datos de una tienda
data={
    'id_transacción': range(1,101),
    'fecha': ['2024-01-01','2024-01-02','2024-01-03', '2024-01-04'] *25,
    'producto':['Laptop','Mouse','Monitor','Teclado']*25,
    'precio':[1200,25,300,45]*25,
    'cantidad':[1,10,2,5]*25,
    'cliente_vip': [True, False, None, True] * 25 #OJO: Tiene Nulos (None)
}

df=pd.DataFrame(data)
# --- Insertamos TRAMPAS (Errores intencionales) ---
# 1. Un error lógico: Precio negativo (imposible)
df.loc[0, 'precio'] = -1200 
# 2. Un outlier exagerado: Una cantidad absurda
df.loc[99, 'cantidad'] = 5000
# 3. Tipos incorrectos: Convertimos fechas a texto puro
df['fecha'] = df['fecha'].astype(object)

print(" ataset Sucio Creado")


# Ejemplo 1: El Escáner Completo (.info)
Teoría: Diagnóstico técnico de tipos y memoria. Es lo primero que debes ejecutar.

In [None]:
print("--- RADIOGRAFÍA TÉCNICA ---")
# Usamos memory_usage='deep' como recomienda Matt Harrison para ver el peso real
df.info(memory_usage='deep')

# Qué debes observar

## Dtypes
Fíjate que **fecha** dice `object`. Eso está mal, debería ser `datetime`.

## Non-Null Count
Mira la columna **cliente_vip**. Dice **75 non-null**.  
Como el total es **100**, sabes inmediatamente que faltan **25 datos**.


# Ejemplo 2: La Mirada Imparcial (.sample)

Teoría: Ver datos aleatorios para evitar sesgos de orden.

In [None]:
print("--- MUESTRA ALEATORIA (Sin Sesgo) ---")
# Pedimos 5 filas al azar. Cada vez que ejecutes esto, verás filas distintas.
print(df.sample(5))

# Comparación: Si usaras df.head(), siempre verías los id_transaccion 1, 2, 3...
# y quizás te perderías los errores que están al final de la tabla.

# Ejemplo 3: El Resumen Estadístico (.describe)

Teoría: Detectar anomalías matemáticas (Outliers) y entender la distribución.

In [None]:
print("--- ANÁLISIS NUMÉRICO (Detectando Errores Lógicos) ---")
print(df.describe())

In [None]:
print("\n--- ANÁLISIS DE TEXTO ---")
# include='O' fuerza a Pandas a describir las columnas de texto (Object)
print(df.describe(include='O'))

Qué observar: Te dirá que en producto hay 4 unique (valores únicos) y que el top (el más repetido) es Laptop.

# Ejemplo 4: Coordenadas y Nulos (.shape y .isna)

Teoría: Dimensionar el volumen y localizar huecos vacíos.

In [None]:
print(f"--- DIMENSIONES ---")
print(f"Filas: {df.shape[0]}, Columnas: {df.shape[1]}")

print("\n--- RADAR DE NULOS (Por columna) ---")
# Sumamos cuántos True hay en la máscara de nulos
print(df.isna().sum())

Qué debes observar: Confirma que cliente_vip tiene 25 datos perdidos. Las otras columnas tienen 0. Esto define tu siguiente tarea: "Tengo que decidir qué hacer con esos 25 clientes sin estado VIP".

## Resumen del Ejercicio

Si ejecutas estos bloques en orden, habrás realizado una **Inspección Inicial Profesional**:

- Sabes cuánto pesa el archivo (`.info`).
- Sabes que las fechas están mal formateadas (`.info`).
- Descubriste precios negativos y cantidades absurdas (`.describe`).
- Localizaste exactamente dónde falta información (`.isna`).
