# Lecci√≥n 1 - An√°lisis Inicial de Datos (IDA) y Generaci√≥n de Dataset

El **An√°lisis Exploratorio de Datos (EDA)** es una fase fundamental para descubrir patrones y extraer valor de la informaci√≥n. Sin embargo, antes de explorar, debemos realizar un **An√°lisis Inicial de Datos (IDA)**, cuyo prop√≥sito es evaluar la calidad estructural del dataset, garantizando que la informaci√≥n sea confiable, coherente y est√© lista para ser procesada estad√≠sticamente.

### üéØ Objetivo de la Lecci√≥n
En este ejercicio pr√°ctico asumiremos el rol de la unidad de **An√°lisis Estrat√©gico** de la empresa de ventas en l√≠nea **ComercioYA**. Utilizaremos las librer√≠as de Python (`pandas` y `numpy`) para construir nuestra base de trabajo y auditar su calidad inicial mediante los siguientes pasos:

1.  **Generar un dataset comercial:** Construir una base de datos ficticia que simule el comportamiento hist√≥rico de nuestros clientes, incluyendo m√©tricas clave como visitas, compras, montos totales, devoluciones y rese√±as.
2.  **Clasificar variables:** Identificar y separar la informaci√≥n seg√∫n su naturaleza estad√≠stica, distinguiendo claramente entre variables cuantitativas (num√©ricas) y categ√≥ricas (cualitativas).
3.  **Ejecutar el control de calidad (IDA):** Auditar el conjunto de datos para detectar inconsistencias, valores nulos (faltantes) y anomal√≠as estructurales (como montos negativos) que deban ser tratadas antes de cualquier visualizaci√≥n o toma de decisiones.

In [7]:
import pandas as pd
import numpy as np

# 1. Configuraci√≥n de la simulaci√≥n
np.random.seed(42) # Fijamos semilla para mantener los mismos datos en cada ejecuci√≥n
n_clientes = 1000

# 2. Generaci√≥n de las variables solicitadas por ComercioYA
datos_simulados = {
    'id_cliente': range(1, n_clientes + 1),
    'visitas': np.random.randint(1, 150, n_clientes).astype(float), # Float para permitir valores nulos despu√©s
    'compras': np.random.randint(0, 30, n_clientes),
    'monto_total': np.random.uniform(5.0, 2500.0, n_clientes).round(2),
    'devoluciones': np.random.randint(0, 5, n_clientes),
    'rese√±a': np.random.choice(['Positiva', 'Neutral', 'Negativa'], n_clientes)
}

df_comercio = pd.DataFrame(datos_simulados)

# 3. Inyecci√≥n de "datos sucios" para justificar el An√°lisis Inicial (IDA)
df_comercio.loc[15, 'monto_total'] = -350.0   # Inconsistencia l√≥gica (monto negativo)
df_comercio.loc[128, 'visitas'] = np.nan      # Valor faltante (nulo)
df_comercio.loc[550, 'rese√±a'] = np.nan       # Valor faltante (nulo)
df_comercio.loc[888, 'monto_total'] = 18500.0 # Outlier extremo para analizar m√°s adelante

# 4. Creaci√≥n del archivo f√≠sico
nombre_archivo = 'comercio_ya_bruto.csv'
df_comercio.to_csv(nombre_archivo, index=False, encoding='utf-8')

print(f"‚úÖ Archivo maestro '{nombre_archivo}' creado exitosamente.")
print(f"üìä Total de registros generados: {len(df_comercio)}")

‚úÖ Archivo maestro 'comercio_ya_bruto.csv' creado exitosamente.
üìä Total de registros generados: 1000


### 1.Desarrollo: Generaci√≥n y Exportaci√≥n del Dataset

En esta primera etapa de ejecuci√≥n, utilizaremos las librer√≠as `pandas` y `numpy` para construir la base de datos hist√≥rica de **ComercioYA**. El siguiente bloque de c√≥digo realiza cuatro acciones fundamentales:

1. **Simulaci√≥n Controlada:** Generamos un volumen de 1,000 registros de clientes. Fijamos una semilla aleatoria (`seed=42`) para garantizar que la simulaci√≥n sea reproducible, es decir, que los datos no cambien cada vez que ejecutemos el notebook.
2. **Creaci√≥n de Variables:** Construimos exactamente las columnas solicitadas por la direcci√≥n estrat√©gica: *visitas, compras, monto total, devoluciones* y *rese√±as*.
3. **Inyecci√≥n de "Datos Sucios" (Sabotaje controlado):** En el mundo real, los datos rara vez vienen perfectos. Para justificar nuestra etapa de An√°lisis Inicial (IDA) y simular un entorno ver√≠dico, introducimos intencionalmente:
   * **Inconsistencias l√≥gicas:** Un cliente con un monto de compra negativo (`-350.0`).
   * **Valores faltantes (NaN):** Registros en blanco en las columnas de visitas y rese√±as.
   * **Valores at√≠picos (Outliers):** Una compra con un monto desproporcionadamente alto (`$18,500.0`) que evaluaremos gr√°ficamente m√°s adelante.
4. **Persistencia de Datos:** Exportamos el DataFrame resultante a un archivo local llamado `comercio_ya_bruto.csv`. Este archivo actuar√° como nuestra fuente de datos "en bruto" para las fases posteriores de limpieza y visualizaci√≥n.

In [8]:
# 1. Cargamos el archivo que acabamos de crear
df_comercio_bruto = pd.read_csv('comercio_ya_bruto.csv')

# 2. Mostramos la informaci√≥n t√©cnica y los tipos de datos (dtypes)
print("--- TIPOS DE VARIABLES DETECTADAS POR PANDAS ---")
print(df_comercio_bruto.dtypes)
print("\n")

# Extra: Usamos .info() que tambi√©n nos da un adelanto de los valores no nulos
print("--- INFORMACI√ìN GENERAL DEL DATASET ---")
df_comercio_bruto.info()

--- TIPOS DE VARIABLES DETECTADAS POR PANDAS ---
id_cliente        int64
visitas         float64
compras           int64
monto_total     float64
devoluciones      int64
rese√±a              str
dtype: object


--- INFORMACI√ìN GENERAL DEL DATASET ---
<class 'pandas.DataFrame'>
RangeIndex: 1000 entries, 0 to 999
Data columns (total 6 columns):
 #   Column        Non-Null Count  Dtype  
---  ------        --------------  -----  
 0   id_cliente    1000 non-null   int64  
 1   visitas       999 non-null    float64
 2   compras       1000 non-null   int64  
 3   monto_total   1000 non-null   float64
 4   devoluciones  1000 non-null   int64  
 5   rese√±a        999 non-null    str    
dtypes: float64(2), int64(3), str(1)
memory usage: 47.0 KB


### 2.Clasificaci√≥n de Variables para ComercioYA

Al ejecutar el an√°lisis de tipos de datos (`dtypes`), confirmamos la siguiente estructura para nuestro diccionario de datos:

**1. Variables Cuantitativas:**
* `visitas` (float64): Cuantitativa discreta (est√° como flotante porque contiene valores nulos, lo cual Pandas maneja as√≠ por defecto).
* `compras` (int64): Cuantitativa discreta (n√∫mero entero de transacciones).
* `monto_total` (float64): Cuantitativa continua (dinero, admite decimales).
* `devoluciones` (int64): Cuantitativa discreta.

**2. Variables Categ√≥ricas:**
* `rese√±a` (object): Categ√≥rica ordinal/nominal (texto que agrupa en 'Positiva', 'Neutral', 'Negativa').
* `id_cliente` (int64): Aunque Pandas lo detecta como n√∫mero entero, comercialmente y estad√≠sticamente es una **variable categ√≥rica nominal**, ya que es solo una etiqueta de identificaci√≥n y no tiene sentido sumar o promediar los IDs de los clientes.

In [9]:
# 1. Carga de datos (aseguramos trabajar con el archivo f√≠sico)
df_ida = pd.read_csv('comercio_ya_bruto.csv')

print("--- AUDITOR√çA DE VALORES NULOS ---")
print(df_ida.isnull().sum())
print("\n")

print("--- AUDITOR√çA DE CONSISTENCIA NUM√âRICA ---")
# El describe() es la herramienta reina para detectar errores l√≥gicos r√°pidamente
resumen = df_ida.describe()
print(resumen)

# Localizamos el registro con monto negativo para tener evidencia
monto_negativo = df_ida[df_ida['monto_total'] < 0]
print("\n--- REGISTROS CON MONTOS NEGATIVOS DETECTADOS ---")
print(monto_negativo)

--- AUDITOR√çA DE VALORES NULOS ---
id_cliente      0
visitas         1
compras         0
monto_total     0
devoluciones    0
rese√±a          1
dtype: int64


--- AUDITOR√çA DE CONSISTENCIA NUM√âRICA ---
        id_cliente     visitas      compras  monto_total  devoluciones
count  1000.000000  999.000000  1000.000000   1000.00000   1000.000000
mean    500.500000   76.404404    14.573000   1250.54706      1.985000
std     288.819436   43.636394     8.741343    901.37627      1.415902
min       1.000000    1.000000     0.000000   -350.00000      0.000000
25%     250.750000   38.500000     7.000000    593.07250      1.000000
50%     500.500000   76.000000    14.000000   1241.89500      2.000000
75%     750.250000  114.000000    22.000000   1857.83000      3.000000
max    1000.000000  149.000000    29.000000  18500.00000      4.000000

--- REGISTROS CON MONTOS NEGATIVOS DETECTADOS ---
    id_cliente  visitas  compras  monto_total  devoluciones   rese√±a
15          16      2.0        7   

### 3: Detectar valores faltantes o inconsistencias (IDA)

El **An√°lisis Inicial de Datos (IDA)** es la auditor√≠a t√©cnica que realizamos para identificar problemas de calidad. No buscamos patrones de negocio todav√≠a, sino errores en la "limpieza" o "integridad" de la tabla. 

En esta etapa para **ComercioYA**, nos enfocaremos en:
1.  **Integridad:** Cu√°ntos datos nos faltan (valores nulos).
2.  **Validez L√≥gica:** Buscar valores que no tienen sentido en el mundo real (como montos negativos).
3.  **Distribuci√≥n Preliminar:** Observar los rangos de las variables para detectar valores extremadamente altos (Outliers) que podr√≠an distorsionar nuestros futuros promedios.

# üìù Documentaci√≥n de Hallazgos: Lecci√≥n 1 (An√°lisis Inicial)

Tras la generaci√≥n del dataset y la ejecuci√≥n del **An√°lisis Inicial de Datos (IDA)**, se han identificado puntos cr√≠ticos que condicionan la calidad de la informaci√≥n para los pr√≥ximos pasos del proyecto de **ComercioYA**.

### 1. Clasificaci√≥n y Diccionario de Variables
Se ha auditado la naturaleza de los datos para asegurar su correcto tratamiento estad√≠stico:

| Variable | Tipo de Dato | Naturaleza | Descripci√≥n |
| :--- | :--- | :--- | :--- |
| `id_cliente` | int64 | Categ√≥rica | Identificador √∫nico del usuario (No operable matem√°ticamente). |
| `visitas` | float64 | Cuantitativa | Cantidad de ingresos al sitio web (Discreta). |
| `compras` | int64 | Cuantitativa | Volumen de transacciones realizadas (Discreta). |
| `monto_total` | float64 | Cuantitativa | Valor monetario de la transacci√≥n (Continua). |
| `devoluciones`| int64 | Cuantitativa | Cantidad de productos retornados (Discreta). |
| `rese√±a` | object | Categ√≥rica | Percepci√≥n cualitativa del cliente (Ordinal). |



### 2. Auditor√≠a de Calidad (Hallazgos Cr√≠ticos)

A partir de las funciones `.isnull().sum()` y `.describe()`, se detectaron las siguientes anomal√≠as:

* **Valores Faltantes (Nulos):** Se identificaron vac√≠os en las columnas `visitas` y `rese√±a`. Estos registros representan una p√©rdida de trazabilidad que debe resolverse mediante limpieza o eliminaci√≥n en la siguiente fase.
* **Inconsistencia L√≥gica:** Se detect√≥ un valor de **-$350.0** en `monto_total`. Al ser una variable de ingresos, un valor negativo es un error de integridad del sistema que sesgar√≠a cualquier c√°lculo de rentabilidad.
* **Presencia de Outliers:** El valor m√°ximo registrado (\$18,500.0) se aleja dr√°sticamente del comportamiento est√°ndar del grupo, lo que sugiere la presencia de un cliente de alto valor o un error de digitaci√≥n.

### 3. Conclusi√≥n de la Etapa
El dataset actual **no es apto** para el an√°lisis descriptivo inmediato. Los hallazgos del IDA obligan a realizar una fase de **Data Cleaning** al inicio de la Lecci√≥n 2 para garantizar que las decisiones comerciales se basen en evidencia real y no en distorsiones t√©cnicas.