---
# Explicacion de obtencion del DataSet inicial
---


In [4]:
from faker import Faker
import random
import csv
from datetime import datetime, timedelta
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns


In [9]:
df = pd.read_csv("0.3. ventas_retail_1M.csv", encoding="utf-8")
df.head()

Unnamed: 0,id_transaccion,id_producto,nombre_producto,precio,id_tienda,nombre_tienda,categoria_tienda,ciudad,fecha
0,1,63,Salsa Bufalo,23.1,6,City Market,Premium,CANCUN,2025-10-27
1,2,32,,9.49,5,Chedraui,Autoservicio,PUEBLA,2025-12-27
2,3,77,Cereal Choco Krispis,53.36,2,Sam's Club,Mayoreo,PUEBLA,2025-11-09
3,4,45,Mix de Nueces Member's Mark,88.14,7,La Comer,Premium,CANCUN,2025-10-27
4,5,42,Yoghurt Griego Yoplait,28.32,1,Walmart,Autoservicio,GDL,2025-09-03


## Descripción del conjunto de datos

El conjunto de datos está compuesto por **1,030,000 registros** y **9 columnas**, lo que indica un volumen considerable de información. Cada fila representa una transacción individual, identificada de manera única mediante la variable `id_transaccion`.



En términos de calidad de los datos, se observa que algunas columnas presentan valores faltantes. En particular, las variables `nombre_producto`, `precio` y `ciudad` no cuentan con el total de registros completos, lo que indica la presencia de información incompleta dentro del dataset. Por otro lado, columnas como `id_producto`, `id_tienda`, `nombre_tienda` y `categoria_tienda` se encuentran completamente pobladas, lo que refleja consistencia en los identificadores y atributos de las tiendas.

Finalmente, el uso de memoria del DataFrame es de aproximadamente **70.7 MB**, lo cual es acorde al tamaño del conjunto de datos

In [11]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1030000 entries, 0 to 1029999
Data columns (total 9 columns):
 #   Column            Non-Null Count    Dtype 
---  ------            --------------    ----- 
 0   id_transaccion    1030000 non-null  int64 
 1   id_producto       1030000 non-null  object
 2   nombre_producto   1013293 non-null  object
 3   precio            1013461 non-null  object
 4   id_tienda         1030000 non-null  object
 5   nombre_tienda     1030000 non-null  object
 6   categoria_tienda  1030000 non-null  object
 7   ciudad            1013246 non-null  object
 8   fecha             1030000 non-null  object
dtypes: int64(1), object(8)
memory usage: 70.7+ MB


---
## Obtener los nombres de columna
---

Esto nos ayuda a identificar como froma de lista por si ocupamos hacer un mapeo de alguna columna especifica

In [12]:
df.columns


Index(['id_transaccion', 'id_producto', 'nombre_producto', 'precio',
       'id_tienda', 'nombre_tienda', 'categoria_tienda', 'ciudad', 'fecha'],
      dtype='object')

## Al momento de poner el all nos muestra de todas y no de solo las numericas

In [15]:
df.describe(include='all')

Unnamed: 0,id_transaccion,id_producto,nombre_producto,precio,id_tienda,nombre_tienda,categoria_tienda,ciudad,fecha
count,1030000.0,1030000.0,1013293,1013461.0,1030000.0,1030000,1030000,1013246,1030000
unique,,400.0,3323,44944.0,40.0,40,5,708,1616
top,,15.0,Café Soluble Nescafé,15.3,6.0,City Market,Autoservicio,CDMX,2025-06-21
freq,,10325.0,10170,521.0,102240.0,102254,307486,200074,2939
mean,515000.5,,,,,,,,
std,297335.5,,,,,,,,
min,1.0,,,,,,,,
25%,257500.8,,,,,,,,
50%,515000.5,,,,,,,,
75%,772500.2,,,,,,,,


Ya que tenemos los datos principales observamos que la columna que nos molesta son las de los errores con tetxo asiq ue vemos los valores unicos

In [16]:
df.nunique()


id_transaccion      1030000
id_producto             400
nombre_producto        3323
precio                44944
id_tienda                40
nombre_tienda            40
categoria_tienda          5
ciudad                  708
fecha                  1616
dtype: int64

## Analizamos nuestro faker inicial

Vemos que en ciudad solo deberiamos tener pocos unicos y vemos 708, asi como en id producto solo debemos tener 100 y tenemos 400


In [18]:
list(df['ciudad'].dropna().unique())


['CANCUN',
 'PUEBLA',
 'GDL',
 'CDMX',
 'MTY',
 'CD MX',
 'cdmx',
 'cancun',
 'CACUN',
 '  GDL  ',
 'PUUEBLA',
 'Puebla',
 '  CDMX  ',
 '  CANCUN  ',
 'PUEBjA',
 'GL',
 'PUE',
 '  MTY  ',
 'gdl',
 'MTY ',
 'mty',
 'puebla',
 '  PUEBLA  ',
 'GDL ',
 'MY',
 'Ciudad de Mexico',
 'rUEBLA',
 'MTYY',
 'GGDL',
 'UEBLA',
 'MMTY',
 'GDLL',
 'Q.Roo',
 'Monterrey',
 'CDMMX',
 'PUELA',
 'Cancun',
 'wDL',
 'PUEBvA',
 'Gdl',
 'Mty',
 'QRoo',
 'PUEEBLA',
 'CDzX',
 'jDL',
 'CCDMX',
 'MONTERREY',
 'PUEBL',
 'PUEBLA ',
 'DF',
 'CDMXX',
 'CDMg',
 'CAN0UN',
 'GUADALAJARA',
 'MT',
 'CDX',
 'CAANCUN',
 'CoMX',
 'Cancún',
 'CDwX',
 'Cdmx',
 'CDDMX',
 'CANoUN',
 'CIUDAD MEXICO',
 'PUEB3A',
 'Mty.',
 'GD',
 'CANCUNN',
 '7TY',
 'MkY',
 'PUEBLLA',
 'CANCU',
 'Pue',
 'CANCN',
 'PnEBLA',
 'C8MX',
 'PUEBuA',
 'CANCÚN',
 'PPUEBLA',
 'PUEB7A',
 'PcEBLA',
 'CaNCUN',
 'M1Y',
 'CCANCUN',
 'G8L',
 'DL',
 'MTTY',
 'Guadalajara',
 'eDL',
 'PEBLA',
 'PUEBBLA',
 'aDMX',
 'PUEBdA',
 'mDMX',
 '0DL',
 'CNCUN',
 ' GDL',
 'GoL',
