### 1: Importaciones y Carga de Datos

In [5]:
import pandas as pd
import numpy as np

# Definir la ruta al archivo RAW (sucio)
RAW_DATA_PATH = r"C:\Users\kener\Desktop\Programación\Portfolio\Proyectos\DA-Project-With-Python\data\raw\dirty_cafe_sales.csv" 

# Cargar el DataFrame
df = pd.read_csv(RAW_DATA_PATH, low_memory=False)

print(f"Filas iniciales: {len(df)}")
df.head()

Filas iniciales: 10000


Unnamed: 0,Transaction ID,Item,Quantity,Price Per Unit,Total Spent,Payment Method,Location,Transaction Date
0,TXN_1961373,Coffee,2,2.0,4.0,Credit Card,Takeaway,2023-09-08
1,TXN_4977031,Cake,4,3.0,12.0,Cash,In-store,2023-05-16
2,TXN_4271903,Cookie,4,1.0,ERROR,Credit Card,In-store,2023-07-19
3,TXN_7034554,Salad,2,5.0,10.0,UNKNOWN,UNKNOWN,2023-04-27
4,TXN_3160411,Coffee,2,2.0,4.0,Digital Wallet,In-store,2023-06-11


### 2: Inspección Inicial y Tipos de Datos
Esta celda permite identificar rapidamente problemas como valores nulos, nombres de columnas inconsistentes y tipos de datos incorrectos (donde un numero esta guardado como texto, por ejemplo).

In [6]:
print('--- Información General del DataFrame (df.info()) ---')
df.info()

print('\n--- Estadísticas Descriptivas (df.describe()) ---')
# Usamos include='all' para ver estadísticas de columnas numericas y categoricas
df.describe(include='all')

--- Información General del DataFrame (df.info()) ---
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 10000 entries, 0 to 9999
Data columns (total 8 columns):
 #   Column            Non-Null Count  Dtype 
---  ------            --------------  ----- 
 0   Transaction ID    10000 non-null  object
 1   Item              9667 non-null   object
 2   Quantity          9862 non-null   object
 3   Price Per Unit    9821 non-null   object
 4   Total Spent       9827 non-null   object
 5   Payment Method    7421 non-null   object
 6   Location          6735 non-null   object
 7   Transaction Date  9841 non-null   object
dtypes: object(8)
memory usage: 625.1+ KB

--- Estadísticas Descriptivas (df.describe()) ---


Unnamed: 0,Transaction ID,Item,Quantity,Price Per Unit,Total Spent,Payment Method,Location,Transaction Date
count,10000,9667,9862,9821.0,9827.0,7421,6735,9841
unique,10000,10,7,8.0,19.0,5,4,367
top,TXN_6170729,Juice,5,3.0,6.0,Digital Wallet,Takeaway,UNKNOWN
freq,1,1171,2013,2429.0,979.0,2291,3022,159


### 3: Identificación de Valores Faltantes (Nulos)
Esta es una de las verificaciones mas importantes, ya que guia la parte de imputacion o eliminacion del script de limpieza.

In [7]:
print('-- Conteo de Valores Nulos por Columna ---')

# Calculamos el numero total de nulos y el porcentaje 
null_counts = df.isnull().sum()
null_percentage = (df.isnull().sum() / len(df)) * 100

# Creamos un DataFrame para una mejor visualizacion
null_report = pd.DataFrame({
    'Total Nulos': null_counts,
    'Porcentaje (%)': null_percentage
}).sort_values(by='Porcentaje (%)', ascending=False)

null_report

-- Conteo de Valores Nulos por Columna ---


Unnamed: 0,Total Nulos,Porcentaje (%)
Location,3265,32.65
Payment Method,2579,25.79
Item,333,3.33
Price Per Unit,179,1.79
Total Spent,173,1.73
Transaction Date,159,1.59
Quantity,138,1.38
Transaction ID,0,0.0


### 4: Análisis de Inconsistencias Categóricas
Aqui es donde descubrimos problemas de mayusculas/minusculas y la presencia de valores como 'Error' o 'Unknown' en las columnas clave.

In [8]:
# Analizando la columna 'Item'
print('--- Valores Unicos y Frecuencia en "Item" ---')
# Usamos .value_counts() para ver la distribucion 
print(df['Item'].value_counts(dropna=False))

print('\n--- Valores Unicos y Frecuencia en "Payment Method" ---')
# Vemoslos diferemtes formatos de pago, incluyendo posibles errores de escritura
print(df['Payment Method'].value_counts(dropna=False).head(10))

# Esto revelaria valores como: 'Visa', 'Cash', 'Credit Card', 'error', 'Nan', 'Credit Card'
# y justificara la estandarizacion y la agrupacion en el script de limpieza.

--- Valores Unicos y Frecuencia en "Item" ---
Item
Juice       1171
Coffee      1165
Salad       1148
Cake        1139
Sandwich    1131
Smoothie    1096
Cookie      1092
Tea         1089
UNKNOWN      344
NaN          333
ERROR        292
Name: count, dtype: int64

--- Valores Unicos y Frecuencia en "Payment Method" ---
Payment Method
NaN               2579
Digital Wallet    2291
Credit Card       2273
Cash              2258
ERROR              306
UNKNOWN            293
Name: count, dtype: int64
