# ETL - Limpieza general del dataset


#### _Librerias utilizadas_

In [1]:
## Traemos las librerias empledas
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

## Carga inicial


In [None]:
df = pd.read_csv(r"C:\Users\pablo\OneDrive\Documentos\HENRY\Proyecto\Inventory\SalesFINAL12312016.csv", parse_dates=['SalesDate'])

print("Dimensiones iniciales:", df.shape)
print("\nVista previa:")
display(df.head(3))


Observando las otras bases de datos, se toma la desicion de renombrar la columna 'VendorNo' a 'VendorNumbre', ya que indican el mismo valor.

In [None]:
# Renombramos la columna 'VendorNo' a 'VendorNumber'
df.rename(columns={'VendorNo': 'VendorNumber'}, inplace=True)

## Renombrar columnas a snake_case


In [None]:
import re

df.columns = (
    df.columns
      .str.strip()                                # remover espacios extremos
      .str.replace(" ", "_")                      # espacios a guiones bajos
      .str.replace("-", "_")                      # guiones a guiones bajos
      .str.replace(r'([a-z])([A-Z])', r'\1_\2', regex=True)  # minúscula + mayúscula -> minúscula + _ + mayúscula
      .str.lower()                                # pasar todo a minúsculas
)

print("\nColumnas renombradas:")
print(df.columns.tolist())

_Se toma la desicion de eliminar la columna 'size' ya que su contenido es redundante_

In [None]:
# Eliminamos la columna size
df = df.drop(columns=['size'])

In [None]:
df.head(3)

## Normalización de texto en columnas tipo string


In [None]:
for col in df.select_dtypes(include="object").columns:
    df[col] = (df[col]
                 .str.strip()                        # quitar espacios extremos
                 .str.upper()                        # pasar a mayusculas
                 .str.replace(r"\s+", " ", regex=True))  # normalizar espacios internos

## Validación de duplicados


In [None]:
duplicados = df.duplicated().sum()
print(f"\nFilas duplicadas encontradas: {duplicados}")


## Guardar CSV limpio


In [None]:
# Use a raw string (r"...") or forward slashes to avoid Python interpreting backslashes as escape sequences
df.to_csv("C:\Users\pablo\OneDrive\Documentos\HENRY\Proyecto\Inventory\Limpios\SalesFINAL12312016_limpio.csv", index=False)

print("\nDataset limpio guardado como 'SalesFINAL_limpio.csv'")
print("Dimensiones finales:", df.shape)


In [4]:
#cargamos el dataset limpio
df2 = pd.read_csv(r"C:\Users\pablo\OneDrive\Documentos\HENRY\Proyecto\Inventory\Limpios\SalesFINAL12312016_limpio.csv")

In [6]:
df2.head(3)

Unnamed: 0,inventory_id,store,brand,description,sales_quantity,sales_dollars,sales_price,sales_date,volume,classification,excise_tax,vendor_number,vendor_name
0,1_HARDERSFIELD_1004,1,1004,JIM BEAM W/2 ROCKS GLASSES,1,16.49,16.49,2016-01-01,750,1,0.79,12546,JIM BEAM BRANDS COMPANY
1,1_HARDERSFIELD_1004,1,1004,JIM BEAM W/2 ROCKS GLASSES,2,32.98,16.49,2016-01-02,750,1,1.57,12546,JIM BEAM BRANDS COMPANY
2,1_HARDERSFIELD_1004,1,1004,JIM BEAM W/2 ROCKS GLASSES,1,16.49,16.49,2016-01-03,750,1,0.79,12546,JIM BEAM BRANDS COMPANY
