A. Importación de librerías

In [42]:
import pandas as pd
from sqlalchemy import create_engine 

B. Lectura inicial del archivo CSV

In [43]:
ruta_csv = "RWventas.csv"

df = pd.read_csv(ruta_csv, encoding="utf-8")
df.head()


Unnamed: 0,Ciudad,Fecha,Producto,Tipo_Producto,Cantidad,Precio_Unitario,Tipo_Venta,Tipo_Cliente,Descuento,Costo_Envio,Total
0,Antofagasta,2025-11-28,Leche,Alimento_Percedero,2.0,1587.0,Online,Minorista,0.2,0.0,2539.0
1,Monterrey,2025-11-29,Leche,Hogar,5.0,,Call_Center,Mayorista,0.2,10000.0,20412.0
2,Valparaíso,2025-12-07,Café,Hogar,1.0,3882.0,Tienda_Física,Minorista,0.0,0.0,3882.0
3,Sevilla,2025-12-01,Té,Snack,5.0,2060.0,Distribuidor,Corporativo,0.15,0.0,8755.0
4,Sevilla,2025-11-18,Chocolate,Snack,1.0,3712.0,Online,Minorista,0.05,250000.0,8526.0


C. Configuración de conexión segura con PostgreSQL (SQLAlchemy)

In [44]:
import pandas as pd
from sqlalchemy import create_engine
from urllib.parse import quote_plus  

usuario = "postgres"
password_plano = "Qwe.123*"      
password = quote_plus(password_plano)  # la codificamos para URL

host = "localhost"
puerto = 5432
base_datos = "RIWI_VENTAS"   

url = f"postgresql+psycopg2://{usuario}:{password}@{host}:{puerto}/{base_datos}"
print("URL usada:", url)   

engine = create_engine(url)

try:
    with engine.connect() as conn:
        resultado = pd.read_sql("SELECT NOW() AS ahora;", conn)
        print(resultado)
except Exception as e:
    print("ERROR:", e)




URL usada: postgresql+psycopg2://postgres:Qwe.123%2A@localhost:5432/RIWI_VENTAS
                             ahora
0 2025-12-09 12:28:12.946611+00:00


D. Carga del DataFrame limpio hacia PostgreSQL

In [45]:
df.to_sql("ventas", con=engine, if_exists="replace", index=False)

1000

In [46]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1000000 entries, 0 to 999999
Data columns (total 11 columns):
 #   Column           Non-Null Count   Dtype 
---  ------           --------------   ----- 
 0   Ciudad           995449 non-null  object
 1   Fecha            995380 non-null  object
 2   Producto         995395 non-null  object
 3   Tipo_Producto    995374 non-null  object
 4   Cantidad         995470 non-null  object
 5   Precio_Unitario  995545 non-null  object
 6   Tipo_Venta       995477 non-null  object
 7   Tipo_Cliente     995579 non-null  object
 8   Descuento        995497 non-null  object
 9   Costo_Envio      995531 non-null  object
 10  Total            995472 non-null  object
dtypes: object(11)
memory usage: 83.9+ MB


# Limpieza y normalización de datos

A. Detección de duplicados

In [47]:
df.duplicated().sum()

np.int64(14732)

B. Eliminación de duplicados

In [48]:
df = df.drop_duplicates().reset_index(drop=True)
df.duplicated().sum()

np.int64(0)

C. Detección de valores nulos

In [49]:

df.isnull().sum()

Ciudad             4482
Fecha              4554
Producto           4541
Tipo_Producto      4565
Cantidad           4458
Precio_Unitario    4399
Tipo_Venta         4460
Tipo_Cliente       4354
Descuento          4420
Costo_Envio        4398
Total              4454
dtype: int64

D. Validación y corrección de tipos de datos

In [50]:
df.dtypes

Ciudad             object
Fecha              object
Producto           object
Tipo_Producto      object
Cantidad           object
Precio_Unitario    object
Tipo_Venta         object
Tipo_Cliente       object
Descuento          object
Costo_Envio        object
Total              object
dtype: object

In [51]:
df["Fecha"] = pd.to_datetime(df["Fecha"], errors="coerce")


In [52]:
cols_num = ["Cantidad", "Precio_Unitario", "Descuento", "Costo_Envio", "Total"]

for col in cols_num:
    df[col] = df[col].astype(str)                     # convertir todo a string
    df[col] = df[col].str.replace("???", "", regex=False)
    df[col] = df[col].str.replace(",", "", regex=False)
    df[col] = df[col].str.strip()                     # quitar espacios
    df[col] = df[col].replace("", None)               # reemplazar vacíos por NaN
    df[col] = df[col].astype(float)                   # convertir a float

In [53]:
cols_cat = ["Ciudad","Producto","Tipo_Producto","Tipo_Venta","Tipo_Cliente"]

for col in cols_cat:
    df[col] = df[col].astype("category")


In [54]:
df.isnull().sum()



Ciudad             4482
Fecha              6678
Producto           4541
Tipo_Producto      4565
Cantidad           7771
Precio_Unitario    7740
Tipo_Venta         4460
Tipo_Cliente       4354
Descuento          7760
Costo_Envio        7748
Total              7742
dtype: int64

Trabajar con los nulos

In [55]:
cols_cat = ["Ciudad","Producto","Tipo_Producto","Tipo_Venta","Tipo_Cliente"]

for col in cols_cat:
    df[col] = df[col].cat.add_categories("SinDato")
    df[col] = df[col].fillna("SinDato")


In [56]:
df.isnull().sum()

Ciudad                0
Fecha              6678
Producto              0
Tipo_Producto         0
Cantidad           7771
Precio_Unitario    7740
Tipo_Venta            0
Tipo_Cliente          0
Descuento          7760
Costo_Envio        7748
Total              7742
dtype: int64

Normalización de los datos

In [57]:

pd.DataFrame(df["Ciudad"].unique(), columns=["Ciudad"])

Unnamed: 0,Ciudad
0,Antofagasta
1,Monterrey
2,Valparaíso
3,Sevilla
4,Córdoba
...,...
204,Bogotá******
205,cONCEPCIÓN@@@
206,Buenos Aires###
207,Santiago******


In [60]:
df["Ciudad"] = (
    df["Ciudad"]
        .astype(str)
        .str.lower()
        .str.replace(r"[^a-záéíóúüñ ]", "", regex=True)
        .str.strip()
        .str.replace(r"\s+", " ", regex=True)
        .str.title()
)




In [61]:

pd.DataFrame(df["Ciudad"].unique(), columns=["Ciudad"])

Unnamed: 0,Ciudad
0,Antofagasta
1,Monterrey
2,Valparaíso
3,Sevilla
4,Córdoba
5,Ciudad De México
6,Houston
7,Mendoza
8,Barcelona
9,Chicago


In [62]:
pd.DataFrame(df["Producto"].unique(), columns=["Producto"])

Unnamed: 0,Producto
0,Leche
1,Café
2,Té
3,Chocolate
4,Queso
5,Pan
6,Arepa
7,Yogurt
8,SinDato
9,yOGURT


In [63]:
df["Producto"] = (
    df["Producto"]
        .astype(str)
        .str.lower()
        .str.replace(r"[^a-záéíóúüñ ]", "", regex=True)
        .str.strip()
        .str.replace(r"\s+", " ", regex=True)
        .str.title()
)

In [64]:
pd.DataFrame(df["Producto"].unique(), columns=["Producto"])

Unnamed: 0,Producto
0,Leche
1,Café
2,Té
3,Chocolate
4,Queso
5,Pan
6,Arepa
7,Yogurt
8,Sindato


In [65]:
pd.DataFrame(df["Tipo_Producto"].unique(), columns=["Tipo_Producto"])

Unnamed: 0,Tipo_Producto
0,Alimento_Percedero
1,Hogar
2,Snack
3,Lácteo
4,Bebida
5,SinDato
6,Abarrotes
7,Abarrotes@@@
8,Hogar
9,sNACK


In [66]:
df["Tipo_Producto"] = (
    df["Tipo_Producto"]
        .astype(str)
        .str.lower()
        .str.replace(r"[^a-záéíóúüñ ]", "", regex=True)
        .str.strip()
        .str.replace(r"\s+", " ", regex=True)
        .str.title()
)

In [67]:
pd.DataFrame(df["Tipo_Producto"].unique(), columns=["Tipo_Producto"])

Unnamed: 0,Tipo_Producto
0,Alimentopercedero
1,Hogar
2,Snack
3,Lácteo
4,Bebida
5,Sindato
6,Abarrotes


In [68]:
pd.DataFrame(df["Tipo_Venta"].unique(), columns=["Tipo_Venta"])

Unnamed: 0,Tipo_Venta
0,Online
1,Call_Center
2,Tienda_Física
3,Distribuidor
4,SinDato
5,Online
6,Call_Center
7,cALL_cENTER
8,dISTRIBUIDOR
9,Online###


In [69]:
df["Tipo_Venta"] = (
    df["Tipo_Venta"]
        .astype(str)
        .str.lower()
        .str.replace(r"[^a-záéíóúüñ ]", "", regex=True)
        .str.strip()
        .str.replace(r"\s+", " ", regex=True)
        .str.title()
)

In [70]:
pd.DataFrame(df["Tipo_Venta"].unique(), columns=["Tipo_Venta"])

Unnamed: 0,Tipo_Venta
0,Online
1,Callcenter
2,Tiendafísica
3,Distribuidor
4,Sindato


In [71]:
pd.DataFrame(df["Tipo_Cliente"].unique(), columns=["Tipo_Cliente"])

Unnamed: 0,Tipo_Cliente
0,Minorista
1,Mayorista
2,Corporativo
3,Gobierno
4,SinDato
5,Mayorista@@@
6,mINORISTA
7,Corporativo
8,Gobierno
9,Gobierno###


In [72]:
df["Tipo_Cliente"] = (
    df["Tipo_Cliente"]
        .astype(str)
        .str.lower()
        .str.replace(r"[^a-záéíóúüñ ]", "", regex=True)
        .str.strip()
        .str.replace(r"\s+", " ", regex=True)
        .str.title()
)

In [73]:
pd.DataFrame(df["Tipo_Cliente"].unique(), columns=["Tipo_Cliente"])

Unnamed: 0,Tipo_Cliente
0,Minorista
1,Mayorista
2,Corporativo
3,Gobierno
4,Sindato


Verifico que no existan duplicados luego de la normalizacion

In [74]:
df.duplicated().sum()

np.int64(459)

In [75]:

df[df.duplicated(keep=False)].head(24)

Unnamed: 0,Ciudad,Fecha,Producto,Tipo_Producto,Cantidad,Precio_Unitario,Tipo_Venta,Tipo_Cliente,Descuento,Costo_Envio,Total
2587,Chicago,2025-11-18,Leche,Abarrotes,5.0,4452.0,Online,Minorista,0.0,10000.0,32260.0
2604,Puebla,2025-12-07,Té,Snack,5.0,4833.0,Callcenter,Corporativo,0.15,0.0,20540.0
3961,Monterrey,2025-11-15,Yogurt,Abarrotes,3.0,1775.0,Distribuidor,Minorista,0.2,0.0,4260.0
5545,Valparaíso,2025-11-08,Chocolate,Lácteo,5.0,2112.0,Tiendafísica,Mayorista,0.1,0.0,9504.0
8856,Trujillo,2025-12-02,Leche,Snack,5.0,4351.0,Tiendafísica,Corporativo,0.15,0.0,18491.0
9281,Medellín,2025-11-20,Café,Hogar,8.0,2505.0,Online,Gobierno,0.05,5000.0,24038.0
9494,Antofagasta,2025-11-17,Yogurt,Alimentopercedero,5.0,3732.0,Online,Mayorista,0.0,10000.0,28660.0
9708,Valparaíso,2025-11-10,Leche,Abarrotes,5.0,2009.0,Online,Mayorista,0.2,0.0,8036.0
11739,Lima,2025-11-12,Arepa,Alimentopercedero,7.0,2521.0,Tiendafísica,Gobierno,0.2,0.0,14117.0
13539,Buenos Aires,2025-12-01,Pan,Lácteo,7.0,4989.0,Online,Corporativo,0.15,0.0,29684.0


Los elimino

In [76]:
df = df.drop_duplicates().reset_index(drop=True)
df.duplicated().sum()


np.int64(0)

In [77]:
print("CATEGORÍAS ÚNICAS POR COLUMNA (máx 50)")
for col in df.select_dtypes(include='object'):
    print(f"\n--- {col} ---")
    print(df[col].unique()[:50])
    print("Total categorías:", df[col].nunique())


CATEGORÍAS ÚNICAS POR COLUMNA (máx 50)

--- Ciudad ---
['Antofagasta' 'Monterrey' 'Valparaíso' 'Sevilla' 'Córdoba'
 'Ciudad De México' 'Houston' 'Mendoza' 'Barcelona' 'Chicago' 'Miami'
 'Pereira' 'Cali' 'Concepción' 'Rosario' 'Madrid' 'Arequipa' 'Lima'
 'Santiago' 'Bucaramanga' 'Tijuana' 'Guadalajara' 'Cusco' 'New York'
 'Buenos Aires' 'Valencia' 'Los Angeles' 'Bogotá' 'Trujillo' 'Sindato'
 'Puebla' 'Medellín' 'Barranquilla' 'Cartagena']
Total categorías: 34

--- Producto ---
['Leche' 'Café' 'Té' 'Chocolate' 'Queso' 'Pan' 'Arepa' 'Yogurt' 'Sindato']
Total categorías: 9

--- Tipo_Producto ---
['Alimentopercedero' 'Hogar' 'Snack' 'Lácteo' 'Bebida' 'Sindato'
 'Abarrotes']
Total categorías: 7

--- Tipo_Venta ---
['Online' 'Callcenter' 'Tiendafísica' 'Distribuidor' 'Sindato']
Total categorías: 5

--- Tipo_Cliente ---
['Minorista' 'Mayorista' 'Corporativo' 'Gobierno' 'Sindato']
Total categorías: 5


Asigno solo un tipo de producto a cada producto

In [78]:
mapa_tipos = {
    "Leche": "Lácteo",
    "Queso": "Lácteo",
    "Yogurt": "Lácteo",

    "Café": "Bebida",
    "Té": "Bebida",

    "Chocolate": "Snack",

    "Pan": "Abarrotes",
    "Arepa": "Abarrotes",

    "Sindato": "SinDato"   # categoría especial para valores faltantes
}
df["Tipo_Producto"] = df["Producto"].map(mapa_tipos)


In [79]:
df.groupby("Producto")["Tipo_Producto"].unique()

Producto
Arepa        [Abarrotes]
Café            [Bebida]
Chocolate        [Snack]
Leche           [Lácteo]
Pan          [Abarrotes]
Queso           [Lácteo]
Sindato        [SinDato]
Té              [Bebida]
Yogurt          [Lácteo]
Name: Tipo_Producto, dtype: object


Exporto el csv limpio

In [80]:
df.to_csv("ventas_limpio.csv", index=False, encoding="utf-8")