## HU 1: Conexión y carga de datos desde PostgreSQL
Analista: Nadine Isabel Castillo Dominguez


A. Importación de librerías

In [2]:
import pandas as pd
from sqlalchemy import create_engine

B. Lectura inicial del archivo CSV

In [3]:
ruta_csv = "ventas.csv"

df = pd.read_csv(ruta_csv, encoding="utf-8")
df.head()

Unnamed: 0,Fecha,Producto,Tipo_Producto,Cantidad,Precio_Unitario,Ciudad,Pais,Tipo_Venta,Tipo_Cliente,Descuento,Costo_Envio
0,Santiago,2025-10-30,Arepa,Abarrotes,2.0,3681.0,Online,Minorista,0.2,0.0,5889.0
1,Córdoba,2025-11-17,Arepa,Abarrotes,7.0,2321.0,Distribuidor,Gobierno,0.15,0.0,13809.0
2,Barranquilla,2025-10-22,Leche,Lácteo,9.0,3540.0,Distribuidor,Gobierno,0.2,0.0,25488.0
3,New York,2025-10-20,Cereal,Lácteo,3.0,3287.0,Tienda_Física,Gobierno,0.05,0.0,9367.0
4,Madrid,2025-10-20,Leche,Hogar,2.0,3414.0,Distribuidor,Mayorista,0.0,0.0,6828.0


C. Lectura sin encabezados y corrección manual de columnas

In [4]:
df = pd.read_csv(ruta_csv, header=None, encoding="utf-8")  # sin usar la fila de encabezados

df.columns = [
    "Ciudad",
    "Fecha",
    "Producto",
    "Tipo_Producto",
    "Cantidad",
    "Precio_Unitario",
    "Tipo_Venta",
    "Tipo_Cliente",
    "Descuento",
    "Costo_Envio",
    "Total_Pagado"
]

df.head()


Unnamed: 0,Ciudad,Fecha,Producto,Tipo_Producto,Cantidad,Precio_Unitario,Tipo_Venta,Tipo_Cliente,Descuento,Costo_Envio,Total_Pagado
0,Fecha,Producto,Tipo_Producto,Cantidad,Precio_Unitario,Ciudad,Pais,Tipo_Venta,Tipo_Cliente,Descuento,Costo_Envio
1,Santiago,2025-10-30,Arepa,Abarrotes,2.0,3681.0,Online,Minorista,0.2,0.0,5889.0
2,Córdoba,2025-11-17,Arepa,Abarrotes,7.0,2321.0,Distribuidor,Gobierno,0.15,0.0,13809.0
3,Barranquilla,2025-10-22,Leche,Lácteo,9.0,3540.0,Distribuidor,Gobierno,0.2,0.0,25488.0
4,New York,2025-10-20,Cereal,Lácteo,3.0,3287.0,Tienda_Física,Gobierno,0.05,0.0,9367.0


D. Eliminación de fila 0 (encabezados viejos dentro del CSV)

In [5]:
# ❗ Eliminar la fila 0 porque son encabezados viejos
df = df.drop(index=0).reset_index(drop=True)

df.head()


Unnamed: 0,Ciudad,Fecha,Producto,Tipo_Producto,Cantidad,Precio_Unitario,Tipo_Venta,Tipo_Cliente,Descuento,Costo_Envio,Total_Pagado
0,Santiago,2025-10-30,Arepa,Abarrotes,2.0,3681.0,Online,Minorista,0.2,0.0,5889.0
1,Córdoba,2025-11-17,Arepa,Abarrotes,7.0,2321.0,Distribuidor,Gobierno,0.15,0.0,13809.0
2,Barranquilla,2025-10-22,Leche,Lácteo,9.0,3540.0,Distribuidor,Gobierno,0.2,0.0,25488.0
3,New York,2025-10-20,Cereal,Lácteo,3.0,3287.0,Tienda_Física,Gobierno,0.05,0.0,9367.0
4,Madrid,2025-10-20,Leche,Hogar,2.0,3414.0,Distribuidor,Mayorista,0.0,0.0,6828.0


E. Configuración de conexión segura con PostgreSQL (SQLAlchemy)

In [6]:
import pandas as pd
from sqlalchemy import create_engine
from urllib.parse import quote_plus  

usuario = "postgres"
password_plano = "P@ssw0rd1234"      
password = quote_plus(password_plano)  # la codificamos para URL

host = "localhost"
puerto = 5432
base_datos = "ventas_db"   

url = f"postgresql+psycopg2://{usuario}:{password}@{host}:{puerto}/{base_datos}"
print("URL usada:", url)   

engine = create_engine(url)

try:
    with engine.connect() as conn:
        resultado = pd.read_sql("SELECT NOW() AS ahora;", conn)
        print(resultado)
except Exception as e:
    print("ERROR:", e)




URL usada: postgresql+psycopg2://postgres:P%40ssw0rd1234@localhost:5432/ventas_db
                             ahora
0 2025-11-28 13:41:53.141964+00:00


F. Carga del DataFrame limpio hacia PostgreSQL

In [7]:
df.to_sql("ventas", con=engine, if_exists="replace", index=False)


1000

![Estructura de tabla ventas](estructura_ventas.png)


G. Exportación de respaldo en formato CSV desde PostgreSQL

In [8]:
import pandas as pd

with engine.connect() as conn:
    df_export = pd.read_sql("SELECT * FROM ventas", conn)

df_export.to_csv("ventas_respaldo.csv", index=False, encoding="utf-8")


## HU 2: Limpieza y normalización de datos

A. Detección de duplicados

In [9]:
df.duplicated().sum()


np.int64(4068)

B. Eliminación de duplicados

In [10]:
df = df.drop_duplicates().reset_index(drop=True)
df.duplicated().sum()


np.int64(0)

C. Detección de valores nulos

In [11]:
df.isnull().sum()


Ciudad             1138
Fecha              1134
Producto           1147
Tipo_Producto      1097
Cantidad           1156
Precio_Unitario    1145
Tipo_Venta         1175
Tipo_Cliente       1128
Descuento          1078
Costo_Envio        1085
Total_Pagado       1160
dtype: int64

D. Validación y corrección de tipos de datos

In [12]:
df.dtypes


Ciudad             object
Fecha              object
Producto           object
Tipo_Producto      object
Cantidad           object
Precio_Unitario    object
Tipo_Venta         object
Tipo_Cliente       object
Descuento          object
Costo_Envio        object
Total_Pagado       object
dtype: object

In [13]:
df["Fecha"] = pd.to_datetime(df["Fecha"], errors="coerce")


In [14]:
numericas = ["Cantidad", "Precio_Unitario", "Descuento", "Costo_Envio", "Total_Pagado"]

for col in numericas:
    df[col] = pd.to_numeric(df[col], errors="coerce")


In [15]:
categoricas = ["Ciudad", "Producto", "Tipo_Producto", "Tipo_Venta", "Tipo_Cliente"]

for col in categoricas:
    df[col] = df[col].astype("category")


In [16]:
df.dtypes


Ciudad                   category
Fecha              datetime64[ns]
Producto                 category
Tipo_Producto            category
Cantidad                  float64
Precio_Unitario           float64
Tipo_Venta               category
Tipo_Cliente             category
Descuento                 float64
Costo_Envio               float64
Total_Pagado              float64
dtype: object

Estrategia seleccionada para el tratamiento de nulos

Dado que en analítica y BI es fundamental preservar el estado original de los datos, se optó por una estrategia profesional de doble capa:

1. Crear columnas auxiliares (“banderas”) para registrar si un valor era originalmente nulo.

Esta práctica es estándar en ciencia de datos, ya que permite:

Mantener trazabilidad del dato original.

Detectar patrones relacionados con los nulos.

Evitar pérdida de información durante la imputación.

Facilitar auditorías o análisis avanzados en el futuro.

Las columnas auxiliares contienen:

1 → el valor estaba nulo originalmente

0 → el valor era válido

2. Imputar valores nulos según el tipo de variable

Una vez registrada la información original, se procede a imputar los nulos para garantizar compatibilidad con PostgreSQL y Power BI, que no manejan bien valores faltantes en variables numéricas y de fecha.

 Variables categóricas

(Ciudad, Producto, Tipo_Producto, Tipo_Venta, Tipo_Cliente)

→ Se imputan usando la moda, que corresponde al valor más frecuente en cada columna.

 Variables numéricas

(Cantidad, Precio_Unitario, Descuento, Costo_Envio, Total_Pagado)

→ Se imputan usando la mediana, por ser más robusta frente a valores atípicos.

 Variable Fecha

→ Se imputa usando la fecha más frecuente, para mantener coherencia temporal sin alterar la distribución.

In [17]:
# 1. Crear banderas de nulos originales
for col in ["Ciudad","Fecha","Producto","Tipo_Producto","Cantidad","Precio_Unitario",
            "Tipo_Venta","Tipo_Cliente","Descuento","Costo_Envio","Total_Pagado"]:
    df[f"{col}_era_nulo"] = df[col].isnull().astype(int)


# 2. Aseguramos que las numéricas sean numéricas
numericas = ["Cantidad", "Precio_Unitario", "Descuento", "Costo_Envio", "Total_Pagado"]
for col in numericas:
    df[col] = pd.to_numeric(df[col], errors="coerce")

# 3. Imputar categóricas con moda
categoricas = ["Ciudad", "Producto", "Tipo_Producto", "Tipo_Venta", "Tipo_Cliente"]
for col in categoricas:
    df[col] = df[col].fillna(df[col].mode()[0])

# 4. Imputar numéricas con mediana
for col in numericas:
    df[col] = df[col].fillna(df[col].median())

# 5. Imputar fecha con moda
df["Fecha"] = df["Fecha"].fillna(df["Fecha"].mode()[0])


E. Después del proceso, se valida que el dataset ya no contenga valores nulos:

In [18]:

df.isnull().sum() # para confirmar que ya no hay nulos


Ciudad                      0
Fecha                       0
Producto                    0
Tipo_Producto               0
Cantidad                    0
Precio_Unitario             0
Tipo_Venta                  0
Tipo_Cliente                0
Descuento                   0
Costo_Envio                 0
Total_Pagado                0
Ciudad_era_nulo             0
Fecha_era_nulo              0
Producto_era_nulo           0
Tipo_Producto_era_nulo      0
Cantidad_era_nulo           0
Precio_Unitario_era_nulo    0
Tipo_Venta_era_nulo         0
Tipo_Cliente_era_nulo       0
Descuento_era_nulo          0
Costo_Envio_era_nulo        0
Total_Pagado_era_nulo       0
dtype: int64

F. Para ver los valores únicos

In [19]:
pd.DataFrame(df["Ciudad"].unique(), columns=["Ciudad"])

Unnamed: 0,Ciudad
0,Santiago
1,Córdoba
2,Barranquilla
3,New York
4,Madrid
...,...
183,Ciudad de México###
184,Rosario@@@
185,Valencia###
186,Antofagasta***


In [20]:
pd.DataFrame(df["Producto"].unique(), columns=["Producto"])

Unnamed: 0,Producto
0,Arepa
1,Leche
2,Cereal
3,Queso
4,Chocolate
...,...
67,Queso###
68,Gaseosa###
69,Leche@@@
70,Mantequilla***


In [21]:
pd.DataFrame(df["Tipo_Producto"].unique(), columns=["Tipo_Producto"])

Unnamed: 0,Tipo_Producto
0,Abarrotes
1,Lácteo
2,Hogar
3,Bebida
4,Snack
5,Alimento_Percedero
6,Alimento_Percedero***
7,Abarrotes###
8,Snack
9,Abarrotes@@@


In [22]:
pd.DataFrame(df["Tipo_Cliente"].unique(), columns=["Tipo_Cliente"])

Unnamed: 0,Tipo_Cliente
0,Minorista
1,Gobierno
2,Mayorista
3,Corporativo
4,Gobierno
5,cORPORATIVO
6,Mayorista
7,gOBIERNO
8,Mayorista@@@
9,Corporativo@@@


G. Limpieza profesional de las columnas

In [23]:
import unicodedata
import re

def limpiar_texto(x):
    if pd.isna(x):
        return x
    
    # Convertir a str y quitar espacios iniciales/finales
    x = str(x).strip()
    
    # Quitar caracteres no alfabéticos (***, ???, etc.)
    x = re.sub(r'[^a-zA-ZáéíóúÁÉÍÓÚñÑüÜ\s]', '', x)
    
    # Normalizar acentos (repara utf-8 rotos)
    x = unicodedata.normalize('NFKD', x).encode('ascii', 'ignore').decode('ascii')

    
    # Minúsculas primero
    x = x.lower()
    
    # Capitalizar estilo título
    x = x.title()
    
    return x


In [24]:
df["Ciudad"] = df["Ciudad"].apply(limpiar_texto)


In [25]:
pd.DataFrame(df["Ciudad"].unique(), columns=["Ciudad"])


Unnamed: 0,Ciudad
0,Santiago
1,Cordoba
2,Barranquilla
3,New York
4,Madrid
5,Pereira
6,Trujillo
7,Valencia
8,Puebla
9,Mendoza


In [None]:
import unicodedata
import re
import pandas as pd

def limpiar_tipo_venta(x):
    if pd.isna(x):
        return x
    
    # Convertir a string
    x = str(x)
    
    # Quitar espacios al inicio y al final
    x = x.strip()
    
    # Quitar caracteres raros (***, _, etc.)
    x = re.sub(r'[^a-zA-ZáéíóúÁÉÍÓÚñÑüÜ\s]', '', x)
    
    # Normalizar acentos rotos
    x = unicodedata.normalize('NFKD', x).encode('ascii', 'ignore').decode('ascii')

    
    # Pasar todo a minúsculas
    x = x.lower()

    # Capitalizar estilo título
    x = x.title()
    
    return x


df["Tipo_Venta"] = df["Tipo_Venta"].apply(limpiar_tipo_venta)


In [27]:
pd.DataFrame(df["Tipo_Venta"].unique(), columns=["Tipo_Venta"])


Unnamed: 0,Tipo_Venta
0,Online
1,Distribuidor
2,Tiendafisica
3,Callcenter


In [28]:
import unicodedata
import re
import pandas as pd

def limpiar_tipo_producto(x):
    if pd.isna(x):
        return x
    
    x = str(x)

    # Quitar espacios extras
    x = x.strip()

    # Quitar caracteres raros
    x = re.sub(r'[^a-zA-ZáéíóúÁÉÍÓÚñÑüÜ\s]', '', x)

    # Normalizar acentos rotos
    x = unicodedata.normalize('NFKD', x).encode('ascii', 'ignore').decode('ascii')


    # Pasar todo a minúsculas
    x = x.lower()

     # Capitalizar estilo título
    x = x.title()

    return x

df["Tipo_Producto"] = df["Tipo_Producto"].apply(limpiar_tipo_producto)


In [29]:
pd.DataFrame(df["Tipo_Producto"].unique(), columns=["Tipo_Producto"])

Unnamed: 0,Tipo_Producto
0,Abarrotes
1,Lacteo
2,Hogar
3,Bebida
4,Snack
5,Alimentopercedero


In [30]:
import unicodedata
import re
import pandas as pd

def limpiar_tipo_cliente(x):
    if pd.isna(x):
        return x
    
    x = str(x)

    # Quitar espacios extras
    x = x.strip()

    # Quitar caracteres raros
    x = re.sub(r'[^a-zA-ZáéíóúÁÉÍÓÚñÑüÜ\s]', '', x)

    # Normalizar acentos rotos
    x = unicodedata.normalize('NFKD', x).encode('ascii', 'ignore').decode('ascii')


    # Pasar todo a minúsculas
    x = x.lower()

    # Capitalizar estilo título
    x = x.title()

    return x

df["Tipo_Cliente"] = df["Tipo_Cliente"].apply(limpiar_tipo_cliente)


In [31]:
pd.DataFrame(df["Tipo_Cliente"].unique(), columns=["Tipo_Cliente"])

Unnamed: 0,Tipo_Cliente
0,Minorista
1,Gobierno
2,Mayorista
3,Corporativo


In [32]:
import unicodedata
import re
import pandas as pd

def limpiar_producto(x):
    if pd.isna(x):
        return x
    
    x = str(x)

    # Quitar espacios extras
    x = x.strip()

    # Quitar caracteres raros
    x = re.sub(r'[^a-zA-ZáéíóúÁÉÍÓÚñÑüÜ\s]', '', x)

    # Normalizar acentos rotos
    x = unicodedata.normalize('NFKD', x).encode('ascii', 'ignore').decode('ascii')


    # Pasar todo a minúsculas
    x = x.lower()

    # Capitalizar estilo título
    x = x.title()

    return x

df["Producto"] = df["Producto"].apply(limpiar_producto)


In [33]:
pd.DataFrame(df["Producto"].unique(), columns=["Producto"])

Unnamed: 0,Producto
0,Arepa
1,Leche
2,Cereal
3,Queso
4,Chocolate
5,Te
6,Pan
7,Mantequilla
8,Gaseosa
9,Yogurt


H. Verifico que no existan duplicados luego de la normalización

In [34]:
df.duplicated().sum()

np.int64(24)

In [35]:
df[df.duplicated(keep=False)].head(24)

Unnamed: 0,Ciudad,Fecha,Producto,Tipo_Producto,Cantidad,Precio_Unitario,Tipo_Venta,Tipo_Cliente,Descuento,Costo_Envio,...,Fecha_era_nulo,Producto_era_nulo,Tipo_Producto_era_nulo,Cantidad_era_nulo,Precio_Unitario_era_nulo,Tipo_Venta_era_nulo,Tipo_Cliente_era_nulo,Descuento_era_nulo,Costo_Envio_era_nulo,Total_Pagado_era_nulo
1456,Antofagasta,2025-11-14,Gaseosa,Alimentopercedero,5.0,3520.0,Callcenter,Minorista,0.15,5000.0,...,0,0,0,0,0,0,0,0,0,0
8026,Antofagasta,2025-11-06,Chocolate,Abarrotes,1.0,4637.0,Online,Corporativo,0.15,0.0,...,0,0,0,0,0,0,0,0,0,0
28798,Puebla,2025-10-20,Te,Hogar,5.0,3647.0,Tiendafisica,Gobierno,0.05,0.0,...,0,0,0,0,0,0,0,0,0,0
32461,Valencia,2025-11-03,Pan,Bebida,6.0,4383.0,Tiendafisica,Mayorista,0.05,0.0,...,0,0,0,0,0,0,0,0,0,0
93723,Chicago,2025-11-04,Cafe,Lacteo,4.0,3197.0,Tiendafisica,Minorista,0.05,0.0,...,0,0,0,0,0,0,0,0,0,0
123844,Arequipa,2025-10-20,Queso,Snack,6.0,4918.0,Tiendafisica,Mayorista,0.15,0.0,...,0,0,0,0,0,0,0,0,0,0
146835,Concepcion,2025-10-26,Cereal,Hogar,2.0,3738.0,Distribuidor,Mayorista,0.15,0.0,...,0,0,0,0,0,0,0,0,0,0
149054,Puebla,2025-10-21,Gaseosa,Lacteo,6.0,4080.0,Online,Corporativo,0.2,10000.0,...,0,0,0,0,0,0,0,0,0,0
165948,Guadalajara,2025-11-15,Te,Abarrotes,1.0,1139.0,Distribuidor,Mayorista,0.1,0.0,...,0,0,0,0,0,0,0,0,0,0
182519,Pereira,2025-10-20,Mantequilla,Hogar,6.0,4684.0,Distribuidor,Corporativo,0.1,0.0,...,0,0,0,0,0,0,0,0,0,0


I. Se borran los duplicados que salieron

In [36]:
df = df.drop_duplicates().reset_index(drop=True)
df.duplicated().sum()

np.int64(0)

## Reporte de calidad de datos

In [38]:
print(" INFORMACIÓN GENERAL DEL DATASET")
print(df.info())
print("\nNúmero de filas:", len(df))
print("Número de columnas:", len(df.columns))


 INFORMACIÓN GENERAL DEL DATASET
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1245908 entries, 0 to 1245907
Data columns (total 22 columns):
 #   Column                    Non-Null Count    Dtype         
---  ------                    --------------    -----         
 0   Ciudad                    1245908 non-null  object        
 1   Fecha                     1245908 non-null  datetime64[ns]
 2   Producto                  1245908 non-null  object        
 3   Tipo_Producto             1245908 non-null  object        
 4   Cantidad                  1245908 non-null  float64       
 5   Precio_Unitario           1245908 non-null  float64       
 6   Tipo_Venta                1245908 non-null  object        
 7   Tipo_Cliente              1245908 non-null  object        
 8   Descuento                 1245908 non-null  float64       
 9   Costo_Envio               1245908 non-null  float64       
 10  Total_Pagado              1245908 non-null  float64       
 11  Ciudad_era_nulo  

In [43]:
print("NULOS POR COLUMNA")
nulos = df.isnull().sum().sort_values(ascending=False)
print(nulos)




NULOS POR COLUMNA
Ciudad                      0
Fecha                       0
Producto                    0
Tipo_Producto               0
Cantidad                    0
Precio_Unitario             0
Tipo_Venta                  0
Tipo_Cliente                0
Descuento                   0
Costo_Envio                 0
Total_Pagado                0
Ciudad_era_nulo             0
Fecha_era_nulo              0
Producto_era_nulo           0
Tipo_Producto_era_nulo      0
Cantidad_era_nulo           0
Precio_Unitario_era_nulo    0
Tipo_Venta_era_nulo         0
Tipo_Cliente_era_nulo       0
Descuento_era_nulo          0
Costo_Envio_era_nulo        0
Total_Pagado_era_nulo       0
dtype: int64


In [45]:
print("PORCENTAJE DE NULOS")
print((df.isnull().mean() * 100).round(2))

PORCENTAJE DE NULOS
Ciudad                      0.0
Fecha                       0.0
Producto                    0.0
Tipo_Producto               0.0
Cantidad                    0.0
Precio_Unitario             0.0
Tipo_Venta                  0.0
Tipo_Cliente                0.0
Descuento                   0.0
Costo_Envio                 0.0
Total_Pagado                0.0
Ciudad_era_nulo             0.0
Fecha_era_nulo              0.0
Producto_era_nulo           0.0
Tipo_Producto_era_nulo      0.0
Cantidad_era_nulo           0.0
Precio_Unitario_era_nulo    0.0
Tipo_Venta_era_nulo         0.0
Tipo_Cliente_era_nulo       0.0
Descuento_era_nulo          0.0
Costo_Envio_era_nulo        0.0
Total_Pagado_era_nulo       0.0
dtype: float64


In [46]:
print("DUPLICADOS")
print("Filas duplicadas:", df.duplicated().sum())


DUPLICADOS
Filas duplicadas: 0


In [47]:
print("ESTADÍSTICOS NUMÉRICOS")
print(df.describe().T)


ESTADÍSTICOS NUMÉRICOS
                              count                           mean  \
Fecha                       1245908  2025-11-03 12:02:22.646809088   
Cantidad                  1245908.0                       5.654743   
Precio_Unitario           1245908.0                    3085.811663   
Descuento                 1245908.0                        0.09984   
Costo_Envio               1245908.0                    2561.657843   
Total_Pagado              1245908.0                   17824.907882   
Ciudad_era_nulo           1245908.0                       0.000913   
Fecha_era_nulo            1245908.0                       0.001317   
Producto_era_nulo         1245908.0                       0.000921   
Tipo_Producto_era_nulo    1245908.0                        0.00088   
Cantidad_era_nulo         1245908.0                       0.001579   
Precio_Unitario_era_nulo  1245908.0                       0.001604   
Tipo_Venta_era_nulo       1245908.0                       0.000943 

In [48]:
print("CATEGORÍAS ÚNICAS POR COLUMNA (máx 50)")
for col in df.select_dtypes(include='object'):
    print(f"\n--- {col} ---")
    print(df[col].unique()[:50])
    print("Total categorías:", df[col].nunique())


CATEGORÍAS ÚNICAS POR COLUMNA (máx 50)

--- Ciudad ---
['Santiago' 'Cordoba' 'Barranquilla' 'New York' 'Madrid' 'Pereira'
 'Trujillo' 'Valencia' 'Puebla' 'Mendoza' 'Lima' 'Barcelona' 'Monterrey'
 'Ciudad De Mexico' 'Concepcion' 'Antofagasta' 'Rosario' 'Guadalajara'
 'Chicago' 'Bucaramanga' 'Cali' 'Cartagena' 'Medellin' 'Cusco' 'Houston'
 'Los Angeles' 'Arequipa' 'Valparaiso' 'Buenos Aires' 'Miami' 'Sevilla'
 'Tijuana' 'Bogota']
Total categorías: 33

--- Producto ---
['Arepa' 'Leche' 'Cereal' 'Queso' 'Chocolate' 'Te' 'Pan' 'Mantequilla'
 'Gaseosa' 'Yogurt' 'Galletas' 'Cafe']
Total categorías: 12

--- Tipo_Producto ---
['Abarrotes' 'Lacteo' 'Hogar' 'Bebida' 'Snack' 'Alimentopercedero']
Total categorías: 6

--- Tipo_Venta ---
['Online' 'Distribuidor' 'Tiendafisica' 'Callcenter']
Total categorías: 4

--- Tipo_Cliente ---
['Minorista' 'Gobierno' 'Mayorista' 'Corporativo']
Total categorías: 4


In [49]:
import re

print("CALIDAD DEL TEXTO")

for col in df.select_dtypes(include="object"):
    print(f"\nRevisando columna: {col}")
    
    # espacios
    espacios = df[col].str.contains(r"^\s|\s$", na=False).sum()
    print(" - Con espacios al inicio o final:", espacios)

    # mayúsculas/minúsculas inconsistentes
    inconsistente = (df[col] != df[col].str.capitalize()).sum()
    print(" - Texto inconsistente:", inconsistente)

    # caracteres extraños
    raros = df[col].str.contains(r"[^A-Za-zÁÉÍÓÚÜÑáéíóúüñ0-9\s]", na=False).sum()
    print(" - Caracteres raros:", raros)


CALIDAD DEL TEXTO

Revisando columna: Ciudad
 - Con espacios al inicio o final: 0
 - Texto inconsistente: 150801
 - Caracteres raros: 0

Revisando columna: Producto
 - Con espacios al inicio o final: 0
 - Texto inconsistente: 0
 - Caracteres raros: 0

Revisando columna: Tipo_Producto
 - Con espacios al inicio o final: 0
 - Texto inconsistente: 0
 - Caracteres raros: 0

Revisando columna: Tipo_Venta
 - Con espacios al inicio o final: 0
 - Texto inconsistente: 0
 - Caracteres raros: 0

Revisando columna: Tipo_Cliente
 - Con espacios al inicio o final: 0
 - Texto inconsistente: 0
 - Caracteres raros: 0


Asignar solo un tipo de producto a cada producto

In [51]:
mapping = {
    "Arepa": "Abarrotes",
    "Leche": "Lacteo",
    "Cereal": "Abarrotes",
    "Queso": "Alimento Perecedero",
    "Chocolate": "Snack",
    "Te": "Bebida",
    "Pan": "Hogar",
    "Mantequilla": "Alimento Perecedero",
    "Gaseosa": "Bebida",
    "Yogurt": "Alimento Perecedero",
    "Galletas": "Snack",
    "Cafe": "Bebida"
}

df["Tipo_Producto"] = df["Producto"].map(mapping)



In [52]:
df.groupby("Producto")["Tipo_Producto"].unique()



Producto
Arepa                    [Abarrotes]
Cafe                        [Bebida]
Cereal                   [Abarrotes]
Chocolate                    [Snack]
Galletas                     [Snack]
Gaseosa                     [Bebida]
Leche                       [Lacteo]
Mantequilla    [Alimento Perecedero]
Pan                          [Hogar]
Queso          [Alimento Perecedero]
Te                          [Bebida]
Yogurt         [Alimento Perecedero]
Name: Tipo_Producto, dtype: object

Exporto el csv limpio

In [53]:
df.to_csv("ventas_limpio.csv", index=False, encoding="utf-8")
