# Laboratorio 2: Data Understanding

**Universidad del Valle de Guatemala**  
**Facultad de Ingeniería**  
**Departamento de Ciencias de la Computación**  
**Machine Learning Operations** 

## Integrantes

- Arturo Argueta - 21527 
- Edwin de León - 22809 
- Diego Leiva - 21752 
- Pablo Orellana - 21970

## Librerías

In [1]:
import pandas as pd
import numpy as np
from pathlib import Path
import matplotlib.pyplot as plt

## Carga de dataset

In [2]:
# Carpeta de datos
DATA_DIR = Path("data/raw")

# Cargar datos con cods con caracteres especialesificación latin1 para evitar problema
df_categoria = pd.read_csv(DATA_DIR / "categoria.csv", encoding="latin1")
df_cliente = pd.read_csv(DATA_DIR / "cliente.csv", encoding="latin1")
df_evento = pd.read_csv(DATA_DIR / "evento.csv", encoding="latin1")
df_marca = pd.read_csv(DATA_DIR / "marca.csv", encoding="latin1")
df_producto = pd.read_csv(DATA_DIR / "producto.csv", encoding="latin1")

# Definir diccionario de dataframes
dataframes = {
    "categoria": df_categoria,
    "cliente": df_cliente,
    "evento": df_evento,
    "marca": df_marca,
    "producto": df_producto
}

# Dimensiones de los DataFrames
print("-"*8," Dimensiones de los DataFrames ","-"*8,"\n")
for name, df in dataframes.items():
    print(f"{name:10s}-> registros: {df.shape[0]:>7}, columnas: {df.shape[1]:>3}")

--------  Dimensiones de los DataFrames  -------- 

categoria -> registros:     101, columnas:   2
cliente   -> registros:   12000, columnas:  12
evento    -> registros: 2756101, columnas:   5
marca     -> registros:     307, columnas:   2
producto  -> registros:   12026, columnas:   6


## Información general de tablas

In [3]:
for name, df in dataframes.items():
    print("-"*15, f"{name.upper()}", "-"*15)
    df.info(verbose=True, memory_usage=False)
    print("\n")

--------------- CATEGORIA ---------------
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 101 entries, 0 to 100
Data columns (total 2 columns):
 #   Column     Non-Null Count  Dtype 
---  ------     --------------  ----- 
 0   id         101 non-null    int64 
 1   categoria  101 non-null    object
dtypes: int64(1), object(1)

--------------- CLIENTE ---------------
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 12000 entries, 0 to 11999
Data columns (total 12 columns):
 #   Column      Non-Null Count  Dtype  
---  ------      --------------  -----  
 0   id          11719 non-null  float64
 1   nombre      11719 non-null  object 
 2   apellido    11719 non-null  object 
 3   nacimiento  11719 non-null  object 
 4   genero      11719 non-null  object 
 5   empresa     11719 non-null  object 
 6   idioma      11719 non-null  object 
 7   nit         11719 non-null  object 
 8   puesto      11719 non-null  object 
 9   ciudad      11719 non-null  object 
 10  correo      11719 non-n

### Visualización de tablas básica

In [4]:
for name, df in dataframes.items():
    print("-"*15, f"{name.upper()}", "-"*15)
    display(df.head(3))

--------------- CATEGORIA ---------------


Unnamed: 0,id,categoria
0,1,SCOTCH WHISKIES
1,2,STRAIGHT BOURBON WHISKIES
2,3,BLENDED WHISKIES


--------------- CLIENTE ---------------


Unnamed: 0,id,nombre,apellido,nacimiento,genero,empresa,idioma,nit,puesto,ciudad,correo,telefono
0,599528.0,Samuel,Ward,4/6/89,Male,Yakijo,Marathi,411-44-7088,Geologist IV,Wangjing,sward0@tamu.edu,86-(786)608-5061
1,121688.0,Willie,Gonzales,6/29/72,Male,Zoonoodle,Maltese,701-87-7540,Programmer III,El Corozo,wgonzales1@apache.org,58-(265)301-3397
2,552148.0,Betty,Spencer,9/2/83,Female,Youtags,Dhivehi,373-88-4503,Engineer III,Jinhua,bspencer2@shutterfly.com,86-(195)193-9042


--------------- EVENTO ---------------


Unnamed: 0,timestamp,visitorid,event,itemid,transactionid
0,1433221332117,257597,view,355908,
1,1433224214164,992329,view,248676,
2,1433221999827,111016,view,318965,


--------------- MARCA ---------------


Unnamed: 0,id,marca
0,1,Diageo Americas
1,2,Heaven Hill Brands
2,3,"Sazerac Co., Inc."


--------------- PRODUCTO ---------------


Unnamed: 0,id,categoria_id,nombre,marca_id,volumen,precio
0,356475,9.0,Crown Royal Honey,1.0,750,22.49
1,15335,9.0,Crown Royal Regal Apple Mini,1.0,300,11.03
2,81345,9.0,Crown Royal Regal Apple,1.0,200,7.08


## Chequeo básico de calidad de datos

### Valores Duplicados

In [5]:
def duped_report(df, subset=None):
    """
    Genera un informe sobre los duplicados en un DataFrame.

    Args:
        df (pd.DataFrame): El DataFrame a analizar.
        subset (list, optional): Lista de columnas a considerar para identificar duplicados.

    Returns:
        tuple: Número de duplicados y porcentaje de duplicados.
    """
    total = len(df) # Total de registros en el DataFrame
    dups = df.duplicated(subset=subset).sum() # Total de duplicados
    pct = round((dups / total) * 100, 2) if total > 0 else 0 # Porcentaje de duplicados
    return dups, pct

#### Registros duplicados

In [6]:
for name, df in dataframes.items():
    dups, pct = duped_report(df)
    print(f"{name:10s}: {dups} registros duplicados completos ({pct}%)")

categoria : 0 registros duplicados completos (0.0%)
cliente   : 280 registros duplicados completos (2.33%)
evento    : 460 registros duplicados completos (0.02%)
marca     : 0 registros duplicados completos (0.0%)
producto  : 0 registros duplicados completos (0.0%)


#### Llaves primarias duplicadas

In [7]:
for name, df in dataframes.items():
    # No se toma en cuenta EVENTO ya que no tiene llave
    if "id" in df.columns:
        dups, pct = duped_report(df, subset=["id"])
        print(f"{name:10s} (id): {dups} registros con duplicados en 'id' ({pct}%)")

categoria  (id): 0 registros con duplicados en 'id' (0.0%)
cliente    (id): 280 registros con duplicados en 'id' (2.33%)
marca      (id): 0 registros con duplicados en 'id' (0.0%)
producto   (id): 1 registros con duplicados en 'id' (0.01%)


### Eventos duplicados

In [8]:
if {"timestamp", "visitorid", "event", "itemid"}.issubset(df_evento.columns):
    dups, pct = duped_report(df_evento, subset=["timestamp", "visitorid", "event", "itemid"])
    print(f"{'evento':10s} [compuesta]: {dups} registros con duplicados en combinación ({pct}%)")

evento     [compuesta]: 460 registros con duplicados en combinación (0.02%)


### Porcentaje de nulos

In [9]:
def null_report(df):
    """
    Genera un informe sobre los valores nulos en un DataFrame.

    Args:
        df (pd.DataFrame): El DataFrame a analizar.

    Returns:
        pd.DataFrame: Informe sobre los valores nulos en el DataFrame.
    """
    total = len(df) # Total de registros
    nulos = df.isna().sum() # Total de valores nulos por columna
    pct = round((nulos / total) * 100, 2) if total > 0 else 0 # Porcentaje de valores nulos por columna
    report = pd.DataFrame({
        "nulos": nulos,
        "pct_nulos": pct
    }).sort_values(by="pct_nulos", ascending=False)
    return report

In [10]:
print("Porcentaje nulos por tabla:")
for name, df in dataframes.items():
    s = null_report(df)
    print(f"\n{name.upper()}")
    display(s)

Porcentaje nulos por tabla:

CATEGORIA


Unnamed: 0,nulos,pct_nulos
id,0,0.0
categoria,0,0.0



CLIENTE


Unnamed: 0,nulos,pct_nulos
id,281,2.34
nombre,281,2.34
apellido,281,2.34
nacimiento,281,2.34
genero,281,2.34
empresa,281,2.34
idioma,281,2.34
nit,281,2.34
puesto,281,2.34
ciudad,281,2.34



EVENTO


Unnamed: 0,nulos,pct_nulos
transactionid,2733644,99.19
timestamp,0,0.0
visitorid,0,0.0
event,0,0.0
itemid,0,0.0



MARCA


Unnamed: 0,nulos,pct_nulos
id,0,0.0
marca,0,0.0



PRODUCTO


Unnamed: 0,nulos,pct_nulos
categoria_id,1028,8.55
marca_id,876,7.28
precio,6,0.05
id,0,0.0
nombre,0,0.0
volumen,0,0.0
