#Pre-Entrega de Proyecto
## Etapa 1: Recopilaci√≥n y Preparaci√≥n de Datos (Clases 1 a 4)

###1- Crear un documento en Google Colaboratory y cargar los sets de datos como DataFrames.

In [None]:
import pandas as pd
import numpy as np

*   Pandas: es una de las bibliotecas m√°s utilizadas para la manipulaci√≥n y el an√°lisis de datos en Python. Proporciona estructuras de datos flexibles como DataFrame y Series, que permiten almacenar y manipular datos en forma tabular, similar a una hoja de c√°lculo. Pandas ofrece herramientas eficientes para la lectura y escritura de datos, filtrado, agrupamiento, y tratamiento de datos faltantes, facilitando el an√°lisis exploratorio de datos.
*   NumPy: es fundamental para el c√°lculo num√©rico en Python. Proporciona un objeto de matriz multidimensional, llamado ndarray, que permite realizar operaciones matem√°ticas y estad√≠sticas de manera eficiente. NumPy es esencial para el manejo de datos num√©ricos, y muchas otras bibliotecas de ciencia de datos, incluida Pandas, se construyen sobre esta base. Su uso es crucial para el procesamiento de grandes vol√∫menes de datos y c√°lculos matem√°ticos avanzados.

In [None]:
# Montar la unidad
from google.colab import drive
drive.mount('/content/drive')

In [None]:
# Verificar que los archivos csv se encuentren en la carpeta datasets
import os
os.listdir("/content/drive/MyDrive/GALARZA Marcelo Alejandro-ComisioÃÅn 25262-TPI Data Analytics/Datasets")

In [None]:
ruta_ventas = "/content/drive/MyDrive/GALARZA Marcelo Alejandro-ComisioÃÅn 25262-TPI Data Analytics/Datasets/ventas.csv"
ruta_clientes = "/content/drive/MyDrive/GALARZA Marcelo Alejandro-ComisioÃÅn 25262-TPI Data Analytics/Datasets/clientes.csv"
ruta_marketing = "/content/drive/MyDrive/GALARZA Marcelo Alejandro-ComisioÃÅn 25262-TPI Data Analytics/Datasets/marketing.csv"

# Cargamos los CSV como DataFrames.
ventas = pd.read_csv(ruta_ventas)
clientes = pd.read_csv(ruta_clientes)
marketing = pd.read_csv(ruta_marketing)

# Validamos formas para comprobar que se cargaron correctamente.
print("ventas.shape ->", ventas.shape)
print("clientes.shape ->", clientes.shape)
print("marketing.shape ->", marketing.shape)

# Mostramos las primeras filas de cada dataset para corroborar estructura de columnas.
display(ventas.head(3))
display(clientes.head(3))
display(marketing.head(3))

### 2- Realizar un script b√°sico que calcule las ventas mensuales utilizando variables y operadores.

#### NO SE ENTREGA

###3- Estructuras de Datos: Desarrollar un programa que almacene los datos de ventas (producto, precio, cantidad). Decidir si conviene utilizar diccionarios o listas.

#### NO SE ENTREGA

###4- Introducci√≥n a Pandas: realizar un an√°lisis exploratorio inicial de los DataFrames.

In [None]:
def eda(df, nombre):
    print(f"=== {nombre} ===")
    print("shape:", df.shape)
    print("columnas:", list(df.columns))
    print("dtypes:")
    print(df.dtypes)
    print("\nNulos por columna:")
    print(df.isna().sum())
    print("\nPrimeras filas:")
    display(df.head(5))
    print("\nDescribe (num√©rico):")
    display(df.describe(include='number'))
    print("-"*100)

In [None]:
eda(ventas, "VENTAS (inicial)")

In [None]:
eda(clientes, "Clientes (inicial)")

In [None]:
eda(marketing, "MARKETING (inicial)")

###5- Calidad de Datos: Identificar valores nulos y duplicados en los conjuntos de datos. Documentar el estado inicial de los datos.

In [None]:
# ============================================
# üîç FUNCI√ìN DE CONTROL DE CALIDAD DE DATOS
# ============================================
# Esta funci√≥n analiza un DataFrame existente (df) y muestra:
# 1Ô∏è‚É£ La cantidad de valores nulos por columna.
# 2Ô∏è‚É£ El total de filas completamente duplicadas.
# 3Ô∏è‚É£ Si se especifica una columna clave, los valores m√°s repetidos de esa clave.

def calidad(df, nombre, clave=None):
    """
    Analiza la calidad del DataFrame:
      - Muestra cantidad de nulos por columna.
      - Cuenta filas duplicadas completas.
      - Si se indica una clave, muestra los valores duplicados m√°s frecuentes.
    Par√°metros:
      df: DataFrame de pandas que se analizar√°.
      nombre: texto descriptivo del DataFrame (ejemplo: 'VENTAS').
      clave: (opcional) nombre de la columna para buscar duplicados espec√≠ficos.
    """

    # -------------------------------------------------
    # Mostrar t√≠tulo descriptivo con el nombre del DF
    # -------------------------------------------------
    print(f"### {nombre}")

    # -------------------------------------------------
    # Mostrar cantidad de valores nulos por columna
    # -------------------------------------------------
    # df.isna() devuelve un DataFrame booleano con True donde hay NaN.
    # .sum() cuenta los True (o sea, los nulos) por columna.
    # .to_frame("nulos") convierte el resultado en un DataFrame con una columna llamada 'nulos'.
    display(df.isna().sum().to_frame("nulos"))

    # -------------------------------------------------
    # Contar filas duplicadas completas
    # -------------------------------------------------
    # df.duplicated(keep=False) marca como True todas las filas que tienen otra igual.
    # keep=False significa que marca todas las copias, no solo una.
    # .sum() cuenta cu√°ntas filas est√°n repetidas.
    dup_rows = df.duplicated(keep=False).sum()
    print("Filas duplicadas (exactas):", dup_rows)

    # -------------------------------------------------
    # Si se especific√≥ una columna clave v√°lida, analizar duplicados por esa columna
    # -------------------------------------------------
    # if clave analiza que clave no sea None
    # and (y)
    if clave and clave in df.columns:
    # clave in df.columns-- >que clave sea una columna existente dentro de las columnas del dataframe
    # si no le paso ninguna columna no va a querer encontrar duplicados por columna
    # y si me equivoco y le paso una columna que no existe en el dataframe, tampoco ingresara al if.
        # Contar cu√°ntas filas tienen valores repetidos en esa columna
        dup_key = df[clave].duplicated(keep=False).sum()
        print(f"Duplicados por clave '{clave}':", dup_key)

        # Si existen duplicados, mostrar cu√°les son los valores m√°s repetidos
        if dup_key > 0:
            # Filtrar filas donde esa clave est√© duplicada
            # df[clave].duplicated(keep=False) devuelve True donde el valor se repite
            duplicados_ordenados = (
                df[df[clave].duplicated(keep=False)][clave]
                .value_counts()                # Cuenta cu√°ntas veces aparece cada valor
                .sort_values(ascending=False)   # Ordena de mayor a menor (m√°s duplicados arriba)
            )

            print("\nüîÅ Top valores duplicados m√°s frecuentes:")
            # Mostrar solo los primeros 10 (los m√°s repetidos)
            display(duplicados_ordenados.head(10))
        else:
            print(f"No se encontraron duplicados en la clave '{clave}'.")
    else:
        # Si la clave no fue pasada o no existe en el DataFrame
        if clave:
            print(f"La clave '{clave}' no existe en el DataFrame.")
        else:
            print("No se indic√≥ una clave para analizar duplicados por columna.")
#fin de def calidad

In [None]:
calidad(ventas, "VENTAS", clave="id_venta")

In [None]:
calidad(clientes, "CLIENTES", clave="id_cliente")

In [None]:
calidad(marketing, "MARKETING", clave="id_campanha")

#Etapa 2: Preprocesamiento y Limpieza de Datos (Clases 5 a 8)


**Limpieza del dataset**
- Eliminamos duplicados.
- Normalizamos **texto** en columnas `object` (trim + capitalizaci√≥n simple).
- Convertimos fechas a fechas reales
- Convertimos `precio` y `cantidad` a num√©ricos si existen.
- Guardamos CSV limpios.


###1- Limpieza de Datos: Limpiar el conjunto de datos eliminando duplicados y caracteres no deseados. Documentar el proceso y los resultados.

In [None]:
# ============================================
# üßπ LIMPIEZA Y NORMALIZACI√ìN DE LOS DATASETS
# ============================================
# Se limpian y normalizan los DataFrames:
#   ventas, clientes, marketing
# ============================================

# -------------------------------------------------
# 1Ô∏è‚É£ Crear copias independientes para no modificar los originales
# -------------------------------------------------
ventas_clean = ventas.copy()
clientes_clean = clientes.copy()
marketing_clean = marketing.copy()

# -------------------------------------------------
# 2Ô∏è‚É£ Eliminar filas completamente duplicadas
# -------------------------------------------------
ventas_clean = ventas_clean.drop_duplicates()
clientes_clean = clientes_clean.drop_duplicates()
marketing_clean = marketing_clean.drop_duplicates()

In [None]:
print("ventas_clean.shape ->", ventas_clean.shape)
print("clientes_clean.shape ->", clientes_clean.shape)
print("marketing_clean.shape ->", marketing_clean.shape)

In [None]:
calidad(ventas_clean, "VENTAS CLEAN", clave="id_venta")

In [None]:
# -------------------------------------------------
# 3Ô∏è‚É£ Funci√≥n para limpiar texto en columnas tipo string
# -------------------------------------------------
def normalizar_texto(df):
    for col in df.select_dtypes(include="object").columns:
        # Se agrupan las operaciones entre par√©ntesis () para escribirlas en varias l√≠neas
        # Python eval√∫a todo el bloque como una √∫nica expresi√≥n.
        df[col] = (
            df[col]
            .astype(str)                              # Convierte cualquier tipo a string
            # .astype(str)  ‚Üí convierte todo a texto; no tiene par√°metros adicionales.
            .str.strip()                               # Elimina espacios al inicio y final
            # .str.strip() no necesita argumentos; borra espacios en blanco por defecto.
            .str.replace(r"[\u200b\t\r\n]", "", regex=True)
            # .str.replace(patron, reemplazo, regex=True)
            #   patron: expresi√≥n regular que busca caracteres invisibles (\u200b, tabulaciones, saltos)
            #   reemplazo: ""  ‚Üí los elimina
            #   regex=True indica que 'patron' es una expresi√≥n regular.
            .str.replace(" +", " ", regex=True)
            # reemplaza "uno o m√°s espacios consecutivos" por un solo espacio
            .str.title()                               # Convierte a T√≠tulo: "juan p√©rez" ‚Üí "Juan P√©rez"
        )
        #df_transformado=df[col].astype(str)
        #df_transformado=df_transformado.str.strip()
        #df_transformado=df_transformado.str.replace(r"[\u200b\t\r\n]", "", regex=True)
        #df_transformado=df_transformado.str.replace(" +", " ", regex=True)
        #df_transformado=df_transformado.str.title()
        #df[col]=df_transformado

        #df[col] = df[col].astype(str).str.strip().str.replace(r"[\u200b\t\r\n]", "", regex=True).str.replace(" +", " ", regex=True).str.title()
    return df


In [None]:
# -------------------------------------------------
# Normalizar fechas
# -------------------------------------------------
# Si alguna columna contiene fechas (por ejemplo "fecha" o "fechanotificacion"),
# se intenta convertir a formato datetime de pandas.
# to_datetime intenta interpretar el formato y transforma valores inv√°lidos en NaT (Not a Time).

for df in [ventas_clean, clientes_clean, marketing_clean]:
    for col in df.columns:
        if "fecha" in col.lower():  # detecta columnas con la palabra "fecha"
            df[col] = pd.to_datetime(df[col], errors="coerce", dayfirst=True)
            # Par√°metros:
            #   errors="coerce" ‚Üí convierte valores no v√°lidos en NaT (evita error)
            #   dayfirst=True   ‚Üí interpreta formatos tipo "DD/MM/YYYY" (formato latino)
#n

In [None]:
#NORMALIZO FECHAS DE DF DE VENTAS(ESTO TAMBIEN ESTA PERFECTO!!, es lo mismo de arriba, pero sabiendo los nombres de las fechas)

ventas_clean["fecha_venta"] = pd.to_datetime(ventas_clean["fecha_venta"], errors="coerce", dayfirst=True)

In [None]:
#NORMALIZO FECHAS DE DF DE MARKETING

marketing_clean["fecha_inicio"] = pd.to_datetime(marketing_clean["fecha_inicio"], errors="coerce", dayfirst=True)
marketing_clean["fecha_fin"] = pd.to_datetime(marketing_clean["fecha_fin"], errors="coerce", dayfirst=True)

In [None]:
print(ventas_clean.dtypes)
print(clientes_clean.dtypes)
print(marketing_clean.dtypes)

In [None]:
# -------------------------------------------------
#  Aplicar la normalizaci√≥n de texto
# -------------------------------------------------
ventas_clean = normalizar_texto(ventas_clean)
clientes_clean = normalizar_texto(clientes_clean)
marketing_clean = normalizar_texto(marketing_clean)

In [None]:
#mostramos los df luego de normalizar los textos para revisar que queden bien
print(ventas_clean.head(10))
print(clientes_clean.head(10))
print(marketing_clean.head(10))

In [None]:
# -------------------------------------------------
# 6Ô∏è‚É£ Normalizar valores num√©ricos
# -------------------------------------------------
# üè∑Ô∏è Campo "precio"
if "precio" in ventas_clean.columns:
    # Se usa nuevamente agrupaci√≥n con () para encadenar m√©todos y mantener legibilidad
    ventas_clean["precio"] = (
        ventas_clean["precio"]
        .astype(str)                        # Convierte todo a texto
        .str.replace("$", "", regex=False)  # Elimina el s√≠mbolo $
        #   "$" ‚Üí texto literal a reemplazar
        #   ""  ‚Üí nuevo valor (vac√≠o)
        #   regex=False ‚Üí interpreta "$" literalmente, no como expresi√≥n regular
        .str.replace(",", "", regex=False)  # Elimina comas de miles 1,000  1000
        .str.strip()                        # Quita espacios sobrantes
    )
    ventas_clean["precio"] = pd.to_numeric(ventas_clean["precio"], errors="coerce")
    # pd.to_numeric convierte texto a n√∫mero (float o int)
    # Par√°metros:
    #   errors="coerce" ‚Üí reemplaza valores no convertibles con NaN

In [None]:
print(ventas_clean.dtypes)

In [None]:
print(ventas_clean.columns)

In [None]:
# üßÆ Campo "cantidad"
if "cantidad" in ventas_clean.columns:
    ventas_clean["cantidad"] = pd.to_numeric(
        ventas_clean["cantidad"], errors="coerce"
    ).astype("Int64")
    # .astype("Int64") usa el tipo entero de pandas que permite valores nulos (NaN)

In [None]:
print(ventas_clean.dtypes)

In [None]:
# -------------------------------------------------
# 7Ô∏è‚É£ Guardar los DataFrames limpios como CSV
# -------------------------------------------------
#print(ventas_clean.head())
#print(clientes_clean.head())
#print(marketing_clean.head())
ventas_clean.info()
ventas_clean.to_csv("/content/drive/MyDrive/GALARZA Marcelo Alejandro-ComisioÃÅn 25262-TPI Data Analytics/Datasets/ventas.csv", index=False)
clientes_clean.to_csv("/content/drive/MyDrive/GALARZA Marcelo Alejandro-ComisioÃÅn 25262-TPI Data Analytics/Datasets/clientes.csv", index=False)
marketing_clean.to_csv("/content/drive/MyDrive/GALARZA Marcelo Alejandro-ComisioÃÅn 25262-TPI Data Analytics/Datasets/marketing.csv", index=False)

print("‚úÖ Archivos guardados: ventas_clean.csv, clientes_clean.csv, marketing_clean.csv")

In [None]:
print(ventas_clean.select_dtypes(include="object").columns)

In [None]:
# ============================================
# üìä REPORTE GLOBAL DE CALIDAD DE DATOS
# ============================================
# Esta funci√≥n lee los tres DataFrames limpios (o los recibe en memoria)
# y muestra un resumen comparativo de nulos, duplicados y tipos de datos.
# ============================================

def reporte_calidad_global(dfs, nombres):
    """
    Crea un resumen de calidad de varios DataFrames.

    Par√°metros:
      dfs: lista de DataFrames (por ejemplo [ventas_clean, clientes_clean, marketing_clean])
      nombres: lista de nombres correspondientes (["VENTAS", "CLIENTES", "MARKETING"])
    """
    resumen = []
    #zip-->es una funci√≥n incorporada de Python que une elementos de dos (o m√°s) iterables
    # ‚Äîpor ejemplo, listas, tuplas o cualquier objeto iterable‚Äî en pares ordenados.
    for df, nombre in zip(dfs, nombres):
        nulos = df.isna().sum().sum()                    # Total de valores nulos, no por columnas sino total, por eso el doble sum
        duplicados = df.duplicated(keep=False).sum()     # Total de filas duplicadas
        columnas = len(df.columns)                       # Cantidad de columnas
        filas = len(df)                                  # Cantidad de registros

        resumen.append({
            "Dataset": nombre,
            "Filas": filas,
            "Columnas": columnas,
            "Nulos totales": nulos,
            "Duplicados": duplicados,
        })

    reporte = pd.DataFrame(resumen)
    #display(reporte)
    return reporte

# ============================================
# ‚úÖ Ejemplo de uso
# ============================================

In [None]:
print(reporte_calidad_global([ventas, clientes, marketing], ["VENTAS Original", "CLIENTES Original", "MARKETING Original"]))
print(reporte_calidad_global([ventas_clean, clientes_clean, marketing_clean],["VENTAS Copia   ", "CLIENTES Copia   ", "MARKETING Copia   "]))

##2- Transformaci√≥n de Datos: Aplicar filtros y transformaciones para crear una tabla de ventas que muestre solo los productos con alto rendimiento.

###üü¶ Transformaci√≥n de datos (filtrar ‚Äúalto rendimiento‚Äù)


### Objetivo: construir una tabla de rendimiento por producto y quedarnos s√≥lo con los productos de alto rendimiento.

Conceptos clave:

<h3>Transformaci√≥n de datos:</h3> son operaciones que crean/derivan nuevas columnas (por ejemplo ingreso = precio * cantidad), normalizan formatos (texto/fechas/n√∫meros) o filtran filas seg√∫n un criterio.

<h3>M√©trica de ingreso:</h3> para ventas, una m√©trica t√≠pica es ingreso por registro = precio * cantidad. Luego podemos agregar por producto (sumar ingresos y unidades) para medir rendimiento total por producto.

<h3>Agregaci√≥n:</h3> es resumir muchas filas en pocas, aplicando funciones como sum(), mean(), count() agrupando por una clave (ej., producto).
Ej.: ‚Äúingreso total por producto‚Äù = suma de todos los ingresos de ese producto.

<h3>Percentil:</h3> el percentil 80 (P80) es un valor tal que el 80% de los datos est√°n por debajo o igual a ese valor y el 20% restante por encima.

Si ingreso_total P80 = 120.000, significa que el 80% de los productos tienen ingreso_total ‚â§ 120.000 y el 20% ‚â• 120.000.

<h3>Alto rendimiento:</h3> aqu√≠ lo definimos como top 20% de productos seg√∫n ingreso_total (>= P80). Es un criterio com√∫n cuando no hay umbrales de negocio expl√≠citos.
Alternativas v√°lidas: top-K (p. ej. top 50 productos), percentil 75 (P75) o un umbral fijo de negocio (p. ej., ‚Äú>= $100.000/mes‚Äù), o score estandarizado (z-score).

<h3>Plan paso a paso:</h3>

Detectar la columna de producto (tolerando distintos nombres: producto, id_producto, sku, articulo‚Ä¶).

Calcular ingreso por registro = precio * cantidad.

Agregar por producto para obtener m√©tricas (ingreso_total, unidades, precio_promedio, registros).

Calcular P80 con quantile(q=0.80).

Filtrar productos con ingreso_total >= P80.

Ordenar de mayor a menor.

In [None]:
# ============================================
# TRANSFORMACI√ìN: productos de alto rendimiento
# ============================================
# Objetivo:
# - Detectar los productos con mejor desempe√±o econ√≥mico (top 20% por ingreso total).
# - Aplicar transformaci√≥n: calcular ingreso, agregar por producto y filtrar.
# ============================================

def encontrar_columna(df, candidatos):
    """
    Busca la primera columna cuyo nombre contenga alguno de los patrones dados.
    - df: DataFrame de pandas.
    - candidatos: lista de patrones (min√∫sculas).
    """
    # Recorremos todas las columnas del DataFrame
    for c in df.columns:

        # Convertimos el nombre de la columna a min√∫sculas
        # Esto se hace para comparar sin importar si est√° escrito con may√∫sculas o min√∫sculas
        nombre = c.lower()

        # Verificamos si alguna palabra (patr√≥n) de la lista 'candidatos'
        # est√° contenida dentro del nombre de la columna
        # 'any()' devuelve True apenas encuentra una coincidencia
        if any(p in nombre for p in candidatos):
            # Si encontramos una coincidencia, devolvemos el nombre original de la columna
            return c

    # Si termina el bucle y no se encontr√≥ ninguna coincidencia, devolvemos None
    return None

In [None]:


# 1Ô∏è‚É£ Detectar la columna de producto
prod_col = encontrar_columna(ventas_clean, ["producto", "id_producto", "sku", "articulo", "art√≠culo"])
if prod_col is None:
    raise ValueError("No se encontr√≥ columna de producto. Renombr√° una columna a 'producto' o similar.")

print(prod_col)

In [None]:
# 2Ô∏è‚É£ Calcular ingreso por registro = precio * cantidad
#() es para escribir en varias filas
ventas_perf = (
    ventas_clean
    .assign(
        ingreso = ventas_clean["precio"] * ventas_clean["cantidad"]
        # assign(**nuevas_col): crea nuevas columnas y devuelve una copia del DF.
        # Alternativa: ventas_clean["ingreso"] = ventas_clean["precio"] * ventas_clean["cantidad"]
    )
)
#esta linea comentada es igual que la linea multiple de arriba
#ventas_perf = ventas_clean.assign(ingreso = ventas_clean["precio"] * ventas_clean["cantidad"])
#esta otra linea agrega a ventas_clean una columna nueva ingreso y le asigna precio*cantidad
#ventas_clean["ingreso"] = ventas_clean["precio"] * ventas_clean["cantidad"]

In [None]:
# 3Ô∏è‚É£ Agregar m√©tricas por producto
resumen_prod = (
    ventas_perf
    # 1) Agrupamos el DataFrame por una o varias columnas clave
    .groupby(
        by=prod_col,    # Columna (str) o lista de columnas (list[str]) que define los grupos.
        dropna=False,   # False ‚Üí NO descarta filas donde la clave de grupo tenga NaN; crea un grupo para NaN.
        as_index=False, # False ‚Üí las columnas de agrupaci√≥n quedan como columnas normales (no pasan al √≠ndice).
        observed=False  # Solo aplica si 'prod_col' es Categorical:
                        #   False ‚Üí incluye categor√≠as NO observadas (posibles pero sin filas);
                        #   True  ‚Üí solo categor√≠as que aparecen en los datos (m√°s r√°pido y ‚Äúcompacto‚Äù).
    )
    # 2) Agregamos (resumimos) columnas num√©ricas por cada grupo
    .agg(
        ingreso_total=('ingreso', 'sum'),   # Suma de 'ingreso' por grupo (skipna=True por defecto).
        unidades=('cantidad', 'sum'),       # Suma de 'cantidad' por grupo.
        precio_promedio=('precio', 'mean'), # Promedio simple de 'precio' por grupo (ignora NaN).
        registros=('ingreso', 'size')       # N√∫mero de filas en el grupo (cuenta TODO, incluso NaN).
    )
)
#se puede escribir asi:
resumen_prod = ventas_perf.groupby(by=prod_col).agg(ingreso_total=('ingreso', 'sum'), unidades=('cantidad', 'sum'), precio_promedio=('precio', 'mean'), registros=('ingreso', 'size'))

In [None]:
print(resumen_prod.head(60))
#ordenar resumen_prod por el mayor ingreso_total, y redondear precio_promedio a 2 decimales redondeado

In [None]:
# 4Ô∏è‚É£ Calcular percentil 80 de ingreso_total
# --------------------------------------------------------
# La funci√≥n quantile() nos permite obtener el valor de un percentil.
# En este caso, queremos saber el ingreso que separa al 80% de los productos
# con menores ingresos del 20% con mayores ingresos.

p80_ingreso = resumen_prod["ingreso_total"].quantile(
    q=0.80,                # q indica el percentil deseado (0.80 = 80% de los datos por debajo)
    interpolation="linear" # si el percentil no coincide exactamente con un valor real del dataset,
                           # 'linear' interpola entre los dos valores vecinos.
                           # Ejemplo: si el 80% cae entre 4000 y 5000,
                           # calcula un valor proporcional, por ejemplo 4200.
                           # Otros m√©todos posibles:
                           #  - 'lower': toma el menor de los dos valores (4000)
                           #  - 'higher': toma el mayor (5000)
                           #  - 'nearest': el m√°s cercano al percentil
                           #  - 'midpoint': el punto medio exacto (4500)
)

# En resumen:
# - quantile calcula el valor l√≠mite de un percentil.
# - q define qu√© percentil queremos.
# - interpolation define c√≥mo se calcula cuando el valor no est√° exactamente en los datos.
# El resultado (p80_ingreso) es el ingreso total que marca el l√≠mite superior del 80% de los productos.


# 5Ô∏è‚É£ Filtrar los productos "de alto rendimiento" y ordenarlos
# -------------------------------------------------------------------
# Contexto: `resumen_prod` es un DataFrame con m√©tricas por producto,
# y `p80_ingreso` es el percentil 80 de la columna "ingreso_total".
# Objetivo: quedarnos con los productos cuyo ingreso_total est√° en el 20% superior
# (ingreso_total >= p80_ingreso) y luego ordenarlos de mayor a menor por ingreso y unidades.
# en una sola fila
#ventas_top = resumen_prod.query("ingreso_total >= @p80_ingreso",engine="python").sort_values(by=["ingreso_total", "unidades"], ascending=[False, False], na_position="last", ignore_index=True
ventas_top = (
    resumen_prod
    # ---------------------------------------------------------------
    # .query(expr, *, inplace=False, engine='python'|'numexpr')
    #   - Aplica un filtro usando una expresi√≥n estilo SQL-simple.
    #   - `expr` es un string que se eval√∫a sobre los nombres de las columnas.
    #   - Para usar variables de Python (no columnas), se antepone '@' (ej.: @p80_ingreso).
    #   - NaN en comparaciones (>, >=, ==, etc.) se comportan como False ‚Üí esas filas no pasan el filtro.
    #   - engine='python': interpreta la expresi√≥n con Python puro (compatible siempre).
    #   - engine='numexpr': si est√° instalado, acelera operaciones num√©ricas vectorizadas.
    #   - inplace: False (por defecto) devuelve un DF nuevo; True modifica el DF original (menos recomendado en cadenas).
    .query(
        "ingreso_total >= @p80_ingreso",  # expr: filtra filas donde ingreso_total es al menos el umbral del P80
        engine="python"                   # motor de evaluaci√≥n (usar 'numexpr' si lo ten√©s y quer√©s performance)
        # Notas de sintaxis de `expr`:
        #   ‚Ä¢ Operadores l√≥gicos: and / or / not   (tambi√©n valen &, |, ~ con par√©ntesis).
        #   ‚Ä¢ Strings deben ir entre comillas: canal == 'Online'
        #   ‚Ä¢ Columnas con espacios o caracteres raros: usar `backticks`, ej.: `nombre producto` == 'X'
        #   ‚Ä¢ Ejemplos:
        #       "ingreso_total >= @p80_ingreso and unidades >= 10"
        #       "`nombre producto`.str.contains('Promo')"
        #       "precio_promedio.between(1000, 3000, inclusive='both')"
    )
    # ---------------------------------------------------------------
    # .sort_values(by, axis=0, ascending=True|[...], inplace=False,
    #              kind='quicksort'|'mergesort'|'heapsort'|'stable',
    #              na_position='last'|'first', ignore_index=False, key=None)
    #   - Ordena por una o varias columnas.
    #   - `by`: str o lista de str con las columnas a ordenar.
    #   - `ascending`: bool o lista de bool (una por cada columna en `by`).
    #   - `na_position`: d√≥nde ubicar NaN ('last' o 'first').
    #   - `ignore_index`: si True, reasigna el √≠ndice 0..n-1 en el resultado.
    #   - `kind`: algoritmo de ordenamiento (mergesort es estable si necesit√°s preservar empates).
    #   - `key`: funci√≥n que transforma los valores antes de ordenar (p. ej., key=lambda s: s.str.normalize(...)).
    .sort_values(
        by=["ingreso_total", "unidades"],  # primero ordena por ingreso_total, luego desempata por unidades
        ascending=[False, False],          # ambos en orden descendente (mayor ‚Üí menor)
        na_position="last",                # coloca NaN al final (√∫til si alguna m√©trica qued√≥ en NaN)
        ignore_index=False                  # reindexa el resultado secuencialmente (0..n-1)
        # Variantes √∫tiles:
        #   ‚Ä¢ ascending=True                 # orden ascendente
        #   ‚Ä¢ ascending=[False, True]        # primero desc, luego asc para el segundo criterio
        #   ‚Ä¢ kind='mergesort'               # orden estable (respeta el orden de aparici√≥n en empates)
        #   ‚Ä¢ key=lambda s: s.str.lower()    # ordenar texto sin distinci√≥n de may√∫sculas/min√∫sculas
    )
)

# Resultado:
# `ventas_top` contiene solo los productos cuyo ingreso_total >= p80_ingreso,
# ordenados de mayor a menor por ingreso_total y, ante empates, por unidades.


# 6Ô∏è‚É£ Mostrar resultados
print(f"Columna de producto detectada: {prod_col}")
print(f"Umbral (percentil 80) de ingreso_total: {float(p80_ingreso):,.2f}")
print("‚úÖ Productos de ALTO RENDIMIENTO (top 20% por ingreso):")
display(ventas_top.head(60))

###3- Agregaci√≥n: Resumir las ventas por categor√≠a de producto y analizar los ingresos generados.

###Agregaci√≥n (resumen por categor√≠a y an√°lisis de ingresos)
### Conceptos y plan

Objetivo: construir un resumen por categor√≠a de producto con m√©tricas √∫tiles (ingreso total, unidades, cantidad de ventas, ticket promedio).

Conceptos clave:

Agregaci√≥n: operaci√≥n que resume muchas filas en menos filas, aplicando funciones (sum, mean, count, etc.) despu√©s de agrupar por una clave (aqu√≠, la categor√≠a).

Categor√≠a de producto: atributo que agrupa productos similares (ej., ‚ÄúElectr√≥nica‚Äù, ‚ÄúHogar‚Äù). Puede llamarse categoria, rubro, etc.

Ticket promedio por venta: ingreso_total / ventas (d√≥nde ventas es el conteo de filas en esa categor√≠a). Indica el importe medio facturado por cada transacci√≥n/registro en la categor√≠a.

Nota: esto no es el ‚Äúprecio promedio‚Äù del producto; ese ya se calcula con mean sobre precio.

Consideraciones: outliers pueden distorsionar promedios; a veces conviene mirar tambi√©n la mediana (median).

Plan paso a paso:

Detectar la columna de categor√≠a.

Asegurar columna ingreso (si no existe, crearla).

groupby(categor√≠a).agg(...) para obtener m√©tricas.

Ordenar por ingreso_total.

Calcular ticket_promedio_por_venta.

In [None]:
# ============================================
# 8) AGREGACI√ìN: resumen por categor√≠a
# ============================================
# Requisitos:
# - 'ventas_clean' tiene columnas 'precio', 'cantidad' y alguna columna "categor√≠a".
# ============================================

# -- Helper para detectar la columna de categor√≠a --
def encontrar_columna(df, candidatos):
    """
    df: DataFrame de pandas que queremos inspeccionar.
    candidatos: iterable de strings con patrones posibles para el nombre de la columna
                (por ejemplo: ["categoria", "cat", "segmento"]).
    Devuelve:
      - El nombre de la PRIMERA columna cuyo nombre contenga alguno de los patrones (b√∫squeda por subcadena,
        sin distinguir may√∫sculas/min√∫sculas).
      - None si no encuentra coincidencias.
    """

    # Recorremos todos los nombres de columnas del DataFrame (df.columns es un Index con esos nombres).
    for c in df.columns:

        # any(...) devuelve True si AL MENOS UNO de los elementos del generador interno es True.
        # Generador: (p in c.lower() for p in candidatos)
        #   - c.lower(): pasamos el nombre de la columna a min√∫sculas para comparar sin importar may√∫sculas/min√∫sculas.
        #   - p in c.lower(): chequea si el patr√≥n 'p' aparece como SUBCADENA dentro del nombre de la columna.
        #   - Se eval√∫a para cada 'p' en 'candidatos'.
        if any(p in c.lower() for p in candidatos):
           # Si encontramos una coincidencia, devolvemos inmediatamente el nombre ORIGINAL de la columna.
            return c
    # Si terminamos el bucle sin encontrar coincidencias, devolvemos None para indicar "no encontrada".
    return None

# Nota did√°ctica:
# - Esto hace coincidencia por SUBCADENA (ej.: "prod" matchea "producto_sku").
# - Si quer√©s coincidencia EXACTA, us√° igualdad (c.lower() == p) o expresiones regulares.
# - Si tus datos pueden tener acentos/espacios raros, pod√©s normalizar:
#     import unicodedata, re
#     def norm(s): return re.sub(r'\s+', ' ', ''.join(ch for ch in unicodedata.normalize('NFKD', s)
#                                    if not unicodedata.combining(ch))).strip().lower()


# 1) Detectar columna de categor√≠a (acepta variantes)
cat_col = encontrar_columna(ventas_clean, ["categoria", "categor√≠a", "categoria_producto", "rubro"])
if cat_col is None:
    raise ValueError("No se encontr√≥ columna de categor√≠a (por ej. 'categoria' o 'rubro').")

# 2) Asegurar columna 'ingreso' (si no existe, crearla)
if "ingreso" not in ventas_clean.columns:
    ventas_cat = ventas_clean.assign(ingreso = ventas_clean["precio"] * ventas_clean["cantidad"])
else:
    ventas_cat = ventas_clean.copy()

# 3) Agregaci√≥n por categor√≠a con groupby + agg
resumen_cat = (
    ventas_cat
    .groupby(
        by=cat_col,      # Puede ser string o lista de strings si quisi√©ramos agrupar por varias columnas.
        dropna=False,    # Mantener grupo NaN (si hay filas sin categor√≠a).
        as_index=False   # Dejar la categor√≠a como columna normal (y no como √≠ndice).
        # observed: si cat_col es 'category' y queremos mostrar solo categor√≠as presentes ‚Üí True.
    )
    .agg(
        ingreso_total=('ingreso', 'sum'),   # Suma total de ingresos por categor√≠a.
        unidades=('cantidad', 'sum'),       # Unidades totales vendidas en la categor√≠a.
        ventas=('ingreso', 'size'),         # Cantidad de registros/filas (ventas) en la categor√≠a.
        precio_promedio=('precio', 'mean')  # Precio promedio observado en la categor√≠a.
        # Otras funciones √∫tiles: 'median','max','min','std','var','nunique'...
    )
    .sort_values(
        by='ingreso_total', # Ordenar por ingreso total
        ascending=False,    # Descendente: mayores arriba
        na_position='last', # NaN al final
        ignore_index=True   # Reindexar desde 0
    )
)

# 4) Ticket promedio por venta = ingreso_total / ventas
resumen_cat = resumen_cat.assign(
    ticket_promedio_por_venta = resumen_cat['ingreso_total'] / resumen_cat['ventas']
    # assign: crea/reescribe columnas. Alternativa: resumen_cat['ticket_promedio_por_venta'] = ...
)

print("Columna de categor√≠a detectada:", cat_col)
print("Resumen por categor√≠a (ordenado por ingreso_total):")
display(resumen_cat.head(20))

###4- Integraci√≥n de Datos: Combinar los sets de datos de ventas y marketing para obtener una visi√≥n m√°s amplia de las tendencias.

In [None]:
# ============================================
# 9) INTEGRACI√ìN SIMPLE: combinar ventas y marketing
# ============================================
# Qu√© hace:
# - Busca una clave com√∫n sencilla para unir (por nombre t√≠pico).
# - Si no la encuentra, te deja dos variables para definirla a mano.
# - Calcula la cardinalidad real (1:1, 1:m, m:1, m:m) y la valida en el merge.
# - Hace un LEFT JOIN (conserva todas las ventas).
# - Si hay 'campa√±a'/'canal', resume ingresos por esas columnas.
# ============================================


# ---------------------------
# 1) Intento SIMPLE de detectar una clave com√∫n
# ---------------------------
claves_tentativas = [
    "id_cliente", "cliente", "email",
    "id_campa√±a", "id_campana", "id_campanha",
    "sku", "id_producto", "producto"
]

# Busca la primera clave que exista con el mismo nombre en ambos DataFrames
clave_comun = next(
    (k for k in claves_tentativas if k in ventas_clean.columns and k in marketing_clean.columns),
    None
)

# ---------------------------
# 2) Si NO hay clave exactamente igual en ambos, pedimos definir a mano
#    (esto NO corta el flujo: imprime gu√≠a y sigue si las completas)
# ---------------------------
# üëá Cambi√° estos nombres si tus columnas se llaman distinto en cada DF:
clave_ventas = None   # ej.: "id_cliente" (en ventas_clean)
clave_marketing = None  # ej.: "cliente_id" (en marketing_clean)

# Si el usuario NO defini√≥ manualmente y TAMPOCO hay clave com√∫n, emitimos gu√≠a y salimos limpio
if clave_comun is None and (clave_ventas is None or clave_marketing is None):
    print("‚ùå No se encontr√≥ una clave com√∫n por nombre.")
    print("üëâ Opciones:")
    print("   a) Renombr√° una columna para que coincida en ambos DataFrames (ej.: 'id_cliente').")
    print("   b) Defin√≠ manualmente las variables 'clave_ventas' y 'clave_marketing' m√°s arriba.")
    print("      Ejemplo: clave_ventas='id_cliente'  |  clave_marketing='cliente_id'")
    # Evitamos romper el notebook
else:
    # ---------------------------
    # 3) Determinar las columnas de uni√≥n y calcular cardinalidad REAL
    # ---------------------------
    if clave_comun is not None:
        # Caso simple: misma columna en ambos
        left_on = [clave_comun]
        right_on = [clave_comun]
        clave_label = clave_comun
    else:
        # Caso manual: columnas diferentes
        left_on = [clave_ventas]
        right_on = [clave_marketing]
        clave_label = f"{clave_ventas} (ventas) ‚Üî {clave_marketing} (marketing)"

    # Funci√≥n de ayuda: ¬øhay duplicados en la(s) clave(s)?
    def hay_duplicados(df, cols):
        # cols puede tener 1 o m√°s columnas (clave compuesta)
        return df.duplicated(subset=cols, keep=False).any()

    # Detectar cardinalidad:
    # - Si ventas no duplica clave y marketing s√≠ ‚Üí 1:m
    # - Si ventas s√≠ duplica y marketing no ‚Üí m:1
    # - Si ninguno duplica ‚Üí 1:1
    # - Si ambos duplican ‚Üí m:m
    dup_left = hay_duplicados(ventas_clean, left_on)
    dup_right = hay_duplicados(marketing_clean, right_on)

    if not dup_left and not dup_right:
        validate_card = "1:1"
    elif not dup_left and dup_right:
        validate_card = "1:m"
    elif dup_left and not dup_right:
        validate_card = "m:1"
    else:
        validate_card = "m:m"

    print("üîë Clave de uni√≥n:", clave_label)
    print("üìê Cardinalidad detectada:", validate_card)

    # ---------------------------
    # 4) Hacer el MERGE (LEFT JOIN)
    # ---------------------------
    ventas_marketing = pd.merge(
        left=ventas_clean,      # DataFrame izquierdo: base principal (ventas)
        right=marketing_clean,  # DataFrame derecho: datos de marketing a anexar
        how="left",             # how: 'left' (todas ventas), 'inner', 'outer', 'right'
        left_on=left_on,        # columnas de uni√≥n en 'left' (lista)
        right_on=right_on,      # columnas de uni√≥n en 'right' (lista)
        # on=...               # (alternativa si la columna tiene EXACTAMENTE el mismo nombre en ambos; excluyente con left_on/right_on)
        sort=False,             # sort: True ordena por clave tras el merge; False suele ser m√°s r√°pido
        suffixes=("_ven", "_mkt"),  # sufijos para columnas con el mismo nombre en ambos DF
        copy=True,              # copy: True asegura copia (seguro); False puede ahorrar memoria
        indicator=True,         # indicator: agrega columna '_merge' con 'left_only'|'right_only'|'both'
        validate=validate_card  # validate: '1:1'|'1:m'|'m:1'|'m:m' ‚Üí lanza error si no se cumple
    )

    # Diagn√≥stico b√°sico del resultado
    print("\nüìã Origen de filas seg√∫n '_merge':")
    display(ventas_marketing['_merge'].value_counts(dropna=False).to_frame('conteo'))

    print("\nüëÄ Primeras filas del DataFrame unificado:")
    display(ventas_marketing.head())

    # ---------------------------
    # 5) Resumen por CAMPA√ëA / CANAL (si existen esas columnas)
    # ---------------------------
    # Asegurar 'ingreso' = precio * cantidad si no existe
    vm = ventas_marketing.copy()
    if "ingreso" not in vm.columns and {"precio", "cantidad"}.issubset(vm.columns):
        vm = vm.assign(ingreso = vm["precio"] * vm["cantidad"])

    # Detectar posibles columnas de campa√±a/canal por nombres comunes
    def hallar_col(df, patrones):
        for c in df.columns:
            if any(p in c.lower() for p in patrones):
                return c
        return None

    camp_col  = hallar_col(vm, ["campa√±a", "campana", "id_campa√±a", "id_campana", "id_campanha", "campaign"])
    canal_col = hallar_col(vm, ["canal", "utm_source", "fuente", "source"])

    if camp_col and "ingreso" in vm.columns:
        resumen_camp = (
            vm.groupby(by=camp_col, dropna=False, as_index=False)  # groupby: agrupa por campa√±a
              .agg(
                  ingreso_total=('ingreso', 'sum'),  # sum: suma de ingresos por campa√±a
                  ventas=('ingreso', 'size')         # size: cantidad de filas (ventas) por campa√±a
              )
              .sort_values(by='ingreso_total', ascending=False, na_position='last', ignore_index=True)
        )
        print(f"\nüí° Ingreso total por campa√±a ({camp_col}):")
        display(resumen_camp.head(20))
    else:
        print("\n‚ÑπÔ∏è No se encontr√≥ columna de campa√±a o no est√° 'ingreso' para resumir.")

    if canal_col and "ingreso" in vm.columns:
        resumen_canal = (
            vm.groupby(by=canal_col, dropna=False, as_index=False)
              .agg(
                  ingreso_total=('ingreso', 'sum'),
                  ventas=('ingreso', 'size')
              )
              .sort_values(by='ingreso_total', ascending=False, na_position='last', ignore_index=True)
        )
        print(f"\nüí° Ingreso total por canal ({canal_col}):")
        display(resumen_canal.head(20))
    else:
        print("‚ÑπÔ∏è No se encontr√≥ columna de canal o no est√° 'ingreso' para resumir.")
