# 📘 Pre-entrega

**Nombre del alumno:** **Martín Federico Fernández Gamen**

## 🧩 Etapa 1: Recopilación y Preparación de Datos
**Objetivo:** Demostrar habilidades en Python, familiaridad con el entorno de trabajo y conocimientos básicos sobre manipulación de datos.

In [2]:
## Configuro el entorno para poder realizar la carga de datos
# importo las librerías necesarias para el entorno
import pandas as pd
import numpy as np
import os
# Monto mi unidad drive donde está ubicada la carpeta datasets con los csv dentro (fuentes de datos a utilizar)
from google.colab import drive
drive.mount('/content/drive')
# Verificar que los archivos csv se encuentren en la carpeta datasets
os.listdir("/content/drive/MyDrive/datasets")

Mounted at /content/drive


['ventas.csv', 'clientes.csv', 'marketing.csv']

### 1️⃣ Carga de datos

In [3]:
# Defino las rutas relativas de los datasets para facilitar los cambios de ubicación.
path_archivo_ventas = "/content/drive/MyDrive/datasets/ventas.csv"
path_archivo_clientes = "/content/drive/MyDrive/datasets/clientes.csv"
path_archivo_marketing = "/content/drive/MyDrive/datasets/marketing.csv"

# Cargo los datasets (archivos CSV) como DataFrames usando Pandas [Por ejemplo: usando pd.read_csv()].
df_ventas = pd.read_csv(path_archivo_ventas)
df_clientes = pd.read_csv(path_archivo_clientes)
df_marketing = pd.read_csv(path_archivo_marketing)

# Validamos su correcta carga comprobando sus formas.
print("df_ventas.shape ->", df_ventas.shape)
print("df_clientes.shape ->", df_clientes.shape)
print("df_marketing.shape ->", df_marketing.shape)

# Valido las rutas y correcta carga de los dataframes mostrando las 3 primeras y 3 últimas filas de cada dataset
# Veo las primeras 3 filas y su estructura de columnas con .head()
display(df_ventas.head(3))
display(df_clientes.head(3))
display(df_marketing.head(3))

# Veo las últimas 3 filas con .tail()
display(df_ventas.tail(3))
display(df_clientes.tail(3))
display(df_marketing.tail(3))

df_ventas.shape -> (3035, 6)
df_clientes.shape -> (567, 5)
df_marketing.shape -> (90, 6)


Unnamed: 0,id_venta,producto,precio,cantidad,fecha_venta,categoria
0,792,Cuadro decorativo,$69.94,5.0,02/01/2024,Decoración
1,811,Lámpara de mesa,$105.10,5.0,02/01/2024,Decoración
2,1156,Secadora,$97.96,3.0,02/01/2024,Electrodomésticos


Unnamed: 0,id_cliente,nombre,edad,ciudad,ingresos
0,1,Aloysia Screase,44,Mar del Plata,42294.68
1,2,Kristina Scaplehorn,25,Posadas,24735.04
2,3,Filip Castagne,50,Resistencia,35744.85


Unnamed: 0,id_campanha,producto,canal,costo,fecha_inicio,fecha_fin
0,74,Adorno de pared,TV,4.81,20/03/2024,03/05/2024
1,12,Tablet,RRSS,3.4,26/03/2024,13/05/2024
2,32,Lámpara de mesa,Email,5.54,28/03/2024,20/04/2024


Unnamed: 0,id_venta,producto,precio,cantidad,fecha_venta,categoria
3032,2696,Laptop,$107.81,4.0,30/12/2024,Electrónica
3033,2913,Smartphone,$99.85,7.0,30/12/2024,Electrónica
3034,2930,Consola de videojuegos,$55.47,6.0,30/12/2024,Electrónica


Unnamed: 0,id_cliente,nombre,edad,ciudad,ingresos
564,565,Jewelle Mabbett,33,Córdoba,30522.64
565,566,Lauri Munns,23,Resistencia,31259.14
566,567,Micah Matis,31,Corrientes,42927.86


Unnamed: 0,id_campanha,producto,canal,costo,fecha_inicio,fecha_fin
87,68,Rincón de plantas,TV,5.81,17/12/2024,14/2/2025
88,33,Secadora,Email,3.8,20/12/2024,7/1/2025
89,11,Freidora eléctrica,RRSS,5.27,29/12/2024,21/1/2025


### 2️⃣ Análisis exploratorio inicial

In [4]:
## Declaro la función  "analisis_exploratorio_datos" (EDA customizada a gusto) para poder realizar el análisis solicitado de los tres Dataframes.
# Incluyo además la función info() que suma un resumen conciso del dataframe (que incluye el número de columnas, sus etiquetas, el tipo de datos de cada columna, el número de valores no nulos y la cantidad de memoria utilizada).
# También sumé las últimas filas a la par del head para tener dimesión muchas veces de valores máximos y mínimos en columnas ordenadas.
# Anexé también separadores en guiones para facilitar la lectura

def analisis_exploratorio_datos(df, nombre):
    print(f"=== {nombre} ===")
    print("\nresumen_info: ", df.info())
    print("-"*30)
    print("\nshape:", df.shape)
    print("-"*30)
    print("\ncolumnas:", list(df.columns))
    print("-"*30)
    print("\ndtypes:")
    print(df.dtypes)
    print("-"*30)
    print("\nNulos por columna:")
    print(df.isna().sum())
    print("-"*30)
    print("\nPrimeras filas:")
    display(df.head(5))
    print("-"*30)
    print("\nÚltimas filas:")
    display(df.tail(5))
    print("-"*30)
    print("\nDescribe (numérico):")
    display(df.describe(include='number'))
    print("-"*120)


In [5]:
# Realizo el análisis del Dataframe de Ventas
analisis_exploratorio_datos(df_ventas, "Reporte de VENTAS")

=== Reporte de VENTAS ===
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3035 entries, 0 to 3034
Data columns (total 6 columns):
 #   Column       Non-Null Count  Dtype  
---  ------       --------------  -----  
 0   id_venta     3035 non-null   int64  
 1   producto     3035 non-null   object 
 2   precio       3033 non-null   object 
 3   cantidad     3033 non-null   float64
 4   fecha_venta  3035 non-null   object 
 5   categoria    3035 non-null   object 
dtypes: float64(1), int64(1), object(4)
memory usage: 142.4+ KB

resumen_info:  None
------------------------------

shape: (3035, 6)
------------------------------

columnas: ['id_venta', 'producto', 'precio', 'cantidad', 'fecha_venta', 'categoria']
------------------------------

dtypes:
id_venta         int64
producto        object
precio          object
cantidad       float64
fecha_venta     object
categoria       object
dtype: object
------------------------------

Nulos por columna:
id_venta       0
producto       0
prec

Unnamed: 0,id_venta,producto,precio,cantidad,fecha_venta,categoria
0,792,Cuadro decorativo,$69.94,5.0,02/01/2024,Decoración
1,811,Lámpara de mesa,$105.10,5.0,02/01/2024,Decoración
2,1156,Secadora,$97.96,3.0,02/01/2024,Electrodomésticos
3,1372,Heladera,$114.35,8.0,02/01/2024,Electrodomésticos
4,1546,Secadora,$106.21,4.0,02/01/2024,Electrodomésticos


------------------------------

Últimas filas:


Unnamed: 0,id_venta,producto,precio,cantidad,fecha_venta,categoria
3030,1837,Horno eléctrico,$104.12,9.0,30/12/2024,Electrodomésticos
3031,2276,Laptop,$85.27,9.0,30/12/2024,Electrónica
3032,2696,Laptop,$107.81,4.0,30/12/2024,Electrónica
3033,2913,Smartphone,$99.85,7.0,30/12/2024,Electrónica
3034,2930,Consola de videojuegos,$55.47,6.0,30/12/2024,Electrónica


------------------------------

Describe (numérico):


Unnamed: 0,id_venta,cantidad
count,3035.0,3033.0
mean,1499.8514,6.496538
std,866.465379,3.45725
min,1.0,1.0
25%,748.5,3.0
50%,1502.0,7.0
75%,2249.5,9.0
max,3000.0,12.0


------------------------------------------------------------------------------------------------------------------------


In [6]:
# Realizo el análisis del Dataframe de Clientes
analisis_exploratorio_datos(df_clientes, "Reporte de CLIENTES")

=== Reporte de CLIENTES ===
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 567 entries, 0 to 566
Data columns (total 5 columns):
 #   Column      Non-Null Count  Dtype  
---  ------      --------------  -----  
 0   id_cliente  567 non-null    int64  
 1   nombre      567 non-null    object 
 2   edad        567 non-null    int64  
 3   ciudad      567 non-null    object 
 4   ingresos    567 non-null    float64
dtypes: float64(1), int64(2), object(2)
memory usage: 22.3+ KB

resumen_info:  None
------------------------------

shape: (567, 5)
------------------------------

columnas: ['id_cliente', 'nombre', 'edad', 'ciudad', 'ingresos']
------------------------------

dtypes:
id_cliente      int64
nombre         object
edad            int64
ciudad         object
ingresos      float64
dtype: object
------------------------------

Nulos por columna:
id_cliente    0
nombre        0
edad          0
ciudad        0
ingresos      0
dtype: int64
------------------------------

Primeras fil

Unnamed: 0,id_cliente,nombre,edad,ciudad,ingresos
0,1,Aloysia Screase,44,Mar del Plata,42294.68
1,2,Kristina Scaplehorn,25,Posadas,24735.04
2,3,Filip Castagne,50,Resistencia,35744.85
3,4,Liuka Luard,39,Bahía Blanca,27647.96
4,5,Dore Cockshtt,28,Rosario,28245.65


------------------------------

Últimas filas:


Unnamed: 0,id_cliente,nombre,edad,ciudad,ingresos
562,563,Dione Forsyde,29,Posadas,26757.73
563,564,Fleming Gow,39,Santa Fe,43674.96
564,565,Jewelle Mabbett,33,Córdoba,30522.64
565,566,Lauri Munns,23,Resistencia,31259.14
566,567,Micah Matis,31,Corrientes,42927.86


------------------------------

Describe (numérico):


Unnamed: 0,id_cliente,edad,ingresos
count,567.0,567.0,567.0
mean,284.0,37.940035,34668.739012
std,163.823075,10.202885,12974.531446
min,1.0,20.0,170.29
25%,142.5,30.0,26015.24
50%,284.0,37.0,35066.83
75%,425.5,43.0,42457.1
max,567.0,81.0,88053.01


------------------------------------------------------------------------------------------------------------------------


In [7]:
# Realizo el análisis del Dataframe de Marketing
analisis_exploratorio_datos(df_marketing, "Reporte de MARKETING")

=== Reporte de MARKETING ===
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 90 entries, 0 to 89
Data columns (total 6 columns):
 #   Column        Non-Null Count  Dtype  
---  ------        --------------  -----  
 0   id_campanha   90 non-null     int64  
 1   producto      90 non-null     object 
 2   canal         90 non-null     object 
 3   costo         90 non-null     float64
 4   fecha_inicio  90 non-null     object 
 5   fecha_fin     90 non-null     object 
dtypes: float64(1), int64(1), object(4)
memory usage: 4.3+ KB

resumen_info:  None
------------------------------

shape: (90, 6)
------------------------------

columnas: ['id_campanha', 'producto', 'canal', 'costo', 'fecha_inicio', 'fecha_fin']
------------------------------

dtypes:
id_campanha       int64
producto         object
canal            object
costo           float64
fecha_inicio     object
fecha_fin        object
dtype: object
------------------------------

Nulos por columna:
id_campanha     0
producto   

Unnamed: 0,id_campanha,producto,canal,costo,fecha_inicio,fecha_fin
0,74,Adorno de pared,TV,4.81,20/03/2024,03/05/2024
1,12,Tablet,RRSS,3.4,26/03/2024,13/05/2024
2,32,Lámpara de mesa,Email,5.54,28/03/2024,20/04/2024
3,21,Smartphone,RRSS,6.37,29/03/2024,16/05/2024
4,58,Alfombra,Email,4.25,31/03/2024,05/05/2024


------------------------------

Últimas filas:


Unnamed: 0,id_campanha,producto,canal,costo,fecha_inicio,fecha_fin
85,70,Aspiradora,TV,3.06,13/12/2024,29/12/2024
86,89,Televisor,TV,4.98,13/12/2024,8/2/2025
87,68,Rincón de plantas,TV,5.81,17/12/2024,14/2/2025
88,33,Secadora,Email,3.8,20/12/2024,7/1/2025
89,11,Freidora eléctrica,RRSS,5.27,29/12/2024,21/1/2025


------------------------------

Describe (numérico):


Unnamed: 0,id_campanha,costo
count,90.0,90.0
mean,45.5,4.928667
std,26.124701,0.94775
min,1.0,2.95
25%,23.25,4.3725
50%,45.5,4.9
75%,67.75,5.5625
max,90.0,7.39


------------------------------------------------------------------------------------------------------------------------


### 3️⃣ Calidad de los datos

In [8]:
# Para analizar la Calidad de los Dataframes df_ventas, df_clientes y df_marketing los someteremos a la Función de Control de Calidad de Datos Customizada por mí:

def calidad_dataframe(df, etiqueta_nombre, clave=None):
    """
    Analiza la calidad del DataFrame:
      - Muestra cantidad de nulos por columna.
      - Cuenta filas duplicadas completas.
      - Si se indica una columna clave, muestra los valores duplicados más frecuentes.
    Parámetros:
      df: DataFrame de pandas que se analizará, pasado por parámetro.
      etiqueta_nombre: texto descriptivo del DataFrame (ejemplo: 'Reporte de VENTAS').
      clave: (opcional) nombre de la columna para buscar duplicados específicos.
    """

    # -------------------------------------------------
    # Muestro el título descriptivo celegido para reporte de Calidad del DF que utilizará el valor de la etiqueta_nombre ingresado.
    # -------------------------------------------------
    print(f"### {etiqueta_nombre}")
    print("-"*80)

    # -------------------------------------------------
    # Muestro la cantidad de valores nulos por columna
    # -------------------------------------------------
    # df.isna() devuelve un DataFrame booleano con True donde hay NaN.
    # .sum() cuenta los True (o sea, los nulos) por columna.
    # .to_frame("nulos") convierte el resultado en un DataFrame con una columna llamada 'nulos'.
    display(df.isna().sum().to_frame("nulos"))
    print("-"*60)

    # -------------------------------------------------
    # Cuento las filas duplicadas completas
    # -------------------------------------------------
    # df.duplicated(keep=False) marca como True todas las filas que tienen otra igual.
    # keep=False significa que marca todas las copias, no solo una.
    # .sum() cuenta cuántas filas están repetidas.
    dup_rows = df.duplicated(keep=False).sum()
    print("Filas duplicadas (exactas):", dup_rows)
    print("-"*60)

    # -------------------------------------------------
    # Si la clave ingresada es el nombre de una columna válida, busca los duplicados por esa columna.
    # -------------------------------------------------

    # si la clave es distinta de None y la clave está en la lista de columnas del dataframe (columna existente)
    # si no le paso ninguna columna no va a querer encontrar duplicados por columna

    if clave and clave in df.columns:
        # Cuenta cuántas filas tienen valores repetidos en esa columna
        dup_key = df[clave].duplicated(keep=False).sum()
        print(f"Duplicados por clave '{clave}':", dup_key)

        # Si existen duplicados, muestra cuáles son los valores más repetidos
        if dup_key > 0:
            # Filtra filas donde esa clave esté duplicada
            # df[clave].duplicated(keep=False) devuelve True donde el valor se repite
            duplicados_ordenados = (
                df[df[clave].duplicated(keep=False)][clave]
                .value_counts()                # Cuenta cuántas veces aparece cada valor
                .sort_values(ascending=False)   # Ordena de mayor a menor (más duplicados arriba)
            )

            print("\n🔁 Top valores duplicados más frecuentes:")
            # Muestra solo los primeros 10 (los más repetidos)
            display(duplicados_ordenados.head(10))
        else:
            print(f"No se encontraron duplicados en la clave '{clave}'.")
    else:
        # Si la clave no fue pasada o no existe en el DataFrame
        if clave:
            print(f"La clave '{clave}' no existe en el DataFrame.")
        else:
            print("No se indicó una clave para analizar duplicados por columna.")

    print("-"*60)
#fin de la función calidad_dataframe

In [9]:
# ============================================
# ✅ CALIDAD DE DATOS DATAFRAME VENTAS
# ============================================

# Para ver los nulos y duplicados del dataframe de Ventas
calidad_dataframe(df_ventas, "Reporte de VENTAS")


# Ejemplo: Para ver los nulos y duplicados del dataframe de Ventas con la clave categoria
calidad_dataframe(df_ventas, "Reporte de VENTAS", clave="categoria")

### Reporte de VENTAS
--------------------------------------------------------------------------------


Unnamed: 0,nulos
id_venta,0
producto,0
precio,2
cantidad,2
fecha_venta,0
categoria,0


------------------------------------------------------------
Filas duplicadas (exactas): 70
------------------------------------------------------------
No se indicó una clave para analizar duplicados por columna.
------------------------------------------------------------
### Reporte de VENTAS
--------------------------------------------------------------------------------


Unnamed: 0,nulos
id_venta,0
producto,0
precio,2
cantidad,2
fecha_venta,0
categoria,0


------------------------------------------------------------
Filas duplicadas (exactas): 70
------------------------------------------------------------
Duplicados por clave 'categoria': 3035

🔁 Top valores duplicados más frecuentes:


Unnamed: 0_level_0,count
categoria,Unnamed: 1_level_1
Decoración,1015
Electrónica,1012
Electrodomésticos,1008


------------------------------------------------------------


In [10]:
# ============================================
# ✅ CALIDAD DE DATOS DATAFRAME CLIENTES
# ============================================

# Para ver los nulos y duplicados del dataframe de Clientes
calidad_dataframe(df_clientes, "Reporte de CLIENTES")


# Ejemplo: Para ver los nulos y duplicados del dataframe de Clientes con la clave ciudad
calidad_dataframe(df_clientes, "Reporte de CLIENTES", clave="ciudad")

### Reporte de CLIENTES
--------------------------------------------------------------------------------


Unnamed: 0,nulos
id_cliente,0
nombre,0
edad,0
ciudad,0
ingresos,0


------------------------------------------------------------
Filas duplicadas (exactas): 0
------------------------------------------------------------
No se indicó una clave para analizar duplicados por columna.
------------------------------------------------------------
### Reporte de CLIENTES
--------------------------------------------------------------------------------


Unnamed: 0,nulos
id_cliente,0
nombre,0
edad,0
ciudad,0
ingresos,0


------------------------------------------------------------
Filas duplicadas (exactas): 0
------------------------------------------------------------
Duplicados por clave 'ciudad': 567

🔁 Top valores duplicados más frecuentes:


Unnamed: 0_level_0,count
ciudad,Unnamed: 1_level_1
Mar del Plata,63
Rosario,55
Posadas,52
Resistencia,50
Córdoba,49
Corrientes,47
Santa Fe,46
Bahía Blanca,44
Salta,43
Merlo,43


------------------------------------------------------------


In [11]:
# ============================================
# ✅ CALIDAD DE DATOS DATAFRAME MARKETING
# ============================================

# Para ver los nulos y duplicados del dataframe de Marketing
calidad_dataframe(df_marketing, "Reporte de MARKETING")


# Ejemplo: Para ver los nulos y duplicados del dataframe de Marketing con la clave canal
calidad_dataframe(df_marketing, "Reporte de MARKETING", clave="canal")

### Reporte de MARKETING
--------------------------------------------------------------------------------


Unnamed: 0,nulos
id_campanha,0
producto,0
canal,0
costo,0
fecha_inicio,0
fecha_fin,0


------------------------------------------------------------
Filas duplicadas (exactas): 0
------------------------------------------------------------
No se indicó una clave para analizar duplicados por columna.
------------------------------------------------------------
### Reporte de MARKETING
--------------------------------------------------------------------------------


Unnamed: 0,nulos
id_campanha,0
producto,0
canal,0
costo,0
fecha_inicio,0
fecha_fin,0


------------------------------------------------------------
Filas duplicadas (exactas): 0
------------------------------------------------------------
Duplicados por clave 'canal': 90

🔁 Top valores duplicados más frecuentes:


Unnamed: 0_level_0,count
canal,Unnamed: 1_level_1
TV,30
RRSS,30
Email,30


------------------------------------------------------------


## 🧹 Etapa 2: Preprocesamiento y Limpieza de Datos
**Objetivo:** Demostrar conocimiento de las técnicas de limpieza y transformación de datos.

### 4️⃣ Limpieza de datos

El proceso de Limpieza de los datasets que aplicaré consiste en:

* Eliminar duplicados.
* Normalizar texto en columnas object (trim + capitalización simple).
* Convertir fechas a fechas reales
* Convertir "precio" y "cantidad" a numéricos si existen.
* Guardar CSV limpios.

In [12]:
# ============================================
# 🧹 LIMPIEZA DE DUPLICADOS DE LOS DataFrames: ventas, clientes, marketing
# ============================================
# -------------------------------------------------
# 1️⃣ Creo copias de los df para no modificar los originales
# -------------------------------------------------
df_ventas_clean = df_ventas.copy()
df_clientes_clean = df_clientes.copy()
df_marketing_clean = df_marketing.copy()

# -------------------------------------------------
# 2️⃣ Eliminar filas completamente duplicadas
# -------------------------------------------------
df_ventas_clean = df_ventas_clean.drop_duplicates()
df_clientes_clean = df_clientes_clean.drop_duplicates()
df_marketing_clean = df_marketing_clean.drop_duplicates()

In [13]:
# Para ver los nulos y que no quedan duplicados en los dataframes limpios:
calidad_dataframe(df_ventas_clean, "Reporte de VENTAS LIMPIO")
print("-"*120)
calidad_dataframe(df_clientes_clean, "Reporte de CLIENTES LIMPIO")
print("-"*120)
calidad_dataframe(df_marketing_clean, "Reporte de MARKETING LIMPIO")
print("-"*120)

### Reporte de VENTAS LIMPIO
--------------------------------------------------------------------------------


Unnamed: 0,nulos
id_venta,0
producto,0
precio,2
cantidad,2
fecha_venta,0
categoria,0


------------------------------------------------------------
Filas duplicadas (exactas): 0
------------------------------------------------------------
No se indicó una clave para analizar duplicados por columna.
------------------------------------------------------------
------------------------------------------------------------------------------------------------------------------------
### Reporte de CLIENTES LIMPIO
--------------------------------------------------------------------------------


Unnamed: 0,nulos
id_cliente,0
nombre,0
edad,0
ciudad,0
ingresos,0


------------------------------------------------------------
Filas duplicadas (exactas): 0
------------------------------------------------------------
No se indicó una clave para analizar duplicados por columna.
------------------------------------------------------------
------------------------------------------------------------------------------------------------------------------------
### Reporte de MARKETING LIMPIO
--------------------------------------------------------------------------------


Unnamed: 0,nulos
id_campanha,0
producto,0
canal,0
costo,0
fecha_inicio,0
fecha_fin,0


------------------------------------------------------------
Filas duplicadas (exactas): 0
------------------------------------------------------------
No se indicó una clave para analizar duplicados por columna.
------------------------------------------------------------
------------------------------------------------------------------------------------------------------------------------


In [14]:
#  Para Normalizar texto en columnas object (trim + capitalización simple) existe la:

# -------------------------------------------------
# 3️⃣ Función para limpiar texto en columnas tipo string
# -------------------------------------------------
def normalizar_texto(df):
    for col in df.select_dtypes(include="object").columns:
        # Se agrupan las operaciones entre paréntesis () para escribirlas en varias líneas
        # Python evalúa todo el bloque como una única expresión.
        df[col] = (
            df[col]
            .astype(str)                              # Convierte cualquier tipo a string
            # .astype(str)  → convierte todo a texto; no tiene parámetros adicionales.
            .str.strip()                               # Elimina espacios al inicio y final
            # .str.strip() no necesita argumentos; borra espacios en blanco por defecto.
            .str.replace(r"[\u200b\t\r\n]", "", regex=True)
            # .str.replace(patron, reemplazo, regex=True)
            #   patron: expresión regular que busca caracteres invisibles (\u200b, tabulaciones, saltos)
            #   reemplazo: ""  → los elimina
            #   regex=True indica que 'patron' es una expresión regular.
            .str.replace(" +", " ", regex=True)
            # reemplaza "uno o más espacios consecutivos" por un solo espacio
            .str.title()                               # Convierte a Título: "juan pérez" → "Juan Pérez"
        )
        #df_transformado=df[col].astype(str)
        #df_transformado=df_transformado.str.strip()
        #df_transformado=df_transformado.str.replace(r"[\u200b\t\r\n]", "", regex=True)
        #df_transformado=df_transformado.str.replace(" +", " ", regex=True)
        #df_transformado=df_transformado.str.title()
        #df[col]=df_transformado

        #df[col] = df[col].astype(str).str.strip().str.replace(r"[\u200b\t\r\n]", "", regex=True).str.replace(" +", " ", regex=True).str.title()
    return df

In [21]:
# -------------------------------------------------
# Normalización de las Fechas - algoritmo general
# -------------------------------------------------
# Si alguna columna contiene fechas (por ejemplo "fecha" o "fechanotificacion"), se intenta convertir a formato datetime de pandas.
# to_datetime intenta interpretar el formato y transforma valores inválidos en NaT (Not a Time).

for df in [df_ventas_clean, df_clientes_clean, df_marketing_clean]: #aqui se debe poner la lista de datasets
    for col in df.columns:
        if "fecha" in col.lower():  # detecta columnas con la palabra "fecha"
            df[col] = pd.to_datetime(df[col], errors="coerce", dayfirst=True)
                                    # Parámetros:
                                    #   errors="coerce" → convierte valores no válidos en NaT (evita error)
                                    #   dayfirst=True   → interpreta formatos tipo "DD/MM/YYYY" (formato latino)


In [22]:
## De manera más específica sin iterar por todas las columnas se puede hacer la normalización apuntando directamente a las columnas de fecha directamente y normalizando de la siguiente forma:

#NORMALIZO FECHAS DE DF DE VENTAS(ESTO TAMBIEN ESTA PERFECTO!!, es lo mismo de arriba, pero sabiendo los nombres de las fechas)
df_ventas_clean["fecha_venta"] = pd.to_datetime(df_ventas_clean["fecha_venta"], errors="coerce", dayfirst=True)

#NORMALIZO FECHAS DE DF DE MARKETING
df_marketing_clean["fecha_inicio"] = pd.to_datetime(df_marketing_clean["fecha_inicio"], errors="coerce", dayfirst=True)
df_marketing_clean["fecha_fin"] = pd.to_datetime(df_marketing_clean["fecha_fin"], errors="coerce", dayfirst=True)

In [23]:
# Con las siguientes líneas validaré que la normalización de las columnas de fecha hecha con el bloque anterior de código, funcionó correctamente.  Limito con .head() la salida y se ve en formato YYYY-MM-DD la fecha.

print(df_ventas_clean["fecha_venta"].head())
print(df_marketing_clean["fecha_inicio"].head())
print(df_marketing_clean["fecha_fin"].head())

0   2024-01-02
1   2024-01-02
2   2024-01-02
3   2024-01-02
4   2024-01-02
Name: fecha_venta, dtype: datetime64[ns]
0   2024-03-20
1   2024-03-26
2   2024-03-28
3   2024-03-29
4   2024-03-31
Name: fecha_inicio, dtype: datetime64[ns]
0   2024-05-03
1   2024-05-13
2   2024-04-20
3   2024-05-16
4   2024-05-05
Name: fecha_fin, dtype: datetime64[ns]


In [24]:
# Valido los tipos de datos de las columnas de los dataframes
print("Tipos de datos de las columnas por Dataframe\n")
print("-"*60)
print(df_ventas_clean.dtypes)
print("-"*60)
print(df_clientes_clean.dtypes)
print("-"*60)
print(df_marketing_clean.dtypes)
print("-"*60)

Tipos de datos de las columnas por Dataframe

------------------------------------------------------------
id_venta                int64
producto               object
precio                 object
cantidad              float64
fecha_venta    datetime64[ns]
categoria              object
dtype: object
------------------------------------------------------------
id_cliente      int64
nombre         object
edad            int64
ciudad         object
ingresos      float64
dtype: object
------------------------------------------------------------
id_campanha              int64
producto                object
canal                   object
costo                  float64
fecha_inicio    datetime64[ns]
fecha_fin       datetime64[ns]
dtype: object
------------------------------------------------------------


### 5️⃣ Transformación de datos

In [None]:
# TODO: Aplicar filtros y transformaciones para crear una tabla de ventas
# que muestre solo los productos con alto rendimiento. calcular el percentil 80
# y filtrar los productos que superen ese umbral en ventas.
#quantile(0.8)
# Sugerencia: usar .query() o condiciones con operadores lógicos.

### 6️⃣ Agregación

In [None]:
# TODO: Resumir las ventas por categoría de producto y analizar los ingresos generados.
# Sugerencia: usar .groupby() y .agg() para generar métricas como suma y promedio.

### 7️⃣ Integración de datos, opcional, NO OBLIGATORIO

In [None]:
# TODO: Combinar los sets de datos de ventas y marketing para obtener una visión más amplia de las tendencias.
# Sugerencia: usar pd.merge() especificando la clave común entre ambos DataFrames.
# Documentar cualquier observación relevante sobre la combinación de datos.
