# 📘 Pre-entrega

**Nombre del alumno:** Miriam Sivira

### Etapa 1 – Recopilación y Preparación de Datos

En este bloque se configura el entorno de trabajo en Python (Google Colab) y se importan las librerías principales (`pandas`, `numpy`).

Los datasets *ventas.csv*, *clientes.csv* y *marketing.csv* se cargan desde Google Drive en formato DataFrame, lo que permite realizar las etapas siguientes de exploración, limpieza y transformación.

Cada dataset representa:
- **ventas.csv:** Detalle de ventas por producto, cantidad y precio.
- **clientes.csv:** Información demográfica y segmentación de clientes.
- **marketing.csv:** Campañas y canales de adquisición asociados a las ventas.


In [3]:
# ============================================================
# Importación de librerías
# ============================================================

# pandas → Librería principal para el análisis y manipulación de datos estructurados (DataFrames).
# numpy  → Proporciona soporte para cálculos matemáticos y manejo eficiente de estructuras numéricas.
# Ambas conforman la base del ecosistema científico de Python utilizado en este proyecto.

import pandas as pd
import numpy as np

print("Satisfactorio.")

Satisfactorio.


In [4]:
# ============================================================
# Conexión con Google Drive
# ============================================================

from google.colab import drive
drive.mount('/content/drive')

print("Google Drive montado correctamente")



Mounted at /content/drive
Google Drive montado correctamente


In [5]:
# Verificar que los archivos csv se encuentren en la carpeta datasets
import os
os.listdir("/content/drive/MyDrive/datasets")

['ventas.csv', 'clientes.csv', 'ventas.xlsx', 'marketing.csv']

In [6]:
# ==========================================================
# CARGA DE DATOS DESDE GOOGLE DRIVE
# ==========================================================
# En este bloque se definen las rutas y se cargan los datasets
# como DataFrames de Pandas para su posterior análisis.
# Cada archivo proviene de la carpeta "datasets" dentro de Drive.

# Rutas absolutas de los archivos CSV.

ruta_ventas = "/content/drive/MyDrive/datasets/ventas.csv"
ruta_clientes = "/content/drive/MyDrive/datasets/clientes.csv"
ruta_marketing = "/content/drive/MyDrive/datasets/marketing.csv"

# Cargamos los CSV como DataFrames.
ventas = pd.read_csv(ruta_ventas)
clientes = pd.read_csv(ruta_clientes)
marketing = pd.read_csv(ruta_marketing)

# ==========================================================
# VALIDACIÓN DE CARGA
# ==========================================================
# Se comprueba la estructura de cada dataset:
#   - shape: muestra el número de filas y columnas
#   - head(): visualiza las primeras filas en la cantidad que se asigne.
# ==========================================================

for nombre, df in {
    "Ventas": ventas,
    "Clientes": clientes,
    "Marketing": marketing
}.items():
    print(f"\n{nombre} -> {df.shape[0]} filas y {df.shape[1]} columnas")
    display(df.head(2))
    print("-"*80)
    print("-"*80)
    print ("Satisfactorio")




Ventas -> 3035 filas y 6 columnas


Unnamed: 0,id_venta,producto,precio,cantidad,fecha_venta,categoria
0,792,Cuadro decorativo,$69.94,5.0,02/01/2024,Decoración
1,811,Lámpara de mesa,$105.10,5.0,02/01/2024,Decoración


--------------------------------------------------------------------------------
--------------------------------------------------------------------------------
Satisfactorio

Clientes -> 567 filas y 5 columnas


Unnamed: 0,id_cliente,nombre,edad,ciudad,ingresos
0,1,Aloysia Screase,44,Mar del Plata,42294.68
1,2,Kristina Scaplehorn,25,Posadas,24735.04


--------------------------------------------------------------------------------
--------------------------------------------------------------------------------
Satisfactorio

Marketing -> 90 filas y 6 columnas


Unnamed: 0,id_campanha,producto,canal,costo,fecha_inicio,fecha_fin
0,74,Adorno de pared,TV,4.81,20/03/2024,03/05/2024
1,12,Tablet,RRSS,3.4,26/03/2024,13/05/2024


--------------------------------------------------------------------------------
--------------------------------------------------------------------------------
Satisfactorio


## 4) **Exploración inicial con pandas** (EDA)

In [7]:
# ==========================================================
# EXPLORACIÓN INICIAL DE LOS DATASETS (EDA)
# ==========================================================
# Esta función realiza un análisis exploratorio básico (EDA)
# de la estructura, tipos de datos, nulos y
# estadísticas descriptivas de cada DataFrame.
# ==========================================================
def eda(df, nombre):
    print(f"*** {nombre} ***")
    print("shape:", df.shape)
    print("columnas:", list(df.columns))
    print("dtypes:")
    print(df.dtypes)
    print("\nNulos por columna:")
    print(df.isna().sum())
    print("\nPrimeras filas:")
    display(df.head(3))
    print("\nDescribe (numérico):")
    display(df.describe(include='number'))
    print("-"*80)
    print ("Satisfactorio")
    print("-"*80)




In [8]:
# ==========================================================
# Aplicar EDA a cada dataset
# ==========================================================
eda(ventas, "Ventas")
eda(clientes, "Clientes")
eda(marketing, "Marketing")

*** Ventas ***
shape: (3035, 6)
columnas: ['id_venta', 'producto', 'precio', 'cantidad', 'fecha_venta', 'categoria']
dtypes:
id_venta         int64
producto        object
precio          object
cantidad       float64
fecha_venta     object
categoria       object
dtype: object

Nulos por columna:
id_venta       0
producto       0
precio         2
cantidad       2
fecha_venta    0
categoria      0
dtype: int64

Primeras filas:


Unnamed: 0,id_venta,producto,precio,cantidad,fecha_venta,categoria
0,792,Cuadro decorativo,$69.94,5.0,02/01/2024,Decoración
1,811,Lámpara de mesa,$105.10,5.0,02/01/2024,Decoración
2,1156,Secadora,$97.96,3.0,02/01/2024,Electrodomésticos



Describe (numérico):


Unnamed: 0,id_venta,cantidad
count,3035.0,3033.0
mean,1499.8514,6.496538
std,866.465379,3.45725
min,1.0,1.0
25%,748.5,3.0
50%,1502.0,7.0
75%,2249.5,9.0
max,3000.0,12.0


--------------------------------------------------------------------------------
Satisfactorio
--------------------------------------------------------------------------------
*** Clientes ***
shape: (567, 5)
columnas: ['id_cliente', 'nombre', 'edad', 'ciudad', 'ingresos']
dtypes:
id_cliente      int64
nombre         object
edad            int64
ciudad         object
ingresos      float64
dtype: object

Nulos por columna:
id_cliente    0
nombre        0
edad          0
ciudad        0
ingresos      0
dtype: int64

Primeras filas:


Unnamed: 0,id_cliente,nombre,edad,ciudad,ingresos
0,1,Aloysia Screase,44,Mar del Plata,42294.68
1,2,Kristina Scaplehorn,25,Posadas,24735.04
2,3,Filip Castagne,50,Resistencia,35744.85



Describe (numérico):


Unnamed: 0,id_cliente,edad,ingresos
count,567.0,567.0,567.0
mean,284.0,37.940035,34668.739012
std,163.823075,10.202885,12974.531446
min,1.0,20.0,170.29
25%,142.5,30.0,26015.24
50%,284.0,37.0,35066.83
75%,425.5,43.0,42457.1
max,567.0,81.0,88053.01


--------------------------------------------------------------------------------
Satisfactorio
--------------------------------------------------------------------------------
*** Marketing ***
shape: (90, 6)
columnas: ['id_campanha', 'producto', 'canal', 'costo', 'fecha_inicio', 'fecha_fin']
dtypes:
id_campanha       int64
producto         object
canal            object
costo           float64
fecha_inicio     object
fecha_fin        object
dtype: object

Nulos por columna:
id_campanha     0
producto        0
canal           0
costo           0
fecha_inicio    0
fecha_fin       0
dtype: int64

Primeras filas:


Unnamed: 0,id_campanha,producto,canal,costo,fecha_inicio,fecha_fin
0,74,Adorno de pared,TV,4.81,20/03/2024,03/05/2024
1,12,Tablet,RRSS,3.4,26/03/2024,13/05/2024
2,32,Lámpara de mesa,Email,5.54,28/03/2024,20/04/2024



Describe (numérico):


Unnamed: 0,id_campanha,costo
count,90.0,90.0
mean,45.5,4.928667
std,26.124701,0.94775
min,1.0,2.95
25%,23.25,4.3725
50%,45.5,4.9
75%,67.75,5.5625
max,90.0,7.39


--------------------------------------------------------------------------------
Satisfactorio
--------------------------------------------------------------------------------


## 5) **Calidad de datos** (nulos y duplicados)

In [10]:
# ==========================================================
# CONTROL DE CALIDAD DE DATOS
# ==========================================================
# Este bloque evalúa la calidad de los datasets, verificando:
#   Cantidad de valores nulos por columna.
#   Existencia de filas duplicadas completas.
#   (Opcional) Duplicados dentro de una columna clave específica.
# ==========================================================

def calidad(df, nombre, clave=None):
    #Función de control de calidad básica para un DataFrame.
    #Parámetros:
    # df (DataFrame): conjunto de datos a evaluar.
    # nombre (str): nombre descriptivo del dataset.
    # clave (str, opcional): columna a analizar para duplicados específicos.

    print(f"***{nombre}***")  # título descriptivo
    print(f"Total de filas: {df.shape[0]} | Total de columnas: {df.shape[1]}\n")  # filas y columnas

    # -------------------------------------------------
    # Cantidad de valores nulos
    # -------------------------------------------------
    print("Valores nulos por columna:")
    nulos = df.isna().sum()
    display(nulos.to_frame("Cantidad de Nulos").T)

    # -------------------------------------------------
    # Filas duplicadas completas
    # -------------------------------------------------
    dup_rows = df.duplicated(keep=False).sum()
    print(f"Filas duplicadas (exactas): {dup_rows}\n")

    # -------------------------------------------------
    # Duplicados por columna clave (opcional)
    # -------------------------------------------------
    if clave:
        if clave in df.columns:
            dup_key = df[clave].duplicated(keep=False).sum()
            print(f"Duplicados en la columna '{clave}': {dup_key}")
            if dup_key > 0:
                top_dup = (
                    df[df[clave].duplicated(keep=False)][clave]
                    .value_counts()
                    .sort_values(ascending=False)
                )
                print("\n Valores más repetidos:")
                display(top_dup.head(6))
            else:
                print(f"No se detectaron duplicados en '{clave}'.")
        else:
            print(f"La columna '{clave}' no existe en este DataFrame.")
    else:
        print("No se especificó una columna clave para análisis de duplicados.")
    print(" Satisfactorio Prueba Calidad ")
    print("-" * 80)

In [11]:
# ==========================================================
# APLICACIÓN CALIDAD A CADA DATASET
# ==========================================================
# En este caso se asume que las claves principales son:
#   - ventas → 'id_venta'
#   - clientes → 'id_cliente'
#   - marketing → 'id_campaña'
# ==========================================================

calidad(ventas, "Ventas", "id_venta")
calidad(clientes, "Clientes", "id_cliente")
calidad(marketing, "Marketing", "id_campaña")

***Ventas***
Total de filas: 3035 | Total de columnas: 6

Valores nulos por columna:


Unnamed: 0,id_venta,producto,precio,cantidad,fecha_venta,categoria
Cantidad de Nulos,0,0,2,2,0,0


Filas duplicadas (exactas): 70

Duplicados en la columna 'id_venta': 70

 Valores más repetidos:


Unnamed: 0_level_0,count
id_venta,Unnamed: 1_level_1
56,2
421,2
424,2
1868,2
2545,2
2778,2


 Satisfactorio Prueba Calidad 
--------------------------------------------------------------------------------
***Clientes***
Total de filas: 567 | Total de columnas: 5

Valores nulos por columna:


Unnamed: 0,id_cliente,nombre,edad,ciudad,ingresos
Cantidad de Nulos,0,0,0,0,0


Filas duplicadas (exactas): 0

Duplicados en la columna 'id_cliente': 0
No se detectaron duplicados en 'id_cliente'.
 Satisfactorio Prueba Calidad 
--------------------------------------------------------------------------------
***Marketing***
Total de filas: 90 | Total de columnas: 6

Valores nulos por columna:


Unnamed: 0,id_campanha,producto,canal,costo,fecha_inicio,fecha_fin
Cantidad de Nulos,0,0,0,0,0,0


Filas duplicadas (exactas): 0

La columna 'id_campaña' no existe en este DataFrame.
 Satisfactorio Prueba Calidad 
--------------------------------------------------------------------------------


In [12]:
calidad(clientes, "CLIENTES", clave="id_cliente")

***CLIENTES***
Total de filas: 567 | Total de columnas: 5

Valores nulos por columna:


Unnamed: 0,id_cliente,nombre,edad,ciudad,ingresos
Cantidad de Nulos,0,0,0,0,0


Filas duplicadas (exactas): 0

Duplicados en la columna 'id_cliente': 0
No se detectaron duplicados en 'id_cliente'.
 Satisfactorio Prueba Calidad 
--------------------------------------------------------------------------------


In [13]:

# ===============================================================
# LIMPIEZA Y NORMALIZACIÓN DE LOS DATASETS
# ===============================================================
# Objetivo: asegurar que los datos estén limpios antes del análisis.
# Se realizarán las siguientes tareas:
# Copias de trabajo para no alterar los originales.
# Eliminar filas duplicadas completas.
# Limpiar espacios y caracteres no deseados en los nombres de columnas.
# Estandarizar texto eliminando espacios adicionales en los valores.
# ================================================================
# ---------------------------
# Crear copias independientes
# ---------------------------
ventas_clean = ventas.copy()
clientes_clean = clientes.copy()
marketing_clean = marketing.copy()

# -------------------------------------------------
# Eliminar filas completamente duplicadas
# -------------------------------------------------
for nombre, df in {
    "Ventas": ventas_clean,
    "Clientes": clientes_clean,
    "Marketing": marketing_clean
}.items():
    filas_iniciales = df.shape[0]
    df.drop_duplicates(inplace=True)
    filas_finales = df.shape[0]
    print(f"***{nombre}***: {filas_iniciales - filas_finales} filas duplicadas eliminadas ({filas_finales} filas finales).")
    print(" Satisfactorio Prueba Calidad ")
    print("-" * 80)

***Ventas***: 35 filas duplicadas eliminadas (3000 filas finales).
 Satisfactorio Prueba Calidad 
--------------------------------------------------------------------------------
***Clientes***: 0 filas duplicadas eliminadas (567 filas finales).
 Satisfactorio Prueba Calidad 
--------------------------------------------------------------------------------
***Marketing***: 0 filas duplicadas eliminadas (90 filas finales).
 Satisfactorio Prueba Calidad 
--------------------------------------------------------------------------------


In [14]:
calidad(ventas_clean, "VENTAS CLEAN", clave="id_venta")

***VENTAS CLEAN***
Total de filas: 3000 | Total de columnas: 6

Valores nulos por columna:


Unnamed: 0,id_venta,producto,precio,cantidad,fecha_venta,categoria
Cantidad de Nulos,0,0,2,2,0,0


Filas duplicadas (exactas): 0

Duplicados en la columna 'id_venta': 0
No se detectaron duplicados en 'id_venta'.
 Satisfactorio Prueba Calidad 
--------------------------------------------------------------------------------


In [15]:
# -------------------------------------------------
# Normalizar fechas
# -------------------------------------------------
# Si alguna columna contiene fechas (por ejemplo "fecha" o "fechanotificacion"),
# se intenta convertir a formato datetime de pandas.
# to_datetime intenta interpretar el formato y transforma valores inválidos en NaT (Not a Time).

for df in [ventas_clean, clientes_clean, marketing_clean]:
    for col in df.columns:
        if "fecha" in col.lower():  # detecta columnas con la palabra "fecha"
            df[col] = pd.to_datetime(df[col], errors="coerce", dayfirst=True)
            # Parámetros:
            #   errors="coerce" → convierte valores no válidos en NaT (evita error)
            #   dayfirst=True   → interpreta formatos tipo "DD/MM/YYYY" (formato latino)
#n


In [17]:
#NORMALIZO FECHAS: otra alternativa conociendo los nombres de las fechas)

ventas_clean["fecha_venta"] = pd.to_datetime(ventas_clean["fecha_venta"], errors="coerce", dayfirst=True)

In [18]:
#NORMALIZO FECHAS DE DF DE MARKETING

marketing_clean["fecha_inicio"] = pd.to_datetime(marketing_clean["fecha_inicio"], errors="coerce", dayfirst=True)
marketing_clean["fecha_fin"] = pd.to_datetime(marketing_clean["fecha_fin"], errors="coerce", dayfirst=True)

In [19]:
print(ventas_clean.dtypes)
print(clientes_clean.dtypes)
print(marketing_clean.dtypes)

id_venta                int64
producto               object
precio                 object
cantidad              float64
fecha_venta    datetime64[ns]
categoria              object
dtype: object
id_cliente      int64
nombre         object
edad            int64
ciudad         object
ingresos      float64
dtype: object
id_campanha              int64
producto                object
canal                   object
costo                  float64
fecha_inicio    datetime64[ns]
fecha_fin       datetime64[ns]
dtype: object


In [20]:
# -------------------------------------------------
#  Aplicar la normalización de texto
# -------------------------------------------------
ventas_clean = normalizar_texto(ventas_clean)
clientes_clean = normalizar_texto(clientes_clean)
marketing_clean = normalizar_texto(marketing_clean)

In [23]:
#mostramos los df luego de normalizar los textos para revisar que queden bien
print(ventas_clean.head(10))
print(clientes_clean.head(10))
print(marketing_clean.head(10))
print("Satisfactorio")

   id_venta           producto   precio  cantidad fecha_venta  \
0       792  Cuadro Decorativo   $69.94       5.0  2024-01-02   
1       811    Lámpara De Mesa  $105.10       5.0  2024-01-02   
2      1156           Secadora   $97.96       3.0  2024-01-02   
3      1372           Heladera  $114.35       8.0  2024-01-02   
4      1546           Secadora  $106.21       4.0  2024-01-02   
5      1697    Horno Eléctrico   $35.35       9.0  2024-01-02   
6      1710   Plancha De Vapor   $65.43       2.0  2024-01-02   
7      2959          Proyector   $88.17       9.0  2024-01-02   
8       318  Rincón De Plantas   $79.86      11.0  2024-01-03   
9       419         Candelabro   $66.11       8.0  2024-01-03   

           categoria  
0         Decoración  
1         Decoración  
2  Electrodomésticos  
3  Electrodomésticos  
4  Electrodomésticos  
5  Electrodomésticos  
6  Electrodomésticos  
7        Electrónica  
8         Decoración  
9         Decoración  
   id_cliente               nom

In [24]:
# -------------------------------------------------
# Normalizar valores numéricos
# -------------------------------------------------
# Campo "precio"
if "precio" in ventas_clean.columns:
    # Se usa nuevamente agrupación con () para encadenar métodos y mantener legibilidad
    ventas_clean["precio"] = (
        ventas_clean["precio"]
        .astype(str)                        # Convierte todo a texto
        .str.replace("$", "", regex=False)  # Elimina el símbolo $
        #   "$" → texto literal a reemplazar
        #   ""  → nuevo valor (vacío)
        #   regex=False → interpreta "$" literalmente, no como expresión regular
        .str.replace(",", "", regex=False)  # Elimina comas de miles 1,000  1000
        .str.strip()                        # Quita espacios sobrantes
    )
    ventas_clean["precio"] = pd.to_numeric(ventas_clean["precio"], errors="coerce")
    # pd.to_numeric convierte texto a número (float o int)
    # Parámetros:
    #   errors="coerce" → reemplaza valores no convertibles con NaN


In [25]:
print(ventas_clean.dtypes)

id_venta                int64
producto               object
precio                float64
cantidad              float64
fecha_venta    datetime64[ns]
categoria              object
dtype: object


In [None]:
print(ventas_clean.columns)

Index(['id_venta', 'producto', 'precio', 'cantidad', 'fecha_venta',
       'categoria'],
      dtype='object')


In [None]:
# Campo "cantidad"
if "cantidad" in ventas_clean.columns:
    ventas_clean["cantidad"] = pd.to_numeric(
        ventas_clean["cantidad"], errors="coerce"
    ).astype("Int64")
    # .astype("Int64") usa el tipo entero de pandas que permite valores nulos (NaN)

In [26]:
print(ventas_clean.dtypes)

id_venta                int64
producto               object
precio                float64
cantidad              float64
fecha_venta    datetime64[ns]
categoria              object
dtype: object


In [28]:
print(ventas_clean.select_dtypes(include="object").columns)

Index(['producto', 'categoria'], dtype='object')
