#PRE ENTREGA SERGIO GIUPPONI

#Montar el Google Drive

In [1]:
from google.colab import drive
drive.mount('/content/drive')

Mounted at /content/drive


In [2]:
# Verificar que los archivos csv se encuentren en la carpeta datasets
import os
os.listdir("/content/drive/MyDrive/datasets")

['delitos_2023.xlsx',
 'hotels.csv',
 'Kaggle_users.xlsx',
 'reviews.csv',
 'users.csv',
 'ventas.sqlite',
 'ventas.csv',
 'clientes.csv',
 'marketing.csv',
 'ventas_duplicados.csv',
 'ventas_sin_duplicados.csv']

#Importar librerias

In [3]:

import pandas as pd
import numpy as np
#Si quiero usar la funcion automatica que se detalla mas abajo tengo que cargar ydata
#!pip install ydata-profiling


## Cargar Datasets

In [4]:
df_clientes = pd.read_csv('/content/drive/MyDrive/datasets/clientes.csv')
df_marketing = pd.read_csv('/content/drive/MyDrive/datasets/marketing.csv')
df_ventas = pd.read_csv('/content/drive/MyDrive/datasets/ventas.csv')

#4 Analisis exploratorio basico con PANDAS

In [5]:
# Funci√≥n reutilizable para Explorar un DataFrame

# Como llamar a la funcion EDA para cada dataset
#eda_dataframe(df_clientes, "df_clientes")
#eda_dataframe(df_marketing, "df_marketing")
#eda_dataframe(df_ventas, "df_ventas")




def eda_dataframe(df, nombre):
    print(f"\n=== Exploracion para {nombre} ===")

    # 1. Informaci√≥n b√°sica
    print("\nForma del DataFrame (filas, columnas):", df.shape)
    print("\nTipos de datos:\n", df.dtypes)
    print("\nPrimeras 5 filas:\n", df.head())
    print("\n√öltimas 5 filas:\n", df.tail())

    # 2. Valores faltantes y duplicados
    print("\nValores faltantes por columna:\n", df.isnull().sum())
    print("Porcentaje de faltantes total: {:.2f}%".format(df.isnull().mean().mean() * 100))
    print("Filas duplicadas:", df.duplicated().sum())

    # 3. Estad√≠sticas descriptivas
    print("\nEstad√≠sticas num√©ricas:\n", df.describe(include=[np.number]))
    print("\nEstad√≠sticas categ√≥ricas:\n", df.describe(include=[object]))

    num_cols = df.select_dtypes(include=[np.number]).columns
    cat_cols = df.select_dtypes(include=[object]).columns

    # Insights preliminares autom√°ticos
    print("\nObservaciones preliminares:")
    if df.isnull().sum().sum() > 0:
        print("- Hay datos faltantes")
    if df.duplicated().sum() > 0:
        print("- Duplicados detectados")
    if len(num_cols) > 0:
        print(f"- Columnas num√©ricas: {list(num_cols)}")
    if len(cat_cols) > 0:
        print(f"- Columnas categ√≥ricas: {list(cat_cols)}")



# Opcional: Guardar informes en archivos
#df_clientes.describe().to_csv('eda_clientes_summary.csv')


##4 (Clientes) Info Basica de Clientes

In [6]:
eda_dataframe(df_clientes, "df_clientes")


=== Exploracion para df_clientes ===

Forma del DataFrame (filas, columnas): (567, 5)

Tipos de datos:
 id_cliente      int64
nombre         object
edad            int64
ciudad         object
ingresos      float64
dtype: object

Primeras 5 filas:
    id_cliente               nombre  edad         ciudad  ingresos
0           1      Aloysia Screase    44  Mar del Plata  42294.68
1           2  Kristina Scaplehorn    25        Posadas  24735.04
2           3       Filip Castagne    50    Resistencia  35744.85
3           4          Liuka Luard    39   Bah√≠a Blanca  27647.96
4           5        Dore Cockshtt    28        Rosario  28245.65

√öltimas 5 filas:
      id_cliente           nombre  edad       ciudad  ingresos
562         563    Dione Forsyde    29      Posadas  26757.73
563         564      Fleming Gow    39     Santa Fe  43674.96
564         565  Jewelle Mabbett    33      C√≥rdoba  30522.64
565         566      Lauri Munns    23  Resistencia  31259.14
566         567      Mi

##4 (Marketing) Info Basica de Marketing

In [7]:
eda_dataframe(df_marketing, "df_marketing")


=== Exploracion para df_marketing ===

Forma del DataFrame (filas, columnas): (90, 6)

Tipos de datos:
 id_campanha       int64
producto         object
canal            object
costo           float64
fecha_inicio     object
fecha_fin        object
dtype: object

Primeras 5 filas:
    id_campanha         producto  canal  costo fecha_inicio   fecha_fin
0           74  Adorno de pared     TV   4.81   20/03/2024  03/05/2024
1           12           Tablet   RRSS   3.40   26/03/2024  13/05/2024
2           32  L√°mpara de mesa  Email   5.54   28/03/2024  20/04/2024
3           21       Smartphone   RRSS   6.37   29/03/2024  16/05/2024
4           58         Alfombra  Email   4.25   31/03/2024  05/05/2024

√öltimas 5 filas:
     id_campanha            producto  canal  costo fecha_inicio   fecha_fin
85           70          Aspiradora     TV   3.06   13/12/2024  29/12/2024
86           89           Televisor     TV   4.98   13/12/2024    8/2/2025
87           68   Rinc√≥n de plantas     TV  

##4 (Ventas) Info Basica de Ventas

In [8]:
eda_dataframe(df_ventas, "df_ventas")


=== Exploracion para df_ventas ===

Forma del DataFrame (filas, columnas): (3035, 6)

Tipos de datos:
 id_venta         int64
producto        object
precio          object
cantidad       float64
fecha_venta     object
categoria       object
dtype: object

Primeras 5 filas:
    id_venta           producto   precio  cantidad fecha_venta  \
0       792  Cuadro decorativo   $69.94       5.0  02/01/2024   
1       811    L√°mpara de mesa  $105.10       5.0  02/01/2024   
2      1156           Secadora   $97.96       3.0  02/01/2024   
3      1372           Heladera  $114.35       8.0  02/01/2024   
4      1546           Secadora  $106.21       4.0  02/01/2024   

           categoria  
0         Decoraci√≥n  
1         Decoraci√≥n  
2  Electrodom√©sticos  
3  Electrodom√©sticos  
4  Electrodom√©sticos  

√öltimas 5 filas:
       id_venta                producto   precio  cantidad fecha_venta  \
3030      1837         Horno el√©ctrico  $104.12       9.0  30/12/2024   
3031      2276        

## ***Encontre goggleando una libreria para hacer el profile directamente pasando el dataset con graficos y todos los chiches de manera automatica ,solo hay que pasarle el DF ***

In [None]:
#Descomenta la importacion de la libreria mas arriba
from ydata_profiling import ProfileReport

# Generar el reporte
profile = ProfileReport(df_ventas, title="Reporte de Ventas")

# Mostrar directamente en el notebook
profile.to_notebook_iframe()

## Version simplificada del reporte

In [None]:
profile = ProfileReport(df_ventas,
                       title="Reporte de Ventas",
                       minimal=True,  # Versi√≥n simplificada
                       explorative=False)  # Sin an√°lisis profundo

profile.to_notebook_iframe()

# 5 Calidad de Datos Nulos y duplicados.

### Aca solamente muestra los datos nulos y duplicados ,no los borra ni modifica

In [9]:
def nulos(df: pd.DataFrame):
    """
    Funci√≥n para analizar valores nulos en los DataFrames.


    Imprime:
    - Cantidad de valores nulos por columna.
    - Porcentaje de valores nulos por columna (redondeado a 2 decimales).
    """
    print("\nüìä 1. AN√ÅLISIS DE VALORES NULOS")
    print("-" * 60)

    # Contar valores nulos por columna
    valores_nulos = df.isna().sum()
    print("\nCantidad de valores nulos por columna:")
    print(valores_nulos)

    # Porcentaje de valores nulos
    print("\nPorcentaje de valores nulos por columna:")
    porcentaje_nulos = (df.isna().sum() / len(df)) * 100
    print(porcentaje_nulos.round(2))

In [10]:
nulos(df_ventas)
nulos(df_clientes)
nulos(df_marketing)


üìä 1. AN√ÅLISIS DE VALORES NULOS
------------------------------------------------------------

Cantidad de valores nulos por columna:
id_venta       0
producto       0
precio         2
cantidad       2
fecha_venta    0
categoria      0
dtype: int64

Porcentaje de valores nulos por columna:
id_venta       0.00
producto       0.00
precio         0.07
cantidad       0.07
fecha_venta    0.00
categoria      0.00
dtype: float64

üìä 1. AN√ÅLISIS DE VALORES NULOS
------------------------------------------------------------

Cantidad de valores nulos por columna:
id_cliente    0
nombre        0
edad          0
ciudad        0
ingresos      0
dtype: int64

Porcentaje de valores nulos por columna:
id_cliente    0.0
nombre        0.0
edad          0.0
ciudad        0.0
ingresos      0.0
dtype: float64

üìä 1. AN√ÅLISIS DE VALORES NULOS
------------------------------------------------------------

Cantidad de valores nulos por columna:
id_campanha     0
producto        0
canal           0
cos

In [11]:
def duplicados(df: pd.DataFrame):
    """
    Funci√≥n para analizar filas duplicadas en un DataFrame de pandas.

    Par√°metros:
    - df (pd.DataFrame): El dataset a analizar.

    Imprime:
    - Cantidad de filas duplicadas.
    - Porcentaje si hay duplicados.
    - Ejemplos de filas duplicadas (primeras 15, incluyendo originales con keep=False).
    - Mensaje si no hay duplicados.
    """
    duplicados_totales = df.duplicated().sum()
    print(f"\nCantidad de filas duplicadas: {duplicados_totales}")

    if duplicados_totales > 0:
        print(f"‚ö†Ô∏è  Se encontraron {duplicados_totales} filas duplicadas")
        print(f"   Esto representa el {(duplicados_totales / len(df) * 100):.2f}% del dataset")

        # Mostrar ejemplos de duplicados
        print("\nEjemplos de filas duplicadas:")
        print(df[df.duplicated(keep=False)].head(15))
    else:
        print("‚úÖ No hay filas duplicadas en el dataset")

In [12]:
duplicados(df_ventas)
duplicados(df_clientes)
duplicados(df_marketing)


Cantidad de filas duplicadas: 35
‚ö†Ô∏è  Se encontraron 35 filas duplicadas
   Esto representa el 1.15% del dataset

Ejemplos de filas duplicadas:
     id_venta           producto   precio  cantidad fecha_venta  \
820        56           Cortinas   $66.24       5.0  05/04/2024   
821       421    L√°mpara de mesa  $114.83       9.0  05/04/2024   
822       424  Jarr√≥n decorativo   $87.94       2.0  05/04/2024   
823      1868           Cafetera   $62.23       1.0  05/04/2024   
824      2545        Auriculares   $32.81      11.0  05/04/2024   
825      2778         SmartWatch   $70.66       7.0  05/04/2024   
826        56           Cortinas   $66.24       5.0  05/04/2024   
827       421    L√°mpara de mesa  $114.83       9.0  05/04/2024   
828       424  Jarr√≥n decorativo   $87.94       2.0  05/04/2024   
829      1868           Cafetera   $62.23       1.0  05/04/2024   
830      2545        Auriculares   $32.81      11.0  05/04/2024   
831      2778         SmartWatch   $70.66   

6) Limpieza del dataset
Eliminamos duplicados.
Normalizamos texto en columnas object (trim + capitalizaci√≥n simple).
Convertimos fechas a fechas reales
Convertimos precio y cantidad a num√©ricos si existen.
Guardamos CSV limpios.

In [13]:
# EL unico que tiene duplicados es el dataset de Ventas
# ELIMINA DUPLICADOS
print("=" * 60)
print("üßπ LIMPIEZA DE DATOS - DATASET VENTAS")
print("=" * 60)

# Guardar dimensiones originales para comparaci√≥n
filas_originales = len(df_ventas)
print(f"\nüìä Dataset Original:")
print(f"   Filas: {filas_originales:,}")
print(f"   Columnas: {len(df_ventas.columns)}")

# PASO 1: ELIMINAR DUPLICADOS
print("\n" + "-" * 60)
print("PASO 1: ELIMINACI√ìN DE DUPLICADOS")
print("-" * 60)

duplicados_antes = df_ventas.duplicated().sum()
print(f"Duplicados encontrados: {duplicados_antes}")

if duplicados_antes > 0:
    # Eliminar duplicados
    df = df_ventas.drop_duplicates()
    print(f"‚úÖ Se eliminaron {duplicados_antes} filas duplicadas")
    print(f"   Filas restantes: {len(df_ventas):,}")
else:
    print("‚úÖ No se encontraron duplicados")


üßπ LIMPIEZA DE DATOS - DATASET VENTAS

üìä Dataset Original:
   Filas: 3,035
   Columnas: 6

------------------------------------------------------------
PASO 1: ELIMINACI√ìN DE DUPLICADOS
------------------------------------------------------------
Duplicados encontrados: 35
‚úÖ Se eliminaron 35 filas duplicadas
   Filas restantes: 3,035


In [14]:
# ELIMINA DUPLICADOS
print("=" * 60)
print("üßπ LIMPIEZA DE DATOS - DATASET VENTAS")
print("=" * 60)

# IMPORTANTE: Preservar dataset original
print("\n‚ö†Ô∏è  NOTA: El dataset 'df_ventas' original NO ser√° modificado")
print("   Se crear√° 'df_ventas_sinduplicados' para trabajo posterior\n")

# Guardar dimensiones originales para comparaci√≥n
filas_originales = len(df_ventas)
print(f"\nüìä Dataset Original:")
print(f"   Filas: {filas_originales:,}")
print(f"   Columnas: {len(df_ventas.columns)}")

# PASO 1: AN√ÅLISIS DE DUPLICADOS
print("\n" + "-" * 60)
print("PASO 1: AN√ÅLISIS DE DUPLICADOS")
print("-" * 60)

duplicados_antes = df_ventas.duplicated().sum()
print(f"\nDuplicados encontrados: {duplicados_antes}")
print(f"Porcentaje: {(duplicados_antes/len(df_ventas)*100):.2f}%")

if duplicados_antes > 0:
    # Mostrar ejemplos de duplicados
    print(f"\nüîç Ejemplos de filas duplicadas (primeras 5):")
    print(df_ventas[df_ventas.duplicated(keep=False)].head(5))

    # PASO 2: CREAR COPIA SIN DUPLICADOS
    print("\n" + "-" * 60)
    print("PASO 2: CREACI√ìN DE DATASET SIN DUPLICADOS")
    print("-" * 60)

    # Crear copia limpia
    df_ventas_sinduplicados = df_ventas.drop_duplicates().reset_index(drop=True)

    filas_finales = len(df_ventas_sinduplicados)
    filas_eliminadas = filas_originales - filas_finales

    print(f"\n‚úÖ Dataset limpio creado: 'df_ventas_sinduplicados'")
    print(f"   Filas originales (df_ventas): {filas_originales:,}")
    print(f"   Filas sin duplicados (df_ventas_sinduplicados): {filas_finales:,}")
    print(f"   Filas eliminadas: {filas_eliminadas:,} ({(filas_eliminadas/filas_originales*100):.2f}%)")

    # Guardar duplicados para auditor√≠a (opcional)
    df_ventas_duplicados = df_ventas[df_ventas.duplicated(keep='first')]
    print(f"\nüìã Duplicados guardados para auditor√≠a: 'df_ventas_duplicados'")
    print(f"   Cantidad: {len(df_ventas_duplicados):,} filas")

    # PASO 3: VALIDACI√ìN
    print("\n" + "-" * 60)
    print("PASO 3: VALIDACI√ìN POST-LIMPIEZA")
    print("-" * 60)

    duplicados_restantes = df_ventas_sinduplicados.duplicated().sum()
    print(f"\nüîç Validaci√≥n:")
    print(f"   Duplicados restantes en df_ventas_sinduplicados: {duplicados_restantes}")

    if duplicados_restantes == 0:
        print(f"   ‚úÖ Dataset limpio correctamente - Sin duplicados")
    else:
        print(f"   ‚ö†Ô∏è  A√∫n quedan {duplicados_restantes} duplicados")

else:
    print("\n‚úÖ No se encontraron duplicados en el dataset")

    # Crear copia de todas formas para mantener consistencia
    print("\n" + "-" * 60)
    print("PASO 2: CREACI√ìN DE COPIA DE TRABAJO")
    print("-" * 60)

    df_ventas_sinduplicados = df_ventas.copy()
    print(f"\n‚úÖ Copia creada: 'df_ventas_sinduplicados'")
    print(f"   (Id√©ntica al original, sin duplicados para eliminar)")
    print(f"   Filas: {len(df_ventas_sinduplicados):,}")
    print(f"   Columnas: {len(df_ventas_sinduplicados.columns)}")

# RESUMEN FINAL
print("\n" + "=" * 60)
print("üìä RESUMEN DE LIMPIEZA")
print("=" * 60)

print(f"\nüìÅ DATASETS DISPONIBLES:")
print(f"   ‚Ä¢ df_ventas (original):           {len(df_ventas):,} filas √ó {len(df_ventas.columns)} columnas")
print(f"   ‚Ä¢ df_ventas_sinduplicados (limpio): {len(df_ventas_sinduplicados):,} filas √ó {len(df_ventas_sinduplicados.columns)} columnas")
if duplicados_antes > 0:
    print(f"   ‚Ä¢ df_ventas_duplicados (auditor√≠a): {len(df_ventas_duplicados):,} filas")

print(f"\nüíæ Memoria utilizada:")
print(f"   ‚Ä¢ df_ventas: {df_ventas.memory_usage(deep=True).sum() / 1024**2:.2f} MB")
print(f"   ‚Ä¢ df_ventas_sinduplicados: {df_ventas_sinduplicados.memory_usage(deep=True).sum() / 1024**2:.2f} MB")

print(f"\nüßπ Acciones realizadas:")
if duplicados_antes > 0:
    print(f"   ‚úÖ Duplicados eliminados: {duplicados_antes:,}")
    print(f"   ‚úÖ Dataset limpio creado: df_ventas_sinduplicados")
    print(f"   ‚úÖ Dataset original preservado: df_ventas")
    print(f"   ‚úÖ Duplicados guardados para auditor√≠a: df_ventas_duplicados")
else:
    print(f"   ‚úÖ No hab√≠a duplicados para eliminar")
    print(f"   ‚úÖ Copia de trabajo creada: df_ventas_sinduplicados")

print(f"\nüí° PR√ìXIMOS PASOS:")
print(f"   ‚Üí Usar 'df_ventas_sinduplicados' para an√°lisis y transformaciones")
print(f"   ‚Üí Mantener 'df_ventas' como respaldo del dataset original")
if duplicados_antes > 0:
    print(f"   ‚Üí Revisar 'df_ventas_duplicados' si necesitas auditar lo eliminado")

print("\n" + "=" * 60)
print("‚úÖ Limpieza de duplicados completada")
print("=" * 60)

# Vista previa del dataset limpio
print("\nüëÄ Vista previa de df_ventas_sinduplicados:")
print(df_ventas_sinduplicados.head())

üßπ LIMPIEZA DE DATOS - DATASET VENTAS

‚ö†Ô∏è  NOTA: El dataset 'df_ventas' original NO ser√° modificado
   Se crear√° 'df_ventas_sinduplicados' para trabajo posterior


üìä Dataset Original:
   Filas: 3,035
   Columnas: 6

------------------------------------------------------------
PASO 1: AN√ÅLISIS DE DUPLICADOS
------------------------------------------------------------

Duplicados encontrados: 35
Porcentaje: 1.15%

üîç Ejemplos de filas duplicadas (primeras 5):
     id_venta           producto   precio  cantidad fecha_venta  \
820        56           Cortinas   $66.24       5.0  05/04/2024   
821       421    L√°mpara de mesa  $114.83       9.0  05/04/2024   
822       424  Jarr√≥n decorativo   $87.94       2.0  05/04/2024   
823      1868           Cafetera   $62.23       1.0  05/04/2024   
824      2545        Auriculares   $32.81      11.0  05/04/2024   

             categoria  
820         Decoraci√≥n  
821         Decoraci√≥n  
822         Decoraci√≥n  
823  Electrodom√

In [15]:
print(df_ventas_sinduplicados)
print(df_ventas_sinduplicados.info())

      id_venta                producto   precio  cantidad fecha_venta  \
0          792       Cuadro decorativo   $69.94       5.0  02/01/2024   
1          811         L√°mpara de mesa  $105.10       5.0  02/01/2024   
2         1156                Secadora   $97.96       3.0  02/01/2024   
3         1372                Heladera  $114.35       8.0  02/01/2024   
4         1546                Secadora  $106.21       4.0  02/01/2024   
...        ...                     ...      ...       ...         ...   
2995      1837         Horno el√©ctrico  $104.12       9.0  30/12/2024   
2996      2276                  Laptop   $85.27       9.0  30/12/2024   
2997      2696                  Laptop  $107.81       4.0  30/12/2024   
2998      2913              Smartphone   $99.85       7.0  30/12/2024   
2999      2930  Consola de videojuegos   $55.47       6.0  30/12/2024   

              categoria  
0            Decoraci√≥n  
1            Decoraci√≥n  
2     Electrodom√©sticos  
3     Electrod

###GRABO LOS ARCHIVOS LIMPIOS POR CUALQUIER COSA (EJECUTAR SI SE QUIERE GUARDAR LOS ARCHIVOS)

In [16]:

# Definir carpeta
carpeta = "/content/drive/MyDrive/datasets"


# Guardar dataset limpio
df_ventas_sinduplicados.to_csv(
    carpeta + 'ventas_sin_duplicados.csv',
    index=False,
    encoding='utf-8-sig'
)

df_ventas_duplicados.to_csv(
    carpeta + 'ventas_duplicados.csv',
    index=False,
    encoding='utf-8-sig'
)

print(f"‚úÖ Guardado en: {carpeta} ventas_sin_duplicados.csv")
print(f"   Filas: {len(df_ventas_sinduplicados):,}")


print(f"‚úÖ Guardado en: {carpeta} ventas_duplicados.csv")
print(f"   Filas: {len(df_ventas_duplicados):,}")

# Verificar que los archivos csv se encuentren en la carpeta datasets

os.listdir("/content/drive/MyDrive/datasets")

‚úÖ Guardado en: /content/drive/MyDrive/datasets ventas_sin_duplicados.csv
   Filas: 3,000
‚úÖ Guardado en: /content/drive/MyDrive/datasets ventas_duplicados.csv
   Filas: 35


['delitos_2023.xlsx',
 'hotels.csv',
 'Kaggle_users.xlsx',
 'reviews.csv',
 'users.csv',
 'ventas.sqlite',
 'ventas.csv',
 'clientes.csv',
 'marketing.csv',
 'ventas_duplicados.csv',
 'ventas_sin_duplicados.csv']

In [29]:
import os

#Ruta de los datasets
carpeta = '/content/drive/MyDrive/datasets/'

# Guardar dataset limpio
archivo = carpeta + 'ventas_sin_duplicados.csv'

print(f"\nüíæ Guardando archivo...")
print(f"   Nombre: ventas_sin_duplicados.csv")
print(f"   Ruta completa: {archivo}")


df_ventas_sinduplicados.to_csv(
      archivo,
      index=False,
      encoding='utf-8-sig'

)

df_ventas_duplicados.to_csv(
    carpeta + 'ventas_duplicados.csv',
    index=False,
    encoding='utf-8-sig'
)

print(f"‚úÖ Guardado exitoso")
os.listdir("/content/drive/MyDrive/datasets")


üíæ Guardando archivo...
   Nombre: ventas_sin_duplicados.csv
   Ruta completa: /content/drive/MyDrive/datasets/ventas_sin_duplicados.csv
‚úÖ Guardado exitoso


['delitos_2023.xlsx',
 'hotels.csv',
 'Kaggle_users.xlsx',
 'reviews.csv',
 'users.csv',
 'ventas.sqlite',
 'ventas.csv',
 'clientes.csv',
 'marketing.csv',
 'ventas_sin_duplicados.csv',
 'ventas_duplicados.csv']

In [None]:
limpiar_dataset(df_ventas_sinduplicados, eliminar_duplicados=True, columnas_numericas_a_limpiar=None, normalizacion_texto=None)

In [18]:
# -------------------------------------------------
# 3Ô∏è‚É£ Funci√≥n para limpiar texto en columnas tipo string
# -------------------------------------------------
def normalizar_texto(df):
    for col in df.select_dtypes(include="object").columns:
        # Se agrupan las operaciones entre par√©ntesis () para escribirlas en varias l√≠neas
        # Python eval√∫a todo el bloque como una √∫nica expresi√≥n.
        df[col] = (
            df[col]
            .astype(str)                              # Convierte cualquier tipo a string
            # .astype(str)  ‚Üí convierte todo a texto; no tiene par√°metros adicionales.
            .str.strip()                               # Elimina espacios al inicio y final
            # .str.strip() no necesita argumentos; borra espacios en blanco por defecto.
            .str.replace(r"[\u200b\t\r\n]", "", regex=True)
            # .str.replace(patron, reemplazo, regex=True)
            #   patron: expresi√≥n regular que busca caracteres invisibles (\u200b, tabulaciones, saltos)
            #   reemplazo: ""  ‚Üí los elimina
            #   regex=True indica que 'patron' es una expresi√≥n regular.
            .str.replace(" +", " ", regex=True)
            # reemplaza "uno o m√°s espacios consecutivos" por un solo espacio
            .str.title()                               # Convierte a T√≠tulo: "juan p√©rez" ‚Üí "Juan P√©rez"
        )
        #df_transformado=df[col].astype(str)
        #df_transformado=df_transformado.str.strip()
        #df_transformado=df_transformado.str.replace(r"[\u200b\t\r\n]", "", regex=True)
        #df_transformado=df_transformado.str.replace(" +", " ", regex=True)
        #df_transformado=df_transformado.str.title()
        #df[col]=df_transformado

        #df[col] = df[col].astype(str).str.strip().str.replace(r"[\u200b\t\r\n]", "", regex=True).str.replace(" +", " ", regex=True).str.title()
    return df


In [19]:
normalizar_texto(df_ventas_sinduplicados)

Unnamed: 0,id_venta,producto,precio,cantidad,fecha_venta,categoria
0,792,Cuadro Decorativo,$69.94,5.0,2024-01-02,Decoraci√≥n
1,811,L√°mpara De Mesa,$105.10,5.0,2024-01-02,Decoraci√≥n
2,1156,Secadora,$97.96,3.0,2024-01-02,Electrodom√©sticos
3,1372,Heladera,$114.35,8.0,2024-01-02,Electrodom√©sticos
4,1546,Secadora,$106.21,4.0,2024-01-02,Electrodom√©sticos
...,...,...,...,...,...,...
2995,1837,Horno El√©ctrico,$104.12,9.0,2024-12-30,Electrodom√©sticos
2996,2276,Laptop,$85.27,9.0,2024-12-30,Electr√≥nica
2997,2696,Laptop,$107.81,4.0,2024-12-30,Electr√≥nica
2998,2913,Smartphone,$99.85,7.0,2024-12-30,Electr√≥nica


In [20]:
normalizar_texto(df_clientes)

Unnamed: 0,id_cliente,nombre,edad,ciudad,ingresos
0,1,Aloysia Screase,44,Mar Del Plata,42294.68
1,2,Kristina Scaplehorn,25,Posadas,24735.04
2,3,Filip Castagne,50,Resistencia,35744.85
3,4,Liuka Luard,39,Bah√≠a Blanca,27647.96
4,5,Dore Cockshtt,28,Rosario,28245.65
...,...,...,...,...,...
562,563,Dione Forsyde,29,Posadas,26757.73
563,564,Fleming Gow,39,Santa Fe,43674.96
564,565,Jewelle Mabbett,33,C√≥rdoba,30522.64
565,566,Lauri Munns,23,Resistencia,31259.14


In [21]:
normalizar_texto(df_marketing)

Unnamed: 0,id_campanha,producto,canal,costo,fecha_inicio,fecha_fin
0,74,Adorno De Pared,Tv,4.81,2024-03-20,2024-05-03
1,12,Tablet,Rrss,3.40,2024-03-26,2024-05-13
2,32,L√°mpara De Mesa,Email,5.54,2024-03-28,2024-04-20
3,21,Smartphone,Rrss,6.37,2024-03-29,2024-05-16
4,58,Alfombra,Email,4.25,2024-03-31,2024-05-05
...,...,...,...,...,...,...
85,70,Aspiradora,Tv,3.06,2024-12-13,2024-12-29
86,89,Televisor,Tv,4.98,2024-12-13,2025-02-08
87,68,Rinc√≥n De Plantas,Tv,5.81,2024-12-17,2025-02-14
88,33,Secadora,Email,3.80,2024-12-20,2025-01-07


In [17]:
# -------------------------------------------------
# Normalizar fechas
# -------------------------------------------------
# Si alguna columna contiene fechas (por ejemplo "fecha" o "fechanotificacion"),
# se intenta convertir a formato datetime de pandas.
# to_datetime intenta interpretar el formato y transforma valores inv√°lidos en NaT (Not a Time).

for df in [df_ventas_sinduplicados, df_clientes, df_marketing]:
    for col in df.columns:
        if "fecha" in col.lower():  # detecta columnas con la palabra "fecha"
            df[col] = pd.to_datetime(df[col], errors="coerce", dayfirst=True)
            # Par√°metros:
            #   errors="coerce" ‚Üí convierte valores no v√°lidos en NaT (evita error)
            #   dayfirst=True   ‚Üí interpreta formatos tipo "DD/MM/YYYY" (formato latino)
#n

In [22]:
print(df_ventas_sinduplicados.dtypes)
print(df_clientes.dtypes)
print(df_marketing.dtypes)

id_venta                int64
producto               object
precio                 object
cantidad              float64
fecha_venta    datetime64[ns]
categoria              object
dtype: object
id_cliente      int64
nombre         object
edad            int64
ciudad         object
ingresos      float64
dtype: object
id_campanha              int64
producto                object
canal                   object
costo                  float64
fecha_inicio    datetime64[ns]
fecha_fin       datetime64[ns]
dtype: object


In [24]:
#-------------------------------------------------
# 6Ô∏è‚É£ Normalizar valores num√©ricos
# -------------------------------------------------
# üè∑Ô∏è Campo "precio"
if "precio" in df_ventas_sinduplicados.columns:
    # Se usa nuevamente agrupaci√≥n con () para encadenar m√©todos y mantener legibilidad
    df_ventas_sinduplicados["precio"] = (
        df_ventas_sinduplicados["precio"]
        .astype(str)                        # Convierte todo a texto
        .str.replace("$", "", regex=False)  # Elimina el s√≠mbolo $
        #   "$" ‚Üí texto literal a reemplazar
        #   ""  ‚Üí nuevo valor (vac√≠o)
        #   regex=False ‚Üí interpreta "$" literalmente, no como expresi√≥n regular
        .str.replace(",", "", regex=False)  # Elimina comas de miles 1,000  1000
        .str.strip()                        # Quita espacios sobrantes
    )
    df_ventas_sinduplicados["precio"] = pd.to_numeric(df_ventas_sinduplicados["precio"], errors="coerce")
    # pd.to_numeric convierte texto a n√∫mero (float o int)
    # Par√°metros:
    #   errors="coerce" ‚Üí reemplaza valores no convertibles con NaN


In [25]:
print(df_ventas_sinduplicados)

      id_venta                producto  precio  cantidad fecha_venta  \
0          792       Cuadro Decorativo   69.94       5.0  2024-01-02   
1          811         L√°mpara De Mesa  105.10       5.0  2024-01-02   
2         1156                Secadora   97.96       3.0  2024-01-02   
3         1372                Heladera  114.35       8.0  2024-01-02   
4         1546                Secadora  106.21       4.0  2024-01-02   
...        ...                     ...     ...       ...         ...   
2995      1837         Horno El√©ctrico  104.12       9.0  2024-12-30   
2996      2276                  Laptop   85.27       9.0  2024-12-30   
2997      2696                  Laptop  107.81       4.0  2024-12-30   
2998      2913              Smartphone   99.85       7.0  2024-12-30   
2999      2930  Consola De Videojuegos   55.47       6.0  2024-12-30   

              categoria  
0            Decoraci√≥n  
1            Decoraci√≥n  
2     Electrodom√©sticos  
3     Electrodom√©sticos  

In [26]:
# üßÆ Campo "cantidad"
if "cantidad" in df_ventas_sinduplicados.columns:
    df_ventas_sinduplicados["cantidad"] = pd.to_numeric(
        df_ventas_sinduplicados["cantidad"], errors="coerce"
    ).astype("Int64")
    # .astype("Int64") usa el tipo entero de pandas que permite valores nulos (NaN)

### FUNCION PARA EL CALCULO DE RENDIMIENTO (PARETO)
##Resumir las ventas por categor√≠a de producto y analizar los ingresos generados.
### Sugerencia: usar .groupby() y .agg() para generar m√©tricas como suma y promedio.

In [27]:
# TODO: Resumir las ventas por categor√≠a de producto y analizar los ingresos generados.

print("=" * 60)
print("üìä AN√ÅLISIS DE VENTAS POR CATEGOR√çA DE PRODUCTO")
print("=" * 60)

# Usar el DataFrame limpio y manejar los nulos en precio/cantidad
df_trabajo_categoria = df_ventas_sinduplicados[['precio', 'cantidad', 'categoria', 'producto']].dropna(subset=['precio', 'cantidad'])

# PASO 1: VERIFICAR COLUMNAS NECESARIAS
print("\n" + "-" * 60)
print("PASO 1: VERIFICACI√ìN DE COLUMNAS")
print("-" * 60)

# Ajustar los nombres seg√∫n dataset
columna_categoria = 'categoria'
columna_producto = 'producto'
columna_precio = 'precio'
columna_cantidad = 'cantidad'

print(f"Columnas disponibles en el dataset:")
print(list(df_trabajo_categoria.columns))

# Verificar que existan las columnas necesarias
columnas_requeridas = [columna_categoria, columna_precio, columna_cantidad]
columnas_faltantes = [col for col in columnas_requeridas if col not in df_trabajo_categoria.columns]

if columnas_faltantes:
    print(f"\n‚ö†Ô∏è  ERROR: Faltan las siguientes columnas: {columnas_faltantes}")
    print(f"   Por favor, ajusta los nombres de las columnas")
else:
    print(f"\n‚úÖ Columnas identificadas correctamente:")
    print(f"   - Categor√≠a: '{columna_categoria}'")
    print(f"   - Precio: '{columna_precio}'")
    print(f"   - Cantidad: '{columna_cantidad}'")

# PASO 2: CALCULAR VENTA TOTAL POR FILA (si no existe)
print("\n" + "-" * 60)
print("PASO 2: C√ÅLCULO DE VENTAS TOTALES")
print("-" * 60)


df_trabajo_categoria['venta_total'] = df_trabajo_categoria[columna_precio] * df_trabajo_categoria[columna_cantidad]
print("‚úÖ Columna 'venta_total' creada (precio √ó cantidad)")


print(f"\nEjemplos de c√°lculo:")
display(df_trabajo_categoria[[columna_categoria, columna_producto, columna_precio, columna_cantidad, 'venta_total']].head())

# PASO 3: RESUMEN DE VENTAS POR CATEGOR√çA (P x Q)
print("\n" + "=" * 60)
print("PASO 3: AGRUPACI√ìN Y AN√ÅLISIS POR CATEGOR√çA")
print("=" * 60)

# Agrupar por categor√≠a y calcular m√∫ltiples m√©tricas
ventas_por_categoria = df_trabajo_categoria.groupby(columna_categoria).agg({
    'venta_total': ['sum', 'mean', 'count', 'max', 'min'],
    columna_cantidad: ['sum', 'mean'],
    columna_precio: ['mean', 'max', 'min'],
    columna_producto: 'nunique'  # Productos √∫nicos por categor√≠a
}).reset_index()

# Aplanar nombres de columnas para mejor legibilidad
ventas_por_categoria.columns = [
    'categoria',
    'ingresos_totales',
    'venta_promedio',
    'num_transacciones',
    'venta_maxima',
    'venta_minima',
    'cantidad_total_vendida',
    'cantidad_promedio_por_venta',
    'precio_promedio',
    'precio_maximo',
    'precio_minimo',
    'productos_unicos'
]

# Ordenar por ingresos totales (descendente)
ventas_por_categoria = ventas_por_categoria.sort_values(
    by='ingresos_totales',
    ascending=False
).reset_index(drop=True)

print("\nüìä Resumen de Ventas por Categor√≠a:")
display(ventas_por_categoria.to_string(index=False))

# PASO 4: AN√ÅLISIS DETALLADO
print("\n" + "=" * 60)
print("PASO 4: AN√ÅLISIS DETALLADO POR CATEGOR√çA")
print("=" * 60)

# Calcular m√©tricas adicionales
ventas_por_categoria['porcentaje_ingresos'] = (
    ventas_por_categoria['ingresos_totales'] /
    ventas_por_categoria['ingresos_totales'].sum() * 100
)

ventas_por_categoria['porcentaje_transacciones'] = (
    ventas_por_categoria['num_transacciones'] /
    ventas_por_categoria['num_transacciones'].sum() * 100
)

ventas_por_categoria['ticket_promedio'] = (
    ventas_por_categoria['ingresos_totales'] /
    ventas_por_categoria['num_transacciones']
)

# M√©tricas globales
ingresos_totales_general = ventas_por_categoria['ingresos_totales'].sum()
transacciones_totales = ventas_por_categoria['num_transacciones'].sum()
ticket_promedio_general = ingresos_totales_general / transacciones_totales

print(f"\nüí∞ M√âTRICAS TOTALES:")
print(f"   Ingresos totales: ${ingresos_totales_general:,.2f}")
print(f"   Transacciones totales: {transacciones_totales:,.0f}")
print(f"   Ticket promedio general: ${ticket_promedio_general:,.2f}")
print(f"   Cantidad total vendida: {ventas_por_categoria['cantidad_total_vendida'].sum():,.0f} unidades")
print(f"   Categor√≠as activas: {len(ventas_por_categoria)}")

# PASO 5: AN√ÅLISIS POR CATEGOR√çA (TOP 5)
print("\n" + "-" * 60)
print("üèÜ TOP 5 CATEGOR√çAS POR INGRESOS")
print("-" * 60)

top_5 = ventas_por_categoria.head(5)

for idx, row in top_5.iterrows():
    print(f"\n#{idx+1}. {row['categoria']}")
    print(f"   üíµ Ingresos: ${row['ingresos_totales']:,.2f} ({row['porcentaje_ingresos']:.1f}% del total)")
    print(f"   üì¶ Transacciones: {row['num_transacciones']:,.0f} ({row['porcentaje_transacciones']:.1f}% del total)")
    print(f"   üéØ Ticket promedio: ${row['ticket_promedio']:,.2f}")
    print(f"   üìä Cantidad vendida: {row['cantidad_total_vendida']:,.0f} unidades")
    print(f"   üè∑Ô∏è  Productos √∫nicos: {row['productos_unicos']}")
    print(f"   üí≤ Precio promedio: ${row['precio_promedio']:,.2f}")
    print(f"   üìà Rango de ventas: ${row['venta_minima']:,.2f} - ${row['venta_maxima']:,.2f}")

# PASO 6: CATEGOR√çAS CON BAJO RENDIMIENTO

# Ordenar por ingresos descendente (por seguridad)
ventas_por_categoria = ventas_por_categoria.sort_values(
    by='ingresos_totales',
    ascending=False
).reset_index(drop=True)

# Calcular el valor del percentil 80 de los ingresos
umbral_80 = ventas_por_categoria['ingresos_totales'].quantile(0.8)

# Seleccionar las categor√≠as que superan el umbral (20% superior por ingresos)
categorias_top_20 = ventas_por_categoria[
    ventas_por_categoria['ingresos_totales'] >= umbral_80
]

# Calcular qu√© porcentaje del total de ingresos representan
porcentaje_ingresos_80 = (
    categorias_top_20['ingresos_totales'].sum() /
    ventas_por_categoria['ingresos_totales'].sum() * 100
)

print(f"\nüéØ Umbral de ingresos (percentil 80): ${umbral_80:,.2f}")
print(f"   {len(categorias_top_20)} categor√≠as superan ese valor.")
print(f"   Estas categor√≠as generan el {porcentaje_ingresos_80:.1f}% de los ingresos totales.\n")

# Mostrar el detalle de las categor√≠as dentro del 20% superior
print("üèÜ Categor√≠as dentro del 20% superior (por ingresos):")
for idx, row in categorias_top_20.iterrows():
    print(f"   - {row['categoria']}: ${row['ingresos_totales']:,.2f} "
          f"({row['porcentaje_ingresos']:.1f}% del total)")




üìä AN√ÅLISIS DE VENTAS POR CATEGOR√çA DE PRODUCTO

------------------------------------------------------------
PASO 1: VERIFICACI√ìN DE COLUMNAS
------------------------------------------------------------
Columnas disponibles en el dataset:
['precio', 'cantidad', 'categoria', 'producto']

‚úÖ Columnas identificadas correctamente:
   - Categor√≠a: 'categoria'
   - Precio: 'precio'
   - Cantidad: 'cantidad'

------------------------------------------------------------
PASO 2: C√ÅLCULO DE VENTAS TOTALES
------------------------------------------------------------
‚úÖ Columna 'venta_total' creada (precio √ó cantidad)

Ejemplos de c√°lculo:


Unnamed: 0,categoria,producto,precio,cantidad,venta_total
0,Decoraci√≥n,Cuadro Decorativo,69.94,5,349.7
1,Decoraci√≥n,L√°mpara De Mesa,105.1,5,525.5
2,Electrodom√©sticos,Secadora,97.96,3,293.88
3,Electrodom√©sticos,Heladera,114.35,8,914.8
4,Electrodom√©sticos,Secadora,106.21,4,424.84



PASO 3: AGRUPACI√ìN Y AN√ÅLISIS POR CATEGOR√çA

üìä Resumen de Ventas por Categor√≠a:


'        categoria  ingresos_totales  venta_promedio  num_transacciones  venta_maxima  venta_minima  cantidad_total_vendida  cantidad_promedio_por_venta  precio_promedio  precio_maximo  precio_minimo  productos_unicos\nElectrodom√©sticos         505299.63       505.29963               1000       1485.96          26.3                    6592                        6.592         76.52096         124.82          26.03                10\n      Electr√≥nica          482577.8       483.54489                998       1488.12         27.83                    6413                     6.425852         75.25492         124.96          26.00                10\n       Decoraci√≥n         479216.09       479.21609               1000       1449.48         29.17                    6490                         6.49         74.09800         124.97          26.20                10'


PASO 4: AN√ÅLISIS DETALLADO POR CATEGOR√çA

üí∞ M√âTRICAS TOTALES:
   Ingresos totales: $1,467,093.52
   Transacciones totales: 2,998
   Ticket promedio general: $489.36
   Cantidad total vendida: 19,495 unidades
   Categor√≠as activas: 3

------------------------------------------------------------
üèÜ TOP 5 CATEGOR√çAS POR INGRESOS
------------------------------------------------------------

#1. Electrodom√©sticos
   üíµ Ingresos: $505,299.63 (34.4% del total)
   üì¶ Transacciones: 1,000 (33.4% del total)
   üéØ Ticket promedio: $505.30
   üìä Cantidad vendida: 6,592 unidades
   üè∑Ô∏è  Productos √∫nicos: 10
   üí≤ Precio promedio: $76.52
   üìà Rango de ventas: $26.30 - $1,485.96

#2. Electr√≥nica
   üíµ Ingresos: $482,577.80 (32.9% del total)
   üì¶ Transacciones: 998 (33.3% del total)
   üéØ Ticket promedio: $483.54
   üìä Cantidad vendida: 6,413 unidades
   üè∑Ô∏è  Productos √∫nicos: 10
   üí≤ Precio promedio: $75.25
   üìà Rango de ventas: $27.83 - $1,488.12

#

In [None]:
# Aplicar la funci√≥n de limpieza a df_ventas
df_ventas_limpio, resumen_ventas = limpiar_dataset(
    df_ventas.copy(),  # Usar una copia para no modificar el original directamente
    eliminar_duplicados=True,
    columnas_numericas_a_limpiar={'precio': ['$', ','], 'cantidad': ['[^0-9.]']}, # Limpiar $ y cualquier caracter no numerico en precio, y no numerico en cantidad
    normalizacion_texto='title' # Normalizar texto a formato t√≠tulo
)

# Mostrar el resumen de la limpieza
print("\n" + "=" * 60)
print("RESUMEN DE LIMPIEZA - df_ventas")
print("=" * 60)
print(resumen_ventas)