Pre-Entrega Lindon Sofia.

DataSets: 'ventas.csv', 'clientes.csv', 'marketing.csv' (todo se encuentra en la carpeta del drive)



# Recopilacion y Preparacion de Datos

--------Entorno y carga de datos---------

In [None]:
import panda as pd
import IPython.display as display
import numpy as np

In [None]:
#Montar la unidad
from google.colab import drive
drive.mount('/content/drive')
#Verifico los archivos dentro de la carpeta datasets
import os
os.listdir('/content/drive/MyDrive/DataSets')

In [None]:
#Rutas de datasets
ruta_ventas = '/content/drive/MyDrive/DataSets/ventas.csv '
ruta_clientes = '/content/drive/MyDrive/DataSets/clientes.csv'
ruta_marketing = '/content/drive/MyDrive/DataSets/marketing.csv'

#Cargar CVS como DataFrames
ventas = pd.read_csv(ruta_ventas)
clientes = pd.read_csv(ruta_clientes)
marketing = pd.read_csv(ruta_marketing)

#Validacion para confirmar la carga y mostrarlo
print(ventas.head(5))
print(clientes.head(5))
print(marketing.head(5))

print("ventas.shape ->", ruta_ventas)
print("clientes.shape ->", ruta_clientes)
print("marketing.shape ->", ruta_marketing)

-------Análisis exploratorio----------

In [None]:
#Informacion general de las tablas

print("INFORMACIÓN VENTAS")
print(ventas.info())
print("\nINFORMACION CLIENTES")
print(clientes.info())
print("\nINFORMACIÓN MARKETING\n")
print(marketing.info())

print("\nSHAPE Y COLUMNAS")
#ventas
print("ventas:", ventas.shape, ventas.columns.tolist())
#clientes
print("clientes:", clientes.shape, clientes.columns.tolist())
#marketing
print("marketing:", marketing.shape, marketing.columns.tolist())

print("\nTIPOS DE DATOS")
print("Ventas:\n"ventas.dtypes)
print("\nClientes:\n"clientes.dtypes)
print("\nMarketing:\n"marketing.dtypes)

#Muestro si hay algun valor nulo y si hay valores unicos por columna
print("\nVALORES NULOS")
print("Ventas:\n"ventas.isnull().sum())
print("\nClientes:\n"clientes.isnull().sum())
print("\nMarketing:\n"marketing.isnull().sum())

print("\n VALORES UNICOS")
print("Ventas:\n", ventas.nunique())
print("\nClientes:\n", clientes.nunique())
print("\nMarketing:\n", marketing.nunique())


-------Calidad de los datos------

In [None]:
#Funcion de calidad de datos.

#Tome la decision de definir una funcion calidad_dato para poder comprobar los valores nulos y duplicados de mis DataSets

def calidad_datos(df, nombre, clave=None):
print(f"Calidad de datos para {nombre}")

#cantidad de valores nulos
print("\nValores nulos por columna:")
print(df.isnull().sum())
display(nulos[nulos > 0].to_frame("nulos")) #muestra solo las columnas que si tienen nulos

#cantidad de duplicados
dup_rows = df.duplicated().sum()
print(f"Duplicados por fila: {dup_rows}")

#Duplicados por clave
print("\nAnálisis de clave:")
if clave and clave in df.columns:
  dup_clave = df[clave].duplicated(keep=False).sum() #Se cuentan todas las apariciones de un duplicado
  print(f"Duplicados por clave '{clave}': {dup_clave}")
else:
  posibles_claves = [col for col in df.columns if df.[col].is_unique]
    if posibles_claves:
      print("Columnas posiblemente unicas:")
      print(posibles_claves)
    else:
      print("No se encontraron columnas unicas.")



In [None]:
#Muestra de uso
calidad_datos(ventas, "ventas", "id_venta")
calidad_datos(clientes, "clientes", "id_cliente")
calidad_datos(marketing, "marketing", "id_campanha")
calidad_datos(marketing, "marketing") # Para probar la sugerencia de claves

#Observaciones
#Ventas
#Se encontraron 2 valores nulos en precio y cantidad.
#Se encontraron 35 filas duplicadas.

# Preprocesamiento y limpieza de Datos

Limpieza de datos

In [None]:
#Eliminar duplicados --> .drop.duplicates()

def eliminar_duplicados(df, clave, nombre=""):

  filas_antes = df.shape[0]
  df_limpio = df.drop_duplicates(subset=[clave], kep='first') #toma la primera aparicion
  filas_despues = df_limpio.shape[0]
  filas_eliminadas = filas_antes - filas

  print("Limpieza duplicados [{nombre_df}]")
  print("\nFilas antes: {filas_antes}")
  print("\nFilas despues: {filas_despues}")
  print("\nFilas eliminadas: {filas_eliminadas}")

  return df_limpio

In [None]:
#Implementacion de la funcion
ventas_limpio = eliminar_duplicados(ventas, "id_venta", "ventas")
clientes_limpio = eliminar_duplicados(clientes, "id_cliente", "clientes
marketing_limpio = eliminar_duplicados(marketing, "id_campanha", "marketing")

#Observacion con ventas
#Se eliminaron 35 filas duplicadas.

In [None]:
#Limpiar espacios --> .str.strip()(eliminar espacios al principio y al final)

def limpiar_espacios(df, columnas_texto):

df_copia = df_limpio.copy() #se hace una copia

for columna in columnas_texto:
  if columna in df_copia.columns:
    #verifico que sea tipo string o object
    if pd.api.types.is_string_dtype(df_copia[columna]):
      df_copia[columna] = df_copia[columna].str.strip()
      print("\nLimpieza de espacios [{columna}]: .str.strip() aplicado")
    else:
      print(f"\nLimpieza de espacios [{columna}]: No es una columna de texto")
  else:
    print(f"\nLimpieza de espacios [{columna}]: No existe en el DataFrame")

  return df_copia

In [None]:
#Ejecucion

limpiar_espacios = limpiar_espacios(ventas_limpio, ["producto"])
limpiar_espacios = limpiar_espacios(clientes_limpio, ["nombre", "apellido"])
limpiar_espacios = limpiar_espacios(marketing_limpio, ["producto"])

In [None]:
#Reemplazar caracteres --> .str.replace()

def reemplazar_caracteres(df, columnas_texto, texto_a_buscar, texto_nuevo):

  df_copia = df_limpio.copy()

  for columna in columnas_texto:
    if columna in df_copia.columns:
      if pd.api.types.is_string_dtype(df_copia[columna]):
        df_copia[columna] = df_copia[columna].str.replace(texto_a_buscar, texto_nuevo)
        print(f"\nReemplazo de caracteres [{columna}]: '{texto_a_buscar}' por '{texto_nuevo}'")
      else:
        print(f"\nReemplazo de caracteres [{columna}]: No es una columna de texto")
    else:
      print(f"\nReemplazo de caracteres [{columna}]: No existe en el DataFrame")

  return df_copia



In [None]:
#Ejecucion

reemplazar_caracteres = reemplazar_caracteres(ventas_limpio, columnas_texto=['precio_texto'], texto_a_buscar='$', texto_nuevo='')


-----Transformacion de datos--------


In [None]:
#Funcion para transformar. Tomo ventas como ejemplo, sabiendo que tengo cantidad y precio por separado, uso la funcion para crear una columna ingresos para poder calcular el rendimiento


def calcular_ingreso(def, columna_cantidad, columna_precio):
  df_copia = df_limpio.copy()

#verifico las columnas para asegurarme que sean numericas ambas
df_copia[columna_cantidad] = pd.to_numeric(df_copia[columna_cantidad], errors='coerce')#se convertiria en un error Nan
df_copia[columna_precio] = pd.to_numeric(df_copia[columna_precio], errors='coerce')

df_copia['ingreso'] = df_copia[columna_cantidad] * df_copia[columna_precio]#transformo la nueva columna

print("Columna 'Ingreso' creada con exito, (total: ${df_copia['Ingresos?].sum():,..2f})")

return df_copia


In [None]:
#Funcion para filtrar
#Analiza las ventas por producto y filtra aquellos que superan el percentil indicado (por defecto, 0.8 o el 80%).

def filtrar_producto(df_venta_con_ingresos, columna_producto, columna_ingresos, percentil=0.8):

  print("Ventas por producto (Top {(1-percentil)*100:.0f}%)")

  #Calcular total de ingresos por producto
  ingresos_por_producto = df_venta_con_ingresos.groupby(columna_producto)[columna_ingresos].sum().to_frame("ingresos_totales")

  #Calcular porcentaje 0.8
  porcentaje = ventas_por_producto["ingresos_totales"].quantile(percentil)

  print("\nUmbral de alto rendimiento (Percentil {percentil*100:.0f}%): ${umbral:,.2f}")

  #Filtrar usando .query()
  productos_alto_rendimiento = ingresos_por_producto.query("{columna_ingresos} >= {umbral}")

  #Ordenar de forma descendente
  productos_alto_rendimiento = productos_alto_rendimiento.sort_values(by="columna_ingresos", ascending=False)

  print(productos_alto_rendimiento)

  return productos_alto_rendimiento

In [None]:
#Ejecucion de las funciones con la tabla ventas

# ----- PASO 1: TRANSFORMACIÓN -----
ventas_con_ingresos = calcular_ingresos_ventas(df_ventas, columna_cantidad='cantidad', columna_precio='precio')

# ----- PASO 2: FILTRO -----
tabla_alto_rendimiento = filtrar_productos_alto_rendimiento(df_ventas_con_ingresos, columna_producto='producto', columna_ingresos='ingresos', percentil=0.8)

# ----- PASO 3: RESULTADO -----
print("\n### Tabla de Productos de Alto Rendimiento ###")
display(tabla_alto_rendimiento)

------Agregacion-------


In [None]:
#Funcion para resumir ventas

def resumir_venta(df, columna_categoria, columna_valor):

  df_copia = df_limpio.copy()

  print("Resumen de ventas por categoría: '{columna_categoria}'")

  #Verificamos que sean ambas columnas numericas
  df_copia[columna_valor] = pd.to_numeric(df_copia[columna_valor], errors='coerce')
  # Si hubo errores de conversión (texto), esos valores se vuelven NaN. Los quitamos.
  df_copia = df_copia.dropna(subset=[columna_valor])

  #agrupar y agregar
  resumen_ventas = df_copia.groupby(columna_categoria)[columna_valor].agg(['sum', 'mean', 'count'])
  #Los grupos importantes primero
  resumen_ventas = resumen_ventas.sort_values(by='ingresos_totales', ascending=False)

  resumen = resumen.style.format({'ingresos_totales': '{:,.2f}', 'ingresos_promedio': '{:,.2f}'})

  return resumen

In [None]:
#Ejecucion de la funcion

resumen_ventas = resumir_ventas(df_ventas_con_ingresos, columna_categoria='categoria', columna_valor='ingresos)

print("Ingresos por categoria")
display(resumen_ventas)
