# **__ENTREGA DEL PROYECTO FINAL__**

Alumno: __MARTÍN, Santiago__

## Sets de datos:

### Opción 1: Google drive

[CSV_Clientes](https://drive.google.com/file/d/16uLLElyNRH-WzqLWQ7vj9qfO6G5L72BA/view)

[CSV_Marketing](https://drive.google.com/file/d/1igefdryqwb9Ia_0HI_Hdjivaj1t09hmQ/view)

[CSV_Ventas](https://drive.google.com/file/d/1FSgNnl5olix-8CUbxdv_IAZx0UfNspHk/view)

### Opción 2: Almacenamiento local

[CSV_Clientes](./Sets%20de%20datos/clientes.csv)

[CSV_Marketing](./Sets%20de%20datos/marketing.csv)

[CSV_Ventas](./Sets%20de%20datos/ventas.csv)

## **Etapa 1:** Recopilación y Preparación de Datos (Clases 1 a 4)

### _Objetivo:_

Demostrar habilidades en Python, familiaridad con el entorno de trabajo y conocimientos básicos sobre manipulación de datos.

### _Actividades:_

#### 0- Importar librerias necesarias

In [1]:
import pandas as pd

#### 0.5- Montar Dataset en Drive (Solo para Colab)

In [13]:
from google.colab import drive
drive.mount('/content/drive')
folder = '/content/drive/MyDrive/Analisis de datos con Python - Talento TECH/Martin Santiago - Comision 25262 - TPI Data Analytics/Sets de datos'
#folder = '/content/drive/MyDrive/Datasets'

Drive already mounted at /content/drive; to attempt to forcibly remount, call drive.mount("/content/drive", force_remount=True).


#### 1- Crear un documento en Google Colaboratory y cargar los sets de datos como DataFrames.

##### Opción 1 (Almacenamiento local)

In [2]:
df_clientes = pd.read_csv('Sets de datos/clientes.csv')
df_marketing = pd.read_csv('Sets de datos/marketing.csv')
df_ventas = pd.read_csv('Sets de datos/ventas.csv')

##### Opción 2 (Solo Colab)

In [14]:
df_clientes = pd.read_csv(folder + '/clientes.csv')
df_marketing = pd.read_csv(folder + '/marketing.csv')
df_ventas = pd.read_csv(folder + '/ventas.csv')

#### 4- Introducción a Pandas: realizar un análisis exploratorio inicial de los DataFrames.

In [3]:
def analisis_exploratorio(df, nombre_df):
    print("=====================================================")
    print(f"=====Análisis exploratorio del DataFrame {nombre_df}=====")
    print("=====================================================")
    print("")
    print('=============Información del DataFrame===============')
    print(df.info()) # Información general del DataFrame
    print('=======Estadísticas descriptivas del DataFrame=======')
    print(df.describe()) # Estadísticas descriptivas
    print('============Valores nulos del DataFrame==============')
    print(df.isnull().sum()) # Verificar valores nulos
    print('================Valores únicos=======================')
    print(df.nunique().sort_values(ascending=False)) # Verificar valores únicos
    print('=====================================================')
    print("")
    print("")
    print("")

analisis_exploratorio(df_clientes, 'clientes')
analisis_exploratorio(df_marketing, 'marketing')
analisis_exploratorio(df_ventas, 'ventas')

=====Análisis exploratorio del DataFrame clientes=====

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 567 entries, 0 to 566
Data columns (total 5 columns):
 #   Column      Non-Null Count  Dtype  
---  ------      --------------  -----  
 0   id_cliente  567 non-null    int64  
 1   nombre      567 non-null    object 
 2   edad        567 non-null    int64  
 3   ciudad      567 non-null    object 
 4   ingresos    567 non-null    float64
dtypes: float64(1), int64(2), object(2)
memory usage: 22.3+ KB
None
       id_cliente        edad      ingresos
count  567.000000  567.000000    567.000000
mean   284.000000   37.940035  34668.739012
std    163.823075   10.202885  12974.531446
min      1.000000   20.000000    170.290000
25%    142.500000   30.000000  26015.240000
50%    284.000000   37.000000  35066.830000
75%    425.500000   43.000000  42457.100000
max    567.000000   81.000000  88053.010000
id_cliente    0
nombre        0
edad          0
ciudad        0
ingresos      0
dtype: in

#### 5- Calidad de Datos: Identificar valores nulos y duplicados en los conjuntos de datos. Documentar el estado inicial de los datos.

In [4]:
def calidad_datos(dataframe, nombre, clave):
    print(f"Calidad de datos - {nombre}")
    print("===================================")
    print("Valores nulos por columna:")
    print(dataframe.isnull().sum())
    print("-----------------------------------")
    print(f"Duplicados totales: {dataframe.duplicated(keep=False).sum()}")
    print(f"Duplicados por clave ({clave}): {dataframe.duplicated(subset=[clave], keep=False).sum()}")
    print("===================================\n")

calidad_datos(df_clientes,'Clientes','id_cliente')
calidad_datos(df_marketing, 'Marketing','id_campanha')
calidad_datos(df_ventas, 'Ventas','id_venta')

Calidad de datos - Clientes
Valores nulos por columna:
id_cliente    0
nombre        0
edad          0
ciudad        0
ingresos      0
dtype: int64
-----------------------------------
Duplicados totales: 0
Duplicados por clave (id_cliente): 0

Calidad de datos - Marketing
Valores nulos por columna:
id_campanha     0
producto        0
canal           0
costo           0
fecha_inicio    0
fecha_fin       0
dtype: int64
-----------------------------------
Duplicados totales: 0
Duplicados por clave (id_campanha): 0

Calidad de datos - Ventas
Valores nulos por columna:
id_venta       0
producto       0
precio         2
cantidad       2
fecha_venta    0
categoria      0
dtype: int64
-----------------------------------
Duplicados totales: 70
Duplicados por clave (id_venta): 70



## Etapa 2: Preprocesamiento y Limpieza de Datos (Clases 5 a 8)

### _Objetivo:_

Demostrar conocimiento de las técnicas de limpieza y transformación de datos.

### _Actividades:_

#### 1- Limpieza de Datos: Limpiar el conjunto de datos eliminando duplicados y caracteres no deseados. Documentar el proceso y los resultados.

In [5]:
# Genero copias de los dataframes originales para limpiar
df_ventas_clean = df_ventas.copy()
df_marketing_clean = df_marketing.copy()
df_clientes_clean = df_clientes.copy()

df_ventas_clean = df_ventas_clean.drop_duplicates()
df_marketing_clean = df_marketing_clean.drop_duplicates()
df_clientes_clean = df_clientes_clean.drop_duplicates()

# Defino una función para normalizar texto y fechas
def normalizar_texto_fecha(df):
    for col in df.select_dtypes(include=['object']).columns:
        df[col] = (df[col].astype(str)
                   .str.strip()
                   .str.replace(r"[\u200b\t\r\n]", "", regex=True)
                   .str.replace(' +', ' ', regex=True)
                   .str.title())

    for col in df.select_dtypes(include=['object']).columns:
        if 'fecha' in col.lower():
            df[col] = pd.to_datetime(df[col], errors='coerce', dayfirst=True)


    return df

normalizar_texto_fecha(df_ventas_clean)
normalizar_texto_fecha(df_marketing_clean)
normalizar_texto_fecha(df_clientes_clean)

# Normalizo valores numericos en la columna precio y cantidad de df_ventas
df_ventas_clean['precio'] = (df_ventas_clean['precio']
                             .astype(str)
                             .str.replace('$', '')
                             .str.replace(',', '')
                             .str.strip())
df_ventas_clean['precio'] = pd.to_numeric(df_ventas_clean['precio'], errors='coerce')
df_ventas_clean['cantidad'] = pd.to_numeric(df_ventas_clean['cantidad'], errors='coerce').astype('Int64')

# Verifico calidad de datos después de la limpieza
calidad_datos(df_clientes_clean,'Clientes','id_cliente')
calidad_datos(df_marketing_clean, 'Marketing','id_campanha')
calidad_datos(df_ventas_clean, 'Ventas','id_venta')

Calidad de datos - Clientes
Valores nulos por columna:
id_cliente    0
nombre        0
edad          0
ciudad        0
ingresos      0
dtype: int64
-----------------------------------
Duplicados totales: 0
Duplicados por clave (id_cliente): 0

Calidad de datos - Marketing
Valores nulos por columna:
id_campanha     0
producto        0
canal           0
costo           0
fecha_inicio    0
fecha_fin       0
dtype: int64
-----------------------------------
Duplicados totales: 0
Duplicados por clave (id_campanha): 0

Calidad de datos - Ventas
Valores nulos por columna:
id_venta       0
producto       0
precio         2
cantidad       2
fecha_venta    0
categoria      0
dtype: int64
-----------------------------------
Duplicados totales: 0
Duplicados por clave (id_venta): 0



In [16]:
# Resultados de la limpieza
def resultados_limpieza(original, limpio, nombre):
    print(f"Resultados de la limpieza - {nombre}")
    print("===================================\n")
    print(f"Nulos por columna en el DataFrame limpio vs original - {nombre}")
    print("-----------------------------------")
    print("DataFrame limpio:")
    print(limpio.isnull().sum())
    print("DataFrame original:")
    print(original.isnull().sum())
    print("===================================\n")
    print(f"Duplicados en el DataFrame limpio vs original - {nombre}")
    print("-----------------------------------")
    print("DataFrame limpio:")
    print(limpio.duplicated().sum())
    print("-----------------------------------")
    print("DataFrame original:")
    print(original.duplicated().sum())
    print("===================================")
    print(f"Filas originales: {original.shape[0]}")
    print(f"Filas después de la limpieza: {limpio.shape[0]}")
    print(f"Filas eliminadas: {original.shape[0] - limpio.shape[0]}")
    print("===================================\n")
    print(f"Primeras 5 filas del DataFrame limpio vs original - {nombre}")
    print("-----------------------------------")
    print("DataFrame limpio:")
    display(limpio.head())
    print("-----------------------------------")
    print("DataFrame original:")
    display(original.head())

resultados_limpieza(df_clientes, df_clientes_clean, 'Clientes')
resultados_limpieza(df_marketing, df_marketing_clean, 'Marketing')
resultados_limpieza(df_ventas, df_ventas_clean, 'Ventas')

Resultados de la limpieza - Clientes

Nulos por columna en el DataFrame limpio vs original - Clientes
-----------------------------------
DataFrame limpio:
id_cliente    0
nombre        0
edad          0
ciudad        0
ingresos      0
dtype: int64
DataFrame original:
id_cliente    0
nombre        0
edad          0
ciudad        0
ingresos      0
dtype: int64

Duplicados en el DataFrame limpio vs original - Clientes
-----------------------------------
DataFrame limpio:
0
-----------------------------------
DataFrame original:
0
Filas originales: 567
Filas después de la limpieza: 567
Filas eliminadas: 0

Primeras 5 filas del DataFrame limpio vs original - Clientes
-----------------------------------
DataFrame limpio:


Unnamed: 0,id_cliente,nombre,edad,ciudad,ingresos
0,1,Aloysia Screase,44,Mar Del Plata,42294.68
1,2,Kristina Scaplehorn,25,Posadas,24735.04
2,3,Filip Castagne,50,Resistencia,35744.85
3,4,Liuka Luard,39,Bahía Blanca,27647.96
4,5,Dore Cockshtt,28,Rosario,28245.65


-----------------------------------
DataFrame original:


Unnamed: 0,id_cliente,nombre,edad,ciudad,ingresos
0,1,Aloysia Screase,44,Mar del Plata,42294.68
1,2,Kristina Scaplehorn,25,Posadas,24735.04
2,3,Filip Castagne,50,Resistencia,35744.85
3,4,Liuka Luard,39,Bahía Blanca,27647.96
4,5,Dore Cockshtt,28,Rosario,28245.65


Resultados de la limpieza - Marketing

Nulos por columna en el DataFrame limpio vs original - Marketing
-----------------------------------
DataFrame limpio:
id_campanha     0
producto        0
canal           0
costo           0
fecha_inicio    0
fecha_fin       0
dtype: int64
DataFrame original:
id_campanha     0
producto        0
canal           0
costo           0
fecha_inicio    0
fecha_fin       0
dtype: int64

Duplicados en el DataFrame limpio vs original - Marketing
-----------------------------------
DataFrame limpio:
0
-----------------------------------
DataFrame original:
0
Filas originales: 90
Filas después de la limpieza: 90
Filas eliminadas: 0

Primeras 5 filas del DataFrame limpio vs original - Marketing
-----------------------------------
DataFrame limpio:


Unnamed: 0,id_campanha,producto,canal,costo,fecha_inicio,fecha_fin
0,74,Adorno De Pared,Tv,4.81,2024-03-20,2024-05-03
1,12,Tablet,Rrss,3.4,2024-03-26,2024-05-13
2,32,Lámpara De Mesa,Email,5.54,2024-03-28,2024-04-20
3,21,Smartphone,Rrss,6.37,2024-03-29,2024-05-16
4,58,Alfombra,Email,4.25,2024-03-31,2024-05-05


-----------------------------------
DataFrame original:


Unnamed: 0,id_campanha,producto,canal,costo,fecha_inicio,fecha_fin
0,74,Adorno de pared,TV,4.81,20/03/2024,03/05/2024
1,12,Tablet,RRSS,3.4,26/03/2024,13/05/2024
2,32,Lámpara de mesa,Email,5.54,28/03/2024,20/04/2024
3,21,Smartphone,RRSS,6.37,29/03/2024,16/05/2024
4,58,Alfombra,Email,4.25,31/03/2024,05/05/2024


Resultados de la limpieza - Ventas

Nulos por columna en el DataFrame limpio vs original - Ventas
-----------------------------------
DataFrame limpio:
id_venta       0
producto       0
precio         2
cantidad       2
fecha_venta    0
categoria      0
dtype: int64
DataFrame original:
id_venta       0
producto       0
precio         2
cantidad       2
fecha_venta    0
categoria      0
dtype: int64

Duplicados en el DataFrame limpio vs original - Ventas
-----------------------------------
DataFrame limpio:
0
-----------------------------------
DataFrame original:
35
Filas originales: 3035
Filas después de la limpieza: 3000
Filas eliminadas: 35

Primeras 5 filas del DataFrame limpio vs original - Ventas
-----------------------------------
DataFrame limpio:


Unnamed: 0,id_venta,producto,precio,cantidad,fecha_venta,categoria
0,792,Cuadro Decorativo,69.94,5,2024-01-02,Decoración
1,811,Lámpara De Mesa,105.1,5,2024-01-02,Decoración
2,1156,Secadora,97.96,3,2024-01-02,Electrodomésticos
3,1372,Heladera,114.35,8,2024-01-02,Electrodomésticos
4,1546,Secadora,106.21,4,2024-01-02,Electrodomésticos


-----------------------------------
DataFrame original:


Unnamed: 0,id_venta,producto,precio,cantidad,fecha_venta,categoria
0,792,Cuadro decorativo,$69.94,5.0,02/01/2024,Decoración
1,811,Lámpara de mesa,$105.10,5.0,02/01/2024,Decoración
2,1156,Secadora,$97.96,3.0,02/01/2024,Electrodomésticos
3,1372,Heladera,$114.35,8.0,02/01/2024,Electrodomésticos
4,1546,Secadora,$106.21,4.0,02/01/2024,Electrodomésticos


#### Solo almacenamiento local

In [17]:
import os
os.makedirs('Sets de datos limpios', exist_ok=True)

# Exportar los dataframes limpios
df_clientes_clean.to_csv('Sets de datos limpios/clientes_limpio.csv', index=False)
df_marketing_clean.to_csv('Sets de datos limpios/marketing_limpio.csv', index=False)
df_ventas_clean.to_csv('Sets de datos limpios/ventas_limpio.csv', index=False)

#### Solo Colab

In [21]:
import os
output_folder = os.path.join(folder, 'Sets de datos limpios')
os.makedirs(output_folder, exist_ok=True)

# Exportar los dataframes limpios
df_clientes_clean.to_csv(os.path.join(output_folder, 'clientes_limpio.csv'), index=False)
df_marketing_clean.to_csv(os.path.join(output_folder, 'marketing_limpio.csv'), index=False)
df_ventas_clean.to_csv(os.path.join(output_folder, 'ventas_limpio.csv'), index=False)

#### 2- Transformación de Datos: Aplicar filtros y transformaciones para crear una tabla de ventas que muestre solo los productos con alto rendimiento.

In [19]:
# Productos con alto rendimiento: Top 20% productos según ingresos totales

# Calculo el valor de cada venta y lo asigno a una nueva columna
perf_ventas = df_ventas_clean.assign(ingreso_total = df_ventas_clean['precio'] * df_ventas_clean['cantidad'])

# Agrupo por producto y sumo los ingresos totales
ingresos_por_producto = (perf_ventas.groupby(by='producto', dropna=False, as_index=False)
                         .agg(
                             ingreso_total=('ingreso_total', 'sum'), 
                             unidades=('cantidad', 'sum'),
                             precio_promedio=('precio', 'mean'),
                             registros=('ingreso_total', 'size')
                             ))

# Calculo el umbral del top 20%
umbral_top_20 = ingresos_por_producto['ingreso_total'].quantile(0.8, interpolation='linear')

# Filtro los productos que están por encima del umbral
productos_alto_rendimiento = (ingresos_por_producto
                              .query('ingreso_total >= @umbral_top_20', engine='python')
                              .sort_values(by='ingreso_total', ascending= False))

print("Productos con alto rendimiento (Top 20% según ingresos totales):")
display(productos_alto_rendimiento.sort_values(by='ingreso_total', ascending=False))

Productos con alto rendimiento (Top 20% según ingresos totales):


Unnamed: 0,producto,ingreso_total,unidades,precio_promedio,registros
19,Lámpara De Mesa,82276.38,1112,72.720625,176
3,Auriculares,74175.58,958,76.302727,143
20,Microondas,72562.89,912,79.176,135
5,Cafetera,59607.31,765,79.046581,117
9,Cuadro Decorativo,54297.6,726,74.578,100
26,Smartphone,54132.44,665,81.398416,101


#### 3- Agregación: Resumir las ventas por categoría de producto y analizar los ingresos generados.

In [13]:
perf_ventas = df_ventas_clean.assign(ingreso_total = df_ventas_clean['precio'] * df_ventas_clean['cantidad'])

ventas_por_categoria = (perf_ventas.groupby(by='categoria', dropna=False, as_index=False)
                        .agg(ingreso_total=('ingreso_total', 'sum'), unidades=('cantidad', 'sum'))
                        .sort_values(by='ingreso_total', ascending=False))

print("Resumen de ventas por categoría de producto:")
display(ventas_por_categoria)

Resumen de ventas por categoría de producto:


Unnamed: 0,categoria,ingreso_total,unidades
1,Electrodomésticos,505299.63,6592
2,Electrónica,482577.8,6413
0,Decoración,479216.09,6490


#### 4- Integración de Datos: Combinar los sets de datos de ventas y marketing para obtener una visión más amplia de las tendencias.

In [14]:
# Clave para unir: producto
ventas_marketing = pd.merge(left=df_ventas_clean, right=df_marketing_clean, how='left', on='producto', sort=False, suffixes=('_venta', '_marketing'), copy=True)
print("DataFrame combinado de ventas y marketing:")
display(ventas_marketing.head())

# Ingreso total por campaña de marketing
ingreso_por_campanha = (ventas_marketing.groupby(by='id_campanha', dropna=False, as_index=False)
                        .agg(ingreso_total=('precio', lambda x: (x * ventas_marketing.loc[x.index, 'cantidad']).sum()), unidades=('cantidad', 'sum'))
                        .sort_values(by='ingreso_total', ascending=False))

print("Ingreso total por campaña de marketing: (Head)")
display(ingreso_por_campanha.head())

DataFrame combinado de ventas y marketing:


Unnamed: 0,id_venta,producto,precio,cantidad,fecha_venta,categoria,id_campanha,canal,costo,fecha_inicio,fecha_fin
0,792,Cuadro Decorativo,69.94,5,2024-01-02,Decoración,1,Rrss,5.27,2024-04-27,2024-06-04
1,792,Cuadro Decorativo,69.94,5,2024-01-02,Decoración,31,Email,5.28,2024-08-15,2024-09-12
2,792,Cuadro Decorativo,69.94,5,2024-01-02,Decoración,61,Tv,5.3,2024-11-05,2024-12-23
3,811,Lámpara De Mesa,105.1,5,2024-01-02,Decoración,32,Email,5.54,2024-03-28,2024-04-20
4,811,Lámpara De Mesa,105.1,5,2024-01-02,Decoración,2,Rrss,5.88,2024-05-30,2024-06-29


Ingreso total por campaña de marketing: (Head)


Unnamed: 0,id_campanha,ingreso_total,unidades
1,2,82276.38,1112
31,32,82276.38,1112
61,62,82276.38,1112
76,77,74175.58,958
46,47,74175.58,958


## Etapa 3: Análisis de Datos

### _Objetivo:_

Realizar análisis estadístico y exploratorio sobre los datos procesados.

### _Actividades:_

#### 1- Estadística Descriptiva: Calcular medidas de tendencia central y dispersión sobre las ventas. Presentar los resultados en un informe.

In [None]:
# Calculo de medidas de tendencia central y dsipersion sobre las ventas