# Taller de Inteligencia Artificial: Optimización de Costos
En este taller, continuando con la estructura anterior, nos enfocaremos en cómo aplicar técnicas analíticas y estadísticas para optimizar costos en una empresa. Utilizaremos el mismo conjunto de datos artificiales generado anteriormente, que simula transacciones de clientes, para identificar productos que tienen menor impacto en las ventas y sugerir su remoción.

Nuestro objetivo es:

- Eliminar datos duplicados y vacíos para garantizar la calidad de los datos.
- Analizar y explorar los datos para comprender el comportamiento de las ventas y los costos asociados.
- Desarrollar un modelo analítico que identifique los productos menos rentables o con menor impacto en las ventas.
- Proporcionar visualizaciones que faciliten la comprensión de los resultados.

## 1. Preparación del Entorno
### 1.1. Importación de Librerías Necesarias
En esta sección, prepararemos el entorno de trabajo importando las librerías necesarias y cargando el conjunto de datos desde un archivo CSV. De igual manera instalaremos la librerías y dependencias necesarias en caso de ser necesario

In [None]:
#!pip install seaborn

In [None]:
# Importamos las librerías necesarias
import pandas as pd
import numpy as np
import random
from datetime import datetime, timedelta
import matplotlib.pyplot as plt
import seaborn as sns



### 1.2. Carga del Conjunto de Datos
Cargamos el archivo CSV que contiene los datos de las transacciones. Asegúrate de que el archivo datos_transacciones.csv esté en el mismo directorio que este notebook o especifica la ruta correcta.

In [None]:
# Cargamos el conjunto de datos desde un archivo CSV
df = pd.read_csv('./data/taller_2_datos_transacciones.csv')

# Visualizamos las primeras filas del DataFrame
df.head()


## 2. Preprocesamiento de Datos
Realizaremos la limpieza de los datos, eliminando duplicados y valores vacíos para asegurar la calidad del conjunto de datos.

### 2.1. Verificación y Eliminación de Datos Vacíos

Comprobamos si existen valores nulos en el DataFrame y los eliminamos si es necesario. Es importante eliminar o imputar valores nulos para evitar problemas en el análisis posterior.



In [None]:
# Verificamos si existen valores nulos en el DataFrame
print("Valores nulos antes de la limpieza:")
print(df.isnull().sum())

# Eliminamos filas con valores nulos (en este caso, no debería haber)
df = df.dropna()

# Verificamos nuevamente
print("Valores nulos después de la limpieza:")
print(df.isnull().sum())


### 2.2. Verificación y Eliminación de Datos Duplicados
Identificamos y eliminamos filas duplicadas para evitar redundancias en los datos. Los datos duplicados pueden sesgar los resultados del análisis, por lo que es esencial eliminarlos.

In [None]:
# Verificamos si existen filas duplicadas
duplicados = df.duplicated().sum()
print(f"Filas duplicadas antes de la limpieza: {duplicados}")

# Eliminamos filas duplicadas
df = df.drop_duplicates()

# Verificamos nuevamente
duplicados = df.duplicated().sum()
print(f"Filas duplicadas después de la limpieza: {duplicados}")


## 3. Análisis y Exploración de Datos
Realizaremos un análisis exploratorio para comprender mejor el comportamiento de las ventas y los costos asociados a cada producto.

### 3.1. Análisis de Ventas por Producto

Calculamos y visualizamos las ventas totales por producto. Esto nos permite identificar los productos más vendidos y aquellos con menor participación en las ventas totales. Esto nos permite identificar los productos más vendidos y aquellos con menor participación en las ventas totales

In [None]:
# Calculamos las ventas totales por producto
ventas_por_producto = df.groupby('Nombre del Producto')['Valor'].sum().sort_values(ascending=False)

# Visualizamos las ventas por producto
plt.figure(figsize=(12, 6))
ventas_por_producto.plot(kind='bar', color='skyblue')
plt.title('Ventas Totales por Producto')
plt.xlabel('Producto')
plt.ylabel('Ventas Totales')
plt.xticks(rotation=90)
plt.tight_layout()
plt.show()


### 3.2. Análisis de Costos por Producto

Calculamos y visualizamos los costos totales por producto. Nos ayuda a entender cuánto cuesta mantener cada producto y cómo se compara con las ventas generadas. Nos ayuda a entender cuánto cuesta mantener cada producto y cómo se compara con las ventas generadas.

In [None]:
# Calculamos los costos totales por producto
costos_por_producto = df.groupby('Nombre del Producto')['Costo'].sum().sort_values(ascending=False)

# Visualizamos los costos por producto
plt.figure(figsize=(12, 6))
costos_por_producto.plot(kind='bar', color='salmon')
plt.title('Costos Totales por Producto')
plt.xlabel('Producto')
plt.ylabel('Costos Totales')
plt.xticks(rotation=90)
plt.tight_layout()
plt.show()


### 3.3. Análisis de Rentabilidad por Producto
Calculamos y visualizamos la rentabilidad por producto. La rentabilidad es un indicador clave para determinar qué productos aportan más ganancias al negocio.

In [None]:
# Calculamos la rentabilidad (Ingresos - Costos) por producto
rentabilidad_por_producto = ventas_por_producto - costos_por_producto

# Visualizamos la rentabilidad por producto
plt.figure(figsize=(12, 6))
rentabilidad_por_producto.plot(kind='bar', color='lightgreen')
plt.title('Rentabilidad por Producto')
plt.xlabel('Producto')
plt.ylabel('Rentabilidad')
plt.xticks(rotation=90)
plt.tight_layout()
plt.show()


## 4. Modelo Analítico para Optimización de Costos
En esta sección, desarrollaremos un modelo analítico y estadístico para identificar los productos que tienen menor impacto en las ventas y sugerir su remoción para optimizar costos.

### 4.1. Identificación de Productos con Menor Impacto
#### 4.1.1. Productos con Menores Ventas
Identificamos los productos con las ventas totales más bajas. Estos productos pueden ser candidatos para reevaluación o remoción debido a su baja contribución en ventas.

In [None]:
# Obtenemos los productos con menores ventas totales
productos_menores_ventas = ventas_por_producto.tail(5)

print("Productos con menores ventas totales:")
print(productos_menores_ventas)


#### 4.1.2. Productos con Menor Rentabilidad
Identificamos los productos menos rentables. Productos con baja o negativa rentabilidad afectan directamente las ganancias de la empresa.

In [None]:
# Obtenemos los productos con menor rentabilidad
productos_menor_rentabilidad = rentabilidad_por_producto.sort_values().head(5)

print("Productos con menor rentabilidad:")
print(productos_menor_rentabilidad)


#### 4.1.3. Visualización de Productos con Menor Impacto
Visualizamos los productos con menores ventas y rentabilidad. Las gráficas nos permiten identificar visualmente los productos menos performantes.

In [None]:
# Visualizamos los productos con menores ventas
plt.figure(figsize=(8, 6))
productos_menores_ventas.plot(kind='barh', color='orange')
plt.title('Productos con Menores Ventas Totales')
plt.xlabel('Ventas Totales')
plt.ylabel('Producto')
plt.tight_layout()
plt.show()

# Visualizamos los productos con menor rentabilidad
plt.figure(figsize=(8, 6))
productos_menor_rentabilidad.plot(kind='barh', color='red')
plt.title('Productos con Menor Rentabilidad')
plt.xlabel('Rentabilidad')
plt.ylabel('Producto')
plt.tight_layout()
plt.show()


#### 4.1.4. Análisis de la Contribución de los Productos - Análisis de Pareto de Ventas
Realizaremos un análisis de Pareto (80/20) para identificar qué productos generan la mayor parte de las ventas y cuáles contribuyen menos. 

In [None]:
# Ordenamos las ventas por producto de mayor a menor
ventas_ordenadas = ventas_por_producto.sort_values(ascending=False)

# Calculamos el porcentaje acumulado de ventas
porcentaje_acumulado = ventas_ordenadas.cumsum() / ventas_ordenadas.sum() * 100

# Visualizamos el análisis de Pareto
plt.figure(figsize=(12, 6))
fig, ax = plt.subplots()
ax.bar(ventas_ordenadas.index, ventas_ordenadas.values, color='skyblue')
ax2 = ax.twinx()
ax2.plot(ventas_ordenadas.index, porcentaje_acumulado.values, color='red', marker='D', ms=7)
ax.set_xlabel('Producto')
ax.set_ylabel('Ventas Totales')
ax2.set_ylabel('Porcentaje Acumulado (%)')
plt.title('Análisis de Pareto de Ventas por Producto')
ax.tick_params(axis='x', rotation=90)
plt.tight_layout()
plt.show()


#### 4.1.5 Identificación de Productos de Baja Contribución
Estos productos tienen una contribución marginal en las ventas totales y podrían ser reevaluados.

In [None]:
# Combinar las listas de productos con menor rentabilidad y baja contribución
productos_a_considerar = set(productos_menor_rentabilidad.index).union(set(productos_menor_rentabilidad))

print("Productos sugeridos para remoción o reevaluación:")
print(list(productos_a_considerar))


### 4.2. Análisis de Regresión para Predicción de Rentabilidad
En esta sección, desarrollaremos un modelo de regresión lineal múltiple para predecir la rentabilidad de los productos en función de varias características. Esto nos permitirá entender qué variables influyen más en la rentabilidad y predecir el desempeño de productos nuevos o existentes.

#### 4.2.1. Preparación de Datos para el Modelo de Regresión
Antes de entrenar el modelo, debemos preparar los datos, seleccionando las variables relevantes y transformando las variables categóricas en numéricas.

In [None]:
# Seleccionamos las características relevantes
caracteristicas = ['Cantidad', 'Valor', 'Costo', 'Canal de Venta', 'Segmento de Mercado', 'Preferencias del Cliente']

# Creamos un DataFrame con las características y la variable objetivo (Rentabilidad)
df_modelo = df[caracteristicas].copy()

# Calculamos la rentabilidad (Valor - Costo)
df_modelo['Rentabilidad'] = df['Valor'] - df['Costo']

# Transformamos variables categóricas en numéricas utilizando One-Hot Encoding
df_modelo_encoded = pd.get_dummies(df_modelo, columns=['Canal de Venta', 'Segmento de Mercado', 'Preferencias del Cliente'])

# Visualizamos las primeras filas del DataFrame preparado
df_modelo_encoded.head()


#### 4.2.2. División de Datos en Conjuntos de Entrenamiento y Prueba
Dividimos los datos en conjuntos de entrenamiento y prueba para evaluar el rendimiento del modelo.

In [None]:
from sklearn.model_selection import train_test_split

# Definimos las características (X) y la variable objetivo (y)
X = df_modelo_encoded.drop('Rentabilidad', axis=1)
y = df_modelo_encoded['Rentabilidad']

# Dividimos los datos
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)


#### 4.2.3. Entrenamiento del Modelo de Regresión Lineal
Entrenamos un modelo de regresión lineal múltiple utilizando los datos de entrenamiento

In [None]:
from sklearn.linear_model import LinearRegression

# Creamos y entrenamos el modelo
modelo_regresion = LinearRegression()
modelo_regresion.fit(X_train, y_train)


#### 4.2.4 Evaluación del Modelo de Regresión
Evaluamos el rendimiento del modelo utilizando métricas como el R-cuadrado y el error cuadrático medio.

In [None]:
from sklearn.metrics import r2_score, mean_squared_error

# Realizamos predicciones en el conjunto de prueba
y_pred = modelo_regresion.predict(X_test)

# Calculamos las métricas
r2 = r2_score(y_test, y_pred)
rmse = np.sqrt(mean_squared_error(y_test, y_pred))

print(f"Coeficiente de determinación (R^2): {r2:.2f}")
print(f"Raíz del Error Cuadrático Medio (RMSE): {rmse:.2f}")


### 4.3. Análisis de Clústeres para Agrupación de Productos
En esta sección, aplicaremos técnicas de clustering para agrupar productos basados en características como ventas, costos y rentabilidad. Esto nos permitirá identificar grupos de productos con comportamientos similares y tomar acciones específicas.

#### 4.3.1. Preparación de Datos para Clustering
Preparamos los datos agregando información a nivel de producto y normalizando las variables.

In [None]:
# Calculamos ventas totales, costos totales y rentabilidad por producto
datos_productos = df.groupby('Nombre del Producto').agg({
    'Valor': 'sum',
    'Costo': 'sum',
    'Cantidad': 'sum'
}).rename(columns={'Valor': 'Ventas Totales', 'Costo': 'Costos Totales', 'Cantidad': 'Cantidad Vendida'})

# Calculamos la rentabilidad
datos_productos['Rentabilidad'] = datos_productos['Ventas Totales'] - datos_productos['Costos Totales']

# Visualizamos los datos
datos_productos.head()


#### 4.3.2. Normalización de las Variables
Normalizamos las variables para que todas tengan la misma escala, lo cual es necesario para los algoritmos de clustering.

In [None]:
from sklearn.preprocessing import StandardScaler

# Seleccionamos las características para el clustering
caracteristicas_clustering = ['Ventas Totales', 'Costos Totales', 'Cantidad Vendida', 'Rentabilidad']

# Aplicamos la normalización
scaler = StandardScaler()
datos_normalizados = scaler.fit_transform(datos_productos[caracteristicas_clustering])

# Convertimos a DataFrame
datos_normalizados = pd.DataFrame(datos_normalizados, index=datos_productos.index, columns=caracteristicas_clustering)

# Visualizamos los datos normalizados
datos_normalizados.head()


#### 4.3.3. Determinación del Número Óptimo de Clústeres
Utilizamos el método del codo (Elbow Method) para determinar el número óptimo de clústeres. El punto donde la disminución del SSE se vuelve menos pronunciada indica el número óptimo de clústeres.

In [None]:
from sklearn.cluster import KMeans

# Lista para almacenar la suma de errores cuadráticos (SSE) para cada número de clústeres
sse = []

# Probamos con diferentes números de clústeres
K = range(1, 10)
for k in K:
    kmeans = KMeans(n_clusters=k, random_state=42)
    kmeans.fit(datos_normalizados)
    sse.append(kmeans.inertia_)

# Visualizamos el gráfico del método del codo
plt.figure(figsize=(8, 6))
plt.plot(K, sse, marker='o')
plt.title('Método del Codo para Determinar el Número Óptimo de Clústeres')
plt.xlabel('Número de Clústeres')
plt.ylabel('SSE')
plt.xticks(K)
plt.grid(True)
plt.show()


#### 4.3.4. Aplicación del Algoritmo de Clustering
Basándonos en el gráfico anterior, seleccionamos el número de clústeres y aplicamos K-Means.

In [None]:
# Suponiendo que el número óptimo de clústeres es 3
k_optimo = 3

# Creamos y ajustamos el modelo K-Means
kmeans = KMeans(n_clusters=k_optimo, random_state=42)
kmeans.fit(datos_normalizados)

# Asignamos los clústeres a los productos
datos_productos['Cluster'] = kmeans.labels_

# Visualizamos los productos con sus clústeres
datos_productos.head()


#### 4.3.5. Análisis de los Clústeres
Analizamos las características de cada clúster para entender los patrones y comportamientos.

In [None]:
# Calculamos estadísticas descriptivas por clúster
estadisticas_cluster = datos_productos.groupby('Cluster').mean()

# Visualizamos las estadísticas
estadisticas_cluster


#### 4.3.6. Visualización de los Clústeres
Utilizamos gráficos para visualizar los clústeres y sus características.

In [None]:
# Visualización en dos dimensiones utilizando PCA
from sklearn.decomposition import PCA

# Reducimos la dimensionalidad a 2 componentes principales
pca = PCA(n_components=2)
componentes_pca = pca.fit_transform(datos_normalizados)

# Convertimos a DataFrame
df_pca = pd.DataFrame(data=componentes_pca, columns=['Componente 1', 'Componente 2'], index=datos_productos.index)

# Agregamos los clústeres
df_pca['Cluster'] = datos_productos['Cluster']

# Visualizamos los clústeres
plt.figure(figsize=(8, 6))
sns.scatterplot(data=df_pca, x='Componente 1', y='Componente 2', hue='Cluster', palette='Set1', s=100)
plt.title('Visualización de Clústeres con PCA')
plt.xlabel('Componente Principal 1')
plt.ylabel('Componente Principal 2')
plt.legend(title='Clúster')
plt.show()


#### 4.3.7. Interpretación y Uso de los Clústeres para la Toma de Decisiones
Interpretamos cada clúster y sugerimos acciones específicas.

- **Clúster 0**: Productos con altas ventas y rentabilidad. Se recomienda mantener y potenciar estos productos.
- **Clúster 1**: Productos con ventas y rentabilidad medias. Se puede considerar estrategias para mejorar su desempeño.
- **Clúster 2**: Productos con bajas ventas y rentabilidad. Candidatos para remoción o reevaluación.

In [None]:
# Listamos los productos en el clúster de bajo rendimiento
productos_bajo_rendimiento = datos_productos[datos_productos['Cluster'] == 2].index.tolist()

print("Productos en el clúster de bajo rendimiento:")
print(productos_bajo_rendimiento)


## 5. Sugerencias Mejoradas para Optimización de Costos
Basándonos en los modelos analíticos más complejos, podemos proporcionar recomendaciones más precisas.

### 5.1. Integración de Resultados de los Modelos
Combinamos los resultados del análisis de regresión y clustering para identificar productos que consistentemente muestran bajo rendimiento.

In [None]:
# Identificamos productos con rentabilidad predicha baja
rentabilidad_predicha = modelo_regresion.predict(X)
umbral_rentabilidad_baja = np.percentile(rentabilidad_predicha, 20)  # 20% más bajo

productos_rentabilidad_baja = X.index[rentabilidad_predicha <= umbral_rentabilidad_baja].tolist()

# Intersectamos con productos del clúster de bajo rendimiento
productos_a_considerar = set(productos_rentabilidad_baja).intersection(set(productos_bajo_rendimiento))

print("Productos sugeridos para remoción o reevaluación (según ambos modelos):")
print(productos_bajo_rendimiento)


### 5.2. Visualización de los Productos Identificados
Visualizamos estos productos para entender mejor su posición.

In [None]:
# Visualizamos la rentabilidad real de los productos a considerar
rentabilidad_productos_a_considerar = rentabilidad_por_producto.loc[productos_bajo_rendimiento]

plt.figure(figsize=(8, 6))
rentabilidad_productos_a_considerar.plot(kind='barh', color='darkred')
plt.title('Rentabilidad de Productos Sugeridos (Modelos Avanzados)')
plt.xlabel('Rentabilidad')
plt.ylabel('Producto')
plt.tight_layout()
plt.show()


## 6. Conclusiones y Recomendaciones (Actualizadas)
- **Análisis Profundo de Rentabilidad**: El modelo de regresión nos permitió identificar qué variables influyen más en la rentabilidad y predecir el desempeño de productos.

- **Agrupación de Productos**: El análisis de clústeres nos ayudó a segmentar los productos en grupos con características similares, facilitando la implementación de estrategias específicas.

- **Identificación de Productos Críticos**: Al combinar ambos modelos, identificamos productos que consistentemente presentan bajo rendimiento y son candidatos claros para remoción o reevaluación.

**Acciones Recomendadas**:

- **Remoción o Mejora de Productos**: Considerar eliminar productos con bajo desempeño o implementar estrategias para mejorar su rentabilidad.
- **Enfoque en Productos Rentables**: Destinar más recursos y esfuerzos de marketing a los productos identificados como más rentables.
**Reevaluación de Estrategias Comerciales: Analizar los canales de venta, segmentos de mercado y preferencias de cliente que afectan la rentabilidad.
