# Evaluación Práctica 2


Caso de estudio: Una empresa de e-commerce ha lanzado una campaña publicitaria digital en redes sociales durante un mes. Cuenta con diferentes datos sobre el tipo de anuncio (imagen, video, carrusel), plataforma utilizada (Instagram, Facebook, YouTube), presupuesto diario, número de impresiones, clics, conversiones, y costo por clic (CPC).

Como analista de datos, tu objetivo es evaluar la efectividad de la campaña y proponer mejoras para la próxima.

Para ello:

1. Identificar un conjunto de datos que simule el caso de estudio propuesto.
2. Implementar dos algoritmos de Machine Learning, siguiendo todas las etapas del proceso de desarrollo del modelo.
3. Comparar los resultados obtenidos por ambos algoritmos y determinar cuál representa la mejor alternativa.
4. Recomendar una herramienta para la visualización de datos, describiendo sus principales ventajas.


In [None]:
from datetime import datetime, timedelta

import pandas as pd
import numpy as np
import seaborn as sns
import matplotlib.pyplot as plt
from sklearn.model_selection import train_test_split


## Generación de los datos


En este caso se arma un dataset que simule una situación parecida a la del caso de estudio y se realiza de la siguiente manera

In [None]:
np.random.seed(42)
data = {
    "tipo_anuncio": np.random.choice(["imagen", "video", "carrusel"], 1000),
    "plataforma": np.random.choice(["Instagram", "Facebook", "YouTube"], 1000),
    "presupuesto_diario": np.random.uniform(50, 500, 1000),
    "impresiones": np.random.poisson(10000, 1000),
    "clics": np.random.poisson(500, 1000),
    "conversiones": np.random.binomial(n=500, p=0.1, size=1000),
}
df = pd.DataFrame(data)
df["CPC"] = df["presupuesto_diario"] / df["clics"]
df["tasa_conversion"] = df["conversiones"] / df["clics"]

En este caso, se genera la columna de costo por click asumiendo que su cálculo se realiza dividiendo el presupuesto diario de la campaña entre los clicks. Además se genera la columna asociada a la tasa de conversión realizadas por la campaña

In [None]:
df.head()

In [None]:
df.shape

Para este dataset hay varias opciones para evaluar el rendimiento de las campañas. Si se desea estudiar si una campaña va a ser exitosa, podemos plantearlo como un problema de clasificación, agregando una columna que diga si la campaña es exitosa o no, en este caso, el kpi que se usará es si la tasa de conversión es mayor a un 0.11 se considera una campaña exitosa

In [None]:
df["es_exitosa"] = (df["tasa_conversion"] > 0.11)
df["es_exitosa"] = df["es_exitosa"].astype(int)
df.head()

In [None]:
df_encoded = pd.get_dummies(df, columns=['plataforma', 'tipo_anuncio'], drop_first=True)

In [None]:
x = df_encoded.drop(columns=["es_exitosa", "tasa_conversion"])
y = df_encoded["es_exitosa"]

In [None]:
corr_matrix = df_encoded.corr()
plt.figure(figsize=(10, 10))
sns.heatmap(corr_matrix, annot=True, fmt=".2f", cmap="coolwarm", square=True, cbar_kws={"shrink": .8})
plt.title("Matriz de Correlación")
plt.show()

In [None]:
X_train, X_test, y_train, y_test = train_test_split(x, y)

## Algoritmo 1: Arbol de Decisión


El Arbol de decisión nos puede permitir hacer uso de las características disponibles en el dataset y a partir de ellas hacer distintas decisiones para determinar la clase.

In [None]:
from sklearn.tree import DecisionTreeClassifier
from sklearn.metrics import accuracy_score, classification_report, confusion_matrix, ConfusionMatrixDisplay
from sklearn import tree

In [None]:
tree_model = DecisionTreeClassifier(random_state=42, max_depth=2)

In [None]:
tree_model.fit(X_train, y_train)

In [None]:
predictions = tree_model.predict(X_test)
print("Accuracy:", accuracy_score(y_test, predictions))
print(classification_report(y_test, predictions))
cm = confusion_matrix(y_test, predictions)
disp = ConfusionMatrixDisplay(confusion_matrix=cm)
disp.plot(cmap="Blues")


In [None]:
plt.figure(figsize=(15, 15))
tree.plot_tree(tree_model, filled=True, class_names= ["0", "1", "2"], feature_names=x.columns)
plt.show()

## Algoritmo 2: Support Vector Machine

Al tratarse de una clasificación, el SVC es una buena opción para datos de este tipo

In [None]:
from sklearn.svm import SVC

In [None]:
svm_model = SVC(kernel='linear', random_state=42)


In [None]:
svm_model.fit(X_train, y_train)

In [None]:
predictions_tree = tree_model.predict(X_test)
print("Accuracy:", accuracy_score(y_test, predictions_tree))
print(classification_report(y_test, predictions_tree))
cm = confusion_matrix(y_test, predictions_tree)
disp = ConfusionMatrixDisplay(confusion_matrix=cm)
disp.plot(cmap="Blues")

Ambos algoritmos realizaron una buena clasificación para este caso, con una buena precisión, ambos pueden predecir el éxito de un campaña. Se recomienda el uso de el SVM ya que tiene más precisión (98%)

Una herramienta recomendada para la visualización de datos es Tableau. Sus principales ventajas son:

1. Permite crear dashboards interactivos que facilitan la exploración de datos
2. Tiene una interfaz intuitiva que permite a los usuarios crear visualizaciones sin necesidad de programar
3. Puede conectarse a múltiples fuentes de datos, lo que facilita la obtención de información
4. Ofrece una amplia variedad de gráficos y opciones de personalización para representar datos de manera efectiva
