In [None]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

In [None]:
%matplotlib inline
sns.set(style="whitegrid", palette="deep")

**Presentación**

La empresa para la que trabajo se dedica a la obtención de leads a través de diferentes fuentes de tráfico, en las cuales, los visitantes deben de llenar los formularios con sus datos, pero también responder a una serie de preguntas; la respuesta para cada una de esas preguntas está asociada a un atributo, y esos atributos, a su vez, están asociados con verticales, refiriéndonos a la industria de las empresas que podrían estar interesadas en esos leads.

En el siguiente archivo, se presentan un resumen de los impactos, leads y clicks obtenidos por vertical, o conjunto de verticales, ya que muchas de las respuestas a las preguntas en el sistema pueden estar asociadas a varios atributos al mismo tiempo, por lo tanto, pueden estar asociadas a más de una vertical.

In [None]:
import gspread
import pandas as pd
from google.auth import default
from google.colab import auth
auth.authenticate_user()
creds, _ = default()
gc = gspread.authorize(creds)
spreadsheet = gc.open_by_key('13T1_vxjwIImvLQiivxgIXpz1qAAIMipKwyPIyLErFNo')
worksheet = spreadsheet.get_worksheet(0)
df = pd.DataFrame(worksheet.get())
# Code for making the first row as header. Remove if not needed.
df.columns = df.iloc[0]
df = df.drop(0)
df.head(89)

Unnamed: 0,Verticals,Campaign Impressions,Lead Deliveries,Campaign Clicks
1,Healthcare,3895208,1095355,1196712
2,Media: Online Media,1808892,70076,601624
3,Insurance,1670522,687469,526410
4,Retail: Discount,1207834,9431,718380
5,eCommerce,1200493,96548,619509
...,...,...,...,...
85,"Homeowner Services, Telecommunications",32,0,1
86,"Financial: Credit Repair, Financial Services",18,0,4
87,"Healthcare: Retirement Communities, Healthcare...",15,0,9
88,Media: TV / Entertainment,6,0,0


In [None]:
print("Dimensiones del dataset (filas, columnas):", df.shape)

Dimensiones del dataset (filas, columnas): (89, 4)


Como se puede apreciar en el dataset original de métricas por verticales, tenemos 89 verticales y conjuntos de verticales distintos, lo cual dificulta el análisis de impresiones, leads y clicks por industria, ya que, por ejemplo, la industria del "Healthcare", podría englobar todos sus subgrupos como "over the counter prescriptions", "retirement communities", entre otras.

Por esta razón, y guiándonos de las tendencias de las industrias que más acumulan impactos, se redimensiona el dataset con dos pasos: el primero es remover las verticales con métricas no significativas para nuestro análisis; y la segunda es estandarizar y agrupar todos los subgrupos de industrias en verticales generalizadas, obteniendo el siguiente reporte redimensionado.

In [None]:
import gspread
import pandas as pd
from google.auth import default
from google.colab import auth
auth.authenticate_user()
creds, _ = default()
gc = gspread.authorize(creds)
spreadsheet = gc.open_by_key('1Tc16OlJWgeA1qN53df_OvbH-H0lIETDt3NQVRG-bfWY')
worksheet = spreadsheet.get_worksheet(0)
df = pd.DataFrame(worksheet.get("A1:D11"))
# Code for making the first row as header. Remove if not needed.
df.columns = df.iloc[0]
df = df.drop(0)
df.head(10)

Unnamed: 0,Vertical,Campaign Impressions,Lead Deliveries,Campaign Clicks
1,Healthcare,8361032,2360924,2853125
2,Insurance,5812265,2028452,2140335
3,Financial,1707269,280897,405227
4,Media,2508168,75343,946570
5,Retail,1949397,23359,1109739
6,eCommerce,1918679,122307,899472
7,Government,1658514,249071,369457
8,Home & Real Estate,194946,14472,52879
9,Auto,1408885,101096,329903
10,Energy,463037,44304,99422


In [None]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 10 entries, 1 to 10
Data columns (total 4 columns):
 #   Column                Non-Null Count  Dtype 
---  ------                --------------  ----- 
 0   Vertical              10 non-null     object
 1   Campaign Impressions  10 non-null     object
 2   Lead Deliveries       10 non-null     object
 3   Campaign Clicks       10 non-null     object
dtypes: object(4)
memory usage: 452.0+ bytes


In [None]:
df.describe()

Unnamed: 0,Vertical,Campaign Impressions,Lead Deliveries,Campaign Clicks
count,10,10,10,10
unique,10,10,10,10
top,Healthcare,8361032,2360924,2853125
freq,1,1,1,1


In [None]:
df['Campaign Impressions'] = pd.to_numeric(df['Campaign Impressions'], errors='coerce')

print("Media:", df['Campaign Impressions'].mean())
print("Mediana:", df['Campaign Impressions'].median())
print("Desv. Estándar:", df['Campaign Impressions'].std())

Media: 2598219.2
Mediana: 1812974.0
Desv. Estándar: 2535460.404907944


In [None]:
df['Lead Deliveries'] = pd.to_numeric(df['Lead Deliveries'], errors='coerce')

print("Media:", df['Lead Deliveries'].mean())
print("Mediana:", df['Lead Deliveries'].median())
print("Desv. Estándar:", df['Lead Deliveries'].std())

Media: 530022.5
Mediana: 111701.5
Desv. Estándar: 885303.1200832665


In [None]:
df['Campaign Clicks'] = pd.to_numeric(df['Campaign Clicks'], errors='coerce')

print("Media:", df['Campaign Clicks'].mean())
print("Mediana:", df['Campaign Clicks'].median())
print("Desv. Estándar:", df['Campaign Clicks'].std())

Media: 920612.9
Mediana: 652349.5
Desv. Estándar: 919230.6361362382


Valores nulos: en el caso de este dataset, al ser tan pequeño, no hay datos nulos.

**Conclusiones**

La extracción y rdimensión de estos datos, correspondientes al mes de Marzo de 2025, tuvo el objetivo de entender cuál es la oferta de impresiones que podemos presentar a clientes potenciales, además de tomar decisiones acerca de las industrias en las que es conveniente prospectar nuevos clientes; en este caso, queda muy claro que la industrias a las que podemos hacerles mejores ofertas son las de Healthcare e Insurance, ya que el número de impresiones, leads entregados y clicks es muy superior al que hay en otras industrias.

Este análisis, por otro lado, nos ayuda a saber sobre qué preguntas y atributos tenemos que hacer optimizaciones para llevar impresiones, leads y clicks a las industrias en las que tenemos un impacto más bajo, pero representan clientes de calidad; por ejemplo, nuestros alcances en la industria Home & Real Estate es inferior, pero gracias a análisis realizados en paralelo a éste, sabemos que, históricamente, los clientes de esa industria cuentan con amplios presupuestos y sus esfuerzos de conversión a ventas son mucho más constantes que los del área de la salud, por lo que son clientes ideales para nuestra empresa.

Asi, ahora sabemos que nuestro sistema de perfilación de leads debe mostrar más preguntas relacionadas atributos ligados a esta industria, para poder ofrecer a nuestros clientes potenciales números que los convenzan de invertir en campañas en nuestra plataforma.

**Categorización con Algoritmos de Clasificación**

Como se ha mencionado anteriormente, estos datos corresponden al mes de Marzo de 2025, para poder mantener nuestros datasets actualizados, es necesario hacer este ejercicio de extracción, redimensión y categorización de los datos cada mes, e incluso semanalmente.

En pasos anteriores, de manera manual se llevó a cabo al cateogrización de los datos, agrupando las verticales relacionadas con la industria de Healthcare en una sola categoría, lo mismo con las verticales asociadas al resto de las industrias.

Sería ideal tener un sistema de algoritmos que categorice las verticales de manera automática, por lo que, considerando que cada vertical puede estar relacionado con más de una industria, el modelo elegido sería el de Regresión Lineal, para multi categorías.

El reto está en que mes con mes las verticales y sobretodo los conjuntos de verticales pueden ser diferentes, ya que las preguntas que se hacen a los visitantes varian según el targeting realizado por los clientes y los bids que dedican a cada atributo.

Para efectos de este ejercicio, se ha realizado la preparación de datos con los mismos datos del mes de Marzo de 2025, para ejemplificar.

El siguiente dataset contiene las verticales y las diferentes industrias, indicando con el valor "1" cuando si pertenecen a esa industria, y con un "0" cuando no pertenecen a esa industria. En resumen:

0 = No
1 = Si

In [2]:
import gspread
import pandas as pd
from google.auth import default
from google.colab import auth
auth.authenticate_user()
creds, _ = default()
gc = gspread.authorize(creds)
spreadsheet = gc.open_by_key('1ixh3hDs5zdw5xKbY6rENKcV2hk05oTLojKqSdlcvEAw')
worksheet = spreadsheet.get_worksheet(0)
df = pd.DataFrame(worksheet.get())
# Code for making the first row as header. Remove if not needed.
df.columns = df.iloc[0]
df = df.drop(0)
df.head(90)

Unnamed: 0,Verticals,Healthcare,Insurance,Financial,Media,Retail,eCommerce,Government,Home & Real Estate,Auto,Energy
1,Healthcare,1,0,0,0,0,0,0,0,0,0
2,Media: Online Media,0,0,0,1,0,0,0,0,0,0
3,Insurance,0,1,0,0,0,0,0,0,0,0
4,Retail: Discount,0,0,0,0,1,0,0,0,0,0
5,eCommerce,0,0,0,0,0,1,0,0,0,0
...,...,...,...,...,...,...,...,...,...,...,...
85,"Homeowner Services, Telecommunications",0,0,0,1,0,0,0,1,0,0
86,"Financial: Credit Repair, Financial Services",0,0,1,0,0,0,0,0,0,0
87,"Healthcare: Retirement Communities, Healthcare...",1,0,0,0,1,1,0,0,0,0
88,Media: TV / Entertainment,0,0,0,1,0,0,0,0,0,0


Para efectos de este ejercicio, dejé como valores nulos algunos de los que debieron ser "0" para poder poner en práctica la identificación y reemplazo de valores nulos en Python.

In [4]:
df.isnull()

Unnamed: 0,Verticals,Healthcare,Insurance,Financial,Media,Retail,eCommerce,Government,Home & Real Estate,Auto,Energy
1,False,False,False,False,False,False,False,False,False,False,False
2,False,False,False,False,False,False,False,False,False,False,False
3,False,False,False,False,False,False,False,False,False,False,False
4,False,False,False,False,False,False,False,False,False,False,False
5,False,False,False,False,False,False,False,False,False,False,False
...,...,...,...,...,...,...,...,...,...,...,...
85,False,False,False,False,False,False,False,False,False,False,False
86,False,False,False,False,False,False,False,False,False,False,False
87,False,False,False,False,False,False,False,False,False,False,False
88,False,False,False,False,False,False,False,False,False,False,False


In [10]:
df = df.fillna(0)

In [11]:
df

Unnamed: 0,Verticals,Healthcare,Insurance,Financial,Media,Retail,eCommerce,Government,Home & Real Estate,Auto,Energy
1,Healthcare,1,0,0,0,0,0,0,0,0,0
2,Media: Online Media,0,0,0,1,0,0,0,0,0,0
3,Insurance,0,1,0,0,0,0,0,0,0,0
4,Retail: Discount,0,0,0,0,1,0,0,0,0,0
5,eCommerce,0,0,0,0,0,1,0,0,0,0
...,...,...,...,...,...,...,...,...,...,...,...
85,"Homeowner Services, Telecommunications",0,0,0,1,0,0,0,1,0,0
86,"Financial: Credit Repair, Financial Services",0,0,1,0,0,0,0,0,0,0
87,"Healthcare: Retirement Communities, Healthcare...",1,0,0,0,1,1,0,0,0,0
88,Media: TV / Entertainment,0,0,0,1,0,0,0,0,0,0


In [13]:
import pandas as pd
from sklearn.linear_model import LogisticRegression
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score
from sklearn.multiclass import OneVsRestClassifier


X = df[['Verticals']]
y = df[['Healthcare', 'Insurance', 'Financial', 'Media', 'Retail', 'eCommerce', 'Government', 'Home & Real Estate', 'Auto', 'Energy']]

X = pd.get_dummies(X, columns=['Verticals'], drop_first=True)

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

model = OneVsRestClassifier(LogisticRegression())
model.fit(X_train, y_train)

y_pred = model.predict(X_test)

accuracy = accuracy_score(y_test, y_pred)
print(f"Precisión: {accuracy}")

nueva_vertical = pd.DataFrame

ValueError: Multioutput target data is not supported with label binarization

In [None]:
Con ayuda de nuestras prácticas y de AI generé el código que llevaría a cabo el algoritomo de regresión lineal, sin embargo el código siempre marcó errores.