In [62]:
# Hago todas las importaciones necesarias
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

In [63]:
# Cargo los datos leyendo el csv y uso on_bad_lines='skip' para saltar las líneas con errores o problemas
df = pd.read_csv('../data/marketingcampaigns.csv', on_bad_lines='skip')

In [64]:
# Muestro las primeras filas del dataframe
df.head(5)

Unnamed: 0,campaign_name,start_date,end_date,budget,roi,type,target_audience,channel,conversion_rate,revenue
0,Public-key multi-tasking throughput,2023-04-01,2024-02-23,8082.3,0.35,email,B2B,organic,0.4,709593.48
1,De-engineered analyzing task-force,2023-02-15,2024-04-22,17712.98,0.74,email,B2C,promotion,0.66,516609.1
2,Balanced solution-oriented Local Area Network,2022-12-20,2023-10-11,84643.1,0.37,podcast,B2B,paid,0.28,458227.42
3,Distributed real-time methodology,2022-09-26,2023-09-27,14589.75,0.47,webinar,B2B,organic,0.19,89958.73
4,Front-line executive infrastructure,2023-07-07,2024-05-15,39291.9,0.3,social media,B2B,promotion,0.81,47511.35


In [65]:
# Muestro información del dataframe
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1032 entries, 0 to 1031
Data columns (total 10 columns):
 #   Column           Non-Null Count  Dtype  
---  ------           --------------  -----  
 0   campaign_name    1032 non-null   object 
 1   start_date       1031 non-null   object 
 2   end_date         1030 non-null   object 
 3   budget           1029 non-null   object 
 4   roi              1028 non-null   float64
 5   type             1031 non-null   object 
 6   target_audience  1030 non-null   object 
 7   channel          1031 non-null   object 
 8   conversion_rate  1028 non-null   float64
 9   revenue          1029 non-null   float64
dtypes: float64(3), object(7)
memory usage: 80.8+ KB


In [66]:
# Muestro estadísticas descriptivas del dataframe
df.describe()

Unnamed: 0,roi,conversion_rate,revenue
count,1028.0,1028.0,1029.0
mean,0.53,0.54,511591.2
std,0.26,0.27,287292.73
min,-0.2,0.0,108.21
25%,0.31,0.3,267820.25
50%,0.53,0.55,518001.77
75%,0.76,0.77,765775.14
max,0.99,1.5,999712.49


In [67]:
# Elimino filas con valores NaN (not a number) en las columnas
df_limpioNulos = df.dropna(subset=['campaign_name', 'start_date', 'end_date', 'budget', 'roi', 'type', 'target_audience', 'channel', 'conversion_rate', 'revenue'])

In [68]:
# Elimino filas duplicadas en el dataframe
df_limpioDuplicados = df_limpioNulos.drop_duplicates()

In [69]:
# Muestro la cantidad de filas y columnas del dataframe limpio
df_limpioDuplicados.shape

(1006, 10)

In [70]:
# Corrijo formato de fechas usando to_datetime
df_limpioDuplicados['start_date'] = pd.to_datetime(df_limpioDuplicados['start_date'], errors='coerce')
df_limpioDuplicados['end_date'] = pd.to_datetime(df_limpioDuplicados['end_date'], errors='coerce')

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df_limpioDuplicados['start_date'] = pd.to_datetime(df_limpioDuplicados['start_date'], errors='coerce')
A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df_limpioDuplicados['end_date'] = pd.to_datetime(df_limpioDuplicados['end_date'], errors='coerce')


In [71]:
# Corrijo formato numérico (budget, roi, conversion_rate, revenue) 
df_limpioDuplicados['budget'] = pd.to_numeric(df_limpioDuplicados['budget'], errors='coerce')
df_limpioDuplicados['roi'] = pd.to_numeric(df_limpioDuplicados['roi'], errors='coerce') 
df_limpioDuplicados['conversion_rate'] = pd.to_numeric(df_limpioDuplicados['conversion_rate'], errors='coerce')
df_limpioDuplicados['revenue'] = pd.to_numeric(df_limpioDuplicados['revenue'], errors='coerce')

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df_limpioDuplicados['budget'] = pd.to_numeric(df_limpioDuplicados['budget'], errors='coerce')
A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df_limpioDuplicados['roi'] = pd.to_numeric(df_limpioDuplicados['roi'], errors='coerce')
A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df_limpioDuplicados['co

In [72]:
# De los nombres de las campañas voy a hacer un strip  ( elimino espacios al principio y al final) y lower (lo paso a minúsculas)
df_limpioDuplicados['campaign_name'] = df_limpioDuplicados['campaign_name'].str.strip().str.lower()

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df_limpioDuplicados['campaign_name'] = df_limpioDuplicados['campaign_name'].str.strip().str.lower()


In [73]:
# De la columna type limpio los datos
df_limpioDuplicados['type'] = df_limpioDuplicados['type'].str.strip().str.lower()
# De la columna target_audience limpio los datos
df_limpioDuplicados['target_audience'] = df_limpioDuplicados['target_audience'].str.strip().str.upper()
# De la columna channel limpio los datos
df_limpioDuplicados['channel'] = df_limpioDuplicados['channel'].str.strip().str.lower()

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df_limpioDuplicados['type'] = df_limpioDuplicados['type'].str.strip().str.lower()
A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df_limpioDuplicados['target_audience'] = df_limpioDuplicados['target_audience'].str.strip().str.upper()
A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df_limpioDuplicados

In [74]:
# Compruebo los valores únicos
df_limpioDuplicados['campaign_name'].unique()
df_limpioDuplicados['type'].unique()
df_limpioDuplicados['target_audience'].unique()
df_limpioDuplicados['channel'].unique()

array(['organic', 'promotion', 'paid', 'referral'], dtype=object)

In [75]:
# Manejar valores atípicos 
# Utilizo los cuartiles para detectar valores atípicos en la columna budget

# Con el cuartil 0,25 saco el 25% de los datos y con el cuartil 0,75 saco el 75% de los datos
Q1_budget = df_limpioDuplicados['budget'].quantile(0.25)
Q3_budget = df_limpioDuplicados['budget'].quantile(0.75)
# Calculo el rango intercuartílico (IQR) restando Q1 de Q3 y saco la amplitud del rango central de los datos
IQR_budget = Q3_budget - Q1_budget
print(IQR_budget)

50005.4675


In [76]:
# Identifico outliers
# Se calcula restando 1.5 veces el IQR al primer cuartil (los datos que estén por debajo son datos atípicos)
lower_bound_budget = Q1_budget - 1.5 * IQR_budget
# Se calcula sumando 1.5 veces el IQR al tercer cuartil (los datos que estén por encima son datos atípicos)
upper_bound_budget = Q3_budget + 1.5 * IQR_budget

# Creo una variable llamada outliers que contiene los datos que se encuentren menor del limite inferior o mayor del limite superior
outliers = ((df_limpioDuplicados[['budget', 'roi']] < lower_bound_budget) | (df_limpioDuplicados[['budget', 'roi']] > upper_bound_budget))

print("Número de outliers por cada columna: ")
print(outliers.sum())


Número de outliers por cada columna: 
budget    1
roi       0
dtype: int64


In [77]:
# Creo nuevas columnas que me parecen intresantes para el análisis
# Creo la columna duracionCampaña que contiene la duración de la campaña en días
df_limpioDuplicados['duracionCampaña'] = (df_limpioDuplicados['end_date'] - df_limpioDuplicados['start_date']).dt.days

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df_limpioDuplicados['duracionCampaña'] = (df_limpioDuplicados['end_date'] - df_limpioDuplicados['start_date']).dt.days


In [78]:
# Creo la columna roiAjustado que es el roi menos la duracion de la campaña
df_limpioDuplicados['roiAjustado'] = df_limpioDuplicados['roi'] - df_limpioDuplicados['duracionCampaña']

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df_limpioDuplicados['roiAjustado'] = df_limpioDuplicados['roi'] - df_limpioDuplicados['duracionCampaña']


In [79]:
# Creo la columna eficiencia de costo que es el revenue menos el budget
df_limpioDuplicados['eficienciaCosto'] = df_limpioDuplicados['revenue'] - df_limpioDuplicados['budget']

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df_limpioDuplicados['eficienciaCosto'] = df_limpioDuplicados['revenue'] - df_limpioDuplicados['budget']


In [80]:
# Verifico las columnas creadas anteriormente
df_limpioDuplicados.info()

<class 'pandas.core.frame.DataFrame'>
Index: 1006 entries, 0 to 1031
Data columns (total 13 columns):
 #   Column           Non-Null Count  Dtype         
---  ------           --------------  -----         
 0   campaign_name    1006 non-null   object        
 1   start_date       1005 non-null   datetime64[ns]
 2   end_date         1005 non-null   datetime64[ns]
 3   budget           1006 non-null   float64       
 4   roi              1006 non-null   float64       
 5   type             1006 non-null   object        
 6   target_audience  1006 non-null   object        
 7   channel          1006 non-null   object        
 8   conversion_rate  1006 non-null   float64       
 9   revenue          1006 non-null   float64       
 10  duracionCampaña  1005 non-null   float64       
 11  roiAjustado      1005 non-null   float64       
 12  eficienciaCosto  1006 non-null   float64       
dtypes: datetime64[ns](2), float64(7), object(4)
memory usage: 110.0+ KB


In [81]:
# Creo una columna que sea estaciones para sacar un quarter de la columna start_date
df_limpioDuplicados['estacionesInicio'] = df_limpioDuplicados['start_date'].dt.quarter

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df_limpioDuplicados['estacionesInicio'] = df_limpioDuplicados['start_date'].dt.quarter


In [82]:
# Creo una columna llamada mesInicio con el nombre del mes de inicio
df_limpioDuplicados['mesInicio'] = df_limpioDuplicados['start_date'].dt.month_name()

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df_limpioDuplicados['mesInicio'] = df_limpioDuplicados['start_date'].dt.month_name()


In [83]:
# Creo una columna llamada roiDiario que es el roi entre la duracion de la campaña
df_limpioDuplicados['roiDiario'] = df_limpioDuplicados['roi'] / df_limpioDuplicados['duracionCampaña']

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df_limpioDuplicados['roiDiario'] = df_limpioDuplicados['roi'] / df_limpioDuplicados['duracionCampaña']


In [84]:
# Valores faltantes por cada columna
print(df_limpioDuplicados.isnull)

<bound method DataFrame.isnull of                                       campaign_name start_date   end_date  \
0               public-key multi-tasking throughput 2023-04-01 2024-02-23   
1                de-engineered analyzing task-force 2023-02-15 2024-04-22   
2     balanced solution-oriented local area network 2022-12-20 2023-10-11   
3                 distributed real-time methodology 2022-09-26 2023-09-27   
4               front-line executive infrastructure 2023-07-07 2024-05-15   
...                                             ...        ...        ...   
1007                             duplicate campaign 2023-04-01 2024-02-23   
1008                                 outlier budget 2023-07-01 2024-03-01   
1025                                future campaign 2025-01-01 2025-06-01   
1030                              overlapping dates 2023-03-01 2022-12-31   
1031                           too many conversions 2023-05-01 2023-11-01   

           budget  roi          type targ

In [85]:
# Tipos de datos finales
df_limpioDuplicados.dtypes

campaign_name               object
start_date          datetime64[ns]
end_date            datetime64[ns]
budget                     float64
roi                        float64
type                        object
target_audience             object
channel                     object
conversion_rate            float64
revenue                    float64
duracionCampaña            float64
roiAjustado                float64
eficienciaCosto            float64
estacionesInicio           float64
mesInicio                   object
roiDiario                  float64
dtype: object

In [86]:
columnasNumericas = df_limpioDuplicados.select_dtypes(include=[np.number]).columns
print(f'En el dataframe las columnas numéricas son: {columnasNumericas}')

En el dataframe las columnas numéricas son: Index(['budget', 'roi', 'conversion_rate', 'revenue', 'duracionCampaña',
       'roiAjustado', 'eficienciaCosto', 'estacionesInicio', 'roiDiario'],
      dtype='object')


In [87]:
medias = df_limpioDuplicados[columnasNumericas].mean()
print("Medias de las columnas numéricas: ")
print(medias)

Medias de las columnas numéricas: 
budget              59,426.11
roi                      0.54
conversion_rate          0.54
revenue            516,023.03
duracionCampaña        366.23
roiAjustado           -365.69
eficienciaCosto    456,596.93
estacionesInicio         2.47
roiDiario                0.00
dtype: float64


In [88]:
medianas = df_limpioDuplicados[columnasNumericas].median()
print("Medianas de las columnas numéricas: ")
print(medianas)

Medianas de las columnas numéricas: 
budget              47,210.00
roi                      0.54
conversion_rate          0.55
revenue            522,361.96
duracionCampaña        365.00
roiAjustado           -364.04
eficienciaCosto    477,542.86
estacionesInicio         3.00
roiDiario                0.00
dtype: float64


In [89]:
# Creo un dataframe para poder mostrar de manera comoda las medias y medianas de los datos numericos
medias_df = pd.DataFrame({
    'Columna': medias.index,
    'Media' : medias.values
}).sort_values('Media', ascending=False)

medianas_df = pd.DataFrame({
    'Columna': medianas.index,
    'Mediana' : medianas.values
}).sort_values('Mediana', ascending=False)

In [90]:
# Formateo esos dos dataframes para verlos de manera cómoda
pd.options.display.float_format = '{:,.2f}'.format
print("Medias ordenadas de mayor a menor")
print(medias_df)
print("Medianas ordenadas de mayor a menor")
print(medianas_df)

Medias ordenadas de mayor a menor
            Columna      Media
3           revenue 516,023.03
6   eficienciaCosto 456,596.93
0            budget  59,426.11
4   duracionCampaña     366.23
7  estacionesInicio       2.47
2   conversion_rate       0.54
1               roi       0.54
8         roiDiario       0.00
5       roiAjustado    -365.69
Medianas ordenadas de mayor a menor
            Columna    Mediana
3           revenue 522,361.96
6   eficienciaCosto 477,542.86
0            budget  47,210.00
4   duracionCampaña     365.00
7  estacionesInicio       3.00
2   conversion_rate       0.55
1               roi       0.54
8         roiDiario       0.00
5       roiAjustado    -364.04


In [91]:
# Ahora exporto el df_limpioDuplicados a un archivo csv en la carpeta data
df_limpioDuplicados.to_csv('../data/archivoMarketingLimpio.csv', index=False, encoding='utf-8')
print("Archivo guardado")

Archivo guardado
