# Marketing Modeling Mix in Python

![image.png](https://github.com/Chesar832/Marketing_modeling_mix/blob/main/img/marketing_banner.png?raw=true)

*El presente tiene por objetivo analizar la data proporcionada por Kaggle para el área de Marketing; se busca encontrar "**Qué inversión publicitaria impulsa en mayor porporción a las ventas**"*

## 📤 Librerias

In [1]:
import pandas as pd
import numpy as np
import datetime as dt
from pandas_profiling import ProfileReport
import altair as alt

## 💾 Carga de datos

In [2]:
mrk_data = pd.read_csv('data/new_dataset.csv', delimiter=';')

In [3]:
mrk_data.head(5)

Unnamed: 0,WeekDate,Influencer,TV,Radio,Social Media,Sales
0,30/12/2017,Macro,444,157.102423,23.13004,1575.835702
1,30/12/2017,Mega,195,71.755979,18.409851,704.004553
2,30/12/2017,Micro,271,86.655446,17.237855,975.461079
3,30/12/2017,Nano,354,123.827561,21.4,1257.769598
4,6/01/2018,Macro,268,90.588322,12.70975,943.382384


## 📊 EDA

El [dataset](https://docs.google.com/spreadsheets/d/1d_XEzDSvhkfWHeNj3Ux5Y5KerjYGEDDB/edit?usp=sharing&ouid=100459174823708459699&rtpof=true&sd=true) con el que se va a trabajar contiene las siguientes variables:

|  **VARIABLE**  |                                          **DESCRIPCIÓN**                                      |
| :---           |                                                                                               | 
| WeekDate       | Fecha de la semana en la que se culminó la promoción                                          |
| TV             | Presupuesto de promoción televisiva *(en millones)*                                           |
| Social Media   | Presupuesto de promoción de redes sociales *(en millones)*                                    |
| Radio          | Presupuesto de promoción radiofónica *(en millones)*                                          |
| Influencer     | Tipo de influencer con el que colabora en la promoción (Mega, Macro, Nano o Micro influencer) |
| Sales          | Ventas obtenidas *(en millones)*                                                              |

In [4]:
mrk_data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 655 entries, 0 to 654
Data columns (total 6 columns):
 #   Column        Non-Null Count  Dtype  
---  ------        --------------  -----  
 0   WeekDate      655 non-null    object 
 1   Influencer    655 non-null    object 
 2   TV            655 non-null    int64  
 3   Radio         655 non-null    float64
 4   Social Media  655 non-null    float64
 5   Sales         655 non-null    float64
dtypes: float64(3), int64(1), object(2)
memory usage: 30.8+ KB


Observaciones:
1. No existen valores nulos en ningún registro.
2. Se tienen únicamente 655 registros.
3. Las variable WeekDate tiene un formato incorrecto para la realización del análisis.

### Corrigiendo formatos

In [5]:
mrk_data['WeekDate'] = pd.to_datetime(mrk_data['WeekDate'])

In [6]:
mrk_data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 655 entries, 0 to 654
Data columns (total 6 columns):
 #   Column        Non-Null Count  Dtype         
---  ------        --------------  -----         
 0   WeekDate      655 non-null    datetime64[ns]
 1   Influencer    655 non-null    object        
 2   TV            655 non-null    int64         
 3   Radio         655 non-null    float64       
 4   Social Media  655 non-null    float64       
 5   Sales         655 non-null    float64       
dtypes: datetime64[ns](1), float64(3), int64(1), object(1)
memory usage: 30.8+ KB


Ahora el formato de la variable Weekdate es el adecuado.

### Generando el reporte

In [8]:
report = ProfileReport(mrk_data, title="Marketing modeling mix", explorative=True)
report.to_file("marketing-report.html")

Summarize dataset:   0%|          | 0/5 [00:00<?, ?it/s]

Generate report structure:   0%|          | 0/1 [00:00<?, ?it/s]

Render HTML:   0%|          | 0/1 [00:00<?, ?it/s]

Export report to file:   0%|          | 0/1 [00:00<?, ?it/s]

Del reporte generado:
- Ninguna variable contiene valores faltantes.
- No existen filas que contengan valores duplicados.
- Las variables TV e influencer están fuertemente correlacionadas(esto puede ser ocasionado por la naturaleza publicitaria de los influencers en los medios audiovisuales).
- La distribución de los tipos de influencers es casi simétrica.
- La distribución de los presupuestos de publicidad televisiva, radiofónica, por redes sociales y las ventas es casi simétrica.
- Los presupuestos para marketing televisivo están más fuertemente relacionados a las ventas generadas que las otras variables.

## ✂ División del dataset