# Proyecto final: análisis de datos aplicado a una nueva bebida energizante

## Contenido

1. [Planteamiento del problema](#sec_1)
2. [Exploración del set de datos](#sec_2)
3. [Limpieza del set de datos](#sec_3)
4. [Análisis de los datos](#sec_4)
5. [Reporte final y recomendaciones](#sec_5)
6. [Sugerencias finales](#sec_6)

<a id='sec_1'></a>
## 1. Planteamiento del problema

*MegaBoost* es una marca de bebidas energizantes de Inglaterra y desea ingresar al mercado Italiano. Hace algunos meses lanzaron su bebida en 10 ciudades de Italia.

El equipo de marketing está a cargo de incrementar el posicionamiento de la marca y la participación en el mercado, además de apoyar el desarrollo del producto. Para esto aplicaron una encuesta a 10.000 personas en esas 10 ciudades.

Suponga que usted es parte del equipo de marketing encargado del análisis de datos y tiene la tarea de tomar los resultados de esta encuesta y extraer información relevante (**insights**) para la toma de decisiones con respecto al producto.

### 1.1. Tarea a realizar

Su labor es extraer los siguientes *insights* a partir de los datos:

- **Demográficos:**
    - ¿Quiénes prefieren esta bebida energética?
    - ¿Qué rangos de edad tienden a preferir la bebida?
    
 
- **Análisis de la competencia:**
    - ¿Quiénes son los actuales líderes del mercado?

- **Canales de mercadeo y conocimiento de la marca:**
    - ¿Cuál es el canal de mercadeo más efectivo?
    
- **Penetración de la marca:**
    - ¿Qué piensa la gente de nuestra marca?
    - ¿En qué ciudades debemos reforzar este posicionamiento?
    - ¿Por qué los consumidores prefieren otras marcas y no las nuestras?

Al final, y con base en el análisis anterior:

- Genere un reporte muy breve con los principales hallazgos
- Dé al menos 3 recomendaciones al equipo de marketing para mejorar las ventas del producto.

### 1.2. Recursos disponibles

- [Formato de la encuesta aplicada a las 10.000 personas](encuesta_bebida_energizante.pdf)
- [Set de datos](dataset_bebida_energizante.csv)
- [Metadatos con la descripción de la información contenida en el set de datos](metadatos_dataset_bebida_energizante.txt)

<a id='sec_2'></a>
## 2. Exploración del set de datos

El objetivo de esta fase es familiarizarnos con la información contenida en el set de datos.

Aunque cada proyecto es diferente sugiero llevar a cabo al menos estos pasos de exploración:

1. Leer el set de datos
2. Entender tamaño, columnas y filas del set de datos
3. Entender qué tipos de datos tenemos en cada columna
4. Entender el rango de valores de las variables numéricas
5. Entender los niveles de las diferentes variables categóricas
6. Verificar si hay datos faltantes

Es importante que al final de cada fase, y en caso de que sea pertinente, agreguemos una breve síntesis de lo observado. Esto nos permitirá mantener una bitácora de las observaciones que vayamos encontrando y será útil en fases posteriores del análisis.

Llevemos a cabo cada una de estas fases:

### 2.1. Leer el set de datos
y
### 2.2. Entender su tamaño y el contenido de sus filas y columnas

In [2]:
import pandas as pd 
df = pd.read_csv('dataset_bebida_energizante.csv')
df

Unnamed: 0,ID_encuestado,Edad,Género,ID_Ciudad,ID_respuesta,Frec_consumo,Momento_consumo,Motivo_consumo,Conocía_marca,Percepción_marca,...,Preocupaciones_salud,Interés_en_natural_o_organico,Canales_marketing,Preferencia_empaque,Empaque_ed_limitada,Rango_precios,Lugar_compra,Situaciones_típicas_consumo,Ciudad,Cat_Ciudad
0,120031,15-18,Mujer,CD117,103001,2-3 veces por semana,Durante el trabajo/estudio,Mayor concentración,Sí,Neutral,...,No,Sí,Publicidad en TV,Latas compactas y portables,Sí,1-2.49,Supermercados,Al estudiar/trabajar hasta tarde,Verona,Cat. 2
1,120032,19-30,Hombre,CD118,103002,2-3 veces al mes,A lo largo del día,Aumentar rendimiento,No,Neutral,...,Sí,Indiferente,Medios impresos,Latas compactas y portables,No,1-2.49,Supermercados,Al hacer deporte,Génova,Cat. 2
2,120033,15-18,Hombre,CD116,103003,Ocasional,Antes de hacer ejercicio,Mayor concentración,No,Neutral,...,No,Sí,Publicidad online,Botella con diseño innnovador,Indiferente,2.49-4,Supermercados,Al estudiar/trabajar hasta tarde,Venecia,Cat. 1
3,120034,31-45,Mujer,CD113,103004,2-3 veces por semana,Durante el trabajo/estudio,Aumentar rendimiento,No,Positiva,...,No,Sí,Publicidad online,Latas compactas y portables,No,Más de 4,Supermercados,Al hacer deporte,Turín,Cat. 1
4,120035,19-30,Mujer,CD120,103005,A diario,Durante el trabajo/estudio,Mayor concentración,Sí,Neutral,...,Sí,Sí,Publicidad online,Latas compactas y portables,Sí,2.49-4,Tiendas online,Al estudiar/trabajar hasta tarde,Siena,Cat. 2
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
9995,130026,31-45,Hombre,CD112,112996,A diario,Antes de hacer ejercicio,Mejorar desempeño deportivo,Sí,Neutral,...,No,No,Medios impresos,Latas compactas y portables,Sí,2.49-4,Supermercados,Al estudiar/trabajar hasta tarde,Roma,Cat. 1
9996,130027,15-18,Hombre,CD113,112997,A diario,Durante el trabajo/estudio,Combatir fatiga,No,Positiva,...,No,No,Publicidad en TV,Otro,Sí,1-2.49,Tiendas online,Social outings/parties,Turín,Cat. 1
9997,130028,31-45,Hombre,CD114,112998,A diario,Antes de hacer ejercicio,Mayor concentración,Sí,Positiva,...,Sí,No,Vallas publicitarias,Latas compactas y portables,No,2.49-4,Otros,Al hacer deporte,Florencia,Cat. 1
9998,130029,19-30,Hombre,CD113,112999,2-3 veces por semana,Durante el trabajo/estudio,Mayor concentración,No,Positiva,...,Sí,Sí,Publicidad online,Latas compactas y portables,Indiferente,1-2.49,Supermercados,Al estudiar/trabajar hasta tarde,Turín,Cat. 1


> **Observación**
> Al leer el data set , se pudo observar que cuenta con 10000 filas y 28 columnas, las cuales son provenientes de las encuestas realizadas, los cuales cuentan con los identificadores que estan en los metadatos.

### 2.3. Entender qué tipos de datos tenemos en cada columna

In [3]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 10000 entries, 0 to 9999
Data columns (total 28 columns):
 #   Column                         Non-Null Count  Dtype 
---  ------                         --------------  ----- 
 0   ID_encuestado                  10000 non-null  int64 
 1   Edad                           9988 non-null   object
 2   Género                         10000 non-null  object
 3   ID_Ciudad                      10000 non-null  object
 4   ID_respuesta                   10000 non-null  int64 
 5   Frec_consumo                   9988 non-null   object
 6   Momento_consumo                10000 non-null  object
 7   Motivo_consumo                 9988 non-null   object
 8   Conocía_marca                  10000 non-null  object
 9   Percepción_marca               10000 non-null  object
 10  Percepción_general             10000 non-null  object
 11  Había_probado                  9988 non-null   object
 12  Experiencia_sabor              10000 non-null  int64 
 13  Mo

>**Observación**
>Al poder observar a mas detalle el tipo de dato que tiene cada columna, se pudo ver que casi todas las columnas contienen datos categóricos, a excepción de 'ID_encuestado'y'ID_respuesta'. Por otro lado tambien se observo que la columna 'Experiencia_sabor' que es de tipo númerica pero con valores categoricos.

Exploremos a detalle que valores categoricos tiene dicha columna

In [4]:
df['Experiencia_sabor'].value_counts()

Experiencia_sabor
3    2957
4    2479
5    1986
2    1524
1    1054
Name: count, dtype: int64

>**Observación**
>Al observar los valores que cuenta la columna 'Experiencia_sabor', se puede notar que esta en forma categorica ordinal, esto debido a que en la encuesta los encuestados dieron una calificación que va desde 1 hasta 5, siendo este ultimo el puntaje más alto

>**Sugerencia**
>Como sugerencia es conveniente cambiar el tipo de dato a esta columna a un tipo object para evitar inconvenientes y tratar a esta columna como categorica ordinal

In [5]:
df['Experiencia_sabor'] = df['Experiencia_sabor'].astype('object')

### 2.4 Entender el rango de valores de las variables numéricas

In [6]:
df.select_dtypes(include='number')

Unnamed: 0,ID_encuestado,ID_respuesta
0,120031,103001
1,120032,103002
2,120033,103003
3,120034,103004
4,120035,103005
...,...,...
9995,130026,112996
9996,130027,112997
9997,130028,112998
9998,130029,112999


>**Observación**
>Como se puede observar , en ambas columnas que son de tipo numericas, estas no contienen una información significativa en cuanto al analisis que estamos realizando.

>**Sugerencia**
>Puesto que la columna 'ID_encuestado' y 'ID_respuesta' son columnas de tipo numericas y no aportan mucho ala analisis que se esta realizando, se sugiere poder eliminarlas.

### 2.5. Entender los niveles de las diferentes variables categóricas

In [14]:
for column in df.select_dtypes(exclude='number').columns:
    print('-'*30)
    print(f'*** {column} ***')
    print(df[column].value_counts())
    print('-'*30)
    input('Presione enter para continuar...')
    print('')

------------------------------
*** Edad ***
Edad
19-30    5513
31-45    2372
15-18    1487
46-65     426
65+       190
Name: count, dtype: int64
------------------------------



------------------------------
*** Género ***
Género
Hombre        6038
Mujer         3455
No binario     507
Name: count, dtype: int64
------------------------------

------------------------------
*** ID_Ciudad ***
ID_Ciudad
CD113    2828
CD116    1833
CD112    1510
CD114     937
CD118     906
CD115     566
CD117     456
CD111     429
CD119     360
CD120     175
Name: count, dtype: int64
------------------------------

------------------------------
*** Frec_consumo ***
Frec_consumo
2-3 veces por semana    3489
Ocasional               1936
2-3 veces al mes        1609
1 vez por semana        1609
A diario                1345
Name: count, dtype: int64
------------------------------

------------------------------
*** Momento_consumo ***
Momento_consumo
Durante el trabajo/estudio                        3409
Antes de hacer ejercicio                          3148
Siempre que necesito mantener la concentración    1995
A lo largo del día                                1448
Name: count, dt

>**Observación**
>Al observar las columnas categoricas, se pudo encontrar que la columna 'ID_Ciudad' no contiene información relevante para nuestro analisis que estamos llevando acabo

>**Recomendación**
>Se recomienda que debido a que la columna ID_Ciudad' no contiene información relevante, se elimine

### 2.6 Verificar si hay datos faltantes

In [20]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 10000 entries, 0 to 9999
Data columns (total 28 columns):
 #   Column                         Non-Null Count  Dtype 
---  ------                         --------------  ----- 
 0   ID_encuestado                  10000 non-null  int64 
 1   Edad                           9988 non-null   object
 2   Género                         10000 non-null  object
 3   ID_Ciudad                      10000 non-null  object
 4   ID_respuesta                   10000 non-null  int64 
 5   Frec_consumo                   9988 non-null   object
 6   Momento_consumo                10000 non-null  object
 7   Motivo_consumo                 9988 non-null   object
 8   Conocía_marca                  10000 non-null  object
 9   Percepción_marca               10000 non-null  object
 10  Percepción_general             10000 non-null  object
 11  Había_probado                  9988 non-null   object
 12  Experiencia_sabor              10000 non-null  object
 13  Mo

>**Observación**
>Al observar las columnas , se pudo evidenciar que si hay columnas con valores faltantes como lo son la columnas: Edad, Frec_consumo, Motivo_consumo y Había_probado

>**Sugerencia**
>Se sugiere que por ser columnas relevantes para nuestro analisis no se eliminen las columnas, puesto que nos podria causar problemas al momento de interpretar el analisis.

<a id='sec_3'></a>
## 3. Limpieza del set de datos

Etapas de limpieza:

1. Eliminar columnas irrelevantes
2. Reorganizar las columnas relevantes
3. Manejo de datos faltantes

Implementemos cada fase teniendo en cuenta las observaciones que hemos hecho hasta el momento.

### 3.1. Eliminar columnas irrelevantes

De las observaciones hechas anteriormente concluimos que se pueden eliminar estas columnas: "ID_encuestado", "ID_respuesta" y "ID_Ciudad".

Esto lo haremos con el método `drop`:

In [21]:
df = df.drop(columns=['ID_encuestado','ID_respuesta','ID_Ciudad'])
df

Unnamed: 0,Edad,Género,Frec_consumo,Momento_consumo,Motivo_consumo,Conocía_marca,Percepción_marca,Percepción_general,Había_probado,Experiencia_sabor,...,Preocupaciones_salud,Interés_en_natural_o_organico,Canales_marketing,Preferencia_empaque,Empaque_ed_limitada,Rango_precios,Lugar_compra,Situaciones_típicas_consumo,Ciudad,Cat_Ciudad
0,15-18,Mujer,2-3 veces por semana,Durante el trabajo/estudio,Mayor concentración,Sí,Neutral,No estoy segur@,No,5,...,No,Sí,Publicidad en TV,Latas compactas y portables,Sí,1-2.49,Supermercados,Al estudiar/trabajar hasta tarde,Verona,Cat. 2
1,19-30,Hombre,2-3 veces al mes,A lo largo del día,Aumentar rendimiento,No,Neutral,No estoy segur@,No,5,...,Sí,Indiferente,Medios impresos,Latas compactas y portables,No,1-2.49,Supermercados,Al hacer deporte,Génova,Cat. 2
2,15-18,Hombre,Ocasional,Antes de hacer ejercicio,Mayor concentración,No,Neutral,No estoy segur@,No,2,...,No,Sí,Publicidad online,Botella con diseño innnovador,Indiferente,2.49-4,Supermercados,Al estudiar/trabajar hasta tarde,Venecia,Cat. 1
3,31-45,Mujer,2-3 veces por semana,Durante el trabajo/estudio,Aumentar rendimiento,No,Positiva,Dañina,Sí,5,...,No,Sí,Publicidad online,Latas compactas y portables,No,Más de 4,Supermercados,Al hacer deporte,Turín,Cat. 1
4,19-30,Mujer,A diario,Durante el trabajo/estudio,Mayor concentración,Sí,Neutral,Efectiva,Sí,5,...,Sí,Sí,Publicidad online,Latas compactas y portables,Sí,2.49-4,Tiendas online,Al estudiar/trabajar hasta tarde,Siena,Cat. 2
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
9995,31-45,Hombre,A diario,Antes de hacer ejercicio,Mejorar desempeño deportivo,Sí,Neutral,No estoy segur@,No,4,...,No,No,Medios impresos,Latas compactas y portables,Sí,2.49-4,Supermercados,Al estudiar/trabajar hasta tarde,Roma,Cat. 1
9996,15-18,Hombre,A diario,Durante el trabajo/estudio,Combatir fatiga,No,Positiva,Saludable,Sí,2,...,No,No,Publicidad en TV,Otro,Sí,1-2.49,Tiendas online,Social outings/parties,Turín,Cat. 1
9997,31-45,Hombre,A diario,Antes de hacer ejercicio,Mayor concentración,Sí,Positiva,Efectiva,No,2,...,Sí,No,Vallas publicitarias,Latas compactas y portables,No,2.49-4,Otros,Al hacer deporte,Florencia,Cat. 1
9998,19-30,Hombre,2-3 veces por semana,Durante el trabajo/estudio,Mayor concentración,No,Positiva,Saludable,No,4,...,Sí,Sí,Publicidad online,Latas compactas y portables,Indiferente,1-2.49,Supermercados,Al estudiar/trabajar hasta tarde,Turín,Cat. 1


### 3.2. Reorganizar las columnas relevantes

En este punto tenemos únicamente columnas de tipo categórico. La idea es organizarlas por orden de importancia.

Pero además de esto, si observamos la encuesta de referencia y los metadatos, podremos agrupar las columnas por categorías:

**Columnas con información demográfica**
- Edad
- Género
- Ciudad
- Cat_Ciudad (esta columna no hace parte de la encuesta pero fue añadida por el equipo de marketing)

**Columnas con hábitos de consumo**
- Frec_consumo
- Momento_consumo
- Motivo_consumo
- Situaciones_típicas_consumo

**Conocimiento de la marca**
- Conocía_marca
- Percepción_marca
- Percepción_general

**Conocimiento del producto**
- Había_probado
- Experiencia_sabor
- Motivos_no_probarla

**Competencia**
- Marcas_que_consume
- Motivos_escoger_marca
- Mejoras_sugeridas

**Salud e ingredientes**
- Ingredientes_esperados
- Preocupaciones_salud'
- Interés_en_natural_o_organico

**Mercadeo**
- Canales_marketing
- Preferencia_empaque
- Empaque_ed_limitada
- Rango_precios
- Lugar_compra

In [23]:
# Grupos de columnas
columnas_demog = ['Edad', 'Género', 'Ciudad', 'Cat_Ciudad']
columnas_habit = ['Frec_consumo', 'Momento_consumo', 'Motivo_consumo', 'Situaciones_típicas_consumo']
columnas_marca = ['Conocía_marca', 'Percepción_marca', 'Percepción_general']
columnas_prodc = ['Había_probado', 'Experiencia_sabor', 'Motivos_no_probarla']
columnas_compe = ['Marcas_que_consume', 'Motivos_escoger_marca', 'Mejoras_sugeridas']
columnas_salud = ['Ingredientes_esperados', 'Preocupaciones_salud', 'Interés_en_natural_o_organico']
columnas_markt = ['Canales_marketing', 'Preferencia_empaque', 'Empaque_ed_limitada', 'Rango_precios', 'Lugar_compra']

In [24]:
# Reorganizar columnas por orden de prioridad
col_order = columnas_demog + columnas_marca + columnas_prodc +  columnas_compe + columnas_markt + columnas_habit + columnas_salud
df = df[col_order]
df

Unnamed: 0,Edad,Género,Ciudad,Cat_Ciudad,Conocía_marca,Percepción_marca,Percepción_general,Había_probado,Experiencia_sabor,Motivos_no_probarla,...,Empaque_ed_limitada,Rango_precios,Lugar_compra,Frec_consumo,Momento_consumo,Motivo_consumo,Situaciones_típicas_consumo,Ingredientes_esperados,Preocupaciones_salud,Interés_en_natural_o_organico
0,15-18,Mujer,Verona,Cat. 2,Sí,Neutral,No estoy segur@,No,5,No conozco la marca,...,Sí,1-2.49,Supermercados,2-3 veces por semana,Durante el trabajo/estudio,Mayor concentración,Al estudiar/trabajar hasta tarde,Guaraná,No,Sí
1,19-30,Hombre,Génova,Cat. 2,No,Neutral,No estoy segur@,No,5,No me interesan las bebidas energéticas,...,No,1-2.49,Supermercados,2-3 veces al mes,A lo largo del día,Aumentar rendimiento,Al hacer deporte,Cafeína,Sí,Indiferente
2,15-18,Hombre,Venecia,Cat. 1,No,Neutral,No estoy segur@,No,2,No disponible en la ciudad,...,Indiferente,2.49-4,Supermercados,Ocasional,Antes de hacer ejercicio,Mayor concentración,Al estudiar/trabajar hasta tarde,Cafeína,No,Sí
3,31-45,Mujer,Turín,Cat. 1,No,Positiva,Dañina,Sí,5,Otro,...,No,Más de 4,Supermercados,2-3 veces por semana,Durante el trabajo/estudio,Aumentar rendimiento,Al hacer deporte,Cafeína,No,Sí
4,19-30,Mujer,Siena,Cat. 2,Sí,Neutral,Efectiva,Sí,5,Otro,...,Sí,2.49-4,Tiendas online,A diario,Durante el trabajo/estudio,Mayor concentración,Al estudiar/trabajar hasta tarde,Cafeína,Sí,Sí
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
9995,31-45,Hombre,Roma,Cat. 1,Sí,Neutral,No estoy segur@,No,4,Preocupaciones de salud,...,Sí,2.49-4,Supermercados,A diario,Antes de hacer ejercicio,Mejorar desempeño deportivo,Al estudiar/trabajar hasta tarde,Cafeína,No,No
9996,15-18,Hombre,Turín,Cat. 1,No,Positiva,Saludable,Sí,2,No disponible en la ciudad,...,Sí,1-2.49,Tiendas online,A diario,Durante el trabajo/estudio,Combatir fatiga,Social outings/parties,Cafeína,No,No
9997,31-45,Hombre,Florencia,Cat. 1,Sí,Positiva,Efectiva,No,2,Otro,...,No,2.49-4,Otros,A diario,Antes de hacer ejercicio,Mayor concentración,Al hacer deporte,Cafeína,Sí,No
9998,19-30,Hombre,Turín,Cat. 1,No,Positiva,Saludable,No,4,No conozco la marca,...,Indiferente,1-2.49,Supermercados,2-3 veces por semana,Durante el trabajo/estudio,Mayor concentración,Al estudiar/trabajar hasta tarde,Azúcar,Sí,Sí


### 3.3. Manejo de datos faltantes

En nuestro caso todos los datos son categóricos. En este caso usualmente tenemos estas alternativas:

1. **Eliminar la fila completa**: puede ser adecuada si son pocos los datos faltantes y nuestro set contiene muchas más filas
2. **Reemplazar los datos faltantes con el valor más frecuente**: esto podría generar un sesgo aún mayor en la distribución de los niveles para la categoría de interés
3. **Desarrollar un modelo que prediga los datos faltantes**: es decir que tome información de los datos (filas y columnas) que están completos para predecir la variable en la celda faltante.
4. **Eliminar la columna**: se puede llevar a cabo si la columna de interés no contiene información relevante para el análisis

En este caso podrían ser la opción (1) o (2). Verifiquemos nuevamente la cantidad de datos faltantes con `info()`:

In [26]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 10000 entries, 0 to 9999
Data columns (total 25 columns):
 #   Column                         Non-Null Count  Dtype 
---  ------                         --------------  ----- 
 0   Edad                           9988 non-null   object
 1   Género                         10000 non-null  object
 2   Ciudad                         10000 non-null  object
 3   Cat_Ciudad                     10000 non-null  object
 4   Conocía_marca                  10000 non-null  object
 5   Percepción_marca               10000 non-null  object
 6   Percepción_general             10000 non-null  object
 7   Había_probado                  9988 non-null   object
 8   Experiencia_sabor              10000 non-null  object
 9   Motivos_no_probarla            10000 non-null  object
 10  Marcas_que_consume             10000 non-null  object
 11  Motivos_escoger_marca          10000 non-null  object
 12  Mejoras_sugeridas              10000 non-null  object
 13  Ca

In [30]:
df.isnull().sum()

Edad                             12
Género                            0
Ciudad                            0
Cat_Ciudad                        0
Conocía_marca                     0
Percepción_marca                  0
Percepción_general                0
Había_probado                    12
Experiencia_sabor                 0
Motivos_no_probarla               0
Marcas_que_consume                0
Motivos_escoger_marca             0
Mejoras_sugeridas                 0
Canales_marketing                 0
Preferencia_empaque               0
Empaque_ed_limitada               0
Rango_precios                     0
Lugar_compra                      0
Frec_consumo                     12
Momento_consumo                   0
Motivo_consumo                   12
Situaciones_típicas_consumo       0
Ingredientes_esperados            0
Preocupaciones_salud              0
Interés_en_natural_o_organico     0
dtype: int64

Las filas "problemáticas" tienen tan sólo 12 datos faltantes, muy pocos comparados con los 10.000 registros. Optaremos por la opción 1, usando `dropna()`:

In [31]:
df = df.dropna()
df.info()

<class 'pandas.core.frame.DataFrame'>
Index: 9988 entries, 0 to 9999
Data columns (total 25 columns):
 #   Column                         Non-Null Count  Dtype 
---  ------                         --------------  ----- 
 0   Edad                           9988 non-null   object
 1   Género                         9988 non-null   object
 2   Ciudad                         9988 non-null   object
 3   Cat_Ciudad                     9988 non-null   object
 4   Conocía_marca                  9988 non-null   object
 5   Percepción_marca               9988 non-null   object
 6   Percepción_general             9988 non-null   object
 7   Había_probado                  9988 non-null   object
 8   Experiencia_sabor              9988 non-null   object
 9   Motivos_no_probarla            9988 non-null   object
 10  Marcas_que_consume             9988 non-null   object
 11  Motivos_escoger_marca          9988 non-null   object
 12  Mejoras_sugeridas              9988 non-null   object
 13  Canales_

<a id='sec_4'></a>
## 4. Análisis de los datos

En este caso debemos regresar al planteamiento inicial del problema y a los *insights* que queremos encontrar.

Realizaremos el análisis enfocándonos de manera individual en cada grupo de *insights*. De nuevo, es clave que al final de cada análisis escribamos una breve observación que servirá como insumo para el reporte final.

### 4.1. Análisis demográfico

En este análisis buscamos responder las preguntas:

- ¿Quiénes prefieren esta bebida energética?
- ¿Qué rangos de edad tienden a preferir la bebida?

Para responder estas preguntas podemos usar la información de las columnas demográficas (`cols_demog`):

In [33]:
df[columnas_demog]

Unnamed: 0,Edad,Género,Ciudad,Cat_Ciudad
0,15-18,Mujer,Verona,Cat. 2
1,19-30,Hombre,Génova,Cat. 2
2,15-18,Hombre,Venecia,Cat. 1
3,31-45,Mujer,Turín,Cat. 1
4,19-30,Mujer,Siena,Cat. 2
...,...,...,...,...
9995,31-45,Hombre,Roma,Cat. 1
9996,15-18,Hombre,Turín,Cat. 1
9997,31-45,Hombre,Florencia,Cat. 1
9998,19-30,Hombre,Turín,Cat. 1


Podemos analizar las columnas "Edad", "Género" y "Ciudad" usando `value_counts()` pero con el argumento `normalize = True`

In [42]:
for column in columnas_demog:
    print('-'*30)
    print(f'** {column} ***')
    print(df[column].value_counts(normalize=True))
    print('-'*30)

------------------------------
** Edad ***
Edad
19-30    0.551962
31-45    0.237485
15-18    0.148879
46-65    0.042651
65+      0.019023
Name: proportion, dtype: float64
------------------------------
------------------------------
** Género ***
Género
Hombre        0.603925
Mujer         0.345414
No binario    0.050661
Name: proportion, dtype: float64
------------------------------
------------------------------
** Ciudad ***
Ciudad
Turín        0.282739
Venecia      0.183020
Roma         0.150981
Florencia    0.093813
Génova       0.090709
Palermo      0.056668
Verona       0.045555
Milán        0.042952
Pisa         0.036043
Siena        0.017521
Name: proportion, dtype: float64
------------------------------
------------------------------
** Cat_Ciudad ***
Cat_Ciudad
Cat.  1    0.753504
Cat.  2    0.246496
Name: proportion, dtype: float64
------------------------------


>**Observación**
>Al observar el analisis debemos de asegurarnos de realizar un analisis unicamente sobre las personas que consumen la bebidad de la empresa que es "MegaBoost", es por ello que debemos de filtrar las columnas demograficas en base a la columna 'marcas_que_consume'

In [43]:
df['Marcas_que_consume'].value_counts()

Marcas_que_consume
Coca Cola    2536
Pepsi        2109
Monster      1851
Red Bull     1058
HyperFuel     979
MegaBoost     976
Otras         479
Name: count, dtype: int64

In [46]:
for column in columnas_demog:
    print('-'*30)
    print(f'** {column} ***')
    print(df[df['Marcas_que_consume']=='MegaBoost'][column].value_counts(normalize=True))
    print('-'*30)

------------------------------
** Edad ***
Edad
19-30    0.550205
31-45    0.246926
15-18    0.138320
46-65    0.037910
65+      0.026639
Name: proportion, dtype: float64
------------------------------
------------------------------
** Género ***
Género
Hombre        0.602459
Mujer         0.358607
No binario    0.038934
Name: proportion, dtype: float64
------------------------------
------------------------------
** Ciudad ***
Ciudad
Turín        0.299180
Venecia      0.183402
Roma         0.158811
Florencia    0.094262
Génova       0.094262
Palermo      0.049180
Verona       0.046107
Milán        0.040984
Pisa         0.028689
Siena        0.005123
Name: proportion, dtype: float64
------------------------------
------------------------------
** Cat_Ciudad ***
Cat_Ciudad
Cat.  1    0.776639
Cat.  2    0.223361
Name: proportion, dtype: float64
------------------------------


> **Respuestas preguntas análisis demográfico**

> ¿Quiénes prefieren esta bebida energética?
> - El género que más consume son los hombres (60%) seguidos por las mujeres (36%) y por el género no binario (4%) y las ciudades top-3 para los 3 géneros son Turín, Venecia y Roma.

> ¿Qué rangos de edad tienden a preferir la bebida?
> - El grupo de edades que más consume es de 19 a 30 años (55%) seguido por 31-45 (24%)

### 4.2. Análisis de la competencia

La pregunta que queremos resolver es: ¿Quiénes son los actuales líderes del mercado?

Esta pregunta se puede responder de manera sencilla analizando la columna `Marcas_que_consume`:

In [53]:
df['Marcas_que_consume'].value_counts(normalize=True)

Marcas_que_consume
Coca Cola    0.253905
Pepsi        0.211153
Monster      0.185322
Red Bull     0.105927
HyperFuel    0.098018
MegaBoost    0.097717
Otras        0.047958
Name: proportion, dtype: float64

> **Respuesta preguna análisis de la competencia**

> - ¿Quiénes son los actuales líderes del mercado?
> - Coca Cola (25%), Pepsi (21%) y Monster (19%).
> - Nuestra marca que es MegaBoost tiene un porcentaje de participación del 10%

### 4.3. Penetración de la marca

Las preguntas a responder y las columnas que podríamos usar son:

- ¿Qué piensa la gente de nuestra marca?: columnas `Conocía_marca` + `Había_probado`+ `Experiencia_sabor`, `Conocía_marca` + `Percepción_marca`, `Conocía_marca` + `Motivos_no_probarla`
- ¿En qué ciudades debemos reforzar este posicionamiento?: ciudades con menos conocimiento de marca (`Ciudad` + `Conocía_marca`) 
- ¿Por qué los consumidores prefieren otras marcas y no las nuestras? `Motivos_escoger_marca`

In [61]:
# ¿Qué piensa la gente de nuestra marca?
df[(df['Conocía_marca']=='Sí') & (df['Había_probado']=='Sí')]['Experiencia_sabor'].value_counts(normalize=True)

Experiencia_sabor
3    0.306133
4    0.252720
5    0.190406
2    0.147379
1    0.103363
Name: proportion, dtype: float64

>**Observación**
>Al observar en base a que las personas conocian la marca y han probado la bebida:

>* El 30% ha dado una puntuación de 3(igual que otras bebidas de otras marcas)
>* El 25% le da una puntuación de 4(me gustó)
>* El 19% le da una puntuación de 5(me fascinó)

In [67]:
df[df['Conocía_marca']=='Sí']['Percepción_marca'].value_counts(normalize=True)

Percepción_marca
Neutral     0.575901
Positiva    0.242568
Negativa    0.181532
Name: proportion, dtype: float64

>**Observación**
>Al observar en base a que las personas conocian la marca:

>* El 58% tienen una percepción neutral acerca del nombre y del logo
>* El 24% tienen una percepción positiva acerca del nombre y del logo
>* El 18%  tienen una percepción negativa acerca del nombre y del logo

>**Sugerencia**
>En base a lo observado se sugiere que se pueda analizar nuestra marca y logo para poder generar a nuestros compradores una mejor recordación de nuesta marca

In [103]:
# ¿En qué ciudades debemos reforzar este posicionamiento?
df[df['Conocía_marca']== 'No']['Ciudad'].value_counts(normalize=True)

Ciudad
Turín        0.300829
Venecia      0.198630
Roma         0.109950
Florencia    0.101839
Génova       0.095350
Palermo      0.064167
Verona       0.044881
Pisa         0.038933
Milán        0.029200
Siena        0.016222
Name: proportion, dtype: float64

>**Observación**
>En base a lo analizado y donde los encuestados no conocian la marca, podemos decir que en es algo engañoso debido a que debemos de analizar en manera porcentual ya que la encuesta se hizo por ciudades

In [107]:
No_conocian_marca = df[df['Conocía_marca']== 'No']['Ciudad'].value_counts().sort_index()
No_conocian_marca

Ciudad
Florencia     565
Génova        529
Milán         162
Palermo       356
Pisa          216
Roma          610
Siena          90
Turín        1669
Venecia      1102
Verona        249
Name: count, dtype: int64

In [109]:
total_encuestado = df['Ciudad'].value_counts().sort_index()
total_encuestado

Ciudad
Florencia     937
Génova        906
Milán         429
Palermo       566
Pisa          360
Roma         1508
Siena         175
Turín        2824
Venecia      1828
Verona        455
Name: count, dtype: int64

In [115]:
#   Porcenteaje en base al total de encuestados y que no conocian la marca por ciudad
porcentaje_reforzar = ((No_conocian_marca * 100 )/ total_encuestado).sort_values(ascending=False)
porcentaje_reforzar

Ciudad
Palermo      62.897527
Florencia    60.298826
Venecia      60.284464
Pisa         60.000000
Turín        59.100567
Génova       58.388521
Verona       54.725275
Siena        51.428571
Roma         40.450928
Milán        37.762238
Name: count, dtype: float64

> **Respuesta a la pregunta ¿en qué ciudades debemos reforzar este posicionamiento?**: 
>* al analizar en cada ciudad el porcentaje de encuestados que no conoce nuestra marca, se obtuvieron estos resultados:

> - En 8 de las 10 ciudades donde tenemos presencia `Palermo, Florencia, Venecia, Pisa, Turín, Génova, Verona, Siena` pues en dichas ciudades al menos el 50% de los encuestados no conocía nuestra marca

¿Por qué los consumidores prefieren otras marcas y no las nuestras? `Motivos_escoger_marca`

In [121]:
df['Motivos_escoger_marca'].value_counts(normalize=True)

Motivos_escoger_marca
Reputación de la marca    0.265318
El sabor                  0.200841
Fácil de encontrar        0.191129
Efectividad               0.174910
Otro                      0.167801
Name: proportion, dtype: float64

> **Respuesta a la pregunta ¿Por qué los consumidores prefieren otras marcas y no las nuestras?**

> Al observar y analizar podemos decir que: 
>* Los consumidores prefieren otras marcas por reputación de esas marca (27%)
>* Los consumidores prefieren otras marcas por el sabor de esas márcas (20%)
>* Los consumidores prefieren otras marcas por es fácil de encontrar esas márcas (19%)

### 4.3. Canales de mercadeo y conocimiento de la marca

Las preguntas que queremos responder son:

 - ¿Cuál es el canal de mercadeo más efectivo?

In [122]:
# Canales más efectivos entre quienes han probado nuestra marca
df[df['Conocía_marca']=='Sí']['Canales_marketing'].value_counts(normalize = True)

Canales_marketing
Publicidad online       0.406081
Publicidad en TV        0.282658
Vallas publicitarias    0.118018
Otro                    0.109910
Medios impresos         0.083333
Name: proportion, dtype: float64

In [123]:
# Rangos de edad
niv_edad = df['Edad'].value_counts().index.values
print(niv_edad)

['19-30' '31-45' '15-18' '46-65' '65+']


In [124]:
# Canales más efectivos por rangos de edad
for niv in niv_edad:
    print(f'Rango de edad: {niv}')
    print(df[df['Edad']==niv]['Canales_marketing'].value_counts(normalize=True))
    print('-'*20)

Rango de edad: 19-30
Canales_marketing
Publicidad online       0.483040
Publicidad en TV        0.233630
Otro                    0.110103
Vallas publicitarias    0.105931
Medios impresos         0.067295
Name: proportion, dtype: float64
--------------------
Rango de edad: 31-45
Canales_marketing
Publicidad en TV        0.310708
Publicidad online       0.206155
Vallas publicitarias    0.181703
Otro                    0.171164
Medios impresos         0.130270
Name: proportion, dtype: float64
--------------------
Rango de edad: 15-18
Canales_marketing
Publicidad online       0.475454
Publicidad en TV        0.332213
Vallas publicitarias    0.078682
Otro                    0.063215
Medios impresos         0.050437
Name: proportion, dtype: float64
--------------------
Rango de edad: 46-65
Canales_marketing
Publicidad en TV        0.274648
Publicidad online       0.255869
Otro                    0.183099
Vallas publicitarias    0.152582
Medios impresos         0.133803
Name: proportion, dtyp

> **Respuesta a la pregunta ¿¿Cuál es el canal de mercadeo más efectivo?**

> Los canales más efectivos son `la publicidad online y la TV`. 
> - La publicidad online es el medio más efectivo para el rango de edades 15-30 años.
> - La tv es más adecuada para el rango 31-65+ o más.

<a id='sec_5'></a>
## 5. Reporte final y recomendaciones

### 5.1. Reporte final

De acuerdo ala información y habiendo respondido las preguntas que son nuestros insights:

Tras el análisis realizado observamos que:

- El género que más consume nuestra bebida son los hombres y el grupo de edad con más consumidores de nuestro producto es de los 19 a los 30 años.
- Los líderes actuales del mercado son Coca Cola, Pepsi y Monster con un 65% de participación en el mercado. Nuestro producto se encuentra en el 5° lugar con un porcentaje de participación del 10%.
- Con respecto al posicionamiento de la marca encontramos que:
    - Nuestra marca y logo no generan recordación en los compradores y que los consumidores no están del todo satisfechos con el sabor de la bebida.
    - En 8 de las 10 ciudades Italianas donde tenemos presencia, la gente NO conoce nuestra marca
    - La gente prefiere otras marcas por su reputación, por su disponibilidad y por su sabor.
- Los canales más efectivos son la publicidad online y la TV. La publicidad online es el medio más efectivo para el rango de edades 15-30 años, mientras que para el rango 31-65 o más es más adecuada la TV.

### 5.2. Recomendaciones

Con base en lo anterior se sugieren estas estrategias para mejorar las ventas de nuestro producto:

1. Mantener estrategias de publicidad dirigidas a hombres entre los 19 y 30 años, especialmente en la modalidad online y publicidad en medios de televisión dirigidas a los rangos de 31 a 65 o más años.
2. Reforzar las estrategias de publicidad dirigidas a  dos segmentos: (1) los géneros mujeres y no binario y (2) en las ciudades de Palermo, Florencia, Venecia, Pisa, Turín, Génova, Verona, Siena
3. Considerar la posibilidad de modificar el sabor de nuestra bebida para que esté alineado con las preferencias de los consumidores.
4. Fortalecer la cadena de distribución para garantizar que nuestra bebida esté disponible en las ciudades de interés.

<a id='sec_6'></a>
## 6. Sugerencias finales

En este proyecto mi persona LINER CULLANCO he analizado sólo una parte del set de datos: la que guardaba relación directa con las preguntas planteadas al comienzo.

Sin embargo, sugiero que se pueda hacer mas preguntas en base ala necesidad de la empresa
para poder tener un poco más clara de que se podria mejorar en relación ala venta de nuestro producto y que factores
impactan en nuestras ventas.