# **El embudo de marketing: agrupación por semanas y meses**

Cuando los datos tienen ruido es difícil encontrar patrones. Por lo tanto, a veces tendrás que consolidarlo, por ejemplo, agrupándolo por semanas. Al agrupar los datos en una granularidad más pequeña (por ejemplo, de horas a semanas), las fluctuaciones se cancelan y hay menos ruido en los datos. Averigüemos cómo.

```python
import pandas as pd

df = pd.read_csv('datasets/funnel_cr_example.csv')
print(df)

#resultado
         date  clicks  regs  cr, %
0  2019-01-01    2000    36   1.80
1  2019-01-02   10000    26   0.26
2  2019-01-03    1000    15   1.50
3  2019-01-04    4000     4   0.10
4  2019-01-05    5000    24   0.48
5  2019-01-06    2000    66   3.30
6  2019-01-07    1000     2   0.20
7  2019-01-08    1500     2   0.13
```

Aquí está el primer algoritmo que viene a la mente:

1. Agrega la columna week al DataFrame.
2. Agrupa el DataFrame por esta columna.
3. Encuentra la tasa de conversión semanal media.


```python

# ¡es un error!

df['week'] = df['date'].dt.week
print(df.groupby('week')['cr, %'].mean())

week
36    1.091429
Name: cr, %, dtype: float64
```


Este enfoque es incorrecto. Bueno, los primeros dos pasos son correctos, pero el tercero no lo es. Así es como se debe hacer:

1. Agrega la columna week al DataFrame
2. Agrupa el DataFrame por esta columna.
3. Suma el número de impresiones, clics y registros de cada semana.
4. Vuelve a calcular la tasa de conversión semanal media.

Si solo promediamos los valores medios, perdemos información muy importante: el número de clics. Entonces estaríamos dando el mismo peso a la tasa de conversión del 2 de enero, cuando el sitio web tuvo 10 000 visitantes, y la tasa del 7 de enero, cuando solo hubo 1000.

```python
# correcto

df['week'] = df['date'].dt.week
df_ = df.groupby('week')[['regs', 'clicks']].sum()
print(df_['regs'] / df_['clicks'] * 100)

week
36    0.692
dtype: float64
```

## Ejercicios!

