## Manipulación de datos usando .groupby()
### Adrián Vázquez 
#### 23/06/21

<b> La normalización min-max mediante .transform() </b>

- Una operación muy común es la normalización min-max. Consiste en reescalar nuestro valor de interés restando el valor mínimo y dividiendo el resultado por la diferencia entre el valor máximo y el mínimo. Por ejemplo, para reescalar los datos de peso de los estudiantes que abarcan desde 160 libras hasta 200 libras, se resta 160 al peso de cada estudiante y se divide el resultado entre 40 (200 - 160).

- Vas a definir y aplicar la normalización min-max a todas las variables numéricas de los datos del restaurante. Primero agruparás las entradas por la hora en que se realizó la comida (Almuerzo o Cena) y luego aplicarás la normalización a cada grupo por separado.


In [5]:
import pandas as pd 
import numpy as np 


restaurant_data = pd.read_csv('datasets/restaurant_data.csv')

In [4]:
# Define the min-max transformation
min_max_tr = lambda x: (x - x.min()) / (x.max() - x.min())
# Group the data according to the time
restaurant_grouped = restaurant_data.groupby('time')
# Apply the transformation
restaurant_min_max_group = restaurant_grouped.transform(min_max_tr)
print(restaurant_min_max_group.head())

   total_bill       tip  size
0    0.291579  0.001111   0.2
1    0.152283  0.073333   0.4
2    0.375786  0.277778   0.4
3    0.431713  0.256667   0.2
4    0.450775  0.290000   0.6


<b> Transformación de valores a probabilidades </b>

- En este ejercicio, aplicaremos una función de distribución de probabilidad a un DataFrame de pandas con parámetros relacionados con el grupo, transformando la variable de punta a probabilidades.

- La transformación será una transformación exponencial. La distribución exponencial se define como

###                 $ e^{-\lambda*x} * \lambda $

- donde λ (lambda) es la media del grupo al que pertenece la observación x.
  Vas a aplicar la transformación de la distribución exponencial al tamaño de cada tabla del conjunto de datos, después de agrupar los datos según la hora del día en que tuvo lugar la comida. Recuerda utilizar la media de cada grupo para el valor de λ.

In [10]:
# Define the exponential transformation
exp_tr = lambda x: np.exp(-x.mean()*x) * x.mean()
# Group the data according to the time
restaurant_grouped = restaurant_data.groupby('time')
# Apply the transformation
restaurant_exp_group = restaurant_grouped['tip'].transform(exp_tr)

restaurant_exp_group.head()

0    0.135141
1    0.017986
2    0.000060
3    0.000108
4    0.000042
Name: tip, dtype: float64

In [12]:
restaurant_data.head()

Unnamed: 0,total_bill,tip,sex,smoker,day,time,size
0,16.99,1.01,Female,No,Sun,Dinner,2
1,10.34,1.66,Male,No,Sun,Dinner,3
2,21.01,3.5,Male,No,Sun,Dinner,3
3,23.68,3.31,Male,No,Sun,Dinner,2
4,24.59,3.61,Female,No,Sun,Dinner,4


### <b> Validación de la normalización </b>

- Para este ejercicio, realizaremos una normalización de la puntuación z y verificaremos que se ha realizado correctamente.

- Una característica distintiva de los valores normalizados es que tienen una media igual a cero y una desviación estándar igual a uno.
  Después de aplicar la transformación de normalización, puede agrupar de nuevo la misma variable y comprobar la media y la desviación estándar de cada grupo.


In [16]:
poker_hands= pd.read_csv('datasets/poker_hand.csv')
zscore = lambda x: (x - x.mean()) / x.std()
# Apply the transformation
poker_grouped = poker_hands.groupby('Class')

poker_trans = poker_grouped.transform(zscore)
# Re-group the grouped object
poker_regrouped = poker_trans.groupby(poker_hands['Class'])
# Print each group's means and standard deviation
print(np.round(poker_regrouped.mean()))
print(poker_regrouped.std())

        S1   R1   S2   R2   S3   R3   S4   R4   S5   R5
Class                                                  
0      0.0  0.0 -0.0 -0.0 -0.0 -0.0  0.0 -0.0 -0.0 -0.0
1     -0.0 -0.0  0.0 -0.0  0.0  0.0  0.0  0.0 -0.0  0.0
2     -0.0 -0.0 -0.0 -0.0 -0.0  0.0 -0.0  0.0  0.0  0.0
3     -0.0  0.0  0.0 -0.0 -0.0 -0.0  0.0 -0.0  0.0 -0.0
4      0.0 -0.0 -0.0 -0.0  0.0 -0.0 -0.0  0.0  0.0  0.0
5     -0.0 -0.0 -0.0  0.0 -0.0  0.0 -0.0 -0.0 -0.0  0.0
6     -0.0 -0.0 -0.0  0.0  0.0 -0.0  0.0  0.0 -0.0  0.0
7      0.0 -0.0 -0.0  0.0 -0.0  0.0  0.0 -0.0 -0.0 -0.0
8     -0.0  0.0 -0.0  0.0 -0.0  0.0 -0.0  0.0 -0.0 -0.0
9      0.0 -0.0  0.0 -0.0  0.0 -0.0  0.0  0.0  0.0 -0.0
        S1   R1   S2   R2   S3   R3   S4   R4   S5   R5
Class                                                  
0      1.0  1.0  1.0  1.0  1.0  1.0  1.0  1.0  1.0  1.0
1      1.0  1.0  1.0  1.0  1.0  1.0  1.0  1.0  1.0  1.0
2      1.0  1.0  1.0  1.0  1.0  1.0  1.0  1.0  1.0  1.0
3      1.0  1.0  1.0  1.0  1.0  1.0  1.0  1.0  1

<b> Conclusión </b>

- Ahora sabes que la normalización se ha realizado correctamente, ya que la media de cada grupo normalizado es 0 y la desviación estándar es 1.

<B> NOTA:  </B>

- La función .transform() aplica una función a todos los miembros de cada grupo y la transformación (1) produce los mismos resultados en todo el conjunto de datos, independientemente de las agrupaciones

In [None]:
# Transformación (1)
lambda x: np.random.randint(0,10) 

### <b> Valoreas perdidos mediante transform() </b>

<b> Identificación de los valores perdidos </b>

- El primer paso antes de la imputación de valores perdidos es identificar si hay valores perdidos en nuestros datos, y si es así, de qué grupo surgen.

- Para los mismos datos de restaurant_data que encontró en la lección, un empleado borró por error las propinas que quedaban en 65 mesas. La cuestión que se plantea es cuántas entradas perdidas proceden de las mesas en las que había fumadores frente a las mesas en las que no había fumadores.

- El objetivo  es agrupar ambos conjuntos de datos según la variable fumador, contar el número o los valores presentes y luego calcular la diferencia.


> Estamos imputando consejos para que practiques los conceptos enseñados en la lección. Desde un punto de vista ético, no deberías imputar datos financieros en la vida real, ya que podría considerarse un fraude.

In [18]:
# Group both objects according to smoke condition
restaurant_nan_grouped = restaurant_nan.groupby('smoker')
# Store the number of present values
restaurant_nan_nval = restaurant_nan_grouped['tip'].count()
# Print the group-wise missing entries
print(restaurant_nan_grouped['total_bill'].count() - restaurant_nan_nval)

NameError: name 'restaurant_nan' is not defined

> Ya sabes cómo comparar dos objetos agrupados en función de los valores perdidos por grupo. Veamos cómo podemos llenar estas lagunas.

<b> Imputación de valores perdidos </b>

- Dado que la mayoría de los datos del mundo real contienen entradas que faltan, la sustitución de estas entradas por valores razonables puede aumentar la información que se puede obtener de nuestros datos.

- En el conjunto de datos del restaurante, la columna "factura_total" tiene algunas entradas que faltan, lo que significa que no se ha registrado cuánto han pagado algunas mesas. Su tarea en este ejercicio es sustituir las entradas que faltan por el valor medio de la cantidad pagada, según si la entrada se registró en la comida o en la cena (variable de tiempo).

In [20]:
# Define the lambda function
missing_trans = lambda x: x.fillna(x.median())
# Group the data according to time
restaurant_grouped = restaurant_data.groupby('time')
# Apply the transformation
restaurant_impute = restaurant_grouped.transform(missing_trans)
print(restaurant_impute.head())

   total_bill   tip  size
0       16.99  1.01     2
1       10.34  1.66     3
2       21.01  3.50     3
3       23.68  3.31     2
4       24.59  3.61     4


### <b> Filtrado de datos </b>

<b> NOTA </b>

- Puede que necesites filtrar tus datos por varias razones.

- En este ejercicio, utilizarás el filtrado para seleccionar una parte específica de nuestro DataFrame:
  - por el número de entradas registradas en cada día de la semana
  - por la cantidad media de dinero que los clientes pagaron al restaurante cada día de la semana

<B> Cree un nuevo DataFrame que contenga sólo los días en los que el recuento de total_factura sea superior a 40. </B>


In [27]:
# Filter the days where the count of total_bill is greater than $40
total_bill_40 = restaurant_data.groupby('day').filter(lambda x: x['total_bill'].count() > 40)
# Print the number of tables where total_bill is greater than $40
print('Number of tables where total_bill is greater than $40:', total_bill_40.shape[0])

Number of tables where total_bill is greater than $40: 225


<B> Del DataFrame total_factura_40, seleccione sólo las entradas que tengan una media de factura total superior a 20 dólares, agrupadas por día. </B>


In [29]:
# Select only the entries that have a mean total_bill greater than $20
total_bill_20 = total_bill_40.groupby('day').filter(lambda x : x['total_bill'].mean() > 20)
# Print days of the week that have a mean total_bill greater than $20
print('Days of the week that have a mean total_bill greater than $20:', total_bill_20.day.unique())

Days of the week that have a mean total_bill greater than $20: ['Sun' 'Sat']


<b> Conclusión: </b>

- Acabas de ayudar a un restaurante a ajustar sus horarios de apertura en función de los beneficios. No es de extrañar que el fin de semana sea el momento más rentable de la semana.