<h1>Table of Contents<span class="tocSkip"></span></h1>
<div class="toc"><ul class="toc-item"><li><span><a href="#apply()" data-toc-modified-id="apply()-1"><span class="toc-item-num">1&nbsp;&nbsp;</span><code>apply()</code></a></span><ul class="toc-item"><li><span><a href="#¿Qué-es-un-apply?" data-toc-modified-id="¿Qué-es-un-apply?-1.1"><span class="toc-item-num">1.1&nbsp;&nbsp;</span>¿Qué es un <code>apply</code>?</a></span></li><li><span><a href="#Uso-de-apply" data-toc-modified-id="Uso-de-apply-1.2"><span class="toc-item-num">1.2&nbsp;&nbsp;</span>Uso de apply</a></span></li></ul></li><li><span><a href="#ExcelWriter()" data-toc-modified-id="ExcelWriter()-2"><span class="toc-item-num">2&nbsp;&nbsp;</span><code>ExcelWriter()</code></a></span></li><li><span><a href="#Escritura-secuencial-de-datos-con-bucles-for" data-toc-modified-id="Escritura-secuencial-de-datos-con-bucles-for-3"><span class="toc-item-num">3&nbsp;&nbsp;</span>Escritura secuencial de datos con bucles <em>for</em></a></span></li></ul></div>

In [1]:
# importamos todas las librerías que necesitamos

import pandas as pd
pd.options.display.max_columns = None # para que muestre todas las columnas

# `apply()` 

## ¿Qué es un `apply`? 

En el caso de que necesitemos aplicar una misma función a las filas o columnas de un objeto DataFrame de Pandas contamos con el método apply(). Con el que es posible aplicar funciones (tanto creadas por nosotros como las *build-in functions* de Pyrhon) a los conjuntos de datos. Esto hace que sea un método interesante de conocer y, cuando se comprende bien su funcionamiento, permite realizar operaciones complejas de forma eficiente. Por eso en esta entrada vamos a ver cómo aplicar una función a las filas o columnas de un DataFrame con `apply()`. 


La función `apply` de Pandas DataFrame es una de las mejores herramientas que tenemos en pandas para hacerlo. Toma una función como argumento y la aplica a lo largo de un eje del DataFrame.

Basicamente lo que va a hacer este método es ir celda a celda de la columna que especifiquemos y le aplicara a los valores de la celda la función que le indiquemos. 



In [2]:
# Como hasta ahora en este jupyter trabajaremos con el dataset de Marketing que usamos en la lección de filtrado

df = pd.read_csv("datos/Marketing-Customer-Analysis.csv")
df.head(1)

Unnamed: 0,Customer,State,Customer Lifetime Value,Response,Coverage,Education,Effective To Date,EmploymentStatus,Gender,Income,Location Code,Marital Status,Monthly Premium Auto,Months Since Last Claim,Months Since Policy Inception,Number of Open Complaints,Number of Policies,Policy Type,Policy,Renew Offer Type,Sales Channel,Total Claim Amount,Vehicle Class,Vehicle Size
0,BU79786,Washington,2763.519279,No,Basic,Bachelor,2/24/11,Employed,F,56274,Suburban,Married,69,32,5,0,1,Corporate Auto,Corporate L3,Offer1,Agent,384.811147,Two-Door Car,Medsize


In [3]:
# vamos a homogeneizar los nombres de las columnas

nuevas_columnas = {col: col.lower().replace(" ", "_") for col in df.columns}
df.rename(columns = nuevas_columnas, inplace = True)
df.head(1)

Unnamed: 0,customer,state,customer_lifetime_value,response,coverage,education,effective_to_date,employmentstatus,gender,income,location_code,marital_status,monthly_premium_auto,months_since_last_claim,months_since_policy_inception,number_of_open_complaints,number_of_policies,policy_type,policy,renew_offer_type,sales_channel,total_claim_amount,vehicle_class,vehicle_size
0,BU79786,Washington,2763.519279,No,Basic,Bachelor,2/24/11,Employed,F,56274,Suburban,Married,69,32,5,0,1,Corporate Auto,Corporate L3,Offer1,Agent,384.811147,Two-Door Car,Medsize


## Uso de apply

In [4]:
# Lo primero que vamos a hacer es crearnos una copia de nuestro *dataframe* sobre el que trabajaremos. 

df_copia = df.copy()
df_copia.head(2)

Unnamed: 0,customer,state,customer_lifetime_value,response,coverage,education,effective_to_date,employmentstatus,gender,income,location_code,marital_status,monthly_premium_auto,months_since_last_claim,months_since_policy_inception,number_of_open_complaints,number_of_policies,policy_type,policy,renew_offer_type,sales_channel,total_claim_amount,vehicle_class,vehicle_size
0,BU79786,Washington,2763.519279,No,Basic,Bachelor,2/24/11,Employed,F,56274,Suburban,Married,69,32,5,0,1,Corporate Auto,Corporate L3,Offer1,Agent,384.811147,Two-Door Car,Medsize
1,QZ44356,Arizona,6979.535903,No,Extended,Bachelor,1/31/11,Unemployed,F,0,Suburban,Single,94,13,42,0,8,Personal Auto,Personal L3,Offer3,Agent,1131.464935,Four-Door Car,Medsize


Para entender el `apply` en este jupyter trabajaremos con la columna de `effective_to_date`. Lo que haremos será crear una función que nos separe la fecha en año y mes. Con esto crearemos dos columnas, una la llamaremos "año" y otra "mes". 

In [5]:
#creemos la función para sacar el año

def sacar_año(x):
    '''
    Función que recibe una fecha y extrae el año
    
    Args: 
        x(str): cada fecha que tenemos en nuestro dataframe
    Returns: 
        el año en formato string
    '''
    return x.split("/")[2]

def sacar_mes(x):
    '''
    Función que recibe una fecha y extrae el mes
    
    Args: 
        x(str): cada fecha que tenemos en nuestro dataframe
    Returns: 
        el mes en formato string
    '''
    return x.split("/")[1]

In [6]:
df_copia["año"] = (df_copia["effective_to_date"].apply(sacar_año))
df_copia["mes"] = (df_copia["effective_to_date"].apply(sacar_mes))

In [7]:
# si nos fijamos ahora tenemos dos columnas nuevas, "año" y "mes"

df_copia.head(2)

Unnamed: 0,customer,state,customer_lifetime_value,response,coverage,education,effective_to_date,employmentstatus,gender,income,location_code,marital_status,monthly_premium_auto,months_since_last_claim,months_since_policy_inception,number_of_open_complaints,number_of_policies,policy_type,policy,renew_offer_type,sales_channel,total_claim_amount,vehicle_class,vehicle_size,año,mes
0,BU79786,Washington,2763.519279,No,Basic,Bachelor,2/24/11,Employed,F,56274,Suburban,Married,69,32,5,0,1,Corporate Auto,Corporate L3,Offer1,Agent,384.811147,Two-Door Car,Medsize,11,24
1,QZ44356,Arizona,6979.535903,No,Extended,Bachelor,1/31/11,Unemployed,F,0,Suburban,Single,94,13,42,0,8,Personal Auto,Personal L3,Offer3,Agent,1131.464935,Four-Door Car,Medsize,11,31


Esta misma operación la podemos hacer con la librería `datetime`. Exploremosla un poco. 

In [8]:
# lo primero que tenemos que hacer es importarla
import datetime

In [9]:
# para trabajar con esta librería lo primero que tenemos que hacer es convertir el tipo de la
## columna "effective_to_date" a formato datetime. Para eso usaremos un apply

df_copia["effective_to_date"] = df_copia["effective_to_date"].apply(pd.to_datetime)
df_copia.head(1)

Unnamed: 0,customer,state,customer_lifetime_value,response,coverage,education,effective_to_date,employmentstatus,gender,income,location_code,marital_status,monthly_premium_auto,months_since_last_claim,months_since_policy_inception,number_of_open_complaints,number_of_policies,policy_type,policy,renew_offer_type,sales_channel,total_claim_amount,vehicle_class,vehicle_size,año,mes
0,BU79786,Washington,2763.519279,No,Basic,Bachelor,2011-02-24,Employed,F,56274,Suburban,Married,69,32,5,0,1,Corporate Auto,Corporate L3,Offer1,Agent,384.811147,Two-Door Car,Medsize,11,24


In [10]:
# dentro de esta librería tenemos muchisimas funcionalidades. Entre ellas, tenemos el método "strftime" que nos va a 
# permitir extraer el año, a el mes o el día en distintos formatos. 

def sacar_año2(x):
    return x.strftime("%Y")

def sacar_mes2(x):
    return x.strftime("%B")

In [11]:
df_copia["año2"] = df_copia["effective_to_date"].apply(sacar_año2)
df_copia["mes2"] = df_copia["effective_to_date"].apply(sacar_mes2)


In [12]:
# si nos fijamos ahora tenemos una columna nueva con el año (año2) y otra con el mes completo en letras (mes2)

df_copia.sample(1)

Unnamed: 0,customer,state,customer_lifetime_value,response,coverage,education,effective_to_date,employmentstatus,gender,income,location_code,marital_status,monthly_premium_auto,months_since_last_claim,months_since_policy_inception,number_of_open_complaints,number_of_policies,policy_type,policy,renew_offer_type,sales_channel,total_claim_amount,vehicle_class,vehicle_size,año,mes,año2,mes2
3,WW63253,California,7645.861827,No,Basic,Bachelor,2011-01-20,Unemployed,M,0,Suburban,Married,106,18,65,0,7,Corporate Auto,Corporate L2,Offer1,Call Center,529.881344,SUV,Medsize,11,20,2011,January


📌 Más información sobre esta librería [aquí](https://docs.python.org/3/library/datetime.html)

**¿Qué pasa si queremos usar una función que recibe dos parámetros?** 

En este caso, la cosa se va a complicar un poquito más, ya que tendremos que usar una `lambda` para usar el `apply`

Imaginemos ahora que queremos saber la media del dinero que se han llevado los clientes por cada reclamación que tienen. Para esto, tendremos en cuenta los meses que lleva cada cliente con nosotros (`total_claim_amount`) y el número de reclamaciones que puso cada cliente (`number_of_open_complaints`). Lo que tendremos que hacer es una división de esas dos columnas. 

In [13]:
def media_reclamaciones (dinero, reclamaciones):
    '''
    Esta función calcula la media de dinero que se lleva cada cliente por reclamación
    Args: 
        dinero (int o float): el dinero que han recibido cada cliente en sus reclamaciones
        reclamaciones (int): el número de reclamaciones que se ha puesto el cliente
    Returns: 
        Int o float con la media de dinero por reclamación. 
    '''
    # en este caso tendré que hacer un try except porque puede que haya algún cliente que no haya puesto ninguna reclamación
    try: 
        return dinero/reclamaciones
    except: 
        return "no puso ninguna reclamación"

In [14]:
df_copia["media_reclamaciones"] = df_copia.apply(lambda datos: media_reclamaciones( # en este caso, no especificamos el nombre de la columna, haremos el apply sobre todo el dataframe. Dentro del apply iniciamos el lambda que recibirá unos datos. En este caso todo el dataframe 
                                        datos['total_claim_amount'], datos['number_of_open_complaints']), # especificamos las columnas sobre las que queremos aplicar el apply
                                        axis = 1) # especificamos es el eje 1 ya que estamos trabajando con columnas. 


In [15]:
df_copia.sample(2)

Unnamed: 0,customer,state,customer_lifetime_value,response,coverage,education,effective_to_date,employmentstatus,gender,income,location_code,marital_status,monthly_premium_auto,months_since_last_claim,months_since_policy_inception,number_of_open_complaints,number_of_policies,policy_type,policy,renew_offer_type,sales_channel,total_claim_amount,vehicle_class,vehicle_size,año,mes,año2,mes2,media_reclamaciones
6630,LY30169,California,3360.269641,No,Extended,High School or Below,2011-01-23,Employed,M,75216,Rural,Married,84,23,39,1,1,Corporate Auto,Corporate L3,Offer4,Agent,65.803328,Four-Door Car,Medsize,11,23,2011,January,65.803328
262,JU93290,Arizona,17930.60451,No,Basic,College,2011-01-16,Medical Leave,F,21708,Suburban,Divorced,68,28,77,0,2,Personal Auto,Personal L2,Offer1,Web,326.4,Four-Door Car,Medsize,11,16,2011,January,no puso ninguna reclamación


# `ExcelWriter()`

Nos va a permitir escribir *dataframes* en hojas de Excel.

In [16]:
with pd.ExcelWriter("datos/marketing.xlsx") as writer: # donde queremos guardar el excel
    df.to_excel(writer, sheet_name="sucio")  # el dataframe que queremos guardar y como queremos que se llame la hoja de excel
    df_copia.to_excel(writer, sheet_name="limpio") # el dataframe y como queremos que se llame la hoja de excel

# Escritura secuencial de datos con bucles *for*

En este apartado lo que haremos será realizar varios groupby con los que sacaremos la media, la desviación estándar y la mediana de cada uno de los grupos para las columnas de `customer_lifetime_value`  y `number_of_policies`. 

Para hacer esto haremos un for loop y después lo almacenaremos todo en un excel, donde cada agrupación se guarde en una hoja diferente. 

In [17]:
# lo primero que hacemos es definir los distintos grupos que vamos a querer definir. 
grupo_clientes1 = ['policy_type','vehicle_size']
grupo_clientes2 = ['state','employmentstatus', 'coverage']

valores = ['customer_lifetime_value', 'number_of_policies' ] # las columnas sobre las que queremos aplicar las operaciones en el groupy

Con los grupos definidos anteriormente lo que vamos a sacar todas las combinaciones de `groupby` entre la lista de grupo_clientes1 y grupo_clientes2. Es decir: 

- policy_type vs state
- policy_type vs employmentstatus
- policy_type vs coverage



- vehicle_size vs state
- vehicle_size vs employmentstatus
- vehicle_size vs coverage

In [18]:
todos_resultados = [] # creamos una lista donde iremos "guardando todos los resultados de los groupby"

print("Todas las combinaciones que nos salen de este triple for son: ") #  hacemos un print para ver todas las posibles combinaciones entre nuestros grupos
for g1 in grupo_clientes1: # iteramos por el primer grupo
    for g2 in grupo_clientes2: # iteramos por el segundo grupo 
        for val in valores: #iteramos por las columnas sobre las que queremos calcular los estadísticos. 
            print(g1, "-->", g2, '-->', val) # sacamos todas las combinaciones
            resultado = (df.groupby([g1, g2])[val].agg(["mean", 'std', 'median'])).reset_index() # hacemos el groupby y lo convertimos a dataframe
            todos_resultados.append(resultado) # apendemos los resultados del groupby en la lista vacía que creamos al inicio
            


Todas las combinaciones que nos salen de este triple for son: 
policy_type --> state --> customer_lifetime_value
policy_type --> state --> number_of_policies
policy_type --> employmentstatus --> customer_lifetime_value
policy_type --> employmentstatus --> number_of_policies
policy_type --> coverage --> customer_lifetime_value
policy_type --> coverage --> number_of_policies
vehicle_size --> state --> customer_lifetime_value
vehicle_size --> state --> number_of_policies
vehicle_size --> employmentstatus --> customer_lifetime_value
vehicle_size --> employmentstatus --> number_of_policies
vehicle_size --> coverage --> customer_lifetime_value
vehicle_size --> coverage --> number_of_policies


Hasta aquí tenemos todos los resultados del groupby almacenados en la lista to_resultados. Lo siguiente que tenemos que hacer es iterar por esta lista e ir guardándolos en el excel. 

In [19]:
# creamos una lista con los nombres que queremos asignar a cada una de las hojas de nuestro excel

nombres = ['policy-state-lifetime', 'policy-state-number', 
           'policy-employment-lifetime', 'policy-employment-number', 
          'policy-coverage-lifetime', 'policy-coverage-number', 
          'size-state-lifetime', 'size-state-number', 
          'size-employment-lifetime', 'size-employment-number', 
          'size-coverage-lifetime', 'size-coverage-number']

In [20]:
# iteramos por la lista de resultados para acceder a cada una de las agrupaciones y poder guardarlas en el excel: 
from pandas import ExcelWriter

w = ExcelWriter("datos/Agrupaciones.xlsx") # iniciamos la creación del excel desde pandas

for resultado in range(len(todos_resultados)): #iteramos por la lista de resultados (cada iterable será un dataframe) 
    todos_resultados[resultado].to_excel(w, sheet_name=nombres[resultado]) # vamos creando tantas hojas de excel como elementos (dataframes) tenemos en nuesta lista. 
w.save() # lo guardamos todo. 
    

**EJERCICIOS** 

Usando el mismo dataframe de titanic que usamos ayer:


1️⃣ Carga el dataset

**Hint** Antes de ponernos manos a la obra **explorar** bien el dataset con los métodos aprendidos en las lecciones anteriores. Tenemos nulos? que valores únicos tenemos, que tipo de datos tenemos, etc. 

Crea una copia nueva del dataframe donde realicemos todos los cambios que os pedimos en el ejercicio. 

2️⃣ Crea una función que usando la columna `name` nos cree una columna nueva que nos diga si el pasajero era Miss, Master, Mrs, etc. 

3️⃣ La columna `survived` esta con valores numéricos. Convierte los 1 a Si y los 0 a No.

4️⃣  Guarda en un excel el dataframe resultante en una hoja y en otra el orginal. 