<h1>Table of Contents<span class="tocSkip"></span></h1>
<div class="toc"><ul class="toc-item"><li><span><a href="#apply()" data-toc-modified-id="apply()-1"><span class="toc-item-num">1&nbsp;&nbsp;</span><code>apply()</code></a></span><ul class="toc-item"><li><span><a href="#¿Qué-es-un-apply?" data-toc-modified-id="¿Qué-es-un-apply?-1.1"><span class="toc-item-num">1.1&nbsp;&nbsp;</span>¿Qué es un <code>apply</code>?</a></span></li><li><span><a href="#Uso-de-apply" data-toc-modified-id="Uso-de-apply-1.2"><span class="toc-item-num">1.2&nbsp;&nbsp;</span>Uso de apply</a></span></li></ul></li><li><span><a href="#ExcelWriter()" data-toc-modified-id="ExcelWriter()-2"><span class="toc-item-num">2&nbsp;&nbsp;</span><code>ExcelWriter()</code></a></span></li><li><span><a href="#Escritura-secuencial-de-datos-con-bucles-for" data-toc-modified-id="Escritura-secuencial-de-datos-con-bucles-for-3"><span class="toc-item-num">3&nbsp;&nbsp;</span>Escritura secuencial de datos con bucles <em>for</em></a></span></li></ul></div>

In [1]:
# importamos todas las librerías que necesitamos

import pandas as pd
pd.options.display.max_columns = None

## `apply()` 

### ¿Qué es un `apply`? 

En el caso de que necesitemos aplicar una misma función a las filas o columnas de un objeto DataFrame de Pandas contamos con el método `apply()`. Con él es posible aplicar funciones (tanto creadas por nosotras como las *built-in functions* de Python) a los conjuntos de datos. Esto hace que sea un método interesante de conocer y, cuando se comprende bien su funcionamiento, permite realizar operaciones complejas de forma eficiente. Por eso en esta entrada vamos a ver cómo aplicar una función a las filas o columnas de un DataFrame con `apply()`. 

La función `apply` de Pandas DataFrame toma una función como argumento y la aplica a lo largo de un eje del DataFrame.

Basicamente lo que va a hacer este método es ir celda a celda de la columna que especifiquemos y le aplicara a los valores de la celda la función que le indiquemos. 

In [3]:
# Como hasta ahora en este jupyter trabajaremos con el dataset de Marketing que usamos en la lección de filtrado

df = pd.read_csv("Marketing-Customer-Analysis.csv")
df.head(1)

Unnamed: 0,Customer,State,Customer Lifetime Value,Response,Coverage,Education,Effective To Date,EmploymentStatus,Gender,Income,Location Code,Marital Status,Monthly Premium Auto,Months Since Last Claim,Months Since Policy Inception,Number of Open Complaints,Number of Policies,Policy Type,Policy,Renew Offer Type,Sales Channel,Total Claim Amount,Vehicle Class,Vehicle Size
0,BU79786,Washington,2763.519279,No,Basic,Bachelor,2/24/11,Employed,F,56274,Suburban,Married,69,32,5,0,1,Corporate Auto,Corporate L3,Offer1,Agent,384.811147,Two-Door Car,Medsize


In [4]:
# vamos a homogeneizar los nombres de las columnas

nuevas_columnas = {col: col.lower().replace(" ", "_") for col in df.columns}
df.rename(columns = nuevas_columnas, inplace = True)
df.head(1)

Unnamed: 0,customer,state,customer_lifetime_value,response,coverage,education,effective_to_date,employmentstatus,gender,income,location_code,marital_status,monthly_premium_auto,months_since_last_claim,months_since_policy_inception,number_of_open_complaints,number_of_policies,policy_type,policy,renew_offer_type,sales_channel,total_claim_amount,vehicle_class,vehicle_size
0,BU79786,Washington,2763.519279,No,Basic,Bachelor,2/24/11,Employed,F,56274,Suburban,Married,69,32,5,0,1,Corporate Auto,Corporate L3,Offer1,Agent,384.811147,Two-Door Car,Medsize


### Uso de apply

In [5]:
# Lo primero que vamos a hacer es crearnos una copia de nuestro DataFrame sobre el que trabajaremos. 

df_copia = df.copy()
df_copia.head(2)

Unnamed: 0,customer,state,customer_lifetime_value,response,coverage,education,effective_to_date,employmentstatus,gender,income,location_code,marital_status,monthly_premium_auto,months_since_last_claim,months_since_policy_inception,number_of_open_complaints,number_of_policies,policy_type,policy,renew_offer_type,sales_channel,total_claim_amount,vehicle_class,vehicle_size
0,BU79786,Washington,2763.519279,No,Basic,Bachelor,2/24/11,Employed,F,56274,Suburban,Married,69,32,5,0,1,Corporate Auto,Corporate L3,Offer1,Agent,384.811147,Two-Door Car,Medsize
1,QZ44356,Arizona,6979.535903,No,Extended,Bachelor,1/31/11,Unemployed,F,0,Suburban,Single,94,13,42,0,8,Personal Auto,Personal L3,Offer3,Agent,1131.464935,Four-Door Car,Medsize


Para entender el `apply` en este jupyter trabajaremos con la columna de `effective_to_date`. Lo que haremos será crear una función que nos separe la fecha en año y mes. Con esto crearemos dos columnas, una la llamaremos "año" y otra "mes". 

In [15]:
def sacar_mes(fecha):
    return fecha.split("/")[0]

'2'

In [6]:
#creemos la función para sacar el año

def sacar_año(x):
    '''
    Función que recibe una fecha y extrae el año
    
    Args: 
        x(str): cada fecha que tenemos en nuestro dataframe
    Returns: 
        el año en formato string
    '''
    return x.split("/")[2]

def sacar_mes(x):
    '''
    Función que recibe una fecha y extrae el mes
    
    Args: 
        x(str): cada fecha que tenemos en nuestro dataframe
    Returns: 
        el mes en formato string
    '''
    return x.split("/")[0]

In [7]:
df_copia["año"] = (df_copia["effective_to_date"].apply(sacar_año))
df_copia["mes"] = (df_copia["effective_to_date"].apply(sacar_mes))

In [8]:
# si nos fijamos ahora tenemos dos columnas nuevas, "año" y "mes"

df_copia.head(2)

Unnamed: 0,customer,state,customer_lifetime_value,response,coverage,education,effective_to_date,employmentstatus,gender,income,location_code,marital_status,monthly_premium_auto,months_since_last_claim,months_since_policy_inception,number_of_open_complaints,number_of_policies,policy_type,policy,renew_offer_type,sales_channel,total_claim_amount,vehicle_class,vehicle_size,año,mes
0,BU79786,Washington,2763.519279,No,Basic,Bachelor,2/24/11,Employed,F,56274,Suburban,Married,69,32,5,0,1,Corporate Auto,Corporate L3,Offer1,Agent,384.811147,Two-Door Car,Medsize,11,2
1,QZ44356,Arizona,6979.535903,No,Extended,Bachelor,1/31/11,Unemployed,F,0,Suburban,Single,94,13,42,0,8,Personal Auto,Personal L3,Offer3,Agent,1131.464935,Four-Door Car,Medsize,11,1


Esta misma operación la podemos hacer con la librería `datetime`. Exploremosla un poco. 

In [9]:
# lo primero que tenemos que hacer es importarla
import datetime

In [10]:
# para trabajar con esta librería lo primero que tenemos que hacer es convertir el tipo de la
# columna "effective_to_date" a formato datetime. Para eso usaremos un apply

df_copia["effective_to_date"] = df_copia["effective_to_date"].apply(pd.to_datetime)
df_copia.head(1)

Unnamed: 0,customer,state,customer_lifetime_value,response,coverage,education,effective_to_date,employmentstatus,gender,income,location_code,marital_status,monthly_premium_auto,months_since_last_claim,months_since_policy_inception,number_of_open_complaints,number_of_policies,policy_type,policy,renew_offer_type,sales_channel,total_claim_amount,vehicle_class,vehicle_size,año,mes
0,BU79786,Washington,2763.519279,No,Basic,Bachelor,2011-02-24,Employed,F,56274,Suburban,Married,69,32,5,0,1,Corporate Auto,Corporate L3,Offer1,Agent,384.811147,Two-Door Car,Medsize,11,2


In [32]:
# dentro de esta librería tenemos muchísimas funcionalidades. Entre ellas, tenemos el método "strftime" que nos va a 
# permitir extraer el año, el mes o el día en distintos formatos. 

def sacar_año2(x):
    return x.strftime("%Y")

def sacar_mes2(x):
    return x.strftime("%B")

In [33]:
df_copia["año2"] = df_copia["effective_to_date"].apply(sacar_año2)
df_copia["mes2"] = df_copia["effective_to_date"].apply(sacar_mes2)

In [34]:
# si nos fijamos ahora tenemos una columna nueva con el año (año2) y otra con el mes completo en letras (mes2)

df_copia.sample(1)

Unnamed: 0,customer,state,customer_lifetime_value,response,coverage,education,effective_to_date,employmentstatus,gender,income,location_code,marital_status,monthly_premium_auto,months_since_last_claim,months_since_policy_inception,number_of_open_complaints,number_of_policies,policy_type,policy,renew_offer_type,sales_channel,total_claim_amount,vehicle_class,vehicle_size,año,mes,año2,mes2
3185,SQ18525,Arizona,8457.461231,No,Basic,College,2011-01-08,Employed,F,26023,Rural,Married,72,26,33,1,2,Personal Auto,Personal L3,Offer1,Branch,79.463916,Four-Door Car,Medsize,11,1,2011,January


📌 Más información sobre esta librería [aquí](https://docs.python.org/3/library/datetime.html).

**¿Qué pasa si queremos usar una función que recibe dos parámetros?** 

En este caso, la cosa se va a complicar un poquito más, ya que tendremos que usar una `lambda` para usar el `apply`. Aquí no vamos a profundizar más en la `lambda`, ya que nos queremos centrar en el `apply` en sí.

Imaginemos ahora que queremos saber la media del dinero que se han llevado los clientes por cada reclamación que tienen. Para esto, tendremos en cuenta el dinero que ha recibido cada cliente en sus reclamaciones (`total_claim_amount`) y el número de reclamaciones que puso (`number_of_open_complaints`). Lo que tendremos que hacer es una división de esas dos columnas. 

In [12]:
def media_reclamaciones (dinero, reclamaciones):
    '''
    Esta función calcula la media de dinero que se lleva cada cliente por reclamación.
    Args: 
        dinero (int o float): el dinero que ha recibido cada cliente en sus reclamaciones
        reclamaciones (int): el número de reclamaciones que se ha puesto el cliente
    Returns: 
        Int o float con la media de dinero por reclamación. 
    '''
    # en este caso tendré que hacer un try except porque puede que haya algún cliente que no haya puesto ninguna reclamación
    try: 
        return dinero/reclamaciones
    except: 
        return "no puso ninguna reclamación"

In [13]:
df_copia.head()

Unnamed: 0,customer,state,customer_lifetime_value,response,coverage,education,effective_to_date,employmentstatus,gender,income,location_code,marital_status,monthly_premium_auto,months_since_last_claim,months_since_policy_inception,number_of_open_complaints,number_of_policies,policy_type,policy,renew_offer_type,sales_channel,total_claim_amount,vehicle_class,vehicle_size,año,mes
0,BU79786,Washington,2763.519279,No,Basic,Bachelor,2011-02-24,Employed,F,56274,Suburban,Married,69,32,5,0,1,Corporate Auto,Corporate L3,Offer1,Agent,384.811147,Two-Door Car,Medsize,11,2
1,QZ44356,Arizona,6979.535903,No,Extended,Bachelor,2011-01-31,Unemployed,F,0,Suburban,Single,94,13,42,0,8,Personal Auto,Personal L3,Offer3,Agent,1131.464935,Four-Door Car,Medsize,11,1
2,AI49188,Nevada,12887.43165,No,Premium,Bachelor,2011-02-19,Employed,F,48767,Suburban,Married,108,18,38,0,2,Personal Auto,Personal L3,Offer1,Agent,566.472247,Two-Door Car,Medsize,11,2
3,WW63253,California,7645.861827,No,Basic,Bachelor,2011-01-20,Unemployed,M,0,Suburban,Married,106,18,65,0,7,Corporate Auto,Corporate L2,Offer1,Call Center,529.881344,SUV,Medsize,11,1
4,HB64268,Washington,2813.692575,No,Basic,Bachelor,2011-02-03,Employed,M,43836,Rural,Single,73,12,44,0,1,Personal Auto,Personal L1,Offer1,Agent,138.130879,Four-Door Car,Medsize,11,2


In [14]:
df_copia["media_reclamaciones"] = df_copia.apply(lambda pepe: media_reclamaciones( # en este caso, no especificamos el nombre de la columna, haremos el apply sobre todo el dataframe. Dentro del apply iniciamos el lambda que recibirá unos datos. En este caso todo el dataframe 
                                        pepe['total_claim_amount'], pepe['number_of_open_complaints']), # especificamos las columnas sobre las que queremos aplicar el apply
                                        axis = 1) # especificamos es el eje 1 ya que estamos trabajando con columnas. 


In [15]:
df_copia.sample(6)

Unnamed: 0,customer,state,customer_lifetime_value,response,coverage,education,effective_to_date,employmentstatus,gender,income,location_code,marital_status,monthly_premium_auto,months_since_last_claim,months_since_policy_inception,number_of_open_complaints,number_of_policies,policy_type,policy,renew_offer_type,sales_channel,total_claim_amount,vehicle_class,vehicle_size,año,mes,media_reclamaciones
4169,ZZ35218,Oregon,5392.499539,No,Basic,Doctor,2011-01-28,Unemployed,M,0,Urban,Married,74,19,8,0,8,Corporate Auto,Corporate L3,Offer4,Agent,317.109447,Two-Door Car,Medsize,11,1,no puso ninguna reclamación
8765,TT97465,California,14642.14003,No,Basic,College,2011-02-15,Employed,M,57561,Suburban,Married,62,18,57,1,2,Corporate Auto,Corporate L3,Offer1,Agent,298.430234,Four-Door Car,Medsize,11,2,298.430234
238,AO87348,Washington,2050.623512,No,Basic,College,2011-02-16,Unemployed,M,0,Suburban,Single,61,18,26,0,1,Personal Auto,Personal L3,Offer2,Agent,292.8,Four-Door Car,Small,11,2,no puso ninguna reclamación
98,RI22468,Arizona,5745.94334,No,Basic,Bachelor,2011-01-22,Employed,F,57740,Urban,Married,74,30,87,3,9,Personal Auto,Personal L1,Offer3,Web,269.905129,Four-Door Car,Medsize,11,1,89.968376
3017,DW14769,Arizona,3920.511337,No,Premium,High School or Below,2011-02-04,Unemployed,F,0,Suburban,Married,108,2,55,1,1,Personal Auto,Personal L3,Offer3,Branch,525.392239,Two-Door Car,Large,11,2,525.392239
4360,LZ81665,Washington,9655.442955,No,Basic,High School or Below,2011-01-08,Unemployed,M,0,Suburban,Single,100,30,4,2,2,Personal Auto,Personal L2,Offer2,Call Center,720.0,SUV,Medsize,11,1,360.0


## `ExcelWriter()`

Nos va a permitir escribir *DataFrames* en hojas de Excel.

In [17]:
with pd.ExcelWriter("marketing.xlsx") as writer: # donde queremos guardar el excel
    df.to_excel(writer, sheet_name="sucio")  # el dataframe que queremos guardar y como queremos que se llame la hoja de excel
    df_copia.to_excel(writer, sheet_name="limpio") # el dataframe y como queremos que se llame la hoja de excel

## Escritura secuencial de datos con bucles `for`

En este apartado lo que haremos será realizar varios `groupby` con los que sacaremos la media, la desviación estándar y la mediana de cada uno de los grupos para las columnas de `customer_lifetime_value` y `number_of_policies`. 

Para hacer esto haremos un *for loop* y después lo almacenaremos todo en un Excel, donde cada agrupación se guarde en una hoja diferente.

In [44]:
df_copia.columns

Index(['customer', 'state', 'customer_lifetime_value', 'response', 'coverage',
       'education', 'effective_to_date', 'employmentstatus', 'gender',
       'income', 'location_code', 'marital_status', 'monthly_premium_auto',
       'months_since_last_claim', 'months_since_policy_inception',
       'number_of_open_complaints', 'number_of_policies', 'policy_type',
       'policy', 'renew_offer_type', 'sales_channel', 'total_claim_amount',
       'vehicle_class', 'vehicle_size', 'año', 'mes', 'año2', 'mes2',
       'media_reclamaciones'],
      dtype='object')

In [46]:
# lo primero que hacemos es definir los distintos grupos que vamos a querer definir. 
grupo_clientes1 = ['policy_type','vehicle_size']
grupo_clientes2 = ['state','employmentstatus', 'coverage']

valores = ['customer_lifetime_value', 'number_of_policies' ] # las columnas sobre las que queremos aplicar las operaciones en el groupy

In [None]:
df.groupby(["police_type", "state"])["customer_lifetime_value"].mean()
df.groupby(["police_type", "emplymentstatus"])["customer_lifetime_value"].mean()

Lo que vamos a querer es hacer muchos `groupby`s un único *for loop*, esto nos va a permitir sacar todas las combinaciones de `groupby` entre la lista de `grupo_clientes1` y `grupo_clientes2`. 

Es decir: 

* policy_type vs state
* policy_type vs employmentstatus
* policy_type vs coverage

y

* vehicle_size vs state
* vehicle_size vs employmentstatus
* vehicle_size vs coverage

Además vamos a querer calcular la media, mediana y std para dos variables numéricas. Estas son las que están en la lista de `valores`. 

Visto en código querremos: 

```python
df.groupby(["police_type", "state"])["customer_lifetime_value"].mean()
df.groupby(["police_type", "emplymentstatus"])["customer_lifetime_value"].median()
df.groupby(["police_type", "emplymentstatus"])["customer_lifetime_value"].std()

df.groupby(["police_type", "state"])["number_of_policies"].mean()
df.groupby(["police_type", "state"])["number_of_policies"].median()
df.groupby(["police_type", "emplymentstatus"])["number_of_policies"].std()

# y así para todas las posibles combinaciones de las listas grupo_clientes1 y grupo_clientes2

# Pero recordemos que si en un groupby queremos calcular varios estadísticos deberemos usar el método agg. Por lo que podríamos reducir un poco el código anterior a la siguiente forma 
df.groupby(["policy_type", "state"])['customer_lifetime_value'].agg(["mean", 'std', 'median'])

# si a esto le añadimos un reset_index() nos devolverá un dataframe
(df.groupby(["policy_type", "state"])['customer_lifetime_value'].agg(["mean", 'std', 'median'])).reset_index()
```

In [52]:
(df.groupby(["policy_type", "state"])['customer_lifetime_value'].agg(["mean", 'std', 'median'])).reset_index()

Unnamed: 0,policy_type,state,mean,std,median
0,Corporate Auto,Arizona,7392.569473,5510.035196,5595.389905
1,Corporate Auto,California,7937.594946,6579.227598,5845.426201
2,Corporate Auto,Nevada,8167.364587,7570.930571,5585.30807
3,Corporate Auto,Oregon,7801.438871,6167.479891,5908.405832
4,Corporate Auto,Washington,7737.494504,5788.032153,5838.89915
5,Personal Auto,Arizona,7950.810246,6949.475829,5846.520588
6,Personal Auto,California,8003.353899,6780.652997,5865.829185
7,Personal Auto,Nevada,7997.500551,6948.655807,5589.042801
8,Personal Auto,Oregon,8113.08999,7102.883227,5865.225364
9,Personal Auto,Washington,8039.703473,7750.420702,5384.671725


In [54]:
todos_resultados = [] # creamos una lista donde iremos guardando "todos los resultados de los groupby" que serán nuestros distintos dataframes

# 🚨🚨 Recordemos que en una lista podemos almacenar cualquier cosa, diccionarios, más listas, DataFrames, etc. 🚨🚨

print("Todas las combinaciones que nos salen de este triple for son: ") #  hacemos un print para ver todas las posibles combinaciones entre nuestros grupos
for g1 in grupo_clientes1: # iteramos por el primer grupo
    for g2 in grupo_clientes2: # iteramos por el segundo grupo 
        for val in valores: #iteramos por las columnas sobre las que queremos calcular los estadísticos
            print(g1, "-->", g2, '-->', val) # sacamos todas las combinaciones
            resultado = (df.groupby([g1, g2])[val].agg(["mean", 'std', 'median'])).reset_index() # hacemos el groupby y lo convertimos a dataframe
            todos_resultados.append(resultado) # apendemos los resultados del groupby en la lista vacía que creamos al inicio

Todas las combinaciones que nos salen de este triple for son: 
policy_type --> state --> customer_lifetime_value
policy_type --> state --> number_of_policies
policy_type --> employmentstatus --> customer_lifetime_value
policy_type --> employmentstatus --> number_of_policies
policy_type --> coverage --> customer_lifetime_value
policy_type --> coverage --> number_of_policies
vehicle_size --> state --> customer_lifetime_value
vehicle_size --> state --> number_of_policies
vehicle_size --> employmentstatus --> customer_lifetime_value
vehicle_size --> employmentstatus --> number_of_policies
vehicle_size --> coverage --> customer_lifetime_value
vehicle_size --> coverage --> number_of_policies


In [56]:
len(todos_resultados)

12

In [58]:
# vemos que los elementos de la lista son cada uno de los DataFrames

todos_resultados[11]

Unnamed: 0,vehicle_size,coverage,mean,std,median
0,Large,Basic,2.769366,2.336274,2.0
1,Large,Extended,2.845902,2.404599,2.0
2,Large,Premium,3.123288,2.728172,2.0
3,Medsize,Basic,2.998211,2.40647,2.0
4,Medsize,Extended,2.977047,2.412237,2.0
5,Medsize,Premium,2.821849,2.341658,2.0
6,Small,Basic,3.057904,2.344983,2.0
7,Small,Extended,2.932692,2.316334,2.0
8,Small,Premium,2.929487,2.431281,2.0


Hasta aquí tenemos todos los resultados del groupby almacenados en la lista `todos_resultados`. Lo siguiente que tenemos que hacer es iterar por esta lista e ir guardándolos en el excel. 

In [19]:
# creamos una lista con los nombres que queremos asignar a cada una de las hojas de nuestro excel

nombres = ['policy-state-lifetime', 'policy-state-number', 
           'policy-employment-lifetime', 'policy-employment-number', 
          'policy-coverage-lifetime', 'policy-coverage-number', 
          'size-state-lifetime', 'size-state-number', 
          'size-employment-lifetime', 'size-employment-number', 
          'size-coverage-lifetime', 'size-coverage-number']

In [20]:
# iteramos por la lista de resultados para acceder a cada una de las agrupaciones y poder guardarlas en el excel: 
from pandas import ExcelWriter

w = ExcelWriter("datos/Agrupaciones.xlsx") # iniciamos la creación del excel desde pandas

for resultado in range(len(todos_resultados)): # iteramos por la lista de resultados (cada iterable será un DataFrame) 
    todos_resultados[resultado].to_excel(w, sheet_name=nombres[resultado]) # vamos creando tantas hojas de excel como elementos (DataFrames) tenemos en nuestra lista 
w.save() # lo guardamos todo

## EJERCICIOS

Usando el mismo DataFrame de titanic que usamos ayer:

1️⃣ Carga el dataset

> **Hint** Antes de ponernos manos a la obra **explorar** bien el dataset con los métodos aprendidos en las lecciones anteriores. Tenemos nulos?, qué valores únicos tenemos?, qué tipo de datos tenemos?, etc. 

Crea una copia nueva del DataFrame donde realicemos todos los cambios que os pedimos en el ejercicio. 

2️⃣ Crea una función que usando la columna `name` nos cree una columna nueva que nos diga si el pasajero era Miss, Mister, Mrs, etc. 

3️⃣ La columna `survived` está con valores numéricos. Convierte los `1` a `'Si'` y los `0` a `'No'`.

4️⃣  Guarda en un excel el DataFrame resultante en una hoja y en otra el orginal.

In [20]:
df_titanic = pd.read_csv("titanic.csv")
df_titanic.head(1)

Unnamed: 0,pclass,survived,name,sex,age,sibsp,parch,ticket,fare,cabin,embarked,boat,body,home.dest
0,1.0,1.0,"Allen, Miss. Elisabeth Walton",female,29.0,0.0,0.0,24160,211.3375,B5,S,2,,"St Louis, MO"


In [21]:
df_titanic.columns

Index(['pclass', 'survived', 'name', 'sex', 'age', 'sibsp', 'parch', 'ticket',
       'fare', 'cabin', 'embarked', 'boat', 'body', 'home.dest'],
      dtype='object')

In [22]:
df_titanic.shape
   

(1310, 14)

In [23]:
df_titanic.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1310 entries, 0 to 1309
Data columns (total 14 columns):
 #   Column     Non-Null Count  Dtype  
---  ------     --------------  -----  
 0   pclass     1309 non-null   float64
 1   survived   1309 non-null   float64
 2   name       1309 non-null   object 
 3   sex        1309 non-null   object 
 4   age        1046 non-null   float64
 5   sibsp      1309 non-null   float64
 6   parch      1309 non-null   float64
 7   ticket     1309 non-null   object 
 8   fare       1308 non-null   float64
 9   cabin      295 non-null    object 
 10  embarked   1307 non-null   object 
 11  boat       486 non-null    object 
 12  body       121 non-null    float64
 13  home.dest  745 non-null    object 
dtypes: float64(7), object(7)
memory usage: 143.4+ KB


In [25]:
#variables estadisticas
df_titanic.describe().T

Unnamed: 0,count,mean,std,min,25%,50%,75%,max
pclass,1309.0,2.294882,0.837836,1.0,2.0,3.0,3.0,3.0
survived,1309.0,0.381971,0.486055,0.0,0.0,0.0,1.0,1.0
age,1046.0,29.881135,14.4135,0.1667,21.0,28.0,39.0,80.0
sibsp,1309.0,0.498854,1.041658,0.0,0.0,0.0,1.0,8.0
parch,1309.0,0.385027,0.86556,0.0,0.0,0.0,0.0,9.0
fare,1308.0,33.295479,51.758668,0.0,7.8958,14.4542,31.275,512.3292
body,121.0,160.809917,97.696922,1.0,72.0,155.0,256.0,328.0


In [26]:
#variables categóricas
df_titanic.describe(include= 'object').T

Unnamed: 0,count,unique,top,freq
name,1309,1307,"Connolly, Miss. Kate",2
sex,1309,2,male,843
ticket,1309,929,CA. 2343,11
cabin,295,186,C23 C25 C27,6
embarked,1307,3,S,914
boat,486,27,13,39
home.dest,745,369,"New York, NY",64


In [27]:
df_titanic.duplicated().sum()

0

In [28]:
df_titanic.isnull().sum()

pclass          1
survived        1
name            1
sex             1
age           264
sibsp           1
parch           1
ticket          1
fare            2
cabin        1015
embarked        3
boat          824
body         1189
home.dest     565
dtype: int64

In [30]:
df_tit = df_titanic.copy()

In [31]:
df_tit.head(1)

Unnamed: 0,pclass,survived,name,sex,age,sibsp,parch,ticket,fare,cabin,embarked,boat,body,home.dest
0,1.0,1.0,"Allen, Miss. Elisabeth Walton",female,29.0,0.0,0.0,24160,211.3375,B5,S,2,,"St Louis, MO"


1. Crea una función que usando la columna `name` nos cree una columna nueva que nos diga si el pasajero era Miss, Mister, Mrs, etc. 

In [32]:
def nombre (x):
    return x.split(',')[0].split('.')[1]

In [34]:
nombre(df_tit["name"])

AttributeError: 'Series' object has no attribute 'split'