# Apply



In [1]:
# nuestras librerias a utilizar
import pandas as pd
import numpy as np


# Configuración
# -----------------------------------------------------------------------
pd.set_option('display.max_columns', None) # para poder visualizar todas las columnas de los DataFrames

In [2]:
# traemos los datos que guardamos en el tema anterior.

df = pd.read_csv("bank-additional_full.csv")

In [3]:
# Recordamos el dataframe con el que estamos trabajando

df.head()

Unnamed: 0,income,kidhome,teenhome,dt_customer,numwebvisitsmonth,id,age,job,marital,education,default,housing,loan,contact,duration,campaign,pdays,previous,poutcome,empvarrate,conspriceidx,consconfidx,euribor3m,nremployed,y,date,latitude,longitude,contact_month,contact_year
0,161770,1,0,2012-04-04,29,089b39d8-e4d0-461b-87d4-814d71e0e079,,housemaid,married,basic 4y,0.0,0.0,0.0,telephone,261,1,999,0,nonexistent,1.1,93994,-364,4857.0,5191,no,2-agosto-2019,41.495,-71.233,agosto,2019.0
1,85477,1,1,2012-12-30,7,e9d37224-cb6f-4942-98d7-46672963d097,57.0,services,married,high school,,0.0,0.0,telephone,149,1,999,0,nonexistent,1.1,93994,-364,,5191,no,14-septiembre-2016,34.601,-83.923,septiembre,2016.0
2,147233,1,1,2012-02-02,5,3f9f49b5-e410-4948-bf6e-f9244f04918b,37.0,services,married,high school,0.0,1.0,0.0,telephone,226,1,999,0,nonexistent,1.1,93994,-364,4857.0,5191,no,15-febrero-2019,34.939,-94.847,febrero,2019.0
3,121393,1,2,2012-12-21,29,9991fafb-4447-451a-8be2-b0df6098d13e,40.0,admin.,married,basic 6y,0.0,0.0,0.0,telephone,151,1,999,0,nonexistent,1.1,93994,-364,,5191,no,29-noviembre-2015,49.041,-70.308,noviembre,2015.0
4,63164,1,2,2012-06-20,20,eca60b76-70b6-4077-80ba-bc52e8ebb0eb,56.0,services,married,high school,0.0,0.0,1.0,telephone,307,1,999,0,nonexistent,1.1,93994,-364,,5191,no,29-enero-2017,38.033,-104.463,enero,2017.0


## Categorizamos la columna de `age`

Vamos a categorizar la columna `age` para conseguir las siguientes categorías:


- Jóvenes adultos: 17 a 25 años

- Adultos jóvenes: 26 a 39 años

- Mediana edad: 40 a 59 años

- Adultos mayores: 60 en adelante


In [4]:
# lo primero que vamos a hacer es recordad cuál es valor máximo, mínimo de la columna de `age`
# para eso usaremos el método '.max()' y '.min()' de Pandas

print(f"El valor mínimo de la edad es: {df['age'].min()}")
print(f"El valor máximo de la edad es: {df['age'].max()}")

El valor mínimo de la edad es: 17.0
El valor máximo de la edad es: 98.0


In [5]:
# lo primero que vamos a hacer es crear una función que reciba un número y nos devuelva a que grupo de edad pertenece

def categorizar_edad(numero):
    
    """
    Categoriza la edad en grupos específicos.

    Esta función toma como entrada un número que representa la edad y devuelve una categoría
    específica basada en el rango de edad.

    Args:
    ----------
    numero : int
        La edad que se desea categorizar.

    Returns:
    ------------
    str
        Una cadena que representa la categoría de edad a la que pertenece el número.

    """
    if numero >=17 and numero <= 25:
        return "Jóvenes adultos"
    
    elif numero >= 26 and numero <= 39:
        return "Adultos jóvenes"

    elif numero >= 40 and numero <= 59:
        return "Mediana edad"
    
    else:
        return "Adultos mayores"
    
# Probemos la función para ver si funciona correctamente:
print(f"Una persona de 56 pertenece a la categoría: {categorizar_edad(56)}")
print(f"Una persona de 20 pertenece a la categoría: {categorizar_edad(20)}")
print(f"Una persona de 33 pertenece a la categoría: {categorizar_edad(33)}")
print(f"Una persona de 45 pertenece a la categoría: {categorizar_edad(45)}")

Una persona de 56 pertenece a la categoría: Mediana edad
Una persona de 20 pertenece a la categoría: Jóvenes adultos
Una persona de 33 pertenece a la categoría: Adultos jóvenes
Una persona de 45 pertenece a la categoría: Mediana edad


In [6]:
# ya hemos creado la función y hemos visto que funciona, lo siguiente que tendríamos que hacer es aplicarla a todo nuestro DataFrame usando el método `apply()`
# si nos fijamos esto nos devuelve una Serie, pero este resultado no lo hemos almacenado en una variable, por lo que lo siguiente que haremos será crear una nueva columna en el DataFrame con el resultado de este apply
df["age"].apply(categorizar_edad)

0        Adultos mayores
1           Mediana edad
2        Adultos jóvenes
3           Mediana edad
4           Mediana edad
              ...       
42995    Adultos mayores
42996    Adultos jóvenes
42997    Adultos mayores
42998    Adultos mayores
42999    Adultos mayores
Name: age, Length: 43000, dtype: object

In [7]:
# creamos una columna nueva que se llama "age_cat" resultado de nuestro 'apply()'
df["age_cat"] = df["age"].apply(categorizar_edad)

# chequeamos que se ha creado la columna nueva (siempre aparecerá al final del DataFrame)
df.head()

Unnamed: 0,income,kidhome,teenhome,dt_customer,numwebvisitsmonth,id,age,job,marital,education,default,housing,loan,contact,duration,campaign,pdays,previous,poutcome,empvarrate,conspriceidx,consconfidx,euribor3m,nremployed,y,date,latitude,longitude,contact_month,contact_year,age_cat
0,161770,1,0,2012-04-04,29,089b39d8-e4d0-461b-87d4-814d71e0e079,,housemaid,married,basic 4y,0.0,0.0,0.0,telephone,261,1,999,0,nonexistent,1.1,93994,-364,4857.0,5191,no,2-agosto-2019,41.495,-71.233,agosto,2019.0,Adultos mayores
1,85477,1,1,2012-12-30,7,e9d37224-cb6f-4942-98d7-46672963d097,57.0,services,married,high school,,0.0,0.0,telephone,149,1,999,0,nonexistent,1.1,93994,-364,,5191,no,14-septiembre-2016,34.601,-83.923,septiembre,2016.0,Mediana edad
2,147233,1,1,2012-02-02,5,3f9f49b5-e410-4948-bf6e-f9244f04918b,37.0,services,married,high school,0.0,1.0,0.0,telephone,226,1,999,0,nonexistent,1.1,93994,-364,4857.0,5191,no,15-febrero-2019,34.939,-94.847,febrero,2019.0,Adultos jóvenes
3,121393,1,2,2012-12-21,29,9991fafb-4447-451a-8be2-b0df6098d13e,40.0,admin.,married,basic 6y,0.0,0.0,0.0,telephone,151,1,999,0,nonexistent,1.1,93994,-364,,5191,no,29-noviembre-2015,49.041,-70.308,noviembre,2015.0,Mediana edad
4,63164,1,2,2012-06-20,20,eca60b76-70b6-4077-80ba-bc52e8ebb0eb,56.0,services,married,high school,0.0,0.0,1.0,telephone,307,1,999,0,nonexistent,1.1,93994,-364,,5191,no,29-enero-2017,38.033,-104.463,enero,2017.0,Mediana edad


##  Convertir columnas de tipo *string* a *float*


- Lo primero que tenemos que tener en cuenta es que en Python los decimales van con "." y no con comas como tenemos en las columnas involucradas, por lo que tendremos que reemplazar las comas por puntos. 

- Una vez puestos los puntos, tendremos que convertir ese valor a float, para esto usaremos un método que no conocemos todavía que es el astype. 

In [8]:
# como antes, lo primero que hacemos es crear una función que reciba un string en el que tiene que cambiar las "," por "."

def cambiar_comas(cadena):
    """
    Convierte una cadena que representa un número decimal en formato internacional 
    (con comas como separador de miles y punto como separador decimal) a su 
    equivalente en formato de número flotante.

    Args:
        cadena (str): Una cadena que representa el número decimal en formato 
                      internacional.

    Returns:
        float: El número decimal equivalente en formato de número flotante.
    """
    return float(cadena.replace(",", "."))

In [9]:
# aplicamos la función a una de las columnas que nos interesa, por ejemplo 'conspriceidx'
df["conspriceidx"].apply(cambiar_comas)

AttributeError: 'float' object has no attribute 'replace'

In [10]:
# vaya ... nos ha devuelto error. El error nos dice que no puede aplicar el método replace a un float, y es que en estas columnas tenemos nulos, y los nulos para Pandas son de tipo float, 
# por lo que tendremos que modificar un poco la función para que nos funcione

def cambiar_comas(cadena):
    """
    Reemplaza las comas por puntos en una cadena dada que representa un número decimal
    en formato internacional (con comas como separador de miles y punto como separador decimal).

    Args:
        cadena (str): Una cadena que representa el número decimal en formato 
                      internacional.

    Returns:
        float: El número decimal equivalente en formato de número flotante.

    Note:
        Si ocurre algún error durante el proceso de reemplazo (por ejemplo, si el 
        argumento no es una cadena), la función devolverá np.nan (valor Not a Number) 
        para indicar un valor inválido o no disponible.
    """

    try:
        # Reemplazar las comas por puntos en la cadena
        return float(cadena.replace(",", "."))
    
    except:
        # Si ocurre algún error (por ejemplo, si el argumento no es una cadena),
        # devolver np.nan (valor Not a Number) para indicar un valor inválido o no disponible.
        return np.nan

In [11]:
# aplicamos de nuevo la función y sobreescribimos los resultados de nuestra función en la misma columna
df["conspriceidx"] = df["conspriceidx"].apply(cambiar_comas)

# ya tenemos las comas cambiadas para la columna 'conspriceidx', por lo que podríamos esperar que esta columna ya sea de tipo númerico. Comprobémoslo en la siguiente celda. 
df.head()

Unnamed: 0,income,kidhome,teenhome,dt_customer,numwebvisitsmonth,id,age,job,marital,education,default,housing,loan,contact,duration,campaign,pdays,previous,poutcome,empvarrate,conspriceidx,consconfidx,euribor3m,nremployed,y,date,latitude,longitude,contact_month,contact_year,age_cat
0,161770,1,0,2012-04-04,29,089b39d8-e4d0-461b-87d4-814d71e0e079,,housemaid,married,basic 4y,0.0,0.0,0.0,telephone,261,1,999,0,nonexistent,1.1,93.994,-364,4857.0,5191,no,2-agosto-2019,41.495,-71.233,agosto,2019.0,Adultos mayores
1,85477,1,1,2012-12-30,7,e9d37224-cb6f-4942-98d7-46672963d097,57.0,services,married,high school,,0.0,0.0,telephone,149,1,999,0,nonexistent,1.1,93.994,-364,,5191,no,14-septiembre-2016,34.601,-83.923,septiembre,2016.0,Mediana edad
2,147233,1,1,2012-02-02,5,3f9f49b5-e410-4948-bf6e-f9244f04918b,37.0,services,married,high school,0.0,1.0,0.0,telephone,226,1,999,0,nonexistent,1.1,93.994,-364,4857.0,5191,no,15-febrero-2019,34.939,-94.847,febrero,2019.0,Adultos jóvenes
3,121393,1,2,2012-12-21,29,9991fafb-4447-451a-8be2-b0df6098d13e,40.0,admin.,married,basic 6y,0.0,0.0,0.0,telephone,151,1,999,0,nonexistent,1.1,93.994,-364,,5191,no,29-noviembre-2015,49.041,-70.308,noviembre,2015.0,Mediana edad
4,63164,1,2,2012-06-20,20,eca60b76-70b6-4077-80ba-bc52e8ebb0eb,56.0,services,married,high school,0.0,0.0,1.0,telephone,307,1,999,0,nonexistent,1.1,93.994,-364,,5191,no,29-enero-2017,38.033,-104.463,enero,2017.0,Mediana edad


In [12]:
# chequeamos los tipos de datos de la columna para confirmar que ya es del tipo correcto. 
df["conspriceidx"].dtypes

dtype('float64')

In [13]:
# hemos hecho el cambio para una de las columnas, pero recordad que había dos columnas más que tenían este formato incorrecto
# vamos a crear una lista con los nombres de las columnas que queremos cambiar

lista_columnas = ['consconfidx', 'euribor3m']

# iteramos por la lista de columnas y a cada una de ellas le aplicamos la función que hemos creado con un '.apply()'
for col in lista_columnas:
    df[col] = df[col].apply(cambiar_comas)

In [14]:
# chequeamos que las columnas ya son del tipo correcto
df.dtypes

income                 int64
kidhome                int64
teenhome               int64
dt_customer           object
numwebvisitsmonth      int64
id                    object
age                  float64
job                   object
marital               object
education             object
default              float64
housing              float64
loan                 float64
contact               object
duration               int64
campaign               int64
pdays                  int64
previous               int64
poutcome              object
empvarrate           float64
conspriceidx         float64
consconfidx          float64
euribor3m            float64
nremployed            object
y                     object
date                  object
latitude             float64
longitude            float64
contact_month         object
contact_year         float64
age_cat               object
dtype: object

In [15]:
df.head()

Unnamed: 0,income,kidhome,teenhome,dt_customer,numwebvisitsmonth,id,age,job,marital,education,default,housing,loan,contact,duration,campaign,pdays,previous,poutcome,empvarrate,conspriceidx,consconfidx,euribor3m,nremployed,y,date,latitude,longitude,contact_month,contact_year,age_cat
0,161770,1,0,2012-04-04,29,089b39d8-e4d0-461b-87d4-814d71e0e079,,housemaid,married,basic 4y,0.0,0.0,0.0,telephone,261,1,999,0,nonexistent,1.1,93.994,-36.4,4.857,5191,no,2-agosto-2019,41.495,-71.233,agosto,2019.0,Adultos mayores
1,85477,1,1,2012-12-30,7,e9d37224-cb6f-4942-98d7-46672963d097,57.0,services,married,high school,,0.0,0.0,telephone,149,1,999,0,nonexistent,1.1,93.994,-36.4,,5191,no,14-septiembre-2016,34.601,-83.923,septiembre,2016.0,Mediana edad
2,147233,1,1,2012-02-02,5,3f9f49b5-e410-4948-bf6e-f9244f04918b,37.0,services,married,high school,0.0,1.0,0.0,telephone,226,1,999,0,nonexistent,1.1,93.994,-36.4,4.857,5191,no,15-febrero-2019,34.939,-94.847,febrero,2019.0,Adultos jóvenes
3,121393,1,2,2012-12-21,29,9991fafb-4447-451a-8be2-b0df6098d13e,40.0,admin.,married,basic 6y,0.0,0.0,0.0,telephone,151,1,999,0,nonexistent,1.1,93.994,-36.4,,5191,no,29-noviembre-2015,49.041,-70.308,noviembre,2015.0,Mediana edad
4,63164,1,2,2012-06-20,20,eca60b76-70b6-4077-80ba-bc52e8ebb0eb,56.0,services,married,high school,0.0,0.0,1.0,telephone,307,1,999,0,nonexistent,1.1,93.994,-36.4,,5191,no,29-enero-2017,38.033,-104.463,enero,2017.0,Mediana edad


In [16]:
# imagina ahora que quieres crear una columna nueva donde tengamos el resultado de sumar el número de hijos adolescentes ('teenhome') y niños ('kidhome'). En este caso la función tiene que recibir dos columnas, es decir, dos parámetros. 
# definir la función

def calcular_hijos_totales(col_niños, col_adolescentes):
    """
    Calcula el número total de hijos dados los números de niños y adolescentes.

    Parameters:
    col_niños (int): Número de niños.
    col_adolescentes (int): Número de adolescentes.

    Returns:
    str: Cadena que representa el número total de hijos junto con el texto "hijos".
    """
    hijos_totales = col_niños + col_adolescentes
    return str(hijos_totales) + " hijos"

# aplicar la función al DataFrame usando un apply y un lambda
df["hijos_totales"] = df.apply(lambda x: calcular_hijos_totales(x["kidhome"], x["teenhome"]), axis = 1)

# mostrar el DataFrame para ver si se creo correctamente la columna
df.head()

Unnamed: 0,income,kidhome,teenhome,dt_customer,numwebvisitsmonth,id,age,job,marital,education,default,housing,loan,contact,duration,campaign,pdays,previous,poutcome,empvarrate,conspriceidx,consconfidx,euribor3m,nremployed,y,date,latitude,longitude,contact_month,contact_year,age_cat,hijos_totales
0,161770,1,0,2012-04-04,29,089b39d8-e4d0-461b-87d4-814d71e0e079,,housemaid,married,basic 4y,0.0,0.0,0.0,telephone,261,1,999,0,nonexistent,1.1,93.994,-36.4,4.857,5191,no,2-agosto-2019,41.495,-71.233,agosto,2019.0,Adultos mayores,1 hijos
1,85477,1,1,2012-12-30,7,e9d37224-cb6f-4942-98d7-46672963d097,57.0,services,married,high school,,0.0,0.0,telephone,149,1,999,0,nonexistent,1.1,93.994,-36.4,,5191,no,14-septiembre-2016,34.601,-83.923,septiembre,2016.0,Mediana edad,2 hijos
2,147233,1,1,2012-02-02,5,3f9f49b5-e410-4948-bf6e-f9244f04918b,37.0,services,married,high school,0.0,1.0,0.0,telephone,226,1,999,0,nonexistent,1.1,93.994,-36.4,4.857,5191,no,15-febrero-2019,34.939,-94.847,febrero,2019.0,Adultos jóvenes,2 hijos
3,121393,1,2,2012-12-21,29,9991fafb-4447-451a-8be2-b0df6098d13e,40.0,admin.,married,basic 6y,0.0,0.0,0.0,telephone,151,1,999,0,nonexistent,1.1,93.994,-36.4,,5191,no,29-noviembre-2015,49.041,-70.308,noviembre,2015.0,Mediana edad,3 hijos
4,63164,1,2,2012-06-20,20,eca60b76-70b6-4077-80ba-bc52e8ebb0eb,56.0,services,married,high school,0.0,0.0,1.0,telephone,307,1,999,0,nonexistent,1.1,93.994,-36.4,,5191,no,29-enero-2017,38.033,-104.463,enero,2017.0,Mediana edad,3 hijos


Entendamos el código. El parámetro `axis=1` indica que se aplicará la función a lo largo de las filas del DataFrame. Por otra parte, dentro de `apply`, se está utilizando una función lambda, la cual recibe un argumento `x`, que representa cada fila del DataFrame. En este caso, se llama a la función `calcular_hijos_totales` con los valores de las columnas "kidhome" y "teenhome" de cada fila específica (`x["kidhome"]` y `x["teenhome"]`).  Si esta sintaxis no la entiendes mucho, no te preocupes, mañana en clase la revisaremos en profundidad para entenderla mejor. 

In [17]:
# guardemos el codigo, puede que nos sirva mas adelante!

df.to_csv("bank-additional_full_apply.csv",index=False)