# Apply



## Apply es otra función de pandas que se usa para:

- Aplicar una función a lo largo de un DataFrame
- Es decir, para hacer cálculos o transformaciones en muchos datos, sin necesidad de un bucle for

In [1]:
# nuestras librerias a utilizar
import pandas as pd
import numpy as np


# Configuración
# -----------------------------------------------------------------------
pd.set_option('display.max_columns', None) # para poder visualizar todas las columnas de los DataFrames

## Funciones sin apply a todas las filas de un data frame

In [2]:
# Ejemplo 1


# Crear un DataFrame
data = {'A': [1, 2, 3, 4]}
df = pd.DataFrame(data)
df


Unnamed: 0,A
0,1
1,2
2,3
3,4


In [3]:

# Elevar todos los valores de la columna 'A' al cuadrado
df['Cuadrado'] = df['A'] ** 2
df

Unnamed: 0,A,Cuadrado
0,1,1
1,2,4
2,3,9
3,4,16


In [4]:
# Ejemplo 2

data = {'Nombres': ['Juan', 'Ana', 'Luis']}
df = pd.DataFrame(data)
df



Unnamed: 0,Nombres
0,Juan
1,Ana
2,Luis


In [5]:
# Convertir todos los nombres a mayúsculas
df['Mayúsculas'] = df['Nombres'].str.upper()
df


Unnamed: 0,Nombres,Mayúsculas
0,Juan,JUAN
1,Ana,ANA
2,Luis,LUIS


## Pero a veces vamos a tener que hacer cambios más complejos, para ello, necesitaremos el apply

### Receta
- Creamos una función para encapsular el cambio que queramos hacer en cada fila -> def func('columna')
- Aplicamos la función a una o varias columnas, para todas las filas -> df['new_colum'] = df['column'].apply(func) 

#### En este caso, 'column', actuará como argumento de entrada a la función

In [7]:
df = pd.read_csv("bank-additional_clean.csv", index_col = 0)
df.head()

Unnamed: 0_level_0,Kidhome,Teenhome,Dt_Customer,NumWebVisitsMonth,ID,age,job,marital,education,default,housing,loan,contact,duration,campaign,pdays,previous,poutcome,emp.var.rate,cons.price.idx,cons.conf.idx,euribor3m,nr.employed,y,date,latitude,longitude
Income,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1,Unnamed: 21_level_1,Unnamed: 22_level_1,Unnamed: 23_level_1,Unnamed: 24_level_1,Unnamed: 25_level_1,Unnamed: 26_level_1,Unnamed: 27_level_1
161770,1,0,2012-04-04,29,089b39d8-e4d0-461b-87d4-814d71e0e079,,housemaid,MARRIED,basic 4y,No,No,No,telephone,261,1,,0,NONEXISTENT,1.1,93994,-364,4857.0,5191,no,2-agosto-2019,41.495,-71.233
85477,1,1,2012-12-30,7,e9d37224-cb6f-4942-98d7-46672963d097,57.0,services,MARRIED,high school,,No,No,telephone,149,1,,0,NONEXISTENT,1.1,93994,-364,,5191,no,14-septiembre-2016,34.601,-83.923
147233,1,1,2012-02-02,5,3f9f49b5-e410-4948-bf6e-f9244f04918b,37.0,services,MARRIED,high school,No,Si,No,telephone,226,1,,0,NONEXISTENT,1.1,93994,-364,4857.0,5191,no,15-febrero-2019,34.939,-94.847
121393,1,2,2012-12-21,29,9991fafb-4447-451a-8be2-b0df6098d13e,40.0,admin.,MARRIED,basic 6y,No,No,No,telephone,151,1,,0,NONEXISTENT,1.1,93994,-364,,5191,no,29-noviembre-2015,49.041,-70.308
63164,1,2,2012-06-20,20,eca60b76-70b6-4077-80ba-bc52e8ebb0eb,56.0,services,MARRIED,high school,No,No,Si,telephone,307,1,,0,NONEXISTENT,1.1,93994,-364,,5191,no,29-enero-2017,38.033,-104.463


### Clasifica a los clientes en diferentes categorías dependiendo de su edad:

- Jóvenes adultos: 17 a 25 años

- Adultos jóvenes: 26 a 39 años

- Mediana edad: 40 a 59 años

- Adultos mayores: 60 en adelante


In [8]:
# Voy a crear una función personalizada llamada 'categorizar_edad'


def categorizar_edad(numero):

    if numero >=17 and numero <= 25:
        return "Jóvenes adultos"
    
    elif numero >= 26 and numero <= 39:
        return "Adultos jóvenes"

    elif numero >= 40 and numero <= 59:
        return "Mediana edad"
    
    else:
        return "Adultos mayores"


In [9]:
# Aplicación de la función customizada con apply

# df[nuevo_nombre_co] = df[columna_a_modificar].apply(funcion_personalizada)
# El df tendrá una nueva columna con ese nuevo nombre y el resultado de la función por cada fila
# A veces querré borrar la columna original

df["age_cat"] = df["age"].apply(categorizar_edad)

df.head()

Unnamed: 0_level_0,Kidhome,Teenhome,Dt_Customer,NumWebVisitsMonth,ID,age,job,marital,education,default,housing,loan,contact,duration,campaign,pdays,previous,poutcome,emp.var.rate,cons.price.idx,cons.conf.idx,euribor3m,nr.employed,y,date,latitude,longitude,age_cat
Income,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1,Unnamed: 21_level_1,Unnamed: 22_level_1,Unnamed: 23_level_1,Unnamed: 24_level_1,Unnamed: 25_level_1,Unnamed: 26_level_1,Unnamed: 27_level_1,Unnamed: 28_level_1
161770,1,0,2012-04-04,29,089b39d8-e4d0-461b-87d4-814d71e0e079,,housemaid,MARRIED,basic 4y,No,No,No,telephone,261,1,,0,NONEXISTENT,1.1,93994,-364,4857.0,5191,no,2-agosto-2019,41.495,-71.233,Adultos mayores
85477,1,1,2012-12-30,7,e9d37224-cb6f-4942-98d7-46672963d097,57.0,services,MARRIED,high school,,No,No,telephone,149,1,,0,NONEXISTENT,1.1,93994,-364,,5191,no,14-septiembre-2016,34.601,-83.923,Mediana edad
147233,1,1,2012-02-02,5,3f9f49b5-e410-4948-bf6e-f9244f04918b,37.0,services,MARRIED,high school,No,Si,No,telephone,226,1,,0,NONEXISTENT,1.1,93994,-364,4857.0,5191,no,15-febrero-2019,34.939,-94.847,Adultos jóvenes
121393,1,2,2012-12-21,29,9991fafb-4447-451a-8be2-b0df6098d13e,40.0,admin.,MARRIED,basic 6y,No,No,No,telephone,151,1,,0,NONEXISTENT,1.1,93994,-364,,5191,no,29-noviembre-2015,49.041,-70.308,Mediana edad
63164,1,2,2012-06-20,20,eca60b76-70b6-4077-80ba-bc52e8ebb0eb,56.0,services,MARRIED,high school,No,No,Si,telephone,307,1,,0,NONEXISTENT,1.1,93994,-364,,5191,no,29-enero-2017,38.033,-104.463,Mediana edad


In [None]:
### Ahora quiero reemplazar , por . y cambiar a float las siguientes columnas: 'cons.price.idx''consconfidx', 'euribor3m'


#### El objetivo será poder poder hacer cálculos con ellas posteriormente.

In [10]:
df.dtypes

Kidhome                int64
Teenhome               int64
Dt_Customer           object
NumWebVisitsMonth      int64
ID                    object
age                  float64
job                   object
marital               object
education             object
default               object
housing               object
loan                  object
contact               object
duration               int64
campaign               int64
pdays                float64
previous               int64
poutcome              object
emp.var.rate         float64
cons.price.idx        object
cons.conf.idx         object
euribor3m             object
nr.employed           object
y                     object
date                  object
latitude             float64
longitude            float64
age_cat               object
dtype: object

In [10]:
# Creación de la función customizada 

def cambiar_comas(cadena):
    try:
    # Reemplazar las comas por puntos en la cadena
        return float(cadena.replace(",", "."))
    
    except:
        # Si ocurre algún error (por ejemplo, si el argumento no es una cadena),
        # devolver np.nan (valor Not a Number, vamos, un NULL de toda la vida)
        return np.nan

In [11]:
df['cons.price.idx'] = df['cons.price.idx'].apply(cambiar_comas)
df['cons.conf.idx'] = df['cons.conf.idx'].apply(cambiar_comas)
df['euribor3m'] = df['euribor3m'].apply(cambiar_comas)

In [None]:
# Aplicación de la función customizada con apply
# Esto es equivalente a lo de arriba

lista_columnas = ['cons.price.idx', 'cons.conf.idx', 'euribor3m']


for col in lista_columnas:
    df[col] = df[col].apply(cambiar_comas)


In [None]:
df.dtypes