# Apply

El método .apply() sirve para aplicar una función a cada columna o fila de un DataFrame o a cada elemento de una serie.
```
df["columna"].apply(funcion)
```

In [1]:
import pandas as pd
import numpy as np

In [2]:
df = pd.DataFrame({
  "nombre": ["Ana", "Luis", "Sofía", "Maria", "Juan"],
  "edad": [21, 35, 17, 18, 15],
  "altura_cm": [160, 175, 158, 175, 160]
})

In [3]:
df

Unnamed: 0,nombre,edad,altura_cm
0,Ana,21,160
1,Luis,35,175
2,Sofía,17,158
3,Maria,18,175
4,Juan,15,160


In [4]:
# Convertir altura de cm a metros.

# Definir funcion.
def cm_to_m(medida: int) -> int:
  '''
  Convertir cm a m.
  '''
  return (medida/100)

# Aplicar funcion.
df["altura_m"] = df["altura_cm"].apply(cm_to_m)

In [5]:
df

Unnamed: 0,nombre,edad,altura_cm,altura_m
0,Ana,21,160,1.6
1,Luis,35,175,1.75
2,Sofía,17,158,1.58
3,Maria,18,175,1.75
4,Juan,15,160,1.6


In [6]:
# Podemos hacerlo tambien en una sola linea usando funciones anonimas.
df["altura_m_2"] = df["altura_cm"].apply(lambda x: x/100)

In [7]:
df

Unnamed: 0,nombre,edad,altura_cm,altura_m,altura_m_2
0,Ana,21,160,1.6,1.6
1,Luis,35,175,1.75,1.75
2,Sofía,17,158,1.58,1.58
3,Maria,18,175,1.75,1.75
4,Juan,15,160,1.6,1.6


In [8]:
# Clasificar edades.
def clasificar_edad(edad: int) -> str:
  '''
  Clasificar las edades.
  '''
  if edad < 18:
      return "Menor"
  elif edad < 30:
      return "Joven"
  else:
      return "Adulto"

df["grupo_edad"] = df["edad"].apply(clasificar_edad)

In [9]:
df

Unnamed: 0,nombre,edad,altura_cm,altura_m,altura_m_2,grupo_edad
0,Ana,21,160,1.6,1.6,Joven
1,Luis,35,175,1.75,1.75,Adulto
2,Sofía,17,158,1.58,1.58,Menor
3,Maria,18,175,1.75,1.75,Joven
4,Juan,15,160,1.6,1.6,Menor


In [10]:
# Tambien podemos usar mas de una columna en un solo apply.

def describir_fila(fila: pd.Series) -> str:
  '''
  Crear una descripcion en cada registro.
  '''
  return f"{fila['nombre']} tiene {fila['edad']} años y mide {fila['altura_cm']} cm"

df["descripcion"] = df.apply(describir_fila, axis=1)

In [11]:
df

Unnamed: 0,nombre,edad,altura_cm,altura_m,altura_m_2,grupo_edad,descripcion
0,Ana,21,160,1.6,1.6,Joven,Ana tiene 21 años y mide 160 cm
1,Luis,35,175,1.75,1.75,Adulto,Luis tiene 35 años y mide 175 cm
2,Sofía,17,158,1.58,1.58,Menor,Sofía tiene 17 años y mide 158 cm
3,Maria,18,175,1.75,1.75,Joven,Maria tiene 18 años y mide 175 cm
4,Juan,15,160,1.6,1.6,Menor,Juan tiene 15 años y mide 160 cm


# Concat y Merge

## Concat

Une DataFrames por filas o columnas. Util cuando quiero unir 2 o mas DataFrames que comparten una estructura igual ya sea en columnas o filas.

- Caso 1: concatenamos por filas ya que se comparte la misma estructura de columnas.

In [12]:
# Definimos 2 DataFrame.
df1 = pd.DataFrame({"nombre": ["Ana", "Luis"], "edad": [25, 30]})
df2 = pd.DataFrame({"nombre": ["Sofía"], "edad": [22]})

In [13]:
df1

Unnamed: 0,nombre,edad
0,Ana,25
1,Luis,30


In [14]:
df2

Unnamed: 0,nombre,edad
0,Sofía,22


In [15]:
# Unimos 2 DataFrame y visualizamos.
# Notese ignoramos los index.
df_concatenado = pd.concat([df1, df2], ignore_index=True)
df_concatenado

Unnamed: 0,nombre,edad
0,Ana,25
1,Luis,30
2,Sofía,22


- Caso 2: concatenamos columnas ya que se comparte las mismas dimensiones de filas.

In [16]:
# Definimos 1 DataFrame.
df3 = pd.DataFrame({"altura": [160, 175, 158]})

In [17]:
df3

Unnamed: 0,altura
0,160
1,175
2,158


In [18]:
# Concatenamos.
# Notese que usamos axis=1 para indicar que estamos concatenando columnas.
df_concatenado_col = pd.concat([df_concatenado, df3], axis=1)

In [19]:
df_concatenado_col

Unnamed: 0,nombre,edad,altura
0,Ana,25,160
1,Luis,30,175
2,Sofía,22,158


## Merge

Une DataFrames según una clave o columna. Util cuando quiero unir DataFrames que no necesariamente comparten estructura pero si alguna columna.

In [20]:
# Definimos 2 DataFrame.
df_1 = pd.DataFrame({
  "nombre": ["Ana", "Luis", "Sofía"],
  "peso": [75, 80, 85],
})

df_2 = pd.DataFrame({
  "nombre": ["Ana", "Sofía", "Luis"],
  "altura": [180, 180, 175],
  "edad": [18, 25, 30],
})

In [21]:
df_1

Unnamed: 0,nombre,peso
0,Ana,75
1,Luis,80
2,Sofía,85


In [22]:
df_2

Unnamed: 0,nombre,altura,edad
0,Ana,180,18
1,Sofía,180,25
2,Luis,175,30


In [23]:
# Hacemos merge.
df_merged = pd.merge(df_1, df_2, on="nombre")

In [24]:
df_merged

Unnamed: 0,nombre,peso,altura,edad
0,Ana,75,180,18
1,Luis,80,175,30
2,Sofía,85,180,25


In [None]:
# Las dimensiones de los DataFrame no necesitan ser iguales, solo compartir una columna.
# Definimos 2 DataFrame.
df_1 = pd.DataFrame({
  "nombre": ["Ana", "Luis", "Sofía"],
  "peso": [75, 80, 85],
})

df_2 = pd.DataFrame({
  "Nombres": ["Ana", "Juan", "Luis", "Sofía"],
  "edad": [25, 30, 22, 18],
  "altura": [180, 180, 175, 160],
})

# Hacemos merge.
df_merged = df_1.merge(df_2, on="nombre", how="left")

In [None]:
# Tampoco es necesario que el nombre de la columna sea igual, pero si que su contenido tenga equivalencias.
# Definimos 2 DataFrame.
df_1 = pd.DataFrame({
  "nombre": ["Ana", "Luis", "Sofía"],
  "peso": [75, 80, 85],
})

df_2 = pd.DataFrame({
  "Nombres": ["Ana", "Juan", "Luis", "Sofía"],
  "edad": [25, 30, 22, 18],
  "altura": [180, 180, 175, 160],
})

# Hacemos merge.
df_merged = df_1.merge(df_2, left_on="nombre", right_on="Nombres", how="left")