<a href="https://colab.research.google.com/github/sonder-art/fdd_prim_2023/blob/main/codigo/pandas/pandas_3_apply_concat.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

In [1]:
import pandas as pd
import numpy as np

# Apply

El método `.apply()` de pandas es muy útil para aplicar una función a un DataFrame o a una Serie de forma rápida y sencilla. A continuación te muestro algunos ejemplos sencillos y avanzados de cómo utilizar este método:

## Aplicar una función a una Serie

In [None]:
# Crear una Serie
s = pd.Series([1, 2, 3, 4, 5])

# Aplicar una función a la Serie
s_cuadrado = s.apply(lambda x: x**2)
print(s_cuadrado)

## Aplicar una función a una columna de un DataFrame

In [None]:
# Crear un DataFrame
df = pd.DataFrame({
    'A': [1, 2, 3, 4, 5],
    'B': [10, 20, 30, 40, 50]
})

# Aplicar una función a una columna del DataFrame
df['A_cuadrado'] = df['A'].apply(lambda x: x**2)

print(df)

In [None]:
df[['A', 'B', 'C']].apply(lambda x: x**2)

In [None]:
# Crear un DataFrame
df = pd.DataFrame({
    'A': [1, 2, 3, 4, 5],
    'B': [10, 20, 30, 40, 50],
    'C': [100, 200, 300, 400, 500]
})

# Aplicar una función a varias columnas del DataFrame
df[['A_cuadrado', 'B_cuadrado', 'C_cuadrado']] = df[['A', 'B', 'C']].apply(lambda x: x**2)

print(df)

## Aplicar una función que utiliza varios argumentos a un DataFrame

En este ejemplo, creamos un DataFrame con dos columnas A y B y luego definimos una función llamada `suma_producto()` que toma tres argumentos: `x`, `a `y `b`. Luego, aplicamo. El primer argumento es la columna

In [None]:
# Crear un DataFrame
df = pd.DataFrame({
    'A': [1, 2, 3, 4, 5],
    'B': [10, 20, 30, 40, 50]
})

# Definir una función que utiliza varios argumentos
def suma_producto(x, a, b):
    return x + a * b

# Aplicar la función a una columna del DataFrame
df['C'] = df['A'].apply(suma_producto, args=(2, 3))

print(df)

Que pasa si se lo aplicamos a dos columnas?

In [None]:
# Crear un DataFrame
df = pd.DataFrame({
    'A': [1, 2, 3, 4, 5],
    'B': [10, 20, 30, 40, 50]
})

# Definir una función que utiliza varios argumentos
def suma_producto(x, a, b):
    return x + a * b

# Aplicar la función a una columna del DataFrame
try:
  df['C'] = df[['A']].apply(suma_producto, args=(2, 3))
  print(df)
except Exception as e:
   print(e) 

In [None]:
df = pd.DataFrame({
    'A': [1, 2, 3, 4, 5],
    'B': [10, 20, 30, 40, 50]
})

# Definir una función que utiliza varios argumentos
def suma_producto(x, a, b):
    return x + a * b

# Aplicar la función a una columna del DataFrame
try:
  df['C'] = df[['A', 'B']].apply(suma_producto, args=(3))
  print(df)
except Exception as e:
  print(e)

In [None]:
df = pd.DataFrame({
    'A': [1, 2, 3, 4, 5],
    'B': [10, 20, 30, 40, 50],
    'H': [-10, 20, 30, 40, -50]
})

# Definir una función que utiliza varios argumentos
def suma_producto(x, a, b):
    return x + a * b

# Aplicar la función a una columna del DataFrame
try:
  df['C'] = df[['A', 'B']].apply(lambda x: suma_producto(x['A'],x['B'], 3), axis=1)
  print(df)
except Exception as e:
  print(e)

## Apply a columnas

In [None]:
# Creamos un DataFrame de ejemplo
data = {'A': [1, 2, 3], 'B': [4, 5, 6], 'C': [7, 8, 9]}
df = pd.DataFrame(data)
print(df)

# Aplicamos la función a las columnas del DataFrame
df_aplicado = df.apply(np.sum, axis=1)

df_aplicado

# Applymap


También podemos utilizar la función apply para aplicar funciones a elementos individuales del DataFrame. En este caso, podemos utilizar la función `applymap`. 

In [None]:
# Creamos un DataFrame de ejemplo
data = {'A': [1, 2, 3], 'B': [4, 5, 6], 'C': [7, 8, 9]}
df = pd.DataFrame(data)
print(df)
# Definimos una función para aplicar a cada elemento del DataFrame
def multiplicar_por_2(elemento):
    return elemento * 2

# Aplicamos la función a cada elemento del DataFrame
df_aplicado = df.applymap(multiplicar_por_2)

print(df_aplicado)

Parece no haber diferencia, pero veamos que pasa si agregamos condiciones booleanas a nustras funciones

In [None]:
# Creamos un DataFrame
df = pd.DataFrame({
    'A': [0.3, 0.6, 0.8],
    'B': [0.4, 0.2, 0.1]
})

# Definimos la función que queremos aplicar a cada valor del DataFrame
def mayor_que_05(x):
    if x > 0.5:
        return 1
    else:
        return 0

# Aplicamos la función a cada columna del DataFrame con apply
try:
  df.apply(mayor_que_05, axis=0)
except Exception as e:
  print(e)
# Aplicamos la función a cada elemento del DataFrame con applymap
df.applymap(mayor_que_05)


En general, el método applymap es útil para aplicar funciones a cada uno de los elementos de un DataFrame, mientras que el método apply se utiliza para aplicar una función a una columna o fila específica de un DataFrame. Es importante tener en cuenta que el método apply también puede aplicarse a un DataFrame completo, pero en ese caso, la función se aplicará a cada columna del DataFrame.

# Concat

In [None]:
# Creamos dos DataFrames
df1 = pd.DataFrame({'A': [1, 2], 'B': [3, 4]})
df2 = pd.DataFrame({'A': [5, 6], 'B': [7, 8]})
print(df1)
print(df2)

# Concatenamos los DataFrames verticalmente
df_concatenado = pd.concat([df1, df2])

# Mostramos el DataFrame concatenado
df_concatenado

In [None]:
df_concatenado.loc[0]

Como se puede ver, `pd.concat()` ha unido los dos DataFrames verticalmente, creando un nuevo DataFrame con todas las filas de `df1` seguidas de todas las filas de `df2`.

Ahora, un ejemplo más avanzado. Supongamos que tenemos varios DataFrames que queremos concatenar en una sola operación. Podemos hacer esto usando una lista por comprensión para crear una lista de DataFrames y luego pasar esa lista a `pd.concat()`. 

In [None]:
# Creamos una lista de DataFrames aleatorios
dataframes = [pd.DataFrame(np.random.randn(3, 2), 
                           columns=['A', 'B']) for i in range(4)]

# Concatenamos los DataFrames en un solo DataFrame
df_concatenado = pd.concat(dataframes, ignore_index=True)

# Mostramos el DataFrame concatenado
df_concatenado

## Axis = 0

In [None]:
df1 = pd.DataFrame({'A': [1, 2, 3], 'B': [4, 5, 6]})
df2 = pd.DataFrame({'C': [7, 8, 9], 'D': [10, 11, 12]})

`axis`. Este argumento indica si la concatenación se hace a lo largo de las filas (`axis=0`) o a lo largo de las columnas (`axis=1`). Consideremos dos dataframes `df1` y `df2`:

In [None]:
df1

In [None]:
df2

In [None]:
df_concat_filas = pd.concat([df1, df2], axis=0)
df_concat_filas

In [None]:
# Se repite el indice
df_concat_filas.loc[0]

Como puedes ver, la salida tiene `NaN` en las columnas que no estaban presentes en cada uno de los dataframes originales.

### Ignore Index

Ahora consideremos el argumento `ignore_index`. Si se establece en True, el índice del dataframe resultante será reiniciado de manera consecutiva:

In [None]:
df_concat_ignore_index = pd.concat([df1, df2], ignore_index=True)
df_concat_ignore_index

In [None]:
df_concat_ignore_index.loc[0]

## Axis = 1

Si concatenamos `df1` y `df2` a lo largo de las columnas (`axis=1`), se obtiene un dataframe que tiene las columnas de `df1` seguidas de las columnas de `df2`:

In [None]:
df1

In [None]:
df2

In [None]:
df_concat_columnas = pd.concat([df1, df2], axis=1)
df_concat_columnas

### Ignore index (axis = 1)


#### Mismos indices

In [None]:
# Creamos dos DataFrames con índices iguales
df1 = pd.DataFrame({'A': [1, 2, 3], 'B': [4, 5, 6]}, index=[0, 1, 2])
df2 = pd.DataFrame({'C': [7, 8, 9], 'D': [10, 11, 12]}, index=[0, 1, 2])

# Concatenamos los DataFrames a lo largo de las columnas (axis=1)
df_concat = pd.concat([df1, df2], axis=1, ignore_index=True)

df_concat

En este caso, los índices son iguales en ambos DataFrames, por lo que la concatenación no tiene problemas y se genera un nuevo DataFrame con las columnas concatenadas.

#### Algunos indices parecidos

In [None]:
# Creamos dos DataFrames con índices parecidos
df1 = pd.DataFrame({'A': [1, 2, 3], 'B': [4, 5, 6]}, index=[0, 1, 2])
df2 = pd.DataFrame({'C': [7, 8, 9], 'D': [10, 11, 12]}, index=[1, 2, 3])

# Concatenamos los DataFrames a lo largo de las columnas (axis=1)
df_concat = pd.concat([df1, df2], axis=1, ignore_index=True)

df_concat

En este caso, los índices son parecidos pero no iguales, por lo que la concatenación genera un nuevo DataFrame con `NaNs` en las celdas donde no hay valores. Además, al utilizar `ignore_index=True`, los índices originales se ignoran y se crean nuevos índices secuenciales.

### Indices Diferentes

In [None]:

df1 = pd.DataFrame({'A': [1, 2, 3], 'B': [4, 5, 6]}, index=[0, 1, 2])
df2 = pd.DataFrame({'C': [7, 8, 9], 'D': [10, 11, 12]}, index=[4, 5, 66])

# Concatenamos a lo largo de las filas (axis=0) y no ignoramos los índices originales
concatenado = pd.concat([df1, df2], axis=1, ignore_index=False)
print(concatenado)