<a href="https://colab.research.google.com/github/sonder-art/fdd_prim_2023/blob/main/codigo/pandas/pandas_3_apply_concat.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

In [28]:
import pandas as pd
import numpy as np

# Apply

El método `.apply()` de pandas es muy útil para aplicar una función a un DataFrame o a una Serie de forma rápida y sencilla. A continuación te muestro algunos ejemplos sencillos y avanzados de cómo utilizar este método:

## Aplicar una función a una Serie

In [3]:
# Crear una Serie
s = pd.Series([1, 2, 3, 4, 5])

# Aplicar una función a la Serie
s_cuadrado = s.apply(lambda x: x**2)
print(s_cuadrado)

0     1
1     4
2     9
3    16
4    25
dtype: int64


## Aplicar una función a una columna de un DataFrame

In [4]:
# Crear un DataFrame
df = pd.DataFrame({
    'A': [1, 2, 3, 4, 5],
    'B': [10, 20, 30, 40, 50]
})

# Aplicar una función a una columna del DataFrame
df['A_cuadrado'] = df['A'].apply(lambda x: x**2)

print(df)

   A   B  A_cuadrado
0  1  10           1
1  2  20           4
2  3  30           9
3  4  40          16
4  5  50          25


In [5]:
# Crear un DataFrame
df = pd.DataFrame({
    'A': [1, 2, 3, 4, 5],
    'B': [10, 20, 30, 40, 50],
    'C': [100, 200, 300, 400, 500]
})

# Aplicar una función a varias columnas del DataFrame
df[['A_cuadrado', 'B_cuadrado', 'C_cuadrado']] = df[['A', 'B', 'C']].apply(lambda x: x**2)

print(df)

   A   B    C  A_cuadrado  B_cuadrado  C_cuadrado
0  1  10  100           1         100       10000
1  2  20  200           4         400       40000
2  3  30  300           9         900       90000
3  4  40  400          16        1600      160000
4  5  50  500          25        2500      250000


## Aplicar una función que utiliza varios argumentos a un DataFrame

En este ejemplo, creamos un DataFrame con dos columnas A y B y luego definimos una función llamada `suma_producto()` que toma tres argumentos: `x`, `a `y `b`. Luego, aplicamo. El primer argumento es la columna

In [9]:
# Crear un DataFrame
df = pd.DataFrame({
    'A': [1, 2, 3, 4, 5],
    'B': [10, 20, 30, 40, 50]
})

# Definir una función que utiliza varios argumentos
def suma_producto(x, a, b):
    return x + a * b

# Aplicar la función a una columna del DataFrame
df['C'] = df['A'].apply(suma_producto, args=(2, 3))

print(df)

   A   B   C
0  1  10   7
1  2  20   8
2  3  30   9
3  4  40  10
4  5  50  11


Que pasa si se lo aplicamos a dos columnas?

In [11]:
# Crear un DataFrame
df = pd.DataFrame({
    'A': [1, 2, 3, 4, 5],
    'B': [10, 20, 30, 40, 50]
})

# Definir una función que utiliza varios argumentos
def suma_producto(x, a, b):
    return x + a * b

# Aplicar la función a una columna del DataFrame
try:
  df['C'] = df[['A', 'B']].apply(suma_producto, args=(2, 3))
  print(df)
except Exception as e:
  print(e)

Wrong number of items passed 2, placement implies 1


In [14]:
df = pd.DataFrame({
    'A': [1, 2, 3, 4, 5],
    'B': [10, 20, 30, 40, 50]
})

# Definir una función que utiliza varios argumentos
def suma_producto(x, a, b):
    return x + a * b

# Aplicar la función a una columna del DataFrame
try:
  df['C'] = df[['A', 'B']].apply(suma_producto, args=(3))
  print(df)
except Exception as e:
  print(e)

suma_producto() argument after * must be an iterable, not int


In [19]:
df = pd.DataFrame({
    'A': [1, 2, 3, 4, 5],
    'B': [10, 20, 30, 40, 50]
})

# Definir una función que utiliza varios argumentos
def suma_producto(x, a, b):
    return x + a * b

# Aplicar la función a una columna del DataFrame
try:
  df['C'] = df[['A', 'B']].apply(lambda x: suma_producto(x['A'],x['B'], 3), axis=1)
  print(df)
except Exception as e:
  print(e)

   A   B    C
0  1  10   31
1  2  20   62
2  3  30   93
3  4  40  124
4  5  50  155


## Apply a columnas

In [21]:
# Creamos un DataFrame de ejemplo
data = {'A': [1, 2, 3], 'B': [4, 5, 6], 'C': [7, 8, 9]}
df = pd.DataFrame(data)

# Definimos una función para aplicar a las columnas
def multiplicar_por_2(columna):
    return columna * 2

# Aplicamos la función a las columnas del DataFrame
df_aplicado = df.apply(sum, axis=0)

print(df_aplicado)

A     6
B    15
C    24
dtype: int64


# Applymap


También podemos utilizar la función apply para aplicar funciones a elementos individuales del DataFrame. En este caso, podemos utilizar la función `applymap`. 

In [22]:
# Creamos un DataFrame de ejemplo
data = {'A': [1, 2, 3], 'B': [4, 5, 6], 'C': [7, 8, 9]}
df = pd.DataFrame(data)

# Definimos una función para aplicar a cada elemento del DataFrame
def multiplicar_por_2(elemento):
    return elemento * 2

# Aplicamos la función a cada elemento del DataFrame
df_aplicado = df.applymap(multiplicar_por_2)

print(df_aplicado)

   A   B   C
0  2   8  14
1  4  10  16
2  6  12  18


Parece no haber diferencia, pero veamos que pasa si agregamos condiciones booleanas a nustras funciones

In [25]:
# Creamos un DataFrame
df = pd.DataFrame({
    'A': [0.3, 0.6, 0.8],
    'B': [0.4, 0.2, 0.1]
})

# Definimos la función que queremos aplicar a cada valor del DataFrame
def mayor_que_05(x):
    if x > 0.5:
        return 1
    else:
        return 0

# Aplicamos la función a cada columna del DataFrame con apply
try:
  df.apply(mayor_que_05)
except Exception as e:
  print(e)
# Aplicamos la función a cada elemento del DataFrame con applymap
df.applymap(mayor_que_05)


The truth value of a Series is ambiguous. Use a.empty, a.bool(), a.item(), a.any() or a.all().


Unnamed: 0,A,B
0,0,0
1,1,0
2,1,0


En general, el método applymap es útil para aplicar funciones a cada uno de los elementos de un DataFrame, mientras que el método apply se utiliza para aplicar una función a una columna o fila específica de un DataFrame. Es importante tener en cuenta que el método apply también puede aplicarse a un DataFrame completo, pero en ese caso, la función se aplicará a cada columna del DataFrame.

# Concat

In [31]:
# Creamos dos DataFrames
df1 = pd.DataFrame({'A': [1, 2], 'B': [3, 4]})
df2 = pd.DataFrame({'A': [5, 6], 'B': [7, 8]})

# Concatenamos los DataFrames verticalmente
df_concatenado = pd.concat([df1, df2])

# Mostramos el DataFrame concatenado
df_concatenado

Unnamed: 0,A,B
0,1,3
1,2,4
0,5,7
1,6,8


Como se puede ver, `pd.concat()` ha unido los dos DataFrames verticalmente, creando un nuevo DataFrame con todas las filas de `df1` seguidas de todas las filas de `df2`.

Ahora, un ejemplo más avanzado. Supongamos que tenemos varios DataFrames que queremos concatenar en una sola operación. Podemos hacer esto usando una lista por comprensión para crear una lista de DataFrames y luego pasar esa lista a `pd.concat()`. 

In [30]:
# Creamos una lista de DataFrames aleatorios
dataframes = [pd.DataFrame(np.random.randn(3, 2), 
                           columns=['A', 'B']) for i in range(4)]

# Concatenamos los DataFrames en un solo DataFrame
df_concatenado = pd.concat(dataframes, ignore_index=True)

# Mostramos el DataFrame concatenado
df_concatenado

Unnamed: 0,A,B
0,-0.470764,-0.271426
1,0.056231,1.933531
2,0.148037,1.079778
3,-0.219917,-0.594401
4,0.60018,-0.346468
5,-0.013016,-0.096497
6,-0.787939,0.707211
7,-0.185763,-0.569327
8,-1.276538,-0.210856
9,-0.210796,-1.009507


## Axis = 0

In [32]:
df1 = pd.DataFrame({'A': [1, 2, 3], 'B': [4, 5, 6]})
df2 = pd.DataFrame({'C': [7, 8, 9], 'D': [10, 11, 12]})

`axis`. Este argumento indica si la concatenación se hace a lo largo de las filas (`axis=0`) o a lo largo de las columnas (`axis=1`). Consideremos dos dataframes `df1` y `df2`:

In [34]:
df_concat_filas = pd.concat([df1, df2], axis=0)
df_concat_filas

Unnamed: 0,A,B,C,D
0,1.0,4.0,,
1,2.0,5.0,,
2,3.0,6.0,,
0,,,7.0,10.0
1,,,8.0,11.0
2,,,9.0,12.0


In [38]:
# Se repite el indice
df_concat_filas.loc[0]

Unnamed: 0,A,B,C,D
0,1.0,4.0,,
0,,,7.0,10.0


Como puedes ver, la salida tiene `NaN` en las columnas que no estaban presentes en cada uno de los dataframes originales.

### Ignore Index

Ahora consideremos el argumento `ignore_index`. Si se establece en True, el índice del dataframe resultante será reiniciado de manera consecutiva:

In [40]:
df_concat_ignore_index = pd.concat([df1, df2], ignore_index=True)
df_concat_ignore_index

Unnamed: 0,A,B,C,D
0,1.0,4.0,,
1,2.0,5.0,,
2,3.0,6.0,,
3,,,7.0,10.0
4,,,8.0,11.0
5,,,9.0,12.0


In [42]:
df_concat_ignore_index.loc[0]

A    1.0
B    4.0
C    NaN
D    NaN
Name: 0, dtype: float64

## Axis = 1

Si concatenamos `df1` y `df2` a lo largo de las columnas (`axis=1`), se obtiene un dataframe que tiene las columnas de `df1` seguidas de las columnas de `df2`:

In [36]:
df_concat_columnas = pd.concat([df1, df2], axis=1)
df_concat_columnas

Unnamed: 0,A,B,C,D
0,1,4,7,10
1,2,5,8,11
2,3,6,9,12


### Ignore index (axis = 1)


#### Mismos indices

In [44]:
# Creamos dos DataFrames con índices iguales
df1 = pd.DataFrame({'A': [1, 2, 3], 'B': [4, 5, 6]}, index=[0, 1, 2])
df2 = pd.DataFrame({'C': [7, 8, 9], 'D': [10, 11, 12]}, index=[0, 1, 2])

# Concatenamos los DataFrames a lo largo de las columnas (axis=1)
df_concat = pd.concat([df1, df2], axis=1, ignore_index=True)

df_concat

Unnamed: 0,0,1,2,3
0,1,4,7,10
1,2,5,8,11
2,3,6,9,12


En este caso, los índices son iguales en ambos DataFrames, por lo que la concatenación no tiene problemas y se genera un nuevo DataFrame con las columnas concatenadas.

#### Algunos indices parecidos

In [45]:
# Creamos dos DataFrames con índices parecidos
df1 = pd.DataFrame({'A': [1, 2, 3], 'B': [4, 5, 6]}, index=[0, 1, 2])
df2 = pd.DataFrame({'C': [7, 8, 9], 'D': [10, 11, 12]}, index=[1, 2, 3])

# Concatenamos los DataFrames a lo largo de las columnas (axis=1)
df_concat = pd.concat([df1, df2], axis=1, ignore_index=True)

df_concat

     0    1    2     3
0  1.0  4.0  NaN   NaN
1  2.0  5.0  7.0  10.0
2  3.0  6.0  8.0  11.0
3  NaN  NaN  9.0  12.0


En este caso, los índices son parecidos pero no iguales, por lo que la concatenación genera un nuevo DataFrame con `NaNs` en las celdas donde no hay valores. Además, al utilizar `ignore_index=True`, los índices originales se ignoran y se crean nuevos índices secuenciales.

### Indices Diferentes

In [46]:

df1 = pd.DataFrame({'A': [1, 2, 3], 'B': [4, 5, 6]}, index=[0, 1, 2])
df2 = pd.DataFrame({'C': [7, 8, 9], 'D': [10, 11, 12]}, index=[4, 5, 66])

# Concatenamos a lo largo de las filas (axis=0) y no ignoramos los índices originales
concatenado = pd.concat([df1, df2], axis=1, ignore_index=False)
print(concatenado)

      A    B    C     D
0   1.0  4.0  NaN   NaN
1   2.0  5.0  NaN   NaN
2   3.0  6.0  NaN   NaN
4   NaN  NaN  7.0  10.0
5   NaN  NaN  8.0  11.0
66  NaN  NaN  9.0  12.0
