<img src="pandas_logo.png">

## Iteración en Pandas

En el procesamiento de datos, es muy común realizar operaciones en una determinada fila o columna para obtener nuevos datos. Usar un **bucle for** para iterar a través de un DataFrame aunque puede hacernos el trabajo no es la mejor opción en términos de rendimiento.

Por suerte, Pandas  incorpora una serie de métodos para ayudarte a lograr los objetivos:

- apply: aplicacable en DataFrame y Series
- applymap: solo aplicable en DataFrame
- map: solo aplicable en Series

### Apply

Se usa para aplicar una función a lo largo de un eje del DataFrame o en los valores de Series. Un ejemplo sumando primero las filas y luego las columnas de un DataFrame haciendo uso de una **función lambda**:



In [2]:
import pandas as pd

df = pd.DataFrame({'A': [1,2,3,4], 
                   'B': [10,20,30,40],
                   'C': [20,40,60,80]
                  })

df['D'] = df.apply(lambda row: row.sum() , axis=1)

print(df)

   A   B   C    D
0  1  10  20   31
1  2  20  40   62
2  3  30  60   93
3  4  40  80  124


In [5]:
df = pd.DataFrame({'A': [1,2,3,4], 
                   'B': [10,20,30,40],
                   'C': [20,40,60,80]
                  })

df.loc[4] = df.apply(lambda col: col.sum() , axis=0)

print(df)

    A    B    C
0   1   10   20
1   2   20   40
2   3   30   60
3   4   40   80
4  10  100  200


### Applymap

Se usa para actuar sobre cada elemento de un DataFrame. Supongamos que se quiere por ejemplo calcular la raíz cuadrada de todos los valores de un df:

In [8]:
import numpy as np

df = pd.DataFrame({'A': [4,4], 
                   'B': [9,9],
                   'C': [16,16]
                  })

df = df.applymap(np.sqrt)

print(df)


     A    B    C
0  2.0  3.0  4.0
1  2.0  3.0  4.0


### Map

Es una operación que se utiliza para sustituir todos los valores de una Serie, aplicando un valor constante o una función:

In [10]:
series = pd.Series([1,2,3,4,5])

# Sustituimos todos los valores de la serie por su cuadrado
series = series.map(np.square)

print(series)

0     1
1     4
2     9
3    16
4    25
dtype: int64


En el caso de que estuvieramos trabajando con elementos de tipo *object* (cadenas de texto), podemos usar funciones asociadas con este tipo de dato, o diccionarios para sustitiur los valores. Ejemplo para que se entienda:


In [11]:
series = pd.Series(['uno', 'dos', 'tres'])

# se sustituiran los elementos que coincidan con las claves, por los valores
# los elementos que no se encuentren pasarán a ser NaN
diccionario_sustituciones = {'tres': 'nuevo valor'}

series = series.map(diccionario_sustituciones)

print(series)

0            NaN
1            NaN
2    nuevo valor
dtype: object


## Concatenación

Puede tratarse de una simple concatenación conjuntos de datos con la misma estructura, hasta uniones de bases de datos más complejas que manejan correctamente cualquier superposición entre los conjuntos de datos. 

Vamos a ver algunos ejemplos de concatenaciones sencillas entre objetos DataFrame con la función **pd.concat**.

In [14]:
# dfs con mismas columnas
df1 = pd.DataFrame({'A': [1, 2, 3], 'B': [1, 2 , 3]})
df2 = pd.DataFrame({'A': [4, 5], 'B': [4, 5]})

print(df1)
print()
print(df2)


   A  B
0  1  1
1  2  2
2  3  3

   A  B
0  4  4
1  5  5


In [15]:
# concatenamos en el eje X. Vemos que surgen indices duplicados, lo que puede
# traernos problemas en un futuro
pd.concat([df1, df2], axis = 0)

Unnamed: 0,A,B
0,1,1
1,2,2
2,3,3
0,4,4
1,5,5


In [16]:
# En las concatenaciones en eje X es aconsejable usar ignore_index = True
pd.concat([df1, df2], axis = 0, ignore_index = True)

Unnamed: 0,A,B
0,1,1
1,2,2
2,3,3
3,4,4
4,5,5


In [27]:
# Veamos un ejemplo concatenando en eje X con dfs de estructura diferente
df1 = pd.DataFrame({'A': [1, 2, 3], 'B': [1, 2, 3]})
df2 = pd.DataFrame({'C': [4, 5, 6], 'D': [4, 5, 6]})

print(df1)
print()
print(df2)

   A  B
0  1  1
1  2  2
2  3  3

   C  D
0  4  4
1  5  5
2  6  6


In [28]:
# Establecemos sort = True para mantener el orden logico (df1 primero)
pd.concat([df1, df2], axis = 0, ignore_index = True, sort = True)

Unnamed: 0,A,B,C,D
0,1.0,1.0,,
1,2.0,2.0,,
2,3.0,3.0,,
3,,,4.0,4.0
4,,,5.0,5.0
5,,,6.0,6.0


In [29]:
# Por último un ejemplo concatenando en el eje Y
pd.concat([df1, df2], axis = 1)

Unnamed: 0,A,B,C,D
0,1,1,4,4
1,2,2,5,5
2,3,3,6,6


En caso de hacer una concatenación en eje Y con dos DataFrame que presenten una columna con el **mismo nombre**, se **duplicaría**. Es decir, se conservaría el nombre original de cada uno de ellos, lo que puede dar lugar a problemas más adelante. En este caso es aconsejable solucionar esto previamente. Ejemplo:

In [34]:
# Veamos un ejemplo concatenando en eje X con dfs de estructura diferente
df1 = pd.DataFrame({'A': [1, 2, 3], 'B': [1, 2, 3]})
df2 = pd.DataFrame({'B': [4, 5, 6], 'D': [4, 5, 6]})

print(df1)
print()
print(df2)

   A  B
0  1  1
1  2  2
2  3  3

   B  D
0  4  4
1  5  5
2  6  6


In [35]:
# El nombre de columba 'B' aparece dos veces
pd.concat([df1, df2], axis = 1)

Unnamed: 0,A,B,B.1,D
0,1,1,4,4
1,2,2,5,5
2,3,3,6,6
