# **Obtención y preparación de datos**

# OD18. Funciones de Mapeo

pandas ofrece varios métodos para aplicar funciones a los valores de una serie o de un dataframe, o para sustituir dichos valores por otros aplicando un cierto "mapeado". Más concretamente nos encontramos con los siguientes métodos:

* `pandas.Series.apply`: aplica una función a cada uno de los elementos de la serie cuyo resultado, por lo tanto, tendrá el mismo tamaño que la serie original.
* `pandas.Series.map`: devuelve una serie del mismo tamaño que la original en la que cada valor ha sido sustituido por otro valor resultante de aplicar una "función de mapeado".
* `pandas.DataFrame.applymap`: aplica una función a cada uno de los elementos del dataframe que, por lo tanto, tendrá el mismo tamaño que el dataframe original.
* `pandas.DataFrame.apply`: aplica una función a las filas o a las columnas de un dataframe. Si, por ejemplo, se aplica a las filas, el resultado será una serie con tantos valores como filas tuviese el dataframe original.

Los nombres pueden parecer un tanto confusos: uno podría esperar que el método `apply` tuviese el mismo comportamiento en series y en dataframes y, en realidad, el método equivalente al método `apply` de las series es el `applymap` de los dataframes.

In [None]:
import numpy as np
import pandas as pd

## <font color='blue'>**El método `Series.apply`**</font>

El método `pandas.Series.apply` permite aplicar a cada uno de los elementos de la serie una función. Ésta deberá aceptar un único valor como argumento y devolver también un único valor.

In [None]:
s = pd.Series([2, 5, 4])
s

Una función que eleve al cubo el argumento de entrada:



In [None]:
def cubo(n):
  return n ** 3

Podemos usar el método `apply` para aplicar esta función a cada uno de los elementos de la serie $s$:



In [None]:
s.apply(cubo)

El resultado es también una serie pandas.

## <font color='blue'>**El método `Series.map`**</font>

El método `pandas.Series.map` aplicado a una serie $s$ acepta un argumento que indica el tipo de mapeo a realizar y devuelve una serie equivalente a $s$ con sus valores una vez mapeados. Por ejemplo, supongamos que tenemos una serie cuyos valores representan el mes en el que se ha realizado una venta.

In [None]:
ventas = pd.Series([1, 2, 1, 1, 3, 1])
ventas

Y supongamos que queremos generar una serie equivalente a ésta en la que cada mes aparezca representado por su nombre, y no por un número.

### <font color='blue'>**Uso de un diccionario como función de mapeo**</font>

Una de las formas que tenemos de definir este "mapeo" entre números y cadenas de texto es utilizando un diccionario:

In [None]:
meses = {1: "ene", 2: "feb", 3: "mar"}
meses

Ahora, si ejecutamos el método `map` añadiendo como argumento este diccionario, se devolverá la serie que buscábamos:



In [None]:
ventas.map(meses)

### <font color='blue'>**Uso de una serie como función de mapeo**</font>

El método también admite como "función de mapeo" una serie:

In [None]:
meses = pd.Series(["ene", "feb", "mar"], index = [1, 2, 3])
meses

In [None]:
ventas.map(meses)

En este caso, cada valor de la serie original (ventas, en nuestro ejemplo) se mapeará con el elemento cuya etiqueta coincida con él.

### <font color='blue'>**Uso de una función como función de mapeo**</font>

El tercer método al que podemos recurrir es utilizar una función que acepte como entradas los valores que se encuentren en la serie original y devuelva el resultado del mapeo. Por ejemplo:


In [None]:
def mes_str(n):
  if n == 1:
    return "ene"
  elif n == 2:
    return "feb"
  elif n == 3:
    return "mar"

In [None]:
ventas.map(mes_str)

## <font color='blue'>**El método `DataFrame.apply`**</font>

Los dataframes tienen un método con el mismo nombre que el método `apply` de las series, `pandas.DataFrame.apply`, pero con funcionalidad diferente pues, en el caso de los dataframes, se aplica a lo largo de un eje del dataframe. Esto quiere decir que el argumento de entrada de la función a utilizar no va a ser un simple escalar, sino una serie cuyo índice va a ser el índice de filas del dataframe (si la función se aplica al eje 0) o el índice de columnas del dataframe (si la función se aplica al eje 1). El resultado del método también será una serie que estará formada por los valores calculados.

Por ejemplo, si tenemos el siguiente dataframe con las ventas de los productos A, B, C y D a lo largo de los meses de enero, febrero y marzo:

In [None]:
ventas = pd.DataFrame({"A": [3, 3, 1],
                   "B": [1, 5, 2],
                   "C": [3, 7, 2],
                   "D": [7, 2, 3]},
                  index = ["ene", "feb", "mar"])
ventas

Podríamos estar interesados en calcular el rango en el que se mueven las ventas, es decir, la diferencia entre el mayor y el menor valor de ventas. Para ello, sabiendo que dicho rango se va a aplicar a una fila o a una columna -es decir, a una serie-, definimos la siguiente función:

In [None]:
def rango(s):
  return max(s) - min(s)

Esta función acepta un iterable y devuelve la diferencia entre el valor máximo y el mínimo.

Ahora podemos aplicar esta función a nuestro dataframe de ventas. Por defecto se va a aplicar al eje 0 (eje vertical):

In [None]:
ventas.apply(rango)

Si nos fijamos en la columna A, el valor máximo es 3 y el mínimo es 1, de forma que su diferencia es 2, tal y como se muestra en el resultado del método `apply`.

Si aplicamos el método a lo largo del eje 1 (eje horizontal), obtendremos la diferencia entre el mayor y el menor valor de cada fila:

In [None]:
ventas.apply(rango, axis = 1)

## <font color='blue'>**El método `DataFrame.applymap`**</font>

Al contrario de lo que ocurría con el método `apply` de los dataframes, el método `pandas.DataFrame.applymap` aplica una función que acepta y devuelve un único escalar, función que se va a aplicar a todos los elementos del dataframe.*texto en cursiva*

In [None]:
ventas = pd.DataFrame({"A": [3, 3, 1],
                   "B": [1, 5, 2],
                   "C": [3, 7, 2],
                   "D": [7, 2, 3]},
                  index = ["ene", "feb", "mar"])
ventas

Supongamos que queremos saber si los valores son pares o no. Para ello definimos una función que acepta un valor de entrada y devuelve el booleano True si el valor es par y False en caso contrario:

In [None]:
def par(n):
  if n/2 == n//2:
    return True
  else:
    return False

Ahora podemos aplicar el método añadiendo como argumento esta función:

In [None]:
ventas.applymap(par)

Comprobamos que el resultado es un dataframe del mismo tamaño que el dataframe original en el que cada valor se ha sustituido por el resultado de aplicar la función indicada.

### <font color='green'>Actividad 1</font>

Tienes un DataFrame que contiene los precios de diferentes productos en dólares (USD). Quieres convertir estos precios a euros (EUR) usando un factor de conversión dado.

```
data = {
    'Producto': ['Manzana', 'Banana', 'Cereza', 'Uva'],
    'Precio (USD)': [0.5, 0.3, 1.2, 2.0]
}

df = pd.DataFrame(data)
```

1. Usa una función de mapeo para convertir los precios en USD a EUR. Suponga un factor de conversión de 0.85 (1 USD = 0.85 EUR).
2. Almacena los precios convertidos en una nueva columna llamada 'Precio (EUR)'.


In [None]:
# Tu código aquí ...


<font color='green'>Fin actividad 1</font>

### <font color='green'>Actividad 2</font>

Un colegio quiere clasificar a sus estudiantes en diferentes categorías según su edad: 'Niño' para aquellos con 12 años o menos, 'Adolescente' para aquellos entre 13 y 17 años, y 'Adulto' para los que tienen 18 años o más.

```
data = {
    'Nombre': ['Alice', 'Bob', 'Charlie', 'David'],
    'Edad': [12, 15, 19, 20]
}

df = pd.DataFrame(data)
```

1. Define una función que, dada una edad, devuelva 'Niño', 'Adolescente' o 'Adulto' según el criterio mencionado.
2. Aplica esta función al DataFrame usando una función de mapeo para clasificar a cada estudiante.
3. Almacena los resultados en una nueva columna llamada 'Categoría'.

In [None]:
# Tu código aquí ...


<font color='green'>Fin actividad 2</font>