# Aplicar funciones a elementos de `Series` o `DataFrame`s
Cualquier procesado, manipulación o análisis de conjuntos de datos implica el aplicar transformaciones, funciones o calcular indicadores elemento a elemento, fila a fila o columna a columna. 

In [2]:
# Preliminares
import pandas as pd
import numpy as np

Para ilustrar, generamos un `DataFrame` usando un generador de números aleatorios.

In [5]:
# Usamos el generador por defecto del módulo random de numpy
# 
rng = np.random.default_rng(314)
df = pd.DataFrame(
    rng.standard_normal((5,2)),
    columns = ["X","Y"]
)
df

Unnamed: 0,X,Y
0,-0.623223,-0.556297
1,0.037388,0.99596
2,0.029919,0.348075
3,0.132315,0.151695
4,-0.1489,-0.062405


## Funciones universales `ufuncs` de `numpy`
Puesto que un `DataFrame` también es un array de `numpy`, podemos aplicarle cualquier función universal de `numpy`. Las funciones universales de `numpy`(ufuncs) se pueden consultar en la referencia [Available ufuncs](https://numpy.org/doc/stable/reference/ufuncs.html#available-ufuncs)

In [6]:
# Calculamos la exponencial de x e y, elemento a elemento
np.exp(df)

Unnamed: 0,X,Y
0,0.536213,0.573328
1,1.038096,2.707323
2,1.030371,1.416338
3,1.141468,1.163805
4,0.861655,0.939502


In [8]:
# Elevamos x a la potencia y, elemento a elemento:
np.pow(df["X"], df["Y"])

0         NaN
1    0.037888
2    0.294792
3    0.735788
4         NaN
dtype: float64

## También se pueden aplicar métodos de `pandas` directamente a todo un `DataFrame`

In [10]:
# Para obtener la suma, columna por columna
df.sum()

X   -0.572501
Y    0.877029
dtype: float64

In [15]:
# Para obtener la media, columna por columna
df.mean(axis=1)

0   -0.589760
1    0.516674
2    0.188997
3    0.142005
4   -0.105652
dtype: float64

In [14]:
# Para obtener la desviación típica, columna por columna
df.std(axis=1)

0    0.047324
1    0.677813
2    0.224970
3    0.013704
4    0.061161
dtype: float64

También podríamos calcular estos indicadores, fila por fila, usando el parámetro `axis=1`.

In [16]:
df.max(axis=0)

X    0.132315
Y    0.995960
dtype: float64

Podéis encontrar y explorar la gran cantidad de métodos disponibles para un `DataFrame`en la [documentación](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.html) de `pandas`.

## Aplicar funciones a elementos de `Series` o `DataFrame`s (II)
En el vídeo anterior vimos cómo aplicar funciones universales de `numpy` o los métodos de `pandas` a `DataFrame`s. Pero puede ser que queramos aplicar nuestras propias funciones. 

Al igual que en el vídeo anterior, para ilustrar, generamos un `DataFrame` usando un generador de números aleatorios.

In [None]:
# Usamos el generador por defecto del módulo random de numpy


Empezamos por crear una función

In [17]:
# hemos usado la construcción if else
def es_positivo(x):
    return "es positivo" if x>= 0 else "es negativo"

es_positivo(3)

'es positivo'

Para aplicar nuestra función a cada elemento del `DataFrame` usamos `applymap`

In [22]:
df.applymap(es_positivo)

  df.applymap(es_positivo)


Unnamed: 0,X,Y
0,es negativo,es negativo
1,es positivo,es positivo
2,es positivo,es positivo
3,es positivo,es positivo
4,es negativo,es negativo


Si quisieramos aplicar nuestra función a cada elemento de una `Serie` usaríamos `apply`:

In [24]:
def calcular_numero_positivos(s):
    return (s >= 0).sum()

calcular_numero_positivos(df["X"])

df.apply(calcular_numero_positivos)

df.apply(calcular_numero_positivos, axis=1)


0    0
1    2
2    2
3    2
4    0
dtype: int64

## Las funciones anónimas en Python

Es muy útil tener la posibilidad de definir sobre la marcha una función sin darle un nombre y usarla como argumento de un método. Se hace con `lambda`.

In [25]:
# Para obtener el doble de cada elemento
df.applymap(lambda x: 2*x)

  df.applymap(lambda x: 2*x)


Unnamed: 0,X,Y
0,-1.246446,-1.112593
1,0.074776,1.991921
2,0.059838,0.696149
3,0.26463,0.30339
4,-0.2978,-0.12481


## El método `apply` para un `DataFrame`

El método `apply` si se aplica a un `DataFrame` debe tener como argumento a una función que se aplica a toda una columna o toda una fila, no a un elemento individual.

In [26]:
# Ejemplo con una función que se aplica a un vector: calculamos el número de valores positivos por columna
(df>=0).sum()

X    3
Y    3
dtype: int64

El método `apply` admite también el argumento `axis=1`, para que se aplique la función fila por fila.

> Es muy recomendable evitar `apply` si es posible, y usar las funciones de `numpy` o los métodos de `pandas` que son muy optimizados y llevan a cabo la iteración en C.
`apply` lleva a cabo la iteración en Python.

En el caso anterior, podríamos haber usado directamente el método `sum` en `pandas`.

In [None]:
# Fila por fila: