### Aplicaciones de funciones de pandas/numpy

<center>
<img src="imgs/Pandas funciones.png"  alt="drawing" width="40%"/>
</center>

Creamos un dataframe para poder realizar las operaciones

In [1]:
import pandas as pd
import numpy as np
import matplotlib as plt

In [2]:
lista_pares = [ x for x in range(10) if x % 2 == 0]
lista_impares = [ x for x in range(10) if x % 2 != 0]

numeros_df = pd.DataFrame()
impares_df = pd.DataFrame()
numeros_df["par"] = lista_pares
numeros_df["impar"] = lista_impares

El método sum, suma, por defecto, las columnas

In [3]:
print(numeros_df.sum())

# Equivalente a .sum(axis=0)
numeros_df.sum(axis=0)

par      20
impar    25
dtype: int64


par      20
impar    25
dtype: int64

Para sumar por fila: axis=1

In [4]:
numeros_df.sum(axis=1)

0     1
1     5
2     9
3    13
4    17
dtype: int64

Para sumar todo el DataFrame:

In [5]:
print(numeros_df.to_numpy().sum())

numeros_df.values.sum()

45


45

__OJO__ Recordad que siempre podemos aplicar los métodos de numpy

In [6]:
print(np.mean(numeros_df))
np.var(numeros_df)

par      4.0
impar    5.0
dtype: float64


  return mean(axis=axis, dtype=dtype, out=out, **kwargs)


par      8.0
impar    8.0
dtype: float64

## Aplicación de funciones construídas por nosotros

Existen tres métodos para aplicar funciones:

* __apply():__ &emsp; aplicar una función a lo largo de un axis de un DataFrame o de una Serie (funciona con ambos)

* __applymap():__ &emsp;permite aplicar una función a un DataFrame

* __map():__ &emsp;para Series

<center>
<img src="imgs/Pandas apply.png"  alt="drawing" width="40%"/>
</center>

In [7]:
df = pd.DataFrame({ 'A': [1,2,3,4], 
                   'B': [10,20,30,40],
                   'C': [20,40,60,80]
                  }, 
                  index=['Row 1', 'Row 2', 'Row 3', 'Row 4'])

df

Unnamed: 0,A,B,C
Row 1,1,10,20
Row 2,2,20,40
Row 3,3,30,60
Row 4,4,40,80


Vamos a crear una función que, dada una serie, devuelva el valor de la suma de todos los elementos y se lo vamos a aplicar al DataFrame df

In [8]:

def mi_suma(x):
    return x.sum()

df['D'] = df.apply(mi_suma, axis=1)
df


Unnamed: 0,A,B,C,D
Row 1,1,10,20,31
Row 2,2,20,40,62
Row 3,3,30,60,93
Row 4,4,40,80,124


Podemos sumar las filas usando axis=0.

__OJO__ para generar la nueva fila hay que usar df.loc[]

In [9]:
df.loc['Total'] = df.apply(mi_suma, axis=0)
df

Unnamed: 0,A,B,C,D
Row 1,1,10,20,31
Row 2,2,20,40,62
Row 3,3,30,60,93
Row 4,4,40,80,124
Total,10,100,200,310


Usando __lambda functions__

In [10]:
df = pd.DataFrame({ 'A': [1,2,3,4], 
                   'B': [10,20,30,40],
                   'C': [20,40,60,80]
                  }, 
                  index=['Row 1', 'Row 2', 'Row 3', 'Row 4'])

df

Unnamed: 0,A,B,C
Row 1,1,10,20
Row 2,2,20,40
Row 3,3,30,60
Row 4,4,40,80


In [11]:
df['D'] = df.apply(lambda x:x.sum(), axis=1)
df

Unnamed: 0,A,B,C,D
Row 1,1,10,20,31
Row 2,2,20,40,62
Row 3,3,30,60,93
Row 4,4,40,80,124


In [12]:
df.loc['Row 5'] = df.apply(lambda x:x.sum(), axis=0)
df

Unnamed: 0,A,B,C,D
Row 1,1,10,20,31
Row 2,2,20,40,62
Row 3,3,30,60,93
Row 4,4,40,80,124
Row 5,10,100,200,310


¿Qué pasa si no indico axis?

In [13]:
df.apply(np.square)

Unnamed: 0,A,B,C,D
Row 1,1,100,400,961
Row 2,4,400,1600,3844
Row 3,9,900,3600,8649
Row 4,16,1600,6400,15376
Row 5,100,10000,40000,96100


¿Cómo pasarle argumentos al la función de apply?

In [19]:
def mi_sum(x, y, z, m):
    return (x + y + z) * m

df.apply(mi_sum, args=(1, 2, 10)) 

Unnamed: 0,A,B,C,D
Row 1,40,130,230,340
Row 2,50,230,430,650
Row 3,60,330,630,960
Row 4,70,430,830,1270
Row 5,130,1030,2030,3130


## Ejercicios

**1** Calcula la diferecia entre el máximo y el mínimo por fila y por columna aplicando una función al dataframe df 

In [None]:
df = pd.DataFrame({ 'A': [1,2,3,4], 
                   'B': [10,20,30,40],
                   'C': [20,40,60,80]
                  }, 
                  index=['Row 1', 'Row 2', 'Row 3', 'Row 4'])

**2** Calcula la matriz correlación entre Apple y Google (podeis mirar como rellenar los NAN en el notebook 4.3)