# 3.3. Introducción a Pandas III.

In [None]:
import pandas as pd
import numpy as np
import matplotlib as plt

### Aplicación de funciones y Mapping

<center>
<img src="imgs/pd8.png"  alt="drawing" width="700"/>
</center>


In [None]:
frame = pd.DataFrame(np.random.randn(4, 3), columns=list('bde'),
                     index=['Utah', 'Ohio', 'Texas', 'Oregon'])
frame

El método sum, por defecto, suma por columnas

In [None]:
frame.sum()

Es lo mismo que poner axis=0

In [None]:
frame.sum(axis=0)

Axis = 1 suma por filas

In [None]:
frame.sum(axis=1)

¿Y si quiero sumar todo el DF?

In [None]:
frame.to_numpy().sum()

O también valdría:

In [None]:
frame.values.sum()

Podemos indicar que realice la operación con axis=1, o con axis='columns'

In [None]:
frame.sum(axis='columns')

Recordemos que podemos invocar al método que queramos de esta manera

Todas las funciones de numpy las podemos aplicar sobre un dataframe

In [None]:
print(frame.abs())

np.abs(frame)

In [None]:
np.sin(frame)

### Apply

- Con frame.apply(f) podemos aplicar la función f por filas o columnas.
- Por defecto apply es por filas (pero se puede cambiar con el argumento axis).

No tenemos que limitarnos a las funciones predefinidas. Podemos aplicar la función que queramos (una que hayamos construido nosotros).

Vamos definir, por ejemplo, una función que calcule la diferencia entre el valor más alto y el más bajo

In [None]:
def resta_min_max(x):
    return x.max() - x.min()

También podríamos hacerlo a través de una función lambda

In [None]:
f = lambda x: x.max() - x.min()

Y podemos aplicar la función, elemento a elemento, por columnas, al DF

In [None]:
frame.apply(f)

Sería exáctamente lo mismo si aplicamos la función resta_min_max que hemos definido anteriormente.

In [None]:
frame.apply(resta_min_max)

Podemos aplicar la función por filas

In [None]:
frame.apply(f, axis='columns')

Que es lo mismo que poner axis=1

In [None]:
frame.apply(f, axis=1)

O por columnas

In [None]:
frame.apply(f, axis=0)

- Podemos pasar funciones más complicadas, que retornen series

In [None]:
frame

Definimos una función que calcula el máximo y mínimo, y lo devuelve en una serie.

In [None]:
def f(x):
    return pd.Series([x.min(), x.max()], index=['min', 'max'])

A aplicarlo por columnas, el resultado que obtenemos es un dataframe, compuesto de las series (con el máximo y mínimo) de cada columna

In [None]:
frame.apply(f)

### Map, applymap y apply

Principalmente vamos a usar apply, siempre. Pero puede que os encontréis en algún código la función map, o applymap.

Básicamente, las tres funciones hacen lo mismo. ¿Cual es entonces la diferencia?
- map es únicamente para Series
- applymap es únicamente para Dataframes
- Apply funciona para ambos (series y DF)

### Sorting

In [None]:
obj = pd.Series(range(4), index=['d', 'a', 'b', 'c'])
obj

Sort_index ordenar el índice.

In [None]:
obj.sort_index()

In [None]:
frame = pd.DataFrame(np.arange(8).reshape((2, 4)),
                     index=['three', 'one'],
                     columns=['d', 'a', 'b', 'c'])
frame

In [None]:
frame.sort_index()

También acepta el parámetro axis, por lo que podemos ordenar por filas o columnas.

In [None]:
frame.sort_index(axis=1)

Así como especificar si queremos que sea ascendente o descendente.

In [None]:
frame.sort_index(axis=1, ascending=False)

También podemos ordenar por valores.

In [None]:
obj = pd.Series([4, 7, -3, 2])
obj

In [None]:
obj.sort_values()

Con DataFrames, podemos pasar el argumento by, indicando si queremos ordenar por una fila o columna específica.

In [None]:
frame = pd.DataFrame({'b': [4, 7, -3, 2], 'a': [0, 1, 0, 1]})
frame

Si indicamos que queremos ordenar por valores, pero no indicamos by. Nos dará error.

In [None]:
frame.sort_values()

Recordad que siempre podemos pedir ayuda

In [None]:
?frame.sort_values

In [None]:
frame.sort_values(by='a')

### Índices con Duplicados

In [None]:
obj = pd.Series(range(5), index=['a', 'a', 'b', 'b', 'c'])
obj

Al contrario que en R, Python sí permite tener índices duplicados.

Es importante, por lo tanto, saber si tenemos índices únicos

In [None]:
obj.index.is_unique

In [None]:
obj['a']

In [None]:
obj['c']

### Resumen y cálculo de estadísticas descriptivas.

In [None]:
df = pd.DataFrame([[1.4, np.nan], [7.1, -4.5],
                   [np.nan, np.nan], [0.75, -1.3]],
                  index=['a', 'b', 'c', 'd'],
                  columns=['one', 'two'])
df

Si aplicamos una función y la fila, o columna, tienen NAN, podemos especificar el comportamiento que queremos. Ignorando los NaN

In [None]:
df.mean(axis='columns')

O haciendo que, si existen, no se realice el cálculo.

In [None]:
df.mean(axis='columns', skipna=False)

Describe nos da los principales estadísticos de las columnas numéricas

In [None]:
df.describe()

O la frecuencia, contador y valores únicos de los string

In [None]:
obj = pd.Series(['a', 'a', 'b', 'c'] * 4)
obj

In [None]:
obj.describe()

### Ejemplo financiero

Para terminar, vamos a ver un ejemplo rápido de qué es lo que se puede hacer con pandas y sus DF.

In [None]:
datos_apple = pd.read_csv('apple_data.csv', index_col='date')

Vemos qué pinta tienen los datos que acabamos de cargar.

In [None]:
datos_apple.head()

In [None]:
datos_apple.describe()

In [None]:
datos_apple.close.plot()

Con una sola línea podemos calcular los rendimientos aritméticos.

In [None]:
returns = datos_apple['close'].pct_change()
returns.tail()

O sus rendimientos logarítmicos

In [None]:
returns = np.log(datos_apple['close']).diff()

Y mostrarlo en un histograma

In [None]:
returns.hist(bins=100)

___
# Ejercicios

Utilizando el siguiente dataframe:

In [None]:
df = pd.DataFrame({
    "price": [5,2,3,1,4,5,6,7,8,3,4,8,9],
    "hours": [1,9,6,5,3,9,2,9,1,7,4,2,2],
    "happiness": [2,1,3,2,3,1,2,3,1,2,2,1,3],
    "caffienated": [0,0,1,1,0,0,0,0,1,1,0,1,0]
})

**3.3.1.** 

- Calcula la media del precio.
- Calcula la mutltiplicación de price x hours.

**3.3.2.** En bikes.csv encontrarás información agregada por horas de un sistema de alquiler de bicicletas (parecido al servicio BiciMad). 

Las variables del  dataset   son las siguientes:  

- date:  fecha (en formato yyyy­mm­dd).  
- season:  estación del año. Los valores son:  
    o	1 (winter)  
    o	2 (spring)  
    o	3 (summer)  
    o	4 (fall)  
- hour:  la hora del día (0 a 23).  
- is.holiday:  1 si es día festivo, 0 en caso contrario.  
- weekday:  día de la semana. Los valores son:  
o	0 (Sunday)  
o	1 (Monday)  
o	2 (Tuesday)  
o	3 (Wednesday)  
o	4 (Thursday)  
o	5 (Friday)  
o	6 (Saturday)  
- is.workingday:  si el día no es ni fin de semana ni vacaciones 1, en caso contrario 0.  
- weathersit:  variable categórica con los siguientes valores:  
o	1: Clear, Few clouds, Partly cloudy, cloudy  
o	2: Mist + Cloudy, Mist + Broken clouds, Mist + Few clouds, Mist  
o	3: Light Snow, Light Rain + Thunderstorm + Scattered clouds, Light Rain + Scattered clouds  
o	4: Heavy Rain + Ice Pallets + Thunderstorm + Mist, Snow + Fog  
- temp:  temperatura en grados Celsius.  
- atemp:  sensación térmica en grados Celsius.  
- hum:  humedad.  
- windspeed:  velocidad del viento.  
- casual:  número de alquileres de usuarios no registrados en el servicio.  
- registered:  número de alquileres de usuarios registrados en el servicio. 

Carga el csv y asegúrate que es un dataframe

**3.3.3.** Calcula el número medio de usuarios registrados por día de la semana

**3.3.4.** Ordena de menor a mayor las temperaturas máximas de cada estación

**3.3.5.** Calcula el número total de usuarios (registered + casual) en días festivos y no festivos.

**3.3.6.** Calcula el día que se produjeron el mayor número de alquileres casuales.

**3.3.7.** Calcula el ratio de alquileres registrados/casuales por hora en verano.

**3.3.8.** Para todos los lunes festivos calcular el número total de alquileres registrados, temperatura media, humedad máxima y velocidad del viento mínima.