Con Pandas puedes importar tablas de excel y tratar, analizar y visualizar los datos de multitud de maneras:
- Automatizar la bajada de archivos, por ejemplo los datos de lluvia de una estacion para cada año.
- Limpiar los datos o rellenar huecos en los datos (por ejemplo, datos de lluvia no disponibles en una estacion)
- Cortar los datos en trozos
- Seleccionar solo datos que cumplan una determinada condicion
- Ejecutar una expresion o funcion solo los datos seleccionados
- Reemplazar los datos
- Fusionar los datos

Pandas es ademas muchos mas eficiente en el tratamiento de series temporales (o historicas) por ejemplo, datos diarios de lluvia. Con Pandas es muy facil convertir los datos a distintas escalas temporales, por ejemplo datos diarios a semanales o mensuales.

Podemos crear un codigo en un Notebook con una serie de tareas o pasos a seguir para por ejemplo bajar datos actualizados de una web, seleccionar de esos datos solo los que nos interesa, convertirlos a una escala temporal y unidades que sean adecuados y representarlos en una grafica con un determinado formato. Este Notebook lo podemos usar siempre que queramos solo pulsando el boton "Run", por ejemplo cada vez que la web actualiza los datos que nos interesan. Ademas podemos compartir el Notebook con otras personas, por ejemplo con nuestro profesor o supervisor para explicarles que hemos hecho y que puedan comprobar que todo el proceso es correcto.

En este Notebook vamos a ver ademas como podemos combinar las librerias Numpy y Pandas.

## Importar las librerias necesarias

In [1]:
import pandas as pd
import numpy as np

## Dataframes
Los DataFrames son el nucleo de Pandas (están directamente inspirados en el lenguaje de programación R). Podemos pensar en un DataFrame como una tabla de datos que comparten el mismo índice o en otras palabras el equivalente de un tabla de Excel. Vamos a crear un Dataframe con Pandas para entender mejor que es y para que nos puede servir.

Primero vamos a crear una matriz de valores aleatorios con Numpy (tal y como vimos en el Notebook sobre Numpy). Por ejemplo, con la funcion *random.uniform* creamos una matriz de 12 filas y 6 columnas de valores aleatorios comprendidos entre 0 y 100 y le vamos a dar el nombre *rain*.

In [2]:
rain = np.random.uniform(low = 0, high = 100, size = [12,6])
print(rain)

[[43.10806841 33.2659497  22.64239975 84.48390742 91.13265302 21.23763088]
 [65.05725464 73.9922871  15.39069565 15.50891404 64.23789949 68.41647674]
 [94.02849714  9.7544821  82.56756075 13.58371928 42.59089699 11.93617028]
 [48.07483353 76.4740317   1.3527482  28.12727128 35.81141965 34.93997751]
 [56.96677613 19.75725946 85.79038778 72.37427297  3.71157554 92.87669289]
 [75.29601774 31.13619672 21.94606778 84.60892567 72.41875743 23.43000502]
 [20.80688189 91.96099541 93.45352576 12.63436543 56.96499018 98.47110137]
 [52.25514402 83.06603706 39.84120072 89.21463292 88.72852454 69.91281138]
 [22.02910646 19.45184413 42.84332736 70.5264365  95.20914986 68.24850909]
 [44.41433403 96.52046439 15.22527141 10.17557976 36.89204898 56.96986457]
 [ 4.87012949 80.33808312 10.00456515 94.90718983  1.75882939 58.35981693]
 [88.0074887  74.02999058 40.38545828 78.43607711 42.15860581 48.28866444]]


Ahora vamos a crear el Dataframe usando los datos de *rain*.

In [3]:
rain_df = pd.DataFrame(rain)
print(rain_df)

            0          1          2          3          4          5
0   43.108068  33.265950  22.642400  84.483907  91.132653  21.237631
1   65.057255  73.992287  15.390696  15.508914  64.237899  68.416477
2   94.028497   9.754482  82.567561  13.583719  42.590897  11.936170
3   48.074834  76.474032   1.352748  28.127271  35.811420  34.939978
4   56.966776  19.757259  85.790388  72.374273   3.711576  92.876693
5   75.296018  31.136197  21.946068  84.608926  72.418757  23.430005
6   20.806882  91.960995  93.453526  12.634365  56.964990  98.471101
7   52.255144  83.066037  39.841201  89.214633  88.728525  69.912811
8   22.029106  19.451844  42.843327  70.526436  95.209150  68.248509
9   44.414334  96.520464  15.225271  10.175580  36.892049  56.969865
10   4.870129  80.338083  10.004565  94.907190   1.758829  58.359817
11  88.007489  74.029991  40.385458  78.436077  42.158606  48.288664


¿Qué ha cambiado?

Vamos a hacerlo de nuevo pero ahora vamos a especificar el nombre de las filas (*index*) y las columnas (*columns*).

In [4]:
rain_df = pd.DataFrame(rain, index = ['Ene', 'Feb', 'Mar', 'Abr', 'May', 'Jun', 'Jul', 'Ago', 'Sep', 'Oct', 'Nov', 'Dec'],
                             columns = ['2022', '2023', '2024', '2025', '2026', '2027'])
rain_df

Unnamed: 0,2022,2023,2024,2025,2026,2027
Ene,43.108068,33.26595,22.6424,84.483907,91.132653,21.237631
Feb,65.057255,73.992287,15.390696,15.508914,64.237899,68.416477
Mar,94.028497,9.754482,82.567561,13.583719,42.590897,11.93617
Abr,48.074834,76.474032,1.352748,28.127271,35.81142,34.939978
May,56.966776,19.757259,85.790388,72.374273,3.711576,92.876693
Jun,75.296018,31.136197,21.946068,84.608926,72.418757,23.430005
Jul,20.806882,91.960995,93.453526,12.634365,56.96499,98.471101
Ago,52.255144,83.066037,39.841201,89.214633,88.728525,69.912811
Sep,22.029106,19.451844,42.843327,70.526436,95.20915,68.248509
Oct,44.414334,96.520464,15.225271,10.17558,36.892049,56.969865


De este modo podemos dar mas informacion de los datos contenidos en una matriz o vector. 

### Extraer valores seleccionados
De una manera similar a como hacemos en Numpy con los *arrays*, podemos extraer los datos que mas nos interese de un *dataframe*. Para ello utilizamos la funcion *loc*.

In [5]:
rain_df.loc[['Ago','Dec'],['2023','2026']]

Unnamed: 0,2023,2026
Ago,83.066037,88.728525
Dec,74.029991,42.158606


### Añadir o actualizar los valores de un *dataframe*

Podemos añadir una nueva columna con nuevos datos

In [6]:
rain_df['2028'] = np.random.uniform(low = 0, high = 100, size = [12,1])
rain_df

Unnamed: 0,2022,2023,2024,2025,2026,2027,2028
Ene,43.108068,33.26595,22.6424,84.483907,91.132653,21.237631,56.771958
Feb,65.057255,73.992287,15.390696,15.508914,64.237899,68.416477,43.00482
Mar,94.028497,9.754482,82.567561,13.583719,42.590897,11.93617,50.964638
Abr,48.074834,76.474032,1.352748,28.127271,35.81142,34.939978,5.616205
May,56.966776,19.757259,85.790388,72.374273,3.711576,92.876693,29.078664
Jun,75.296018,31.136197,21.946068,84.608926,72.418757,23.430005,85.865013
Jul,20.806882,91.960995,93.453526,12.634365,56.96499,98.471101,75.107197
Ago,52.255144,83.066037,39.841201,89.214633,88.728525,69.912811,31.588011
Sep,22.029106,19.451844,42.843327,70.526436,95.20915,68.248509,82.342405
Oct,44.414334,96.520464,15.225271,10.17558,36.892049,56.969865,76.817502


¿Que pasa si repetimos la misma operacion?

In [7]:
rain_df['2028'] = np.random.uniform(low = 0, high = 100, size = [12,1])
rain_df

Unnamed: 0,2022,2023,2024,2025,2026,2027,2028
Ene,43.108068,33.26595,22.6424,84.483907,91.132653,21.237631,5.377405
Feb,65.057255,73.992287,15.390696,15.508914,64.237899,68.416477,7.848612
Mar,94.028497,9.754482,82.567561,13.583719,42.590897,11.93617,1.307208
Abr,48.074834,76.474032,1.352748,28.127271,35.81142,34.939978,2.402935
May,56.966776,19.757259,85.790388,72.374273,3.711576,92.876693,33.032108
Jun,75.296018,31.136197,21.946068,84.608926,72.418757,23.430005,64.936635
Jul,20.806882,91.960995,93.453526,12.634365,56.96499,98.471101,17.753719
Ago,52.255144,83.066037,39.841201,89.214633,88.728525,69.912811,62.955419
Sep,22.029106,19.451844,42.843327,70.526436,95.20915,68.248509,77.950975
Oct,44.414334,96.520464,15.225271,10.17558,36.892049,56.969865,73.031076


**Importante**: Presta atencion al numero entre corchetes a lado de la celda, te da el orden de ejecucion de las celdas.

Vamos a crear una nueva columna que sea la media de los valores de cada año. Primero ¿como calculamos la media?

In [12]:
rain_df.mean(1) # si entre parentesis ponemos 0 la media la hace por columnas, si es un 1 entonces la media es por filas.

Ene    43.035431
Feb    44.350306
Mar    36.538362
Abr    32.454745
May    52.072725
Jun    53.396086
Jul    56.006511
Ago    69.424824
Sep    56.608478
Oct    47.604091
Nov    44.544984
Dec    56.502553
dtype: float64

Ahora añadimo una columna llamada *media* con la media de los valores por filas.

In [13]:
rain_df['media'] = rain_df.mean(1)
rain_df

Unnamed: 0,2022,2023,2024,2025,2026,2027,2028,media
Ene,43.108068,33.26595,22.6424,84.483907,91.132653,21.237631,5.377405,43.035431
Feb,65.057255,73.992287,15.390696,15.508914,64.237899,68.416477,7.848612,44.350306
Mar,94.028497,9.754482,82.567561,13.583719,42.590897,11.93617,1.307208,36.538362
Abr,48.074834,76.474032,1.352748,28.127271,35.81142,34.939978,2.402935,32.454745
May,56.966776,19.757259,85.790388,72.374273,3.711576,92.876693,33.032108,52.072725
Jun,75.296018,31.136197,21.946068,84.608926,72.418757,23.430005,64.936635,53.396086
Jul,20.806882,91.960995,93.453526,12.634365,56.96499,98.471101,17.753719,56.006511
Ago,52.255144,83.066037,39.841201,89.214633,88.728525,69.912811,62.955419,69.424824
Sep,22.029106,19.451844,42.843327,70.526436,95.20915,68.248509,77.950975,56.608478
Oct,44.414334,96.520464,15.225271,10.17558,36.892049,56.969865,73.031076,47.604091


Si quereis saber mas sobre como crear y modificar dataframes: https://pandas.pydata.org/docs/user_guide/index.html

## Pandas y Excel
### Guadar dataframes en archivos que pueda leer Excel
Una de las mejores caracteristicas de Pandas es que puedes guardar los dataframes en formato Excel. Vamos a guardar el dataframe *rain_df* en la carpeta *datos* como un archivo Excel (.xlsx), para ello utilizamos la funcion *to_excel*

In [8]:
rain_df.to_excel('datos/rain_df.xlsx')

Tambien podemos guardarlo como un archivo de texto .csv(comma-separated values) con la funcion *to_csv*

In [16]:
rain_df.to_csv('datos/rain_df.csv')

### Leer archivos Excel con Pandas

In [None]:
pd.read_excel()