Con Pandas puedes importar tablas de excel y tratar, analizar y visualizar los datos de multitud de maneras:
- Automatizar la bajada de archivos, por ejemplo los datos de lluvia de una estacion para cada año.
- Limpiar los datos o rellenar huecos en los datos (por ejemplo, datos de lluvia no disponibles en una estacion)
- Cortar los datos en trozos
- Seleccionar solo datos que cumplan una determinada condicion
- Ejecutar una expresion o funcion solo los datos seleccionados
- Reemplazar los datos
- Fusionar los datos

Pandas es ademas muchos mas eficiente en el tratamiento de series temporales (o historicas) por ejemplo, datos diarios de lluvia. Con Pandas es muy facil convertir los datos a distintas escalas temporales, por ejemplo datos diarios a semanales o mensuales.

Podemos crear un codigo en un Notebook con una serie de tareas o pasos a seguir para por ejemplo bajar datos actualizados de una web, seleccionar de esos datos solo los que nos interesa, convertirlos a una escala temporal y unidades que sean adecuados y representarlos en una grafica con un determinado formato. Este Notebook lo podemos usar siempre que queramos solo pulsando el boton "Run", por ejemplo cada vez que la web actualiza los datos que nos interesan. Ademas podemos compartir el Notebook con otras personas, por ejemplo con nuestro profesor o supervisor para explicarles que hemos hecho y que puedan comprobar que todo el proceso es correcto.

En este Notebook vamos a ver ademas como podemos combinar las librerias Numpy y Pandas.

## Importar las librerias necesarias

In [2]:
import pandas as pd
import numpy as np

## Dataframes
Los DataFrames son el nucleo de Pandas (están directamente inspirados en el lenguaje de programación R). Podemos pensar en un DataFrame como una tabla de datos que comparten el mismo índice o en otras palabras el equivalente de un tabla de Excel. Vamos a crear un Dataframe con Pandas para entender mejor que es y para que nos puede servir.

Primero vamos a crear una matriz de valores aleatorios con Numpy (tal y como vimos en el Notebook sobre Numpy). Por ejemplo, con la funcion *random.uniform* creamos una matriz de 12 filas y 6 columnas de valores aleatorios comprendidos entre 0 y 100 y le vamos a dar el nombre *rain*.

In [11]:
rain = np.random.uniform(low = 0, high = 100, size = [12,6])
print(rain)

[[80.22024966 99.26668733 68.63956986 51.48163826 24.71338902 12.31594809]
 [15.39235755 57.14388471 41.82703251 87.82312727 49.7707609  75.9841658 ]
 [ 1.9992523  53.35648812 79.99952379 57.51479802 81.06181345 91.87834272]
 [90.67396954 13.74275446 90.05945238 44.14679218 98.80089392 17.27436322]
 [33.84237174 30.51887571 27.34710955 53.26346972 37.44004047 50.32635996]
 [62.33999026 40.11098607  5.95285048 55.93251792 49.53200849 30.58169807]
 [ 2.24479142  9.24812357 53.149992    5.08212049 53.04328473  3.33317508]
 [90.32458225 56.70764866 14.14869439 17.06847415 62.36053038 44.46688932]
 [ 1.96611699 21.40415225 54.2154782  94.42983606 61.72295241 60.99057541]
 [54.99951106 97.09308804  3.90119191 28.8635744  90.94565341 90.03025459]
 [ 5.81322073 85.77490024 49.65440568 25.71937     6.12648311 21.45500184]
 [58.51073253 95.75704886 31.1729916  29.36225406 49.22978496 75.48029644]]


Ahora vamos a crear el Dataframe usando los datos de *rain*.

In [13]:
rain_df = pd.DataFrame(rain)
print(rain_df)

            0          1          2          3          4          5
0   80.220250  99.266687  68.639570  51.481638  24.713389  12.315948
1   15.392358  57.143885  41.827033  87.823127  49.770761  75.984166
2    1.999252  53.356488  79.999524  57.514798  81.061813  91.878343
3   90.673970  13.742754  90.059452  44.146792  98.800894  17.274363
4   33.842372  30.518876  27.347110  53.263470  37.440040  50.326360
5   62.339990  40.110986   5.952850  55.932518  49.532008  30.581698
6    2.244791   9.248124  53.149992   5.082120  53.043285   3.333175
7   90.324582  56.707649  14.148694  17.068474  62.360530  44.466889
8    1.966117  21.404152  54.215478  94.429836  61.722952  60.990575
9   54.999511  97.093088   3.901192  28.863574  90.945653  90.030255
10   5.813221  85.774900  49.654406  25.719370   6.126483  21.455002
11  58.510733  95.757049  31.172992  29.362254  49.229785  75.480296


¿Qué ha cambiado?

Vamos a hacerlo de nuevo pero ahora vamos a especificar el nombre de las filas (*index*) y las columnas (*columns*).

In [20]:
rain_df = pd.DataFrame(rain, index = ['Ene', 'Feb', 'Mar', 'Abr', 'May', 'Jun', 'Jul', 'Ago', 'Sep', 'Oct', 'Nov', 'Dec'],
                             columns = ['2022', '2023', '2024', '2025', '2026', '2027'])
rain_df

Unnamed: 0,2022,2023,2024,2025,2026,2027
Ene,80.22025,99.266687,68.63957,51.481638,24.713389,12.315948
Feb,15.392358,57.143885,41.827033,87.823127,49.770761,75.984166
Mar,1.999252,53.356488,79.999524,57.514798,81.061813,91.878343
Abr,90.67397,13.742754,90.059452,44.146792,98.800894,17.274363
May,33.842372,30.518876,27.34711,53.26347,37.44004,50.32636
Jun,62.33999,40.110986,5.95285,55.932518,49.532008,30.581698
Jul,2.244791,9.248124,53.149992,5.08212,53.043285,3.333175
Ago,90.324582,56.707649,14.148694,17.068474,62.36053,44.466889
Sep,1.966117,21.404152,54.215478,94.429836,61.722952,60.990575
Oct,54.999511,97.093088,3.901192,28.863574,90.945653,90.030255


De este modo podemos dar mas informacion de los datos contenidos en una matriz o vector. De una manera similar a como hacemos en Numpy con los *arrays*, podemos extraer los datos que mas nos interese de un *dataframe*. Para ello utilizamos la funcion *loc*.

In [41]:
rain_df.loc[['Ago','Dec'],['2023','2026']]

Unnamed: 0,2023,2026
Ago,56.707649,62.36053
Dec,95.757049,49.229785


Podemos añadir una nueva columna con nuevos datos

In [51]:
rain_df['2028'] = np.random.uniform(low = 0, high = 100, size = [12,1])
rain_df

Unnamed: 0,2022,2023,2024,2025,2026,2027,2028,media
Ene,80.22025,99.266687,68.63957,51.481638,24.713389,12.315948,82.046324,52.444646
Feb,15.392358,57.143885,41.827033,87.823127,49.770761,75.984166,84.307334,50.360151
Mar,1.999252,53.356488,79.999524,57.514798,81.061813,91.878343,66.08333,57.580163
Abr,90.67397,13.742754,90.059452,44.146792,98.800894,17.274363,94.274808,56.017748
May,33.842372,30.518876,27.34711,53.26347,37.44004,50.32636,83.762062,42.633637
Jun,62.33999,40.110986,5.95285,55.932518,49.532008,30.581698,37.990786,42.453778
Jul,2.244791,9.248124,53.149992,5.08212,53.043285,3.333175,60.157177,30.330622
Ago,90.324582,56.707649,14.148694,17.068474,62.36053,44.466889,55.123699,45.459517
Sep,1.966117,21.404152,54.215478,94.429836,61.722952,60.990575,78.290063,52.786362
Oct,54.999511,97.093088,3.901192,28.863574,90.945653,90.030255,96.845712,54.452578


¿Que pasa si repetimos la misma operacion?

In [53]:
rain_df['2028'] = np.random.uniform(low = 0, high = 100, size = [12,1])
rain_df

Unnamed: 0,2022,2023,2024,2025,2026,2027,2028,media
Ene,80.22025,99.266687,68.63957,51.481638,24.713389,12.315948,86.62671,52.444646
Feb,15.392358,57.143885,41.827033,87.823127,49.770761,75.984166,1.885794,50.360151
Mar,1.999252,53.356488,79.999524,57.514798,81.061813,91.878343,90.259104,57.580163
Abr,90.67397,13.742754,90.059452,44.146792,98.800894,17.274363,11.820391,56.017748
May,33.842372,30.518876,27.34711,53.26347,37.44004,50.32636,18.646638,42.633637
Jun,62.33999,40.110986,5.95285,55.932518,49.532008,30.581698,16.520061,42.453778
Jul,2.244791,9.248124,53.149992,5.08212,53.043285,3.333175,21.856732,30.330622
Ago,90.324582,56.707649,14.148694,17.068474,62.36053,44.466889,66.944593,45.459517
Sep,1.966117,21.404152,54.215478,94.429836,61.722952,60.990575,14.1334,52.786362
Oct,54.999511,97.093088,3.901192,28.863574,90.945653,90.030255,53.442148,54.452578


Si quereis saber mas sobre como crear y modificar dataframes: https://pandas.pydata.org/docs/user_guide/index.html

## Pandas y Excel
Una de las mejores caracteristicas de Pandas es que puedes guardar los dataframes en formato Excel. Vamos a guardar el dataframe *rain_df* en la carpeta *datos* como un archivo Excel (.xlsx), para ello utilizamos la funcion *to_excel*

In [60]:
rain_df.to_excel('datos/rain_df.xlsx')