# 2.2 Pandas, mapeo básico

Esta sección tiene como objetivo proporcionar nuevas habilidades en python para manejar datos estructurados en "tablas". 

Resultado del aprendizaje:
- Manipulación de marcos de datos (describir, filtrar, ...) 
- Aprender sobre funciones Lambda
- Introducción a los objetos datetime
- Trazado de datos a partir de marcos de datos (histogramas y mapas)
- Introducción a Plotly
- Introducción a CSV y Parquet


Trabajaremos con varios conjuntos de datos estructurados: metadatos de sensores, producto de datos sísmicos (catálogo de terremotos).

En primer lugar, importamos todos los módulos que necesitamos:

In [None]:
import numpy as np
import pandas as pd
import io
import requests
import time
from datetime import datetime, timedelta

import plotly.express as px
import plotly.io as pio
# pio.renderers.default = 'vscode' # escribe como html independiente, 
# pio.renderers.default = 'iframe' # escribe archivos como html independiente, 
# pio.renderers.default = 'png' # escribe archivos como independientes pnl, 
# try notebook, jupyterlab, png, vscode, iframe


# Fundamentos de Pandas 

Los Pandas se componen de ``Series`` y ``DataFrame``. Las ``Series`` son columnas con atributos o claves. El ``DataFrame`` es una tabla multidimensional compuesta por ``Series``.

Podemos crear un DataFrame compuesto por series desde cero utilizando el diccionario de Python:

In [None]:
data = {
    'temperature' : [36,37,30,50],
    'precipitation':[3,1,0,0]
}
my_pd = pd.DataFrame(data)
print(my_pd)

Cada elemento (key,value) del marco de datos corresponde a un valor de ``datos``. Para obtener las claves del marco de datos, escriba:

In [None]:
my_pd.keys()

obtener una ``Serie`` específica (diferente de la matriz)

In [None]:
print(my_pd.temperature[:])
print(type(my_pd.temperature[:]))

para obtener el _valor_ de una clave específica (por ejemplo, temperatura), en un tipo de índice específico (por ejemplo, 2):

In [None]:
print(my_pd.temperature[2])
print(type(my_pd.temperature[2]))

# Lectura de un Marco de datos desde un fichero CSV

Podemos leer un pandas directamente desde un fichero estándar. Aquí leeremos un catálogo de terremotos.

In [None]:
quake = pd.read_csv("Global_Quakes_IRIS.csv")

Ahora utiliza la función ``head`` para mostrar lo que hay en el archivo

In [1]:
# entregue su respuesta aquí
quake.head()

NameError: name 'quake' is not defined

Mostrar la profundidad utilizando dos formas de utilizar el objeto pandas

In [None]:
print(quake.depth)
print(quake['depth'])

Calcule las estadísticas básicas de los datos utilizando la función ``describe``.

In [None]:
quake.describe()

Calcular media y mediana de ``Series`` específicas, por ejemplo profundidad.

In [None]:
# responda aquí
print(quake.depth.mean())
print(quake.depth.median())


## Funciones sencillas de Python
Ahora practicaremos cómo modificar el contenido del marco de datos utilizando funciones. Tomaremos el ejemplo de que queremos cambiar los valores de profundidad de metros a kilómetros. Primero podemos definir esta operación como una función

In [2]:
# esta función convierte un valor en metros a un valor en kilómetros
m2km = 1000 # esto se define como una variable global
def meters2kilometers(x):
    return x/m2km


In [3]:
# ahora pruébalo usando el primer elemento del marco de datos del terremoto
metros2kilómetros(terremoto.profundidad[0])

NameError: name 'metros2kilómetros' is not defined

Definamos otra función que utilice una variable local en lugar de global

In [4]:
def metros2kilometros2(x):
    m2km2=1000
    return x/m2km2
# m2km2 es una variable local y no puede ser llamada fuera de la función. Pruébalo a continuación preguntando su valor en la siguiente celda.

In [None]:
print(m2km2)

Ahora hablaremos de las funciones **lambda**.

In [5]:
# ahora lo aplicamos sobre toda la Serie
metros2kilometros(terremoto.profundidad)

NameError: name 'metros2kilometros' is not defined

También podemos definir esta función tan básica como una función **lambda**. Hay varias formas de realizar una operación en todas las filas de una columna. La primera opción es utilizar la función map.

Si no estás familiarizado con la función lambda en Python, mira en:

https://realpython.com/python-lambda/

Vamos a practicar un poco las funciones lambda



In [6]:
# Ahora el equivalente en lambda es
lambda_metros2kilometros = lambda x:x/1000
# x es la variable

In [None]:
# aplicarlo a toda la serie
lambda_metros2kilometros(terremoto.profundidad)

In [None]:
# puedes añadir varias variables en funciones lambda
remove_anything = lambda x,y:x-y
remove_anything(3,2)

Esto no afectó a los valores del Marco de datos, compruébalo:

In [None]:
quake.depth

En su lugar, podrías sobreescribir ``quake.depth=X``. Prueba dos enfoques, ¡pero hazlo sólo una vez!

In [None]:
#escriba la repsuesta abajo
quake.depth=quake.depth.map(lambda x:x/1000)

In [7]:
# o así
# quake.depth=quake.depth.apply(lambda x:x/1000)

Graficar un histograma de las distribuciones de profundidad utilizando matplotlib función ``hist``.

In [None]:
# respuesta aquí
plt.hist(quake.depth,100)
plt.grid(True)
plt.xlabel('Quake depth (km)')
plt.show()

Puede utilizar el paquete de trazado interactivo Plotly. En primer lugar vamos a mostrar un histograma de la profundidad del evento utilizando la función ``histogram``.

In [None]:
fig = px.histogram(terremoto, #especificar qué marco de datos utilizar
             x="depth", #especificar la variable para el histograma 
             nbins=50, #número de bins para el histograma 
             height=400, #dimensiones de la figura
             width=600);
fig.show()

Ahora haremos un nuevo gráfico de la localización de los terremotos. Utilizaremos la herramienta Plotly. 

El tamaño del marcador se escalará con la magnitud del terremoto. Para ello, añadimos una serie ``marker_size`` en el DataFrame

In [None]:
quake['marker_size'] =np.fix(np.exp(quake['magnitude'])) # # añade el tamaño del marcador como exp(mag)
quake['magnitude bin'] = 0.5*np.fix(2*quake['magnitude']) # añade el tamaño del marcador como exp(mag)

## Gráfico de mapas con Plotly

Ahora vamos a trazar las localizaciones de los terremotos en un mapa utilizando el paquete Plotly. Más tutoriales en [Plotly](https://plotly.com/). La entrada de la función en la función es auto-explicativo y típico de la función de Python. El código [documentation](https://plotly.com/python/scatter-plots-on-maps/) de Plotly scatter_geo enumera las variables.

In [None]:
fig = px.scatter_geo(quake,
                     lat='latitude',lon='longitude', 
                     range_color=(6,9),
                     height=600, width=600,
                     size='marker_size', color='magnitude',
                     hover_name="description",
                     hover_data=['description','magnitude','depth']);
fig.update_geos(resolution=110, showcountries=True)
fig.update_geos(resolution=110, showcountries=True,projection_type="orthographic")


Los datos estaban ordenados por tiempo. Ahora queremos ordenar y mostrar los datos por magnitud. Usamos la función de pandas ``sort`` para crear un nuevo marco de datos con los valores ordenados.

In [None]:
quakes2plot=quake.sort_values(by='magnitude bin')

quakes2plot.head()

Ahora vamos a graficar de nuevo utilizando Plotly

In [None]:
fig = px.scatter_geo(quakes2plot,
                     lat='latitude',lon='longitude', 
                     range_color=(6,9),
                     height=600, width=600,
                     size='marker_size', color='magnitude',
                     hover_name="description",
                     hover_data=['description','magnitude','depth']);
fig.update_geos(resolution=110, showcountries=True)
# fig.update_geos(resolution=110, showcountries=True,projection_type="orthographic")


## Crear un Pandas a partir de un fichero de texto.

El paquete pandas de python es muy útil para leer ficheros csv, pero también muchos ficheros de texto que están más o menos formados como una observación por fila y una columna para cada característica.

Como ejemplo, vamos a ver la lista de estaciones sísmicas de la red sísmica del Norte de California, disponible [aquí](http://ncedc.org/ftp/pub/doc/NC.info/NC.channel.summary.day):



In [None]:
url = 'http://ncedc.org/ftp/pub/doc/NC.info/NC.channel.summary.day'

In [None]:
# esto obtiene el archivo enlazado en la página URL y lo convierte en una cadena
s = requests.get(url).content

In [8]:

# esto convertirá la cadena, la decodificará y la convertirá en una tabla
data = pd.read_csv(io.StringIO(s.decode('utf-8')), header=None, skiprows=2, sep='\s+', usecols=list(range(0, 13)))
# como las columnas/claves no estaban asignadas, asígnalas ahora
data.columns = ['station', 'network', 'channel', 'location', 'rate', 'start_time', 'end_time', 'latitude', 'longitude', 'elevation', 'depth', 'dip', 'azimuth']

SyntaxError: invalid syntax (790791909.py, line 4)

Veamos los datos. Ahora están almacenados en un marco de datos pandas.

In [None]:
data.head()

Podemos obtener el primer elemento del marco de datos:

In [None]:
data.iloc[0]

In [None]:
data.iloc[:, 0]

El DataFrame puede tener valores erróneos. Una limpieza de datos típica consiste en eliminar Nan y Ceros, por ejemplo.

Utiliza Plotly para mapear las estaciones.

In [None]:
data.dropna(inplace=True)
data=data[data.longitude!=0]

In [None]:
fig = px.scatter_geo(data,
                     lat='latitude',lon='longitude', 
                     range_color=(6,9),
                     height=600, width=600,
                     hover_name="station",
                     hover_data=['network','station','channel','rate']);
fig.update_geos(resolution=110, showcountries=True)


In [None]:
fig = px.scatter_mapbox(data,
                     lat='latitude',lon='longitude', 
                     range_color=(6,9),mapbox_style="carto-positron",
                     height=600, width=500,
                     hover_name="station",
                     hover_data=['network','station','channel','rate']);
fig.update_layout(title="Northern California Seismic Network")
fig.show()

## Pandas: selección de datos
Podemos filtrar los datos con el valor que toma una columna dada:

In [None]:
data.loc[data.station=='KCPB']

In [None]:
# Selecciona dos estaciones, usa el típico "OR" |
data.loc[(data.station=='KCPB') | (data.station=='KHBB')]

In [9]:
# Selecciona dos estaciones, usa el típico "AND" &
data.loc[(data.station=='KCPB') & (data.channel=='HNZ')]

NameError: name 'data' is not defined

In [None]:
# o así
data.loc[data.station.isin(['KCPB', 'KHBB'])]

Podemos filtrar los datos con el valor que toma una columna determinada:

In [None]:
data.loc[data.station=='KCPB']

Podemos acceder a un breve resumen de los datos:

In [None]:
data.station.describe()

In [None]:
data.elevation.describe()

Podemos realizar operaciones estándar en todo el conjunto de datos:

In [None]:
data.mean()

En el caso de una variable categórica, podemos obtener la lista de posibles valores que puede tomar esta variable:

In [None]:
data.channel.unique()

y obtener el número de veces que se toma cada valor:

In [None]:
data.station.value_counts()

La segunda opción es utilizar la función aplicar:

In [None]:
data_elevation_mean=data.elevation.unique().mean()
def remean_elevation(row):
    row.elevation = row.elevation - data_elevation_mean
    return row
data.apply(remean_elevation, axis='columns')

También podemos realizar operaciones sencillas sobre columnas, siempre que tengan sentido.

In [None]:
data.network + ' - ' + data.station

Una función útil es agrupar las filas en función del valor de una variable categórica y, a continuación, aplicar la misma operación a todos los grupos. Por ejemplo, quiero saber cuántas veces aparece cada estación en el fichero:

In [None]:
data.groupby('station').station.count()

Podemos acceder al tipo de datos de cada columna:

In [None]:
data.dtypes

Aquí, pandas no reconoce las columnas start_time y end_time como un formato datetime, por lo que no podemos usar operaciones datetime sobre ellas. Primero necesitamos convertir estas columnas a un formato datetime:

In [None]:
data.start_time.values()

In [None]:
type(data['start_time'][0])

In [None]:
# Transformar la columna de cadena a formato datetime
startdate = pd.to_datetime(data['start_time'], format='%Y/%m/%d,%H:%M:%S')
data['hora_inicio'] = fecha_inicio
print(datos['hora_inicio'] )
type(datos['hora_inicio'][0])

In [None]:
print(data['end_time'])

In [None]:
# hacer lo mismo para las horas finales
# Evitar el error 'OutOfBoundsDatetime' con el año 3000
enddate = data['hora_final'].str.replace('3000', '2025')
enddate = pd.to_datetime(enddate, format='%Y/%m/%d,%H:%M:%S')
data['end_time'] = enddate

Ahora podemos ver cuándo se instaló cada estación sísmica:

In [None]:
data.groupby('station').apply(lambda df: df.start_time.min())

La función ``agg`` permite realizar varias operaciones a cada grupo de filas:

In [None]:
data.groupby(['station']).elevation.agg(['min', 'max'])

Seleccione las estaciones que se desplegaron en primer lugar y se recuperaron en último lugar

In [None]:
data.groupby(['station']).agg({'start_time':lambda x: min(x), 'end_time':lambda x: max(x)})

También podemos hacer grupos seleccionando los valores de dos variables categóricas:

In [None]:
data.groupby(['station', 'channel']).agg({'start_time':lambda x: min(x), 'end_time':lambda x: max(x)})

Antes nos limitábamos a imprimir la salida, pero también podemos almacenarla en una nueva variable:

In [None]:
data_grouped = data.groupby(['station', 'channel']).agg({'start_time':lambda x: min(x), 'end_time':lambda x: max(x)})

In [None]:
data_grouped.head()

Cuando seleccionamos sólo algunas filas, el índice no se resetea automáticamente para empezar en 0. Podemos hacerlo manualmente. Muchas funciones en pandas tienen también una opción para restablecer el índice, y la opción de transformar el marco de datos en su lugar, en lugar de guardar los resultados en otra variable.

In [None]:
data_grouped.reset_index()

También es posible ordenar el conjunto de datos por valor

In [None]:
data_grouped.sort_values(by='start_time')

Podemos aplicar la ordenación a varias columnas:

In [None]:
data_grouped.sort_values(by=['start_time', 'end_time'])

## CSV vs Parquet

Parquet es un formato de datos comprimido que almacena y comprime las columnas. Es rápido para I/O y compacto.

Guarda ``datos`` en un fichero CSV:

In [None]:
%timeit data.to_csv("my_metadata.csv")
!ls -lh my_metadata.csv

Prueba y guarda en Parquet, compara tiempo y memoria

In [None]:
%timeit data.to_parquet("my_metadata.pq")
!ls -lh my_metadata.pq