<a href="https://colab.research.google.com/github/jcvasquezbetancur/DS-colab/blob/master/Notebook-Pandas_Vaex_funciones.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

<p><img alt="Colaboratory logo" height="240px" src="https://upload.wikimedia.org/wikipedia/commons/archive/f/fb/20161010213812%21Escudo-UdeA.svg" align="left" hspace="10px" vspace="0px"></p>

# **Taller de modulo VAEX-Pandas y funciones en COLABORATORY** #
________________________________________
**Diseño original: Juan C.Vásquez B.**       
*Curso Fundamentos en la Computación*     
*Grupo #11 y Grupo #12 Semestre 2020-I*    
*Instituto de Física*  
*Universidad de Antioquia*   
*juan.vasquez8@udea.edu.co*
______________________________________
*Esta versión está actualizada a 16-06-2020*


>  **Materiales complementarios**:

1. [Tutorial oficial de la librería VAEX](https://docs.vaex.io/en/latest/tutorial.html)

## VAEX: módulo PANDAS-like y out-of-core  para BigData#

>**Historia**     
 * Author- Maarten A. Breddels
 * First Release- Feb-2015 
 * Stable Release (v0.5.2)- June, 2019
 * Written in- C and Python.

**Origen**

Breddels realizaba su PhD en astrofísica cuando desarrolló Vaex. Su problema era que GAIA una base de datos tabular con observaciones astronómicas  posee varios Terabytes (TB) de tamaño y sólo unas galaxias pueden tomar decenas de Gigabytes(GB). Naturalmente PANDAS es incapaz de lidiar por si solo con tales tamaños de datos y cargar archivos de una sola galaxia puede usar toda la RAM disponible de la mayoria de PC/Laptop personales (ejm Colab brinda 12GB de RAM) probablemente haciendo colapsar el sistema operativo ya sea este windows/unix. 

La opción más sofisticada (e.g. las usadas por bases de datos enormes tales que las de compañias como Facebook, Youtube, Uber,Amazon) consiste en usar sistemas distribuidos (es decir clusters o granjas de cómputo) ya sea in-situ  o en la nube( google-cloud, aws, azure), pero en ambos casos es también la opción mas onerosa, agregado al hecho de tener que manejar nuevos paradigmas de computo como APACHE y librerias como pySpark o Dask.

La otra opción, muy viable y práctica a pequeña escala (el usuario promedio)  fué la tomada por Breddels: **Leer los datos y procesarlos directamente desde la unidad de almacenamiento** (e.g Disco duro,DVD) y no cargarlos a la RAM excepto cuando sea necesario y en tal caso hacerlo por pedazos (o chunks). Manteniendo una interacción con los datos muy similar pero no idéntica al modulo PANDAS, de ésta idea nació VAEX.

>**Qué es Vaex (tomado del FAQ vaex oficial website)**
Vaex is a python library for lazy Out-of-Core DataFrames (similar to Pandas), to visualize and explore big tabular datasets. It can calculate statistics such as mean, sum, count, standard deviation etc, on an N-dimensional grid up to a billion ($10^9$) objects/rows per second. Visualization is done using histograms, density plots and 3d volume rendering, allowing interactive exploration of big data. Vaex uses memory mapping, a zero memory copy policy, and lazy computations for best performance (no memory wasted).

## Setup  del Environment para VAEX en COLAB##
* El siguiente conjunto de comandos pip permite instalar y reajustar el ambiente de colab para usar Vaex correctamente en el kernel online de Colaboratory. 
* Actualmente (18-06-2020) requieren ser ejecutados 2 veces así: Tras el primer intento aparecen algunos errores y se repite la ejecucución indicando la opcion "**reiniciar y ejecutar todo**" desde el menu de entorno de ejecución.

* Dicho esto, esto puede evolucionar o tornarse obsoleto con futuras actualizaciones que google realice en su kernel y version de Ipython (v5.5.0 actualmente :*Versión de éste Notebook actualizada a 16-06-2020* )

*La opcion **--quiet** evita centenas de lineas de librerias y dependencias que son instaladas por estos comandos* 

**el infierno que puede ocultar  --quiet**
<p><img alt="Python hell" height="350px" src="https://imgs.xkcd.com/comics/python_environment.png" align="left" hspace="10px" vspace="0px"></p>


In [1]:
!pip install vaex --quiet
!pip install "ipython>6" --quiet
import vaex as pdv
import numpy as np
import pandas as pd

[K     |████████████████████████████████| 92kB 6.0MB/s 
[K     |████████████████████████████████| 2.4MB 19.8MB/s 
[K     |████████████████████████████████| 51kB 6.4MB/s 
[K     |████████████████████████████████| 51kB 5.7MB/s 
[K     |████████████████████████████████| 63.8MB 55kB/s 
[K     |████████████████████████████████| 4.7MB 47.0MB/s 
[K     |████████████████████████████████| 460kB 47.7MB/s 
[K     |████████████████████████████████| 5.1MB 39.1MB/s 
[K     |████████████████████████████████| 3.3MB 51.4MB/s 
[K     |████████████████████████████████| 2.9MB 40.3MB/s 
[K     |████████████████████████████████| 1.6MB 38.9MB/s 
[K     |████████████████████████████████| 4.5MB 43.5MB/s 
[K     |████████████████████████████████| 1.1MB 22.8MB/s 
[K     |████████████████████████████████| 256kB 54.0MB/s 
[?25h  Building wheel for s3fs (setup.py) ... [?25l[?25hdone
  Building wheel for aplus (setup.py) ... [?25l[?25hdone
  Building wheel for ipyvuetify (setup.py) ... [?25l[?25

ContextualVersionConflict: ignored

##Evite runtime errors, USE print(df) 
En vaex trabajando en COLAB head, describe no producen salida alguna  o pueden  generar errores.
para evitarlos, uselos dentro de un comando print() 
Ejemplos => 
* print(df),  
* print(df.describe()), 
* print(df.head(10)).

En COLAB y JUPYTER el comando **df.info()** si funciona pero print(df.info()) tiene igual salida.

##EJEMPLO: mi primer dataframe de vaex

In [None]:
#EJEMPLO DE VAEX A PARTIR DE ARRAYS
import vaex as pdv
import numpy as np
import pandas as pd

array1 = np.arange(8) # [0, 1....7]
array2 = array1**3    # los cubos
array3 = array2%10    # los residuos de modulo 10 en los cubos 
df = pdv.from_arrays(x=array1, y=array2,z=array3)

print(df)
print( "df es type: ", type(df))

print("resultado describe, estadisticas por columna\n" ,df.describe())


##Zona de pruebas: Celda para aprender a hacer Sorting 

Ordenamos el dataframe de ejemplo por su columna respecto a su columna 'z'

In [None]:
# Sort dataframe by " a given column
# EN VAEX el metodo es SORT(),  EN PANDAS es  sort_values(),
# Diferencias: Nunca se hace in-place , el integer_index es reasignado, sort_method optional
#df_vaex.sort(by=, ascending=True, kind='quicksort')

print("Ordenando  by column \'z\'")
dfs = df.sort(by='z', ascending=True, kind='quicksort')

print("el nuevo dfs es:")
print(dfs)

##Quick Setup COLAB-GDrive: cómo usar mi drive en mis cuadernos COLAB
Leeremos este archivo (134MB)shared by E. Silva from his GDrive.

https://drive.google.com/open?id=1flYy1lrdBejj2-H2U6xWoSJWO2F0a9bL


In [None]:
from google.colab import drive  # solo importamos submodulo drive.
#from math import sqrt, sin     # solo importamos funciones raizcuadrada y seno

#Se carga su Gdrive con el comando siguiente, y solo se hace una vez por notebook y por sesion
drive.mount('/content/drive')
#Paso 1 : El comando anterior genera un enlace para autenticarse su cuenta google,
#Paso 2: Al tener exito alli recibe un token que debe copiar 
#Paso 3: Pegar el token en el la solicitud de input que apareció en el resultado de esta celda
#1.The previous cmd outputs a link, openclick it and authentify your google-user.
#2. After succesful auth, It will output a TOKEN password on the auth-page.Copy it
#3. Paste the obtained token on the input-stream appearing  as output of this cell

## Cargando un archivo en dataframe de vaex#

Ejemplo:  Archivo muy grande para PANDAS! un read_csv saturaría toda  la memoria-ram colapsando un pc normal.

In [None]:
path = "/content/drive/My Drive/Colab Notebooks/clase.csv"
#df_bonus = pd.read_csv(path) too big file for pandas
import vaex as pdv
import numpy as np

dfv=pdv.read_csv(path)
dfv.info()
dfv.head(5)

## Ejemplo 1: Ordenando el archivo por fechas
Lo haremos en 2 etapas:
1.   Cambiar el tipo  de la columna "Tiempo Sistema"(string)  a formato fecha (numpy-datetime64 float) en una nueva columna "newdate"
2.   Ordenar el dataframe en base a la nueva columna "newdate"

In [None]:

#-----------preambulo Etapa 1-----------------
x='3+5j' #x es un string 
print("tipo de x",type(x))
print(x)
x= np.array([x])  #ahora x es un numpy array de tipo string
# .astype es un metodo de numpy para poder cambiar entre tipos.
xcomp=x.astype(complex)  # ahora xcomp es numpy array de tipocomplejo
print("tipo de xcomp",type(xcomp))
print(xcomp)

#-----------Etapa 1 convertir columna  y crear nueva columna------------
#datos en el dataframe dfv.
dfv['newdate']=dfv['Tiempo Sistema'].values.astype('datetime64[ns]')

#en pandas df['Tiempo Sistema']=pd.to_datetime(df['Tiempo Sistema'])

#----un MINI test Etapa1---filtrar las  rows desde Abril 30 de 2020----
#start_date = np.datetime64('2020-04-30')# use numpy.datetime64 not datetime64
#dfv_test=dfv[( dfv.newdate >= start_date )]  #tomando las filas confechas posteriores
#print("verificamos el  dfv_test filtrado  abril-30-2020 es:\n")
#print(dfv_test.info())

#--------------Etapa 2
print("El  dataframe dfv original es:\n")
print(dfv.head(5))
print("\nNOW SORTING by column date  \'newdate\':\n ")
# vaex dataframe method :sort: NOT sort_values(pandas),
# DIFFS: Never done inplace, integer_index -> reasignado, sortmethod optional
#df.sort(by, ascending=True, kind='quicksort')
dfv_sorted=  dfv.sort(by='newdate', ascending=True, kind='quicksort')
print("el nuevo dfv_sorted es:\n")
print(dfv_sorted.head(5))




## Ejemplo 2: Aplicando una función a una columna

###(1a parte): Declarando la funcion de conversion de temperatura###

In [None]:
def unit_change_temperature(t_old): # F a celsius
  return (t_old/10.0 - 32) * (5/9)

temp=10
print(f'test:{temp}F es {unit_change_temperature(temp)}C')

###(2a parte): Aplicando la función a una columna en Vaex###
La aplicacióń difiere un poco de pandas que tiene map(),applymap(), apply()

In [None]:
#Creacion de una nuevacolumna aplicando nuestra funcion 
dfv_sorted['newtemp'] = unit_change_temperature(dfv['Outside Temperature']) # convierte temperatura

## Ejemplo 3: Histogramas desde VAEX (Matplotlib API)## 

* Para crear grááficas  y mostrarlas vaex no necesita importar matplotlib explicitamente.

* **NOTA**: Aquí se importa matplotlib explicitamente para poder interactuar con la grááfica directamente, por ejemplo ponerle titulo, modificar los ejes o guardar la figura fuera del notebook.

* En tal caso se invoca plt.sca(ax1) antes de proceder a graficar desde el vaex-API

[Más detalles de control del gráfico de salida aquí]( https://docs.vaex.io/en/latest/tutorial.html#In-control)

In [None]:
import matplotlib.pyplot as plt
fig,ax1=plt.subplots(figsize=(8,5))

#Para hablarle a vaex cuando grafique indicamos plt.sca(your_ax)
plt.sca(ax1)

#plot1d de VAEX dataframe
dfv_sorted.plot1d(dfv_sorted['newtemp'], limits='99.7%')
ax1.set_title("Histograma con +540K rows en miliseconds crazy!") 

plt.legend()
fig.savefig('example.png')
plt.show()

## Ejemplo 4: Desde VAEX-df se puede guardar o extraer un  PANDAS df
1. Extraemos unas filas a dataframe de Pandas
2. Aplicamos nuestra funcion a una columna de pandas con map()
(Si aun tiene dudas cual es la distinción entre : map, applymap y apply , ver más info en [éste tutorial de interactive chaos](https://www.interactivechaos.com/manual/tutorial-de-pandas/aplicacion-de-funciones-y-mapeado) )
3. Usamos la API  de Pandas para matplotlib directamente (muy util!)
([ver la doc de la API de pandas aquí](https://pandas.pydata.org/docs/user_guide/visualization.html#visualization-hist)). 

**Nota** No obstante, Plotly y Bokeh,(dos de las librerias python de visualizaciones interactivas y más modernas) ya ofrecen ahora backend para Pandas, es decir, es posible ahora  graficar desde pandas con ellas, aunque su uso en Colab Notebooks puede tener algunas

In [None]:
import pandas as pd

#1. Extraccion de 10000 filas y dos columnas del dfv en VAEX hacia un df de pandas
pandasdf= dfv_sorted[0:1000].to_pandas_df(column_names=['newdate', 'Outside Temperature'])

#2. Aplicamos  la funcion a la columna de outside para crear una nueva columna
pandasdf['new_temperature']=pandasdf['Outside Temperature'].map(unit_change_temperature)

pandasdf.info()# verificamos las 3 columnas
pandasdf.head(5) # como se ven algunos datos 

#3. Usamos la API de pandas para un histograma directo de una columna
pandasdf.hist('new_temperature') # la integracion de pandas con matplotlib es muy util

##Ejemplo 5: Algunas selecciones de datos y gráficos de fechas en Vaex