# Riak

In [1]:
%%html
<style>table {float:left}</style>

Vamos a utilizar un bucket para guardar todos los accidentes en formato JSON y otro para guardar la información acumulada por tipo de accidente.

En el bucket de accidentes vamos a utilizar como clave el número de expediente, ya que es un valor único en nuestro dataset, y en el bucket con el total de accidentes por tipo la clave será el tipo de accidente, lo que nos permitirá recuperar rápidamente este dato.


Se van a crear los siguientes buckets:

|bucket|Clave|Contenido|
|-|-|-|
|**accidentes**|Número de Expediente|Todos los datos del dataset en formnato JSON|
|**acum_tipo_accidente**|Tipo de Accidente|Contador con el número de acidentes por tipo|

El bucket de accidentes tendrá los siguientes índices:

|Nombre del índice|Contenido|¿Que busquedas permite hacer?|
|-|-|-|
|**idx_distrito_bin**|Distrito|Localizar todos los accdientes en un distrito|

In [2]:
import riak
from pprintpp import pprint as pp
import json
import pandas as pd

## Carga de datos en Pandas

In [3]:
df = pd.read_excel("data/accidentes.xlsx")
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 614 entries, 0 to 613
Data columns (total 5 columns):
 #   Column          Non-Null Count  Dtype         
---  ------          --------------  -----         
 0   num_expediente  614 non-null    object        
 1   fecha           614 non-null    datetime64[ns]
 2   distrito        614 non-null    object        
 3   tipo_accidente  614 non-null    object        
 4   sexo            614 non-null    object        
dtypes: datetime64[ns](1), object(4)
memory usage: 24.1+ KB


In [4]:
df.sample(10)

Unnamed: 0,num_expediente,fecha,distrito,tipo_accidente,sexo
20,2020S001078,2020-01-16,MORATALAZ,Colisión fronto-lateral,Hombre
249,2020S008296,2020-06-13,MONCLOA-ARAVACA,Caída,Hombre
528,2020S013469,2020-09-28,MONCLOA-ARAVACA,Colisión fronto-lateral,Hombre
581,2020S014666,2020-10-18,ARGANZUELA,Caída,Mujer
99,2020S005627,2020-03-09,CENTRO,Colisión fronto-lateral,Hombre
176,2020S007210,2020-05-24,VICÁLVARO,Caída,Hombre
395,2020S010446,2020-07-26,SALAMANCA,Otro,Mujer
127,2020S006972,2020-05-07,HORTALEZA,Caída,Mujer
5,2020S000996,2020-01-06,LATINA,Colisión fronto-lateral,Hombre
88,2020S005007,2020-03-04,FUENCARRAL-EL PARDO,Caída,Mujer


## Creacción de Estructura en Riak

In [5]:
# connect to database
cliente = riak.RiakClient()
cliente.ping()

True

In [6]:
BUCKET_ACCIDENTES = 'accidentes'
BUCKET_ACUM_TIPO_ACCIDENTE = 'acum_tipo_accidente'

bucket_accidentes = cliente.bucket(BUCKET_ACCIDENTES)
bucket_acum_tipo_accidentes = cliente.bucket_type('counters').bucket(BUCKET_ACUM_TIPO_ACCIDENTE)

Eliminamos los datos previo a la carga ...

In [11]:
def drop_keys(bucket):
    for keys in bucket.stream_keys():
        for key in keys:
            bucket.delete(key)
            
drop_keys(bucket_accidentes)
drop_keys(bucket_acum_tipo_accidentes)   

A partir de Dataframe en Pandas obtenemos un array de datos en formato JSON

In [12]:
json_string = df.to_json(orient = 'records')
json_list = json.loads(json_string)

In [13]:
print(len(json_list))

614


Carga de los datos en RIAK ...

In [14]:
for row_json in json_list:
    num_expediente = row_json["num_expediente"]
    distrito = row_json["distrito"]
    
    accidente = bucket_accidentes.new(<<TO_BE_COMPLETED>>, row_json)
    accidente.add_index('idx_distrito_bin', <<TO_BE_COMPLETED>>)
    accidente.store()
    
    tipo_accidente = row_json["tipo_accidente"]
    map_tipo_accidente = bucket_acum_tipo_accidentes.new(<<TO_BE_COMPLETED>>)
    map_tipo_accidente.<<TO_BE_COMPLETED>>(1)
    map_tipo_accidente.<<TO_BE_COMPLETED>>()

Comprobamos que los datos están bien cargados mostrandos los 3 primeros registros ...

In [None]:
<TO_BE_COMPLETED>


Ahora mostramos los datos dl bucket con los datos acumulados ...

In [None]:
<TO_BE_COMPLETED>

## Resolución del caso de uso

### Datos del número de expediente 2020S000044

In [None]:
<TO_BE_COMPLETED>

### Accidentes que ocurren en el distrito de Moratalaz ordenados por fecha

In [None]:
<TO_BE_COMPLETED>

### Número de accidentes por tipo

In [None]:
<TO_BE_COMPLETED>

### Número de accidentes cuyo tipo es Colisión frontal

In [None]:
<TO_BE_COMPLETED>