## Notae 6

En esta nota, vamos a ver un poquito de <b>Ciencias de Datos</b> que va a ser necesario para
poder entender los resultados de los experimentos 🤯. Un concepto fundamental de la
Ciencia de Datos es el "dataframe". Basicamente es una tabla en donde cada fila representa
un elemento en nuestro análisis, y cada columna un parámetro o atributo de ese elemento.

A diferencia de las Bases de Datos relacionales, en donde la información se distribuye en varias tablas
que están vinculadas entre sí a través de claves y donde se intenta minimizar la redundancia de datos
(lo que se conoce como normalización), en el caso de los dataframes, la información está concentrada en
una única tabla completamente desnormalizada (hay redundancia de datos). No obstante la herramienta que
utilizaremos, llamada Pandas, sabe inteligentemente administrarla, permitiendo manipular dataframes muy
grandes (del orden del millón de elementos, con decenas de atributos) de forma ágil.

Comenzamos importando las librerías necesarias: pandas, ipywidgets y matplotlib. De dar error la siguiente
celda, podemos instalarlas de la forma habitual.

In [None]:
# Importamos las librerías
import pandas as pd
import ipywidgets as widgets
from ipywidgets import interactive, HBox, VBox
import matplotlib.pyplot as plt

In [None]:
# Veamos un ejemplo sencillo de dataframe.
# Pensemos en un conjunto de alumnos, identificados según legajo y una nota asociada.

notas = pd.DataFrame(
    {
        'Alumno' : ['Paola', 'Tito', 'María Gracia', 'Lara', 'Daniel', 'Mauro', 'Mauro', 'José'],
        'Legajo' : ['P-1234/5', 'T-2345/6', 'M-3456/7', 'L-4567/8', 'D-5678/9', 'M-6789/0', 'M-7890/1', 'J-8901/2'],
        'Nota' : [7, 9, 8, 8, 4, 6, 10, 9]
    })

# Solo escribiendo el nombre del dataframe permite mostrarlo
notas

In [None]:
# Podemos manipularlo de diversas formas. Por ejemplo, si no queremos que los nombres
# queden en "evidencia", podemos querer solo mostrar legajos y notas
notas[['Legajo', 'Nota']]

In [None]:
# Podemos querer conocer la nota mínima, máxima, mediana y promedio
print('Nota mínima = ' + str(notas['Nota'].min()))
print('Nota máxima = ' + str(notas['Nota'].max()))
print('Nota mediana = ' + str(notas['Nota'].median()))
print('Nota promedio = ' + str(notas['Nota'].mean()))

In [None]:
# O conocer qué alumnos aprobaron
notas[notas['Nota'] >= 6]

In [None]:
# De hecho si a partir de ahora, solo queremos filtrar los desaprobados, es simplemente
# cuestión de reasignar al mismo dataframe
notas = notas[notas['Nota'] >= 6]

# Los vemos ordenados alfabéticamente, por ejemplo
notas.sort_values(by=['Alumno'])

In [None]:
# Algo más complejo, queremos conocer el promedio de las notas de alumnos con el mismo nombre.

notas.groupby('Alumno')[['Nota']].mean()

In [None]:
# O graficar un histograma (aquí la cantidad de "bins" es la cantidad de barras, si por ejemplo
# tenemos una base que va de 6 a 10, y queremos representar las barras 6-7, 7-8, 8-9 y 9-10, serán 4)
# Podemos observar que hay 1 seis, 1 siete, 2 ochos y 3 "nueves y diez"
notas.hist(bins=4, column='Nota')

### Actividad 1
Para el dataframe de la siguiente celda, escriba comandos para:
- Conocer la cantidad total de soldados en Poniente (todo el mundo)
- Mostrar las casas por órden de fortuna
- Si se unen las casas según su bando, ¿cuál es la ganadora? (mostrar la cantidad total de soldados de cada bando)

Opcional: 
- Usando la librería matplotlib, investigue cómo realizar una gráfica donde el eje X es el Bando y el Y es la fortuna de las casas combinadas

Matplotlib: https://matplotlib.org/stable/gallery/index.html

In [None]:
reino = pd.DataFrame(
    {
        'Casas' : ['Lannister', 'Targaryen', 'Tyrell', 'Stark', 'Baratheon'],
        'Fortuna' : [7598, 4657, 3894, 1569, 2495],
        'Asentamiento' : ['Roca Casterly', 'Desembarco del Rey', 'Altojardin', 'Winterfell', 'Rocadragón'],
        'Soldados': [53248, 66789, 35498, 40982, 48761],
        'Bando': ['Malo', 'Malo', 'Bueno', 'Bueno', 'Bueno']
    })

reino

In [None]:
# Celda para realizar Actividad 1

## Análisis de un experimento real

Y se pueden hacer muchas cosas más. Sugerimos que visiten cualquier tutorial de Pandas o la
documentación oficial para mayor información:
https://pandas.pydata.org/docs/user_guide/index.html

Ahora pasemos a un ejemplo real! 💪
Vamos a leer un dataframe de una planilla que resume un experimento de un <b>Problema de Ruteo de Vehículos</b>.
En este experimento se comparan datos reales contra datos simulados mediante 3 estrategias distintas.
Cada fila representa la resolución de una instancia con CPLEX y una determinada estrategia.
Los significados de cada columna son:
 - estrategia - Número de estrategia (1, 2, 3) o "R" para indicar datos reales ejecutados
 - instancia - Nombre de la instancia o caso
 - dia - dia de la semana en que ocurrió el ruteo
 - rutas - cantidad de rutas generadas
 - paradas_prom - promedio de paradas (de entre todas las rutas)
 - distancia_prom - promedio de distancia recorrida, en km
 - duracion_prom - promedio de duración de las rutas, en horas
 - gaprel - porcentaje de gap relativo reportado por CPLEX
 - costo - costo de la flota, en pesos
 - tiempo_cpu - tiempo de resolución, en segundos

In [None]:
df = pd.read_csv('experimento.csv')
df['estrategia'] = df['estrategia'].astype(str)
df

Pero, ¿cómo analizar tanta información junta? 🤔 Hay 117 experimentos corridos más 39 filas de datos reales.
Ese es el desafío de la Ciencia de Datos justamente, y, en nuestro caso, la usamos para analizar experimentos.
Un primer enfoque es elegir "aggregations" adecuadas (formas de medir un conjunto de datos, pueden ser parámetros
estadísticos, como el promedio o la mediana, u otros, como la suma) para hacer un resumen del experimento:
 - count - cuenta los elementos agrupados
 - sum - suma los elementos agrupados
 - mean - promedia los elementos agrupados
 - median, min, max, quantile - otros parámetros estadísticos

In [None]:
# Elegimos las siguientes:
aggregations = {
    'estrategia': ['count'],      # Nos interesa saber la cantidad de instancias por renglón
    'rutas': ['mean', 'sum'],     # Nos interesa conocer la cantidad de rutas, tanto en promedio como totales
    'costo': ['sum'],             # Nos interesa saber el costo de la flota total
    'paradas_prom': ['mean'],     # Nos interesa la cantidad promedio de paradas promedio
    'distancia_prom': ['mean'],   # Nos interesa la distancia promedio
    'duracion_prom': ['mean'],    # Nos interesa la duración promedio
    'relgap': ['mean'],           # Nos interesa el promedio de gap relativo
    'tiempo_cpu': ['sum']         # Nos interesa el total de tiempo consumido por CPLEX
}
df.groupby(by=['estrategia']).agg(aggregations)

In [None]:
# Podemos ampliar este resumen agregando, por ejemplo, un desglosado por día de la semana
df.groupby(by=['estrategia', 'dia']).agg(aggregations)

In [None]:
# Otro ejemplo podría ser desagregar por depósito. Si observamos bien, tenemos la información
# del depósito en el nombre de la instancia. Entonces podemos crear una nueva columna en el dataframe
# con el número de depósito, mediante una función que lee el nombre de la instancia y extrae ese número.

def extraeDepot(instancia):
    return int(instancia.split('_')[0].split('t')[1])
    
    
# Ejemplo (siempre viene bien probar nuestra función antes)
assert extraeDepot('Depot4_Wednesday_1') == 4, 'Error en la respuesta'

# Ahora generamos la columna 'Depot' (se agrega al final)
df['Depot'] = df['instancia'].apply(lambda x: extraeDepot(x))
df

In [None]:
# Se pueden sobreescribir columnas también con "apply". Por ejemplo, si
# nos interesa conocer el costo en dólares en vez de pesos, podemos hacer
# la conversión dividiendo por la tasa de cambio.
tasa = 1020.0
df['costo'] = df['costo'].apply(lambda x: x / tasa)
df

In [None]:
# Algo que se suele necesitar es conocer el porcentaje de ahorro de cada estrategia respecto al ejecutado (R).
# Esto se puede hacer también con una nueva columna "ahorro".

def computa_ahorro(costo, instancia):
    # Aquí restringimos el dataframe al ejecutado, con misma instancia que la que se compara
    df_R = df[df['estrategia'] == 'R']
    df_instancia = df_R[df_R['instancia'] == instancia]
    costo_real = float(df_instancia['costo'].iloc[0])
    return 100.0 * (costo_real - costo) / costo_real


# Ejemplo: el costo real de Depot1_Tuesday_7 fue de u$ 6922. Entonces una flota de u$ 5538 supone
# un ahorro del 20%
print('Ahorro = ' + str(computa_ahorro(5538, 'Depot1_Tuesday_7')))

# Calculamos la nueva columna usando "apply" pero esta vez se recibe la fila entera, la cual se puede
# procesar con columnas específicas (como en este caso que elegimos la del costo y la instancia).
df['ahorro'] = df.apply(lambda row: computa_ahorro(row['costo'], row['instancia']), axis=1)

In [None]:
# Veamos cómo queda
aggregations['ahorro'] = ['mean']
df.groupby(by=['estrategia', 'Depot']).agg(aggregations)

In [None]:
# A veces puede ser útil "navegar" la información...
# (primero definimos algunas funciones de rutina, que no requiere que las entendamos
# para el propósito del ejercicio)

from typing import List
from IPython.display import HTML, display

def widget_select_multiple(df, column, value=None):
    opts = sorted(list(df[column].unique()))
    if value is None:
        value = opts
    return widgets.SelectMultiple(options=opts, value=value, rows=7, description=column.capitalize())


def view_fun(estrategias: List[str], instancias: List[str], metricas: List[str], df: pd.DataFrame) -> None:
    if len(metricas) > 0:
        grouped = df[df.instancia.isin(instancias) & df.estrategia.isin(estrategias)].groupby(['instancia', 'estrategia'])[list(metricas)].first()
        styler = grouped.style.set_properties(subset=[grouped.columns[0]], **{'text-align': 'center'})
        display(HTML(styler.to_html(render_links=True, escape=True)))

            
def view(est, ins, mets):
    view_fun(est, ins, mets, df)

    
def get_all_widgets(df, default_metrics):
    est_widget = widget_select_multiple(df, 'estrategia')
    ins_widget = widget_select_multiple(df, 'instancia')
    metrics_list = list(df.columns)
    metrics_list.remove('estrategia')
    metrics_list.remove('instancia')
    metrics_list.sort()
    metrics_widget = widgets.SelectMultiple(options=metrics_list, value=default_metrics, rows=7, description='Metricas')
    return est_widget, ins_widget, metrics_widget

In [None]:
# Hagamos un panel con las Estrategias a elegir, nombre de la Instancia, y Metricas

metricas_defecto = ['rutas', 'costo', 'relgap', 'tiempo_cpu']
est_widget, ins_widget, metrics_widget = get_all_widgets(df, metricas_defecto)

controls = interactive(view, est=est_widget, ins=ins_widget, mets=metrics_widget)
display(VBox([HBox(controls.children[:-1]), controls.children[-1]]))

### Actividad 2
 - Determine en qué simulación se produce el mayor ahorro, y dentro de esta, en qué depósito.
 - A veces, para saber qué tan cercana fue una simulación a lo ocurrido realmente, se utiliza una métrica de desvío. Implemente una métrice "desvio_paradas" que compare el promedio de paradas entre uan estrategia y la ejecutada (R). Determine qué simulación se adhiere más a los resultados reales.

In [None]:
# Celda para realizar Actividad 2

## Graficando resultados

También pueden revisar https://matplotlib.org/2.0.2/gallery.html

In [None]:
# Acá vemos una gráfica tipo "scatter" donde cada punto representa una instancia.
# Vemos, por ej, que la 3ra. estrategia parece generar menores tiempo y estar más concentrada.

df.plot(kind = 'scatter', x = 'estrategia', y = 'tiempo_cpu')

In [None]:
# Sin embargo, en la gráfica anterior podrían haber puntos encimados. Para tener una mejor
# idea de la distribución, podemos hacer "boxplots" que muestran un intervalo con el minimo y máximo
# valor, y también el rango intercuartílico (de Q1 a Q3).

df.boxplot(by='estrategia', column='tiempo_cpu')

### Actividad 3

- Usando tanto el panel de métricas como gráficas scatter/boxplot y observe si hay alguna tendencia en las estrategias o los depósitos en cuanto a la distancia recorrida o duración de las rutas. 
- Investigue cómo eliminar "outliers" a partir de algún parámetro, esto ocurre cuando dicho parámetro cae fuera del rango intercuartílico. Elimine los outliers de las 3 estrategias respecto al tiempo_cpu y vuelva a graficar, ¿cambia mucho con respecto a las gráficas anteriores?

In [None]:
# Celda para realizar Actividad 3

### Actividad 4

En el notebook anterior, realizamos un experimento para calcular un parámetro de un conjunto de grafos, y obtuvimos una tabla que resume dicho experimento. En esta actividad vamos a leer esa tabla como un dataframe y analizar el experimento. Algunas preguntas para guiar el análisis:
- ¿Cómo promediar tiempos de ejecución cuando tenemos instancias no resueltas? Probar dos formas de promediar: 1) para un mismo tamaño de instancia, promediar sólo aquellas que fueros resueltas, 2) para un mismo tamaño de instancias, promediar todas asignando un valor de ejecución máximo a aquellas que no fueron resueltas. 
- ¿Cuál/cuáles son los factores asociados a un mayor tiempo de ejecución? (tamaño de la instancia, densidad del grafo, valor del parámetro)
- ¿Cómo se relaciona el valor del parámetro con las instancias? ¿aumenta con la cantidad de vértices, aristas o densidad?
- ¿Puede concluir algo sobre las instancias no resueltas analizando, por ejemplo, el gap?

Acompañe su análisis con gráficas.

In [None]:
# Celda para realizar Actividad 4