# Descrição

## Motivação

Este gráfico serve para ilustrar a correlação entre o comportamento de uma variável e a quantidade de amostras em cada ponto da variável.

## Design

Este gráfico foi inspirado no livro [interpretable machine learning](https://christophm.github.io/interpretable-ml-book/pdp.html) capítulo 8.1.1:

![](../data/LinearHistPlot/linear_hist_example.PNG)

Nestes gráficos a frequêcia das amostras são representadas por linhas na parte de baixo do gráfico. A ideia é substituir as linhas por um histograma contínuo, como a metade de um gráfico de violino deitado.

## Tipos de dados de entrada

- **linearData_x** - Um vetor com os valores do eixo X;
- **linearData_y** - Um vetor com os valores do eixo y. Os vetores linearData_x e linearData_y devem ter o mesmo tamanho;
- **histogramData** - Um vetor com os valores que serão projetados no eixo X e em sua frequência.

## Comportamento

- O valor de cada ponto deve ser exibido se o mouse passar por cima dele.

# Dados de entrada

In [None]:
import pandas as pd
from sklearn.inspection import partial_dependence
from sklearn.ensemble import RandomForestRegressor

In [None]:
path = '../data/LinearHistPlot/bike.csv'
df = pd.read_csv(path)

In [None]:
num_features = ['temp', 'hum', 'windspeed']
X = df[num_features]
y = df['cnt']
feature = 0

In [None]:
def get_feature_data(feature, value):
    clf = RandomForestRegressor(n_estimators=10).fit(X, y)
    pd_results = partial_dependence(
    clf, X, features=feature, kind="average")
    pdp_df = pd.DataFrame({'grid_values': pd_results['grid_values'][0], 'average': pd_results['average'][0]})
    pdp_dict = pdp_df.to_dict(orient='records')

    array = list(map(lambda item: item[value], pdp_dict))
    return array

def get_hist_data(feature):
    histogramData = df.to_dict(orient='records')
    return list(map(lambda item: item[num_features[feature]], histogramData))

In [None]:
linearData_x0 = get_feature_data(0, 'grid_values')
linearData_y0 = get_feature_data(0, 'average')
histogramData0 = get_hist_data(0)

linearData_x1 = get_feature_data(1, 'grid_values')
linearData_y1 = get_feature_data(1, 'average')
histogramData1 = get_hist_data(1)

linearData_x2 = get_feature_data(2, 'grid_values')
linearData_y2 = get_feature_data(2, 'average')
histogramData2 = get_hist_data(2)

# Testes

In [None]:
import custom_ipywidgets

In [None]:
linearhist0 = custom_ipywidgets.LinearHistPlot(
    linearData_x=linearData_x0,
    linearData_y=linearData_y0,
    histogramData=histogramData0,
)
linearhist0

In [None]:
linearhist1 = custom_ipywidgets.LinearHistPlot(
    linearData_x=linearData_x1,
    linearData_y=linearData_y1,
    histogramData=histogramData1,
)
linearhist1

In [None]:
linearhist2 = custom_ipywidgets.LinearHistPlot(
    linearData_x=linearData_x2,
    linearData_y=linearData_y2,
    histogramData=histogramData2,
)
linearhist2

# Bugs e melhorias

## Resolvidos

## Em progresso

### Bug: Valor não aparece quando passo o mouse

Valor do ponto deveria aparecer quando passo o mouse mas não está aparecendo.