# Métodos para Estudo de Generalização do Blend

Esse notebook é responsável pela análise de generalização das bases do Blend. A generalização é analisada à luz da análise de componentes principais, da estimação da função densidade de probabilidade (*pdf*, do inglês *Probability Density Function*) e da análise de agrupamentos.

# Import e Definições

Esse conjunto de células deve ser sempre executado, uma vez que todas as outras células vão necessitar de bibliotecas e variáveis aqui definidas.

In [None]:
import numpy as np
import pandas
from sklearn.externals import joblib
import matplotlib.pyplot as plt
import scipy.stats as stats
%matplotlib inline
import os
from sklearn import decomposition

import blend.plots as blend_plots

from sklearn import manifold
from sklearn import cluster
from sklearn import metrics
import matplotlib as mpl
from scipy.stats import gaussian_kde
from mpl_toolkits.axes_grid1 import make_axes_locatable
from sklearn.neighbors.kde import KernelDensity

clus_colors = ['#000000', '#ff5555','#55ff55','#5555ff',
               '#55ffff','#ffff55','#4F3101','#EB9AEC',
               '#0000ff','#999999','#ffbb44']

plt.style.use('ggplot')

# Importação dos dados de desenvolvimento

Os cógidos consideram que os dados estão formatados segundo um **DataFrame**, definido na biblioteca **pandas**. As colunas desse **DataFrame** são os nomes das propriedades, enquanto o índice deve ser o identificador da amostra do petróleo. No exemplo abaixo, os dados da base pública de 49 petróleos são importados e filtrados para a utilização dos valores referentes ao corte *CRD*, ou cru.

In [None]:
cutname = 'CRD'
blend_data_dir = os.getenv('BLENDDATA')
fname = blend_data_dir + '/blend_dev.jbl'
obj = joblib.load(fname)
raw_data = obj[cutname]

# Importação dos dados do Blend

Os cógidos consideram que os dados estão formatados segundo um **DataFrame**, definido na biblioteca **pandas**. As colunas desse **DataFrame** são os nomes das propriedades, enquanto o índice deve ser o identificador da amostra do petróleo. No caso dos dados da base homologada do Blend, eles já estão filtrados considerando as propriedades globais do petróleo. O mapa de propriedades também é importado e adicionado aos dados da base para possibilitar a comparação com os dados de desenvolvimento.

In [None]:
filedata = blend_data_dir + '/blend_crude_data.pck'
raw_apply_data = joblib.load(filedata) # pandas DataFrame
prop_map = joblib.load(blend_data_dir + '/property_map.pck')
raw_apply_data.columns = [prop_map[k] for k in raw_apply_data.columns]
raw_apply_data = raw_apply_data[raw_data.columns]

# Seleção de Propriedades

Essa célula possibilita a escolha de quais propriedades devem ser consideradas para a análise. Ela também define alguns tipos de propriedades, como aquelas referentes à viscosidade do petróleo. Caso não deva haver seleção de propriedades (utilização de tudo que tem nos dados importados), a variável *propnames* deve ter seu valor alterado para *None*.

A variável *custom_prop* pode ser utilizada para a criação de propriedades customizadas. Para criar nada, essa variável deve ter o seu valor alterado para *None*.

In [None]:
# empty list means all properties in the input dataframe
prop_list = ['INIK','IVAN','Metais','PAPC','PV20',
             'PV30','PCCS','IACD','FCFM']
prop_list = ['IACD','ITNT','IBNT','IPOR','ICON','INIK','IVAN',
             'PAPC','PCCS','IASP','P010','P030','P050','P070',
             'P090','IFAR','IFST','PV20','PV30','PV40','PV50']
viscosity_props = ['PV20','PV30','PV40','PV50']
# Custom properties, if any
custom_prop = None
if custom_prop is not None:
    if custom_prop.lower() == 'metais':
        raw_data[custom_prop] = raw_data['INIK'] + raw_data['IVAN']
    else:
        raise Exception(u'Propriedade desconhecida: ' + custom_prop)
# Filter
if len(prop_list) != 0:
    raw_data = raw_data[prop_list]

# Normalização

Essa célula é responsável pela normalização das propriedades consideradas na análise. Normalizações dedicadas para cada propriedade e um método global (normalização padrão) são executados. A variável *raw_data* é mantida apenas com o valor das propriedades considerando as normalizações dedicadas, sem a normalização padrão.  

In [None]:
# PROPERTY DEPENDENT
# VISCOSITY
for prop in viscosity_props:
    raw_data[prop] = np.log(raw_data[prop])    
    raw_apply_data[prop] = np.log(raw_apply_data[prop])    
# PCCS
if 'PCCS' in raw_data.columns:
    if raw_data['PCCS'].max() > 10:
        raw_data['PCCS'] = raw_data['PCCS'] / 1000.0
    
# STANDARD NORMALIZATION
import sklearn.preprocessing as preprocessing
scaler = preprocessing.StandardScaler()
#scaler = preprocessing.MinMaxScaler()
data = pandas.DataFrame(scaler.fit_transform(raw_data),
                        columns=raw_data.columns, index=raw_data.index)
apply_data = pandas.DataFrame(scaler.fit_transform(raw_apply_data),
                              columns=raw_apply_data.columns,
                              index=raw_apply_data.index)

# Distribuições

Essa seção executa a análise de generalização considerando a estimativa das distribuições *pdf* das propriedades das duas bases de dados. A variável *nsamples* controla a quantidade de distribuições aleatórias, considerando a *pdf* estimada da base de dados de desenvolvimento, e a quantidade de sorteios para cada distribuição. As distribuições aleatórias são estimadas *ninit* vezes de forma a considerar a flutuação dos geradores aleatórios. Essas distribuições aleatórias são utilizadas para calibrar a divergência de Kullback-Leibler. 

In [None]:
def random_from_dist(xmodel, ymodel, ndata, fPlot=False, fMethod = True):
    if fMethod:
        bin_midpoints = xmodel + (xmodel[1] - xmodel[0])/2
        cdf = np.cumsum(ymodel)
        cdf = cdf / cdf[-1]
        values = np.random.rand(ndata)
        value_bins = np.searchsorted(cdf, values)
        random_from_cdf = bin_midpoints[value_bins]
    else:
        random_from_cdf = np.random.choice(xmodel, ndata, p = ymodel/ymodel.sum())
    if fPlot:
        a = plt.hist(random_from_cdf, bins=xmodel, normed=True)
        plt.plot(xmodel, ymodel * a[0].sum() / ymodel.sum())
    return random_from_cdf

In [None]:
# Loop over Properties
nsamples = [100, 500, 1000]
ninit = 100
Nx = 4
Ny = int(raw_data.shape[1]/float(Nx)) + 1
plt.figure(figsize=(6*Nx, 5*Ny))
for iprop, prop in enumerate(raw_data.columns):
    plt.subplot(Ny, Nx, iprop+1)
    print prop, ', ',
    test_data = raw_data[prop].values
    #test_data = test_data[test_data < 5000]
    X = np.linspace(test_data.min(),test_data.max(), 100)
    ymodel = stats.gaussian_kde(test_data)(X)
    # Plot basic PDF from KDE estimation
    plt.plot(X, ymodel, lw=3, color='k', label='Modelo')
    # Generate samples
    for n in nsamples:
        yapply = np.zeros((ninit, X.shape[0]))
        kls = np.zeros(ninit)
        for iinit in range(ninit):
            ds_hist = random_from_dist(X, ymodel, n, False, False)
            yapply[iinit] = stats.gaussian_kde(ds_hist)(X)
            kls[iinit] = stats.entropy(ymodel, yapply[iinit])
        plt.errorbar(X, np.nanmean(yapply,axis=0),np.nanstd(yapply,axis=0),
                     errorevery=10,lw=3
                     label='#R %i: %.3f +- %.3f'%(n, np.mean(kls), np.std(kls)))
    # PLOT THE APPLY DATA
    test_data = raw_apply_data[prop].values
    X = np.linspace(test_data.min(),test_data.max(), 100)
    yapply = stats.gaussian_kde(test_data)(X)
    # Plot basic PDF from KDE estimation
    kl = stats.entropy(ymodel, yapply)
    plt.plot(X, yapply,'--k', lw=3, label='Blend: %.3f'%(kl))
    plt.title(prop)
    plt.legend(loc='best')
#plt.suptitle('KL - KDE Gaussian', fontsize=14)
print ' done.'

### Histogramas das propriedades

In [None]:
for iprop, prop in enumerate(raw_data.columns.values):
    plt.figure(figsize=(10,4))
    plt.subplot(1,2,1)
    plt.hist(raw_data[prop].values, 20)
    plt.title('Modelo')
    plt.ylabel(prop)
    plt.subplot(1,2,2)
    plt.hist(raw_apply_data[prop].values, 20)
    plt.title('Blend')
    plt.ylabel(prop)    

# Análise de Componentes Principais

Nessa seção, a generalização é estudada considerando a análise de componentes principais. As duas bases são comparadas considerando a curva de carga do PCA, quanto à contribuição das propriedades para a composição dos componentes principais e quanto ao ângulo entre os componentes principais extraídos considerando as duas bases.

In [None]:
pcaModel = decomposition.PCA().fit(data)
pcaBlend = decomposition.PCA().fit(apply_data)

### Curva de Carga

In [None]:
# Charge Curve - Modelo
plt.figure(figsize = (10, 5))
plt.subplot(1,2,1)
plt.plot(np.cumsum(pcaModel.explained_variance_ratio_),'o-', 
         w=3, label='Modelo')
plt.plot(np.cumsum(pcaBlend.explained_variance_ratio_),'^--',
         lw=3, label='Blend')
plt.plot([0, data.shape[1]],[0.9,0.9],'k--')
plt.xlim([0, data.shape[1] - 0.9])
plt.ylim([plt.axis()[2], 1.001])
plt.ylabel('Taxa de Energia Acumulada')
plt.xlabel('# Componentes Acumulados')
plt.title('Curva de Carga')
plt.legend(loc='center right')

### Direções Principais

In [None]:
components = [0,1,14,18]
Nx = 2
Ny = len(components)
plt.figure(figsize=(8*Nx, 4*Ny))

#for ipca in range(pcaModel.components_.shape[0]):
    #plt.figure(figsize=(10,2))
for pcanum, ipca in enumerate(components):
    
    
    total_model = np.sum(np.abs(pcaModel.components_[ipca, :]))
    total_blend = np.sum(np.abs(pcaBlend.components_[ipca, :]))    
    val_model = 100 * np.abs(pcaModel.components_[ipca, :])/total_model
    val_blend = 100 * np.abs(pcaBlend.components_[ipca, :])/total_blend
    
    plt.subplot(Ny, 2, (pcanum*2)+1)
    #plt.subplot(1,2,1)
    plt.bar(np.arange(val_model.shape[0]), val_model)    
    plt.ylabel('PCA %i - Modelo'%(ipca+1))
    plt.gca().set_xticks(np.arange(data.columns.shape[0])+0.5)
    plt.gca().set_xticklabels(data.columns, rotation='90')
    plt.xlim([0, data.columns.shape[0]])

    plt.subplot(Ny, 2, (pcanum*2)+2)    
    #plt.subplot(1,2,2)
    plt.ylabel('PCA %i - Blend'%(ipca+1))    
    plt.bar(np.arange(val_model.shape[0]), val_blend)
    plt.gca().set_xticks(np.arange(data.columns.shape[0])+0.5)
    plt.gca().set_xticklabels(data.columns, rotation='90')
    plt.xlim([0, data.columns.shape[0]])    
    

#### Ângulo entre as direções

In [None]:

angles = np.zeros((pcaModel.components_.shape[0],
                   pcaModel.components_.shape[0]))
for i in range(pcaModel.components_.shape[0]):
    for j in range(i, pcaModel.components_.shape[0]):
        v1 = pcaModel.components_[i]/np.linalg.norm(pcaModel.components_[i],2)
        v2 = pcaBlend.components_[j]/np.linalg.norm(pcaBlend.components_[j],2)
        angles[i,j] = np.arccos(v1.dot(v2)) * 180 / np.pi
angles[np.isnan(angles)] = 0
idx = (angles > 90)&(angles <= 180)
angles[idx] = angles[idx] - 180
idx = (angles > 180)&(angles <= 270)
angles[idx]= angles[idx] - 180
angles = np.abs(angles)
angles[np.tril_indices(angles.shape[0],-1)] = np.nan
plt.matshow(angles, cmap=plt.cm.jet, vmin=0, vmax=90, fignum=0)
plt.ylabel('PCA - Blend')
plt.xlabel('PCA - Modelo')
plt.gca().set_xticklabels(np.array(plt.gca().get_xticks()+1, 'i'))
plt.gca().set_yticklabels(np.array(plt.gca().get_yticks()+1, 'i'))
plt.colorbar()

# Agrupamentos

Nessa seção, a generalização é estudada considerando o algoritmo de agrupamentos *k-médias*.

## Black list

Algumas propriedades podem ser removidas da análise de agrupamentos através da variável *black_list*. Se nenhuma propriedade deve ser removida, essa variável deve ter seu valor alterado para *None*.

In [None]:
black_list = ['PCCS', 'PV20', 'PV30', 'PV40', 'PV50']
if black_list is not None:
    cluster_data = data.drop(black_list, axis=1)

## K-Médias

O algoritmo é executado *ninit* vezes, de forma a avaliar o impacto de sua inicialização. Por fim, será gerada a figura do *errorbar* considerando o valor médio e o desvio-padrão do índice de silhueta para as *ninit* inicializações. Adicionalmente, é mostrada a figura com o índice de silhueta individual para cada uma das configurações na variável *test_clusters*.

In [None]:
ninit = 50
nclusters = np.arange(2,11)
test_clusters = [3]
km_models = {}
si_values = np.zeros((len(nclusters), ninit))
for i, n in enumerate(nclusters):
    perf = 0
    for j in range(nInit):
        km = cluster.KMeans(n, n_init = 1, init='k-means++')
        km.fit(cluster_data)
        si_values[i,j] = metrics.silhouette_score(cluster_data, km.labels_,
                                                  metric='euclidean')
        if perf < si_values[i,j]:
            perf = si_values[i,j]
            km_models[n] = km
# Sillhouete
plt.figure(figsize=(8,4))
plt.errorbar(nclusters, np.mean(si_values, axis=1),
             np.std(si_values, axis=1), lw=2)
plt.xlim([nclusters[0]-0.5, nclusters[-1]+0.5])
plt.xlabel('# Clusters')
plt.ylabel(u'Silhueta Média')
plt.title(u'Avaliação de Clusters')
plt.grid(True)

# Individual sillhouete
plt.figure(figsize=(8, 4*len(test_clusters)))
for idx, nclus in enumerate(test_clusters):
    plt.subplot(1,len(test_clusters),idx+1)
    s = metrics.silhouette_samples(cluster_data, km_models[nclus].labels_)
    blend_plots.plot_silhouette(s,km_models[nclus].labels_
                                ,clus_colors,ax=plt.gca())
    plt.xlabel('Silhueta')
    plt.ylabel('Cluster')
    plt.title('')
    plt.grid(True)

## Aplicação do Modelo no Blend

Nessa subseção, o modelo de agrupamentos encontrado para a base de desenvolvimento é aplicada à base de homologação do Blend. O índice de silhueta individual é mostrado, considerando as amostras da base de homologação do Blend, de forma a avaliar se essas amostras parecem bem condicionadas aos seus agrupamentos.

In [None]:
cluster_apply_data = apply_data[cluster_data.columns]
plt.figure(figsize=(8, 4*len(test_clusters)))
for idx, nclus in enumerate(test_clusters):
    plt.subplot(1,len(test_clusters),idx+1)
    pred_clusters = km_models[nclus].predict(cluster_apply_data)
    s = metrics.silhouette_samples(cluster_apply_data, pred_clusters)
    blend_plots.plot_silhouette(s,km_models[nclus].labels_,clus_colors,
                                ax=plt.gca())
    plt.xlabel('Silhueta')
    plt.ylabel('Cluster')
    plt.title('')
    plt.grid(True)