# Imports

In [1]:
import matplotlib
matplotlib.rcsetup.all_backends


['GTK3Agg',
 'GTK3Cairo',
 'MacOSX',
 'nbAgg',
 'Qt4Agg',
 'Qt4Cairo',
 'Qt5Agg',
 'Qt5Cairo',
 'TkAgg',
 'TkCairo',
 'WebAgg',
 'WX',
 'WXAgg',
 'WXCairo',
 'agg',
 'cairo',
 'pdf',
 'pgf',
 'ps',
 'svg',
 'template']

In [2]:
%matplotlib Tk
#%matplotlib inline
#%matplotlib notebook

import datetime
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
from mpl_toolkits.mplot3d import Axes3D
import matplotlib.cm as cm
from mpl_toolkits.mplot3d import Axes3D
import matplotlib.colors as colors
import matplotlib as mpl
from sklearn.cluster import KMeans
from scipy import stats
import seaborn as sns; sns.set()
import os
import ipynb.fs.defs.my_funcs_clusters as myfunc
# noinspection PyCompatibility
import pathlib

# Funciones

In [3]:
def calculate_vectorprob(row):
    """
    la funcion se aplica fila por fila
    se suman todos los valores por fila y se divide entre cada valor, luego se multiplica por 100
    Compute the probabability of every row.

    usage: mprob = dfMaTra.apply(calculate_vectorprob, axis=1)
            mprob.rename(index=idxclnames,inplace=True)
    :param row: row number
    :return: probabilities matrix
    """
    return row.astype(float)/row.sum()*100

def group_state_values(statenum,df):
    """
Agrupa los valores con datos diferentes a nan de un estado en particular. Los datos se agregan a una lista hasta
que salta a otro estado, con esto se puede saber cuanto tiempo duro en un estado.

    Inputs:
            statenum: numero de estado, empieza en 1
            dfclvp: dataframe con los clusters separados de vv y pw
    Outputs:
            lista_valores_estado: una lista con los valores del estado agrupados
    """
    #va a buscar renglon por renglon si el valor es nan y
    #va a agrupar los valores que no son nan junto con su timestamp
    statenum ='C'+str(statenum)
    idx =  df[statenum].first_valid_index() #primer indice que no tiene valores nan
    lista_valores_estado=[] #contiene los valores agrupados de tiempo vv y pw
    row_values=[]# lista temporal para agrupar los valores de tiempo vv y pw
    idxw=0 #indice exclusivo para el ciclo for
    while not idxw ==  df.index[-1]: #si el indice ya llego a la ultima fila

        for row in df[statenum][idx:].itertuples(): #empieza en el ultimo indice que no tuvo valores
            if not np.isnan(row.vViento):
                row_values.append([row[0],row.vViento,row.Pw])
            #si el valor es nan y row_values tiene elementos significa que
            #ya tomo todos los valores del estado y se brinco a otro
            if np.isnan(row.vViento) and len(row_values)>0:
                idx=row[0]
                lista_valores_estado.append(row_values.copy())
                row_values.clear()
                break
            idxw =row[0]#para saber cuando llega al ultimo indice
    return lista_valores_estado



## de matriz (dataframe) a vector

In [None]:
def mat_to_vector(df):
    """
    #convertir de matriz a vector  (debe ser igual que kmeans_labels)
    #tomo el dataframe con los estados ya indicados y la convierto a vector ignorando
    #en este caso ceros
    :param df:
    :return:
    """
    vect_states= []
    for row in range(len(df)):
        clust = np.argwhere(dfclvv_sin_ord.iloc[row].notnull().values)[0][0]
        vect_states.append(clust)
        #else:
        #es una fila de ceros, entonces se agrega un cero, así si queda igual
        #que kmeans labels y los otros codigos para hacer la matriz de transicion
        #pero quiero esto?, no, no lo quiero por que no quiero que de un estado x
        #se regrese al estado cero solo porque no hay datos, pero de todos modos lo hago
        #vect_states.append(0)
    return vect_states


## Transition matrix

In [None]:
def transition_matrix(transitions):
    """
    stack overflow, mas elegante
    the following code takes a list such as
    [1,1,2,6,8,5,5,7,8,8,1,1,4,5,5,0,0,0,1,1,4,4,5,1,3,3,4,5,4,1,1]
    with states labeled as successive integers starting with 0
    and returns a transition matrix, M,
    where M[i][j] is the probability of transitioning from i to j
    Test:
    t = [1,1,2,6,8,5,5,7,8,8,1,1,4,5,5,0,0,0,1,1,4,4,5,1,3,3,4,5,4,1,1]
    m = transition_matrix(vect_states)
    for row in m: print(' '.join('{0:.4f}'.format(x) for x in row))

    :param transitions: list with transitions
    :return:
    """
    n = 1+ max(transitions) #number of states

    M = [[0]*n for _ in range(n)]

    for (i,j) in zip(transitions,transitions[1:]):
        M[i][j] += 1

    #now convert to probabilities:
    for row in M:
        s = sum(row)
        if s > 0:
            row[:] = [f/s for f in row]
    return M


In [None]:
def trans_matrix_from_df(df,mat_mode='prob'):
    """

    :param mat_mode: "prob" regresa la matriz de probabilidades, "frec" regresa la matriz de frecuencias
    :param df: dataframe con los datos separados en clusters
    :return: dataframe con la matriz de transiciones.
    """
    #matriz de transicion del tamaño del numero de  clusters
    if  mat_mode != 'prob' and mat_mode != 'frec':
        print('Modo no reconocido.')
        return None
    n_clusters = len(dfclvv.columns)
    mattra = np.zeros([n_clusters,n_clusters])
    for row in range(len(df)):
        #para asegurarse de que no hay filas con cero?
        if df.iloc[row,:].to_numpy().nonzero()[0].shape[0] >0 and \
                df.iloc[row+1,:].to_numpy().nonzero()[0].shape[0] >0:
            i = np.nonzero(df.iloc[row,:].values)[0][0] #donde estoy (que estado)
            j = np.nonzero(df.iloc[row+1,:].values)[0][0] #siguiente linea ( o estado) (hacia que estado voy)
            #revisar si hay mas de un 1, que no deberia de haber
            #        if len( np.nonzero(dfclpw.iloc[row,:].values)) >1:
            #            print('si')

            mattra[i,j] +=1
    #convertir de numpy array to dataframe
    idxclnames ={}
    clidx = range(0,n_clusters)

    clnames = []
    for i in range(n_clusters):
        clnames.append('C'+str(i+1))
    for i in clidx:
        idxclnames[i] = clnames[i]

    df_mat_tra =pd.DataFrame(mattra)
    df_mat_tra.columns=columnas
    df_mat_tra.rename(index=idxclnames)

    #la funcion se aplica fila por fila
    #se suman todos los valores por fila y se divide entre cada valor, luego se multiplica por 100
    mprob = df_mat_tra.apply(calculate_vectorprob, axis=1)
    mprob.rename(index=idxclnames,inplace=True)
    if mat_mode == 'prob' : return mprob
    else: return df_mat_tra
        

#  Data processing

In [None]:
import importlib
importlib.reload(myfunc)

In [None]:
###########################################configuración
columns_to_use = [0,1,3,6]
columns_id =['day','hour','wdir','vwind']
home = str(pathlib.Path.home()) #user directory
xlsPath = home + '\\Dropbox\\Doctorado\\Documentos\\datos\\datos bcs\\DP-PB01-2005.xlsx'
xlsPathMfgCurve = home + '\\Dropbox\\Doctorado\\Python\\aero\\Curva de potencia vestas 90.xlsx'
dir_format= 'deg'
year = '2005' #data year
########################################################
#imprimir a consola
os.write(1, b"Inciando procesamiento de datos...\n")

dataVDxls = pd.read_excel(xlsPath,usecols=columns_to_use,dtype={'DIA' : str, 'HORA':str})
dataVDxls.columns =columns_id
#agrego la columna de potencia instantanea sin filtrar
#dataVPxls['Pw']= (dataVPxls.iloc[1:,1].values-dataVPxls.iloc[0:-1,1]) * np.pi*45**2
print('Total de registros: ' + str(len(dataVDxls)))
#dfMfgCurve = pd.read_excel(xlsPathMfgCurve,usecols=[0,2],index_col=0,names=['pw'])#cambio esto en la nueva version
dfMfgCurve = pd.read_excel(xlsPathMfgCurve,usecols=[0,2],index_col=0)
dfMfgCurve.columns = ['pw']
#marcando los datos faltantes asignando un nan a la fila completa
datamk = dataVDxls
datamk.loc[datamk.isnull().any(axis=1), :] = np.nan
#numero de filas sin datos
print('Numero de filas sin datos')
print(datamk.loc[datamk.isnull().any(axis=1), :].isnull().sum())

#eliminando filas con NaN
cleanData = datamk.dropna()


#datos direccion velocidad
#print(len(dataVP))
#print(len(dataDir))
#dataDV = pd.concat([dataDir,dataVP.vViento],axis=1)
#dataVD = pd.concat([dataVP.vViento,dataDir,axis=1)
#dataVcD =pd.concat([dataDir,df_comp_vel],axis=1)
#change hour 24:00 to 00:00
dataVDxls['hour']=dataVDxls['hour'].str.replace('2400','0000')
dataVDxls['timeStamp']= dataVDxls.apply(lambda x: myfunc.daymin2date(year,x.day, x.hour), axis=1)
dataVDxls.set_index('timeStamp',inplace=True,verify_integrity = True)
dfWD = dataVDxls.drop(columns=['day','hour'])
del dataVDxls
#CHECK THE DIRECTION OF THE ANEMOMETER
if dir_format == 'rad':
    direcvrad= np.deg2rad(dfWD['wdir'].values)
    vecVel = [-np.sin(direcvrad)*dfWD['vwind'].values,np.cos(direcvrad)*dfWD['vwind'].values]
else:
    vecVel = [-np.sin(dfWD['wdir'].values * np.pi / 180) * dfWD['vwind'].values,
              np.cos(dfWD['wdir'].values * np.pi / 180)* dfWD['vwind'].values]


vecVelnp = np.array(vecVel).transpose()
#original sin timestamp
#df_comp_vel = pd.DataFrame(data=vecVelnp,columns=['vx','vy']
#con timestamp
df_comp_vel = pd.DataFrame(data=vecVelnp,columns=['vx','vy'],index=dfWD.index)


os.write(1, b"Fin del procesamiento de datos\n")


In [None]:
print('hola')

# Matriz de transicion de viento

## Clustering

In [None]:
n_clusters= 15
model_kmeans = KMeans( n_clusters=n_clusters,random_state=0)
model_kmeans.fit(df_comp_vel.values)
kmeans_labels = model_kmeans.labels_
centroids = model_kmeans.cluster_centers_#los centroides siguen siendo 46
n_clusters = np.unique(kmeans_labels).size

#crear un dataframe viento, direccion, cluster
df_wind_dir_cl = dfWD.copy()
df_wind_dir_cl['cluster'] = kmeans_labels

## Ordenar clusters

In [None]:
#orden de aparicion de los clusters kmeans y gm

#ordenar el orden de aparicion segun la magnitud de la vv
clmagni = np.zeros(n_clusters)
for i in range(n_clusters):
    vx = df_comp_vel.vx.values[kmeans_labels==i]
    vy = df_comp_vel.vy.values[kmeans_labels==i]
    clmagni[i]= np.round(np.mean(np.sqrt(vx**2 + vy**2)),1) #magnitud de la vv


clord = clmagni.argsort()

In [None]:
columnas=[]
for i in np.arange(1,n_clusters+1):
    columnas.append('C'+str(i))

dfclvv = pd.DataFrame()
for i in range(n_clusters):
    dfclvv = pd.concat([dfclvv,dfWD.vwind[kmeans_labels==clord[i]]], ignore_index=True, axis=1)
dfclvv.columns=columnas[0:n_clusters]
dfclvv

In [None]:
#probabilidades de cadas estado
nregcl=[]
for col in dfclvv.columns:
    nregcl.append(len(dfclvv[dfclvv[col].notna()]))
ntotreg= len(dfWD)
np.array(nregcl)/ntotreg *100


In [None]:
#magnitud de los centroides
for i in range(n_clusters):
    print( str(i)+' - '+ str(dfclvv['C'+str(i+1)].mean()))

In [None]:
dfWD[dfWD.vwind >= 12]

In [None]:
for i in range(n_clusters):
    vx = df_comp_vel.vx.values[kmeans_labels==i]
    vy = df_comp_vel.vy.values[kmeans_labels==i]
    print(np.round(np.mean(np.sqrt(vx**2 + vy**2)),1) )#magnitud de la vv

## Matriz de velocidades de viento

In [None]:
# Matriz sin ordenar
columnas=[]
for i in np.arange(1,n_clusters+1):
    columnas.append('C'+str(i))

dfclvv_sin_ord = pd.DataFrame()
dfclvv_sin_ord.index= dfWD.index
for i in range(n_clusters):
    dfclvv_sin_ord = pd.concat([dfclvv_sin_ord,dfWD.vwind[kmeans_labels==i]], ignore_index=True, axis=1)
dfclvv_sin_ord.columns=columnas[0:n_clusters]
dfclvv_sin_ord

## Cambiar de valor de velocidad de viento a unos

In [None]:
#si quiero cambiar los NaN por ceros, pero hay algunos ceros en los datos
# mejor dejo los NaN
#dfclvv_sin_ord.fillna(0,inplace=True)
#dfclvv_sin_ord[dfclvv_sin_ord!=0]=1
#dfclvv_sin_ord.head(20)

## Step plot

In [None]:
#convetir matriz de estados a vector de estados (o transiciones)
#este vector debe ser igual a kmeans_labels
vect_states = mat_to_vector(dfclvv_sin_ord)


In [None]:
plt.figure(12,figsize=(12,5))
plt.scatter(dfWD.index, vect_states)
plt.tight_layout()
plt.show()

## Matriz de transicion


In [None]:
t = [1,1,2,6,8,5,5,7,8,8,1,1,4,5,5,0,0,0,1,1,4,4,5,1,3,3,4,5,4,1,1]
m = transition_matrix(vect_states)
for row in m: print(' '.join('{0:.4f}'.format(x) for x in row))


In [None]:
mat_trans_prob= trans_matrix_from_df(dfclvv_sin_ord)
mat_trans_prob

In [None]:
#SOLO FUNCIONA PARA FILAS PERO NO PARA COLUMNAS
plt.figure(figsize=(20,18))

ht =sns.heatmap(mat_trans_prob, annot=True,fmt='.2f')
figure = ht.get_figure()
figure.savefig('ht_prob.png', dpi=400)

# Tiempo total que pasa en estados de interes

In [None]:
#direcciones promedio
for col in dfclvv_sin_ord.columns:
    print(col+ ' - ' +str(dfWD.wdir[dfclvv_sin_ord[col] !=0 ].mean()))

In [None]:
#obtener estados entre dos velocidades de viento
#primero obtengo las velocidades de viento y de ahi los estados
#por ejemplo seleccionar los estados que ocurren entre las velocidades 6 y 11
#y ver como brincan entre estados y cuanto duran estas transiciones antes
# de que brinquen a estados que no son de interes
betw = dfWD[dfWD.vwind.between(6,11)]
betw.index = pd.to_datetime(pd.to_datetime(betw.index).strftime('%d/%m/%Y %H:%M'))

In [None]:
dfclvv_sin_ord.index = pd.to_datetime(pd.to_datetime(dfclvv_sin_ord.index).strftime('%d/%m/%Y %H:%M'))


In [None]:
#buscar cuanto duran los estados
#fila por fila
#contador de tiempos de 10 minutos para tener lo hora total
t10_count = 10
#lista con todos los tiempos totales
list_total_times=[]

df = betw
for row in range(len(df)-1):
    #obtener el estado de del registro
    estado = dfclvv_sin_ord.loc[df.index[row]].to_numpy().reshape(-1).nonzero()[0][0]+1
    #comprobar que la diferencia entre una fila y la siguiente es de diez minutos
    if df.index[row+1] - df.index[row]  == pd.Timedelta(minutes=10):
        # dato de la fila
        t10_count+=10 #sumar 10 minutos
        register = df.iloc[row]
        print('%s | %0.2f m/s | %0.1f°| C%i'%
              (register.name,register.vwind,register.wdir, estado))
    else:
        register = df.iloc[row]
        print('%s | %0.2f m/s | %0.1f°| C%i'%
              (register.name,register.vwind,register.wdir,estado))
        list_total_times.append(pd.to_datetime(t10_count,unit='m').strftime('%H:%M'))
        print('Total time: %s hr(s)' % list_total_times[-1] )
        print('########################################')
        t10_count = 10


In [None]:
#buscar cuanto duran los estados
#fila por fila
#contador de tiempos de 10 minutos para tener lo hora total
t10_count = 10
#lista con todos los tiempos totales
list_total_times=[]

df = dfWD
#indica a que grupo pertenece el dato
#con el codigo de abajo, los estados se dividen en grupos
#pero cronologicamente, para luego identificar a que grupo
#pertenece cierto registro le añado un indice
#por lo que se tienen datos agrupados por clusters de magnitudes de voltaje
#y por clusters de tiempos consecutivos de ocurrencia
grouped_states_index = 1

for row in range(30,100):
    #obtener el estado de del registro
    #reshape porque a veces me da un array de 1xn y a veces de nx1
    estado_ini = dfclvv_sin_ord.loc[df.index[row]].to_numpy().reshape(-1).nonzero()[0][0]+1
    estado_sig = dfclvv_sin_ord.loc[df.index[row+1]].to_numpy().reshape(-1).nonzero()[0][0]+1
    #comprobar que la diferencia entre una fila y la siguiente es de diez minutos
    if estado_ini == estado_sig:
        # dato de la fila
        t10_count+=10 #sumar 10 minutos
        register = df.iloc[row]
        print('%s | %0.2f m/s | %0.1f°| C%i |gp_idx: %i |'%
              (register.name,register.vwind,register.wdir, estado_sig,grouped_states_index))
    else:
        register = df.iloc[row]
        print('%s | %0.2f m/s | %0.1f°| C%i |gp_idx: %i |'%
              (register.name,register.vwind,register.wdir,estado_ini,grouped_states_index))
        list_total_times.append(pd.to_datetime(t10_count,unit='m').strftime('%H:%M'))
        print('Total time: %s hr(s)' % list_total_times[-1] )
        print('########################################')
        t10_count = 10
        grouped_states_index+=1 #nuevo grupo, nuevo indice



In [None]:
row = 0
dfclvv_sin_ord.loc[df.index[row]].to_numpy().reshape(-1).nonzero()

In [None]:
type(dfclvv_sin_ord.loc[df.index[row]].to_numpy())

In [None]:
dfWD

In [None]:
dfWD.loc['2005-01-01 05:40:00']

In [None]:
dfclvv_sin_ord

In [None]:
#este dataframe contendrá en orden cronologíco los datos con una fila extra indicando
#el cluster al que pertenece el dato. Se puede hacer manual o pandificado
#aqui lo voy a hacer pandificado
df_data_with_states = dfWD.copy()
dfclvv_sin_ord.loc['2005-01-01 00:50:00'].to_numpy().nonzero()[0][0]+1

In [None]:
dfclvv_sin_ord

In [None]:
dfclvv_sin_ord

In [None]:
list_total_times

## Buscar transiciones

In [None]:
vel_prom_estados = [8.2,10.7, 12.4]

In [None]:
# 1.- encontrar el primer dato no NAN del estado (df ordenado cronologicamente)
# 2.- encontrar el siguiente dato NAN. El estado se encuentra entre estos dos no NAN y NAN
#

dfclvv_sin_ord.C1.first_valid_index()

In [None]:
dfclvv_sin_ord.C1.isnull()

In [None]:
#va a buscar renglon por renglon si el valor es nan y
#va a agrupar los valores que no son nan junto con su timestamp
num_estado = 'C17'
dfclvv_sin_ord[num_estado].first_valid_index() #primer valor que no es nan
lista=[]
C=[]
flag= True
for i in dfclvv_sin_ord[num_estado].itertuples():
    if not np.isnan(i[1]):
        C.append([i[0],i.vViento,i.Pw])
        flag = False


    if not flag:
        lista.append(C)
        C.clear()
        flag_nonan=True

In [None]:
c17agrupado = group_state_values(17,dfclvv_sin_ord)

In [None]:
listaTiempos=[] #cuenta el numero de elementos que tiene cada lista
#es decir si la lista contiene 4 elementos, quiere decir que el estado
#estuvo sin cambios 40 minutos
for i in c17agrupado:
    listaTiempos.append(len(i))


In [None]:
#moda de los tiempos por cada unidad son 10 minutos
stats.mode( listaTiempos)

In [None]:
#promedio de los tiempos de estadia, 1.95 es aprox 2 o 20 min
np.mean(listaTiempos)

In [None]:
tempdf= dfclvv_sin_ord.C17.copy()
tempdf.dropna(inplace=True)
tempdf.reset_index(inplace=True)
tempdf.rename(columns={'index':'timeStamp'},inplace=True)

In [None]:
#solo conservar las horas
l=tempdf['timeStamp'].dt.time.values
#calcular la moda, es decir, a que hora es más probable el estado
stats.mode(l)

# Markov chain

In [None]:
circle1 = plt.Circle((0, 0), 0.2, color='r')
circle2 = plt.Circle((0.5, 0.5), 0.2, color='blue')
circle3 = plt.Circle((1, 1), 0.2, color='g', clip_on=False)

fig, ax = plt.subplots() # note we must use plt.subplots, not plt.subplot
# (or if you have an existing figure)
# fig = plt.gcf()
# ax = fig.gca()

ax.add_patch(circle1)
ax.add_patch(circle2)
ax.add_patch(circle3)
ax.re


##  Con cairo es mas dificil por que se usan coordenadas relativas, hay que estar calculando coordenadas a cada rato

In [None]:
from io import BytesIO

import cairo
import IPython.display

svgio = BytesIO()
with cairo.SVGSurface(svgio, 200, 200) as surface:
    # These lines are copied verbatim from the
    # pycairo page: https://pycairo.readthedocs.io
    context = cairo.Context(surface)
    x, y, x1, y1 = 0.1, 0.5, 0.4, 0.9
    x2, y2, x3, y3 = 0.6, 0.1, 0.9, 0.5
    context.scale(200, 200)
    context.set_line_width(0.04)
    context.move_to(x, y)
    context.curve_to(x1, y1, x2, y2, x3, y3)
    context.stroke()
    context.set_source_rgba(1, 0.2, 0.2, 0.6)
    context.set_line_width(0.02)
    context.move_to(x, y)
    context.line_to(x1, y1)
    context.move_to(x2, y2)
    context.line_to(x3, y3)
    context.stroke()
    # end of pycairo copy
IPython.display.SVG(data=svgio.getvalue())

In [None]:
from io import BytesIO
import math
import cairo
import IPython.display

num_circulos=25 #numero de circulos a dibujar
rad_circulos=20 #radio de los circulos a dibujar
sep_circulos = 3  *rad_circulos#separacion entre circulos, es n veces el radio
x_ini = rad_circulos*2 #donde inicia (el borde?) del circulo
y_ini = rad_circulos*2
font_size= rad_circulos

svgio = BytesIO()
with cairo.SVGSurface(svgio, 1000, 1000) as surface:
    # These lines are copied verbatim from the
    # pycairo page: https://pycairo.readthedocs.io
    context = cairo.Context(surface)
    context.arc(x_ini,y_ini , rad_circulos, 0, 2*math.pi)
    for i in range(num_circulos-1):
        context.arc(x_ini+(sep_circulos*i),y_ini , rad_circulos, 0, 2*math.pi)
        # Drawing code
        context.set_font_size(font_size)
        context.select_font_face("Arial",
                     cairo.FONT_SLANT_NORMAL,
                     cairo.FONT_WEIGHT_NORMAL)
        context.move_to(x_ini+(sep_circulos*i)-font_size/2,y_ini+font_size/4)
        context.show_text(str(i))
        # End of drawing code
        context.stroke()




    # end of pycairo copy
IPython.display.SVG(data=svgio.getvalue())