# Distribuciones mixtas
***

_Autor:_    __Jesús Casado__ <br> _Revisión:_ __01/04/2020__ <br>

__Introducción__<br>


__Cosas que arreglar__ <br>
Reemplazar `Fitter` por nuestra función de ajuste.

__Referencias__<br>
Sobre distribuciones mixtas en hidrología:<br>
[Szulczewski W. & Jakubowski W., 2018. The application of mixture distribution for the estimation of extreme floods in controlled catchment basins. _Water Resources Management (32)_, 3519-3534.](https://doi.org/10.1007/s11269-018-2005-6)<br>
[Kjeldsen T.R., Ahn H., Prosdocimi I. & Heo J.H., 2018. Mixture Gumbel models for extreme series including infrequent phenomena. _Hydrological Sciences Journal (63)_ 13-14, 1927-1940.](https://doi.org/10.1080/02626667.2018.1546956)<br>

Sobre ajuste de distribuciones para caudal:<br>
[Langat P.K., Kumar L. & Koech R., 2019. Identification of the most suitable probability distribution models for maximum, minimum and mean streamflow. _Water 11_, 734.](https://doi.org/10.3390/w11040734)<br>


__Índice__ <br>

__[Continua+continua](#Continua+continua)__ <br>

__[Discreta+continua](#Discreta+continua)__<br>

In [1]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
%matplotlib inline
import seaborn as sns; sns.set()

import pomegranate as pg

In [2]:
from scipy import stats

In [3]:
from fitter import Fitter

In [5]:
%run POT-funciones.ipynb
%run UD-ajuste_distribuciones.ipynb

## Continua+continua

In [6]:
class mixedDistributionCC:
    """Distribución mixta compuesta de dos distribuciones continuas asociadas a dos conjuntos
    de la misma variable.
    """
    
    def __init__(self, data1, data2):
        """Parámetros:
        --------------
        data1:    array(n,). Valores de la variable de estudio en el conjunto 1
        data2:    array(m,). Valores de la variable de estudio en el conjunto 2
        """
        
        self.data1 = data1
        self.data2 = data2
        
    def fit(self, data, distrs, crit):
        """Ajusta la función de distribución más apropiada a los datos en base al criterio definido
        
        Parámetros:
        -----------
        distrs:     list of strings. Lista con el nombre de SciPy de las distribuciones a ajustar
        crit:       string. Criterio en función del que seleccionar la mejor distribución: 'sumsquare_error'; 'aic' criterio de Akaike; 'bic', criteiro bayesiano
        
        Salidas:
        --------
        model:      callable. Función de distribución ajustada (con los parámetros definidos)
        fitResults: data frame. Tabla con los resultados de la bondad del ajuste para cada distribución"""
        
        # ajustar la distribución continua
        F = Fitter(data, distributions=distrs, verbose=False)
        F.fit()
        results = F.summary().sort_values(crit)
        self.fitResults = results

        # extraer la distribución con menor AIC (criterio de información de Akaike)
        distStr = results.index[0]
        distr = getattr(stats, distStr)
        pars = F.fitted_param[distStr]
        model = distr(*pars)
        
        return model
    
    def numericalSolution(self, model1, model2, eps=1e-4, n=1000):
        """Cálculo numérico de la 'cdf' para un vector linealmente espaciado de valores de la variable de estudio 'x'
        
        Parámetros:
        -----------
        model1:    callable. Distribución ajustada (con parámetros) para el conjunto de eventos 1
        model2:    callable. Distribución ajustada (con parámetros) para el conjunto de eventos 2
        eps:       float. Aproximación a la probabilidad acumulada de 0 y 1 para calcular el valor mínimo y máximo que puede tomar 'x'
        n:         int. Número de discretizaciones para la resolución numérica
        
        Salidas:
        --------
        Como métodos:
        xs:        array(n,). Valores de la variable 'x' para los que se calcula la cdf
        qs:        array(n,). Probabilidad de no excedencia de cada uno de los valores en 'xs'
        """
        
        # vector de valores de la variable
        xmin = np.floor(min(model1.ppf(eps), model2.ppf(eps)))
        xmax = np.ceil(max(model1.ppf(1 - eps), model2.ppf(1 - eps)))
        xs = np.linspace(xmin, xmax, n)
        
        # cdf y pdf de cada uno de los conjuntos
        cdf1, pdf1 = model1.cdf(xs), model1.pdf(xs)
        cdf2, pdf2 = model2.cdf(xs), model2.pdf(xs)

        # pdf mixta
        a, b = pdf1 / (pdf1 + pdf2), pdf2 / (pdf1 + pdf2)
        pdfMix = a * pdf1 + b * pdf2
        cdfAux = a * cdf1 + b * cdf2

        # cdf mixta
        cdfMix = np.cumsum(pdfMix)
        cdfMix *= cdfAux.max() / cdfMix.max()
        
        self.xs = xs
        self.qs = cdfMix
        
    
    def cdf(self, x, model1, model2, eps=1e-4, n=1000):
        """Resolución numérica de la función de distribución acumulada de una distribución mixta compuesta de dos conjuntos.
                
        Parámetros:
        -----------
        x:         array (m). Valores de la variable
        model1:    callable. Distribución ajustada (con parámetros) para el conjunto de eventos 1
        model2:    callable. Distribución ajustada (con parámetros) para el conjunto de eventos 2
        eps:       float. Aproximación a la probabilidad acumulada de 0 y 1 para calcular el valor mínimo y máximo que puede tomar 'x'
        n:         int. Número de discretizaciones para la resolución numérica
        
        Salida:
        -------
        cdf:       array (m). Probabilidad de no excedencia asociada a los valores de 'x'"""
    
        # asegurar que 'x' es un array
        if isinstance(x, int) | isinstance(x, float):
            x = np.array([x]).astype(float)
        elif isinstance(x, list):
            x = np.array(x).astype(float)
        
        # resolución numérica
        self.numericalSolution(model1, model2, eps, n)

        # calcular la probabilidad de no excedencia de los valores de 'x'
        cdf = np.zeros_like(x)
        for i, X in enumerate(x):
            cdf[i] = self.qs[np.argmin(abs(self.xs - X))]

        return cdf
    
    def ppf(self, q, model1, model2, eps=1e-4, n=1000):
        """Resolución numérica de la inversa de la función de distribución acumulada de una distribución mixta compuesta de dos conjuntos.

        Parámetros:
        -----------
        q:         array (m). Valores de la probabilidad de excendencia
        model1:    callable. Distribución ajustada (con parámetros) para el conjunto de eventos 1
        model2:    callable. Distribución ajustada (con parámetros) para el conjunto de eventos 2
        eps:       float. Aproximación a la probabilidad acumulada de 0 y 1 para calcular el valor mínimo y máximo que puede tomar 'x'
        n:         int. Número de discretizaciones para la resolución numérica

        Salida:
        -------
        ppf:       array (m). Cuantil asociado a los valores de 'q'"""

        # asegurar que 'x' es un array
        if isinstance(q, int) | isinstance(q, float):
            q = np.array([q]).astype(float)
        elif isinstance(q, list):
            q = np.array(q).astype(float)
        
        # resolución numérica
        self.numericalSolution(model1, model2, eps, n)
        
        # calcular la probabilidad de no excedencia de los valores de 'x'
        ppf = np.zeros_like(q)
        for i, Q in enumerate(q):
            ppf[i] = self.xs[np.argmin(abs(self.qs - Q))]

        return ppf
    
    def pdf(self, x, model1, model2):
        """Resolución numérica de la función de densidad de una distribución mixta compuesta de dos conjuntos.
                
        Parámetros:
        -----------
        x:         array (m). Valores de la variable
        model1:    callable. Distribución ajustada (con parámetros) para el conjunto de eventos 1
        model2:    callable. Distribución ajustada (con parámetros) para el conjunto de eventos 2
        
        Salida:
        -------
        pdf:       array (m). Densidad de probabilidad asociada a los valores de 'x'"""
    
        # asegurar que 'x' es un array
        if isinstance(x, int) | isinstance(x, float):
            x = np.array([x]).astype(float)
        elif isinstance(x, list):
            x = np.array(x).astype(float)
        
        # cdf y pdf de cada uno de los conjuntos
        pdf1 = model1.pdf(x)
        pdf2 = model2.pdf(x)

        # pdf mixta
        a, b = pdf1 / (pdf1 + pdf2), pdf2 / (pdf1 + pdf2)
        pdf = a * pdf1 + b * pdf2

        return pdf

## Discreta+continua

In [9]:
class mixedDistributionDC:
    """Distribución mixta para variables siempre positivas (x >= 0) en la que se descompone en
    dos distribuciones, una discreta que modela la probabilidad de que la variable sea 0, y una
    continua que modela la magnitud de la variable en caso de ser mayor que 0.
    """
    
    def __init__(self, data):
        """
        Parámetro:
        ----------
        data:    array(n,). Valores de la variable de estudio
        model:   callable. Función de distribución continua (con parámetros) ajustada a los datos
        
        Salida:
        -------
        Po:    float. Probabilidad de que la variable positiva tome el valor 0
        """
        
        self.data = data
        # probabilidad de 0
        self.Po = np.sum(data == 0) / len(data)
        
    def fit(self, distrs, crit='aic', plot=False):
        """Ajusta la función de distribución más apropiada a los datos en base al criterio definido
        
        Parámetros:
        -----------
        distrs:    list of strings. Lista con el nombre de SciPy de las distribuciones a ajustar
        crit:      string. Criterio en función del que seleccionar la mejor distribución: 'sse' suma del error cuadrático; 'aic' criterio de Akaike
        
        Salidas:
        --------
        distr:      callable. Función de distribución de SciPy que mejor se ajusta a los datos
        fitResults: data frame. Tabla con los resultados de la bondad del ajuste para cada distribución
        pars:       list of floats. Parámetros ajustados para 'distr'
        """
        
        # ajustar la distribución
        fitter(self.data, distributions=distrs, crit=crit, pos=True, plot=plot)
        self.fitResults = fitter.fit
        
        # extraer la mejor distribución
        distStr = fitter.best_distr
        distr = getattr(stats, distStr)
        pars = fitter.best_params
        self.model = distr(*pars)
        
        # datos con valor positivo
        #data_ = self.data[self.data > 0]

        # buscar distribución con mejor rendimiento
        #F = Fitter(data_, distributions=distrs, verbose=False)
        #F.fit()
        #F.summary()
        #results = F.summary().sort_values(crit)
        #self.fitResults = results

        # extraer la distribución con menor AIC (criterio de información de Akaike)
        #distStr = results.index[0]
        #distr = getattr(stats, distStr)
        #pars = F.fitted_param[distStr]
        #self.model = distr(*pars)
        
    def cdf(self, x, model=None):
        """Función de distribución acumulada
                CDFtotal = Po + (1 - Po) * CDFpositivos
                
        Parámetros:
        -----------
        x:         array (m). Valores de la variable
        model:     callable. Distribución ajustada (con parámetros)
        
        Salida:
        -------
        cdf:       array (m). Probabilidad de no excedencia asociada a los valores de 'x'
        """
        
        # asegurar que 'x' es un array
        if isinstance(x, int) | isinstance(x, float):
            x = np.array([x]).astype(float)
        elif isinstance(x, list):
            x = np.array(x).astype(float)
            
        # definir la función de distribución
        if model is None:
            model = self.model

        # 'array' donde guardar la probabilidad acumulada
        cdf = self.Po + (1 - self.Po) * model.cdf(x)
        
        return cdf
    
    def pdf(self, x, model=None):
        """
        model:     callable. Distribución ajustada (con parámetros)
        """
        
        # asegurar que 'x' es un array
        if isinstance(x, int) | isinstance(x, float):
            x = np.array([x]).astype(float)
        elif isinstance(x, list):
            x = np.array(x).astype(float)
        
        # definir la función de distribución
        if model is None:
            model = self.model
            
        # calcular la probabilidad de los valores de 'x'
        pdf = model.pdf(x)
        pdf[x == 0.] = self.Po

        return pdf
    
    def ppf(self, q, model=None):
        """
        
        model:     callable. Distribución ajustada (con parámetros)
        """
        
        # asegurar que 'q' es un array
        if isinstance(q, int) | isinstance(q, float):
            q = np.array([q]).astype(float)
        elif isinstance(x, list):
            q = np.array(q).astype(float)
            
        # comprobar que todos los valores de 'q' son correctos
        if (any(q < 0)) | (any(q > 1)):
            print('ERROR. Valores de "q" erróneos.')
        
        # definir la función de distribución
        if model is None:
            model = self.model
            
        # calcular el cuantil de los valores de 'q'
        ppf = np.zeros_like(q)
        ppf[q > self.Po] = model.ppf((q[q > self.Po] - self.Po) / (1 - self.Po))
        
        return ppf