In [None]:
## Análise do Processo - Capacidade

## CÉLULA 1: Instruções de carregamento do arquivo e bibliotecas a ser importadas

""""
    Para executar uma CÉLULA, pressione o botão "Run" no topo, com a CÉLULA selecionada, ou pressione:
    
    Shift + Enter

-Se seus dados estiverem em um arquivo xlsx utilize a CÉLULA 2

-Se seus dados estiverem em um arquivo csv contendo cabeçalhos, utilize a CÉLULA 3

-Se seus dados estiverem em um arquivo csv sem cabeçalhos, utilize a CÉLULA 4

-Utilize apenas a CÉLULA correta
-Substitua o texto entre aspas na variável "caminho" pelo endereço do arquivo em sua máquina.

EXECUTE ESTA CÉLULA ANTES DE PROSSEGUIR

EXECUTE APENAS UMA CÉLULA POR VEZ

-Caso deseje apagar a saída de uma célula carregada, mas não deseje carregar uma nova saída, vá à aba superior, escolha o ícone
do teclado (open the command palette/ jupyter-notebook command group) e selecione clear cell output.

@author: Marco César Prado Soares, MSc.
Especialista Lean Six Sigma Master Black Belt, Eng. Químico, MSc. Eng. Mecatrônica (instrumentação) 
Marco.Soares@br.ey.com; marcosoares.feq@gmail.com
"""
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt

In [None]:
## CÉLULA 2: dados em arquivo xlsx

caminho = "D:\Drive\FM2S\EAD\Green Belt em Python\Machine Learning - módulo 2 - ANN regression\ANN.1 - Apartment price analysis\prices_apartments.xlsx"
dataset = pd.read_excel(caminho)

dataset
#SIGA PARA A CÉLULA 5

In [None]:
## CÉLULA 3: dados em arquivo csv com cabeçalho

caminho = "D:\Drive\FM2S\EAD\Green Belt em Python\Machine Learning - módulo 3 - ANN classification\ANN.Class - 2 - advertising campaign\delivery_app_data.csv"
dataset = pd.read_csv(caminho)

dataset
#SIGA PARA A CÉLULA 5

In [None]:
## CÉLULA 4: dados em arquivo csv sem cabeçalho

caminho = "D:\Drive\FM2S\EAD\Green Belt em Python\Machine Learning - módulo 2 - ANN regression\ANN.4 - Boston housing price\housing_boston_data.txt"
dataset = pd.read_csv(caminho, delim_whitespace=True, header=None)

#here, the dataset is in a textfile. In these cases, use delim_withespace = True
#or df = pd.read_fwf('output_list.txt')
#since data has no Head, keep header = None
#if there is Head, eliminate ‘header’ from the arguments of the function

dataset
#SIGA PARA A CÉLULA 5

In [None]:
## CÉLULA 5: Eliminar linhas com entradas nulas

"""
-Utilize este CÉLULA apenas se desejar limpar as entradas nulas da sua base de dados

-Esta CÉLULA eliminará todas as linhas contendo entradas nulas. Caso NÃO DESEJE ISTO, vá direto à CÉLULA 6, sem executar esta
célula.
"""

dataset = dataset.dropna(axis=0)
dataset
#SIGA PARA A CÉLULA 6

# CÉLULA 6: Instruções Gerais

### ATENÇÃO: NÃO EXECUTE ESTA CÉLULA - Ela contém apenas texto explicativo

Este notebook destina-se à análise de capacidade de um processo, e a avaliação dos indicadores de capacidade.
- Um processo capaz é aquele cuja variação natural (voz do processo - VOC) resulta em atendimento às especificações (voz do cliente - VOP).
- Esta análise parte do pressuposto de que os dados seguem a distribuição normal.
- Caso não sigam, você pode dividir os dados em subgrupos e avaliar as médias dos subgrupos.
- De acordo com o Teorema Central do Limite, à medida que se divide em subgrupos, se toma as médias dos subgrupos, se divide essas médias em novos subgrupos, e assim sucessivamente, a distribuição estatística das médias tende à normal.
- Esta é uma abordagem mais generalizante, elegante e poderosa que utilizar a transformação Box-Cox.

## 1) Avaliação de capacidade e dos indicadores de capacidade

- Aqui será construído o histograma dos dados, juntamente com a curva normal ajustada e os limites de especificação.
- Também serão avaliados os indicadores de capacidade.
- Note que só há sentido em realizar esta análise caso haja limites de especificação (requisitos de qualidade) definidos.
- Veja nas instruções abaixo como lidar com situações nas quais apenas um limite de especificação está definido. Esta situação é bastante comum. Exemplos:

- O processo não possui uma temperatura mínima, mas não pode exceder uma temperatura máxima (existe apenas o limite superior de especificação);
- O capital de giro deve ser mantido em um valor mínimo, sob pena de insolvência da companhia, mas não existe um limite teórico máximo (existe apenas o limite inferior de especificação);
- A criança deve ter altura mínima para usar o brinquedo (apenas limite inferior de especificação);
- O elevador pode ser utilizado para transportar um determinado peso máximo ou número máximo de pessoas (existe apenas o limite superior de especificação).

Siga para as CÉLULAS 7 a 9.
-----------------------------------------

- Mais uma vez, existe limitação na construção do histograma para a situação em que os dados são todos muito próximos. Neste caso, pode ser mais interessante utilizar os seguintes comandos do pacote qcc do R (no exemplo, as especificações são 0 e 18). Neste caso, o pacote qcc já está otimizado para situações como esta.

        library(qcc)
        
        especificacao <- c(0,18)
        
        q <- qcc.groups(ytransform, sample= base$Mês)
            #adicionar aqui os dados (ytransform) e o eixo x correspondente (meses)
        
        q <- qcc(q, type="xbar", plot=TRUE, nsigmas=3, confidence.level = 0.95, breaks = "scott", 
                 add.stats = TRUE, print = TRUE, restore.par = TRUE) 
            #definir aqui o nivel de confianca (95%). O nsigmas representa a voz do processo: no caso, definiu-se 3 sigmas
        
        capability <- process.capability(q, spec.limits = limtransformado, nsigmas = 3)
            #manter o mesmo nsigmas na ultima linha

In [None]:
## CÉLULA 7: Função para avaliação da capacidade e dos indicadores de capacidade do processo

#Execute esta CÉLULA para carregar a função

def capability(y, lim_spec, largura_da_barra, legenda_dos_dados = None, titulo_y = None, titulo_histograma = None):
    
    import pandas as pd
    import matplotlib
    import numpy as np
    import matplotlib.pyplot as plt
    
    cc_const = {'Number of observations in sample n': [2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25],
             'A2': [1.8800, 1.0230, 0.7290, 0.5770, 0.4830, 0.4190, 0.3730, 0.3370, 0.3080, 0.2850, 0.2660, 0.2490, 0.2350, 0.2230, 0.2120, 0.2030, 0.1940, 0.1870, 0.1800, 0.1730, 0.1670, 0.1620, 0.1570, 0.1530],
             'A3': [2.6590, 1.9540, 1.6280, 1.4270, 1.2870, 1.1820, 1.0990, 1.0320, 0.9750, 0.9270, 0.8860, 0.8500, 0.8170, 0.7890, 0.7630, 0.7390, 0.7180, 0.6980, 0.6800, 0.6630, 0.6470, 0.6330, 0.6190, 0.6060],
             'B3': [0.0000, 0.0000, 0.0000, 0.0000, 0.0300, 0.1180, 0.1850, 0.2390, 0.2840, 0.3210, 0.3540, 0.3820, 0.4060, 0.4280, 0.4480, 0.4660, 0.4820, 0.4970, 0.5100, 0.5230, 0.5340, 0.5450, 0.5550, 0.5650],
             'B4': [3.2670, 2.5680, 2.2660, 2.0890, 1.9700, 1.8820, 1.8150, 1.7610, 1.7160, 1.6790, 1.6460, 1.6180, 1.5940, 1.5720, 1.5520, 1.5340, 1.5180, 1.5030, 1.4900, 1.4770, 1.4660, 1.4550, 1.4450, 1.4350],
             '1/c4': [1.2533, 1.1284, 1.0854, 1.0638, 1.0510, 1.0423, 1.0363, 1.0317, 1.0281, 1.0252, 1.0229, 1.0210, 1.0194, 1.0180, 1.0168, 1.0157, 1.0148, 1.0140, 1.0133, 1.0126, 1.0119, 1.0114, 1.0109, 1.0105],
             'D3': [0.0000, 0.0000, 0.0000, 0.0000, 0.0000, 0.0760, 0.1360, 0.1840, 0.2230, 0.2560, 0.2830, 0.3070, 0.3280, 0.3470, 0.3630, 0.3780, 0.3910, 0.4030, 0.4150, 0.4250, 0.4340, 0.4430, 0.4510, 0.4590],
             'D4': [3.2670, 2.5740, 2.2820, 2.1140, 2.0040, 1.9240, 1.8640, 1.8160, 1.7770, 1.7440, 1.7170, 1.6930, 1.6720, 1.6530, 1.6370, 1.6220, 1.6080, 1.5970, 1.5850, 1.5750, 1.5660, 1.5570, 1.5480, 1.5410],
             '1/d2': [0.8865, 0.5907, 0.4857, 0.4299, 0.3946, 0.3698, 0.3512, 0.3367, 0.3249, 0.3152, 0.3069, 0.2998, 0.2935, 0.2880, 0.2831, 0.2787, 0.2747, 0.2711, 0.2677, 0.2647, 0.2618, 0.2592, 0.2567, 0.2544]
             }
    #Constantes dos graficos de controle e capacidade
    
    control_chart_const = pd.DataFrame(data = cc_const)
    #dataframe com as constantes dos graficos de controle
    
    lsl = lim_spec[0]
    #limite inferior de especificacao

    usl = lim_spec[1]
    #limite superior de especificacao
    
    target = np.average(lim_spec)
    #centro do intervalo de especificacao
    range_spec = usl - lsl
    #range de especificacao
    range_spec = abs(range_spec)
    
    #Calculo do bin size - largura do histograma:
    #1: Encontrar o menor (lowest) e o maior (highest) valor dentro da tabela de dados)
    #2: Calcular rangehist = highest - lowest
    #3: Calcular quantidade de dados (samplesize) de entrada fornecidos
    #4: Calcular a quantidade de celulas da tabela de frequencias (ncells)
    #ncells = numero inteiro mais proximo da (raiz quadrada de samplesize)
    #5: Calcular binsize = rangehist/(ncells)
    #ATENCAO: Nao se esquecer de converter range, ncells, samplesize e binsize para valores absolutos (modulos)
    #isso porque a largura do histograma tem que ser um numero positivo

    y = y.reset_index(drop=True)
    #faz com que os indices desta serie sejam consecutivos e a partir de zero

    #Estatisticas gerais: media (mu) e desvio-padrao (sigma)
    mu = y.mean() 
    sigma = y.std() 

    #Calculo do bin-size
    highest = y.max()
    lowest = y.min()
    rangehist = highest - lowest
    rangehist = abs(rangehist)
    #garante que sera um numero positivo
    samplesize = y.count() #contagem do total de entradas
    ncells = (samplesize)**0.5 #potenciacao: ** - raiz quadrada de samplesize
    #resultado da raiz quadrada e sempre positivo
    ncells = round(ncells) #numero "redondo" mais proximo
    ncells = int(ncells) #parte inteira do numero arredondado
    #ncells = numero de linhas da tabela de frequencias
    binsize = rangehist/ncells
    binsize = round(binsize)
    binsize = int(binsize) #precisa ser inteiro
    
    #Construcao da tabela de frequencias

    j = 0 #indice da tabela de frequencias
    #Este indice e diferente do ordenamento dos valores em ordem crescente
    xhist = []
    #Lista vazia que contera os x do histograma
    yhist = []
    #Listas vazia que conteras o y do histograma
    hist_labels = []
    #Esta lista gravara os limites da barra na forma de strings

    pontomediodabarra = lowest + binsize/2 
    limitedabarra = lowest + binsize
    #ponto medio da barra 
    #limite da primeira barra do histograma
    seriedohist1 = y
    seriedohist1 = seriedohist1.sort_values(ascending=True)
    #serie com os valores em ordem crescente
    seriedohist1 = seriedohist1.reset_index(drop=True)
    #garante que a nova serie tenha indices consecutivos, iniciando em zero
    i = 0 #linha inicial da serie do histograma em ordem crescente
    valcomparado = seriedohist1[i]
    #primeiro valor da serie, o mais baixo

    while (j <= (ncells-1)):
        
        #para quando termina o numero de linhas da tabela
        xhist.append(pontomediodabarra)
        #tempo da tabela de frequencias
        cont = 0
        #variavel de contagem do histograma
        #contagem deve ser reiniciada
       
        if (i < samplesize):
            #2 condicionais para impedir que um termo de indice inexistente
            #seja acessado
            while (valcomparado <= limitedabarra) and (valcomparado < highest):
                #o segundo criterio garante a parada em casos em que os dados sao
                #muito proximos
                    cont = cont + 1 #adiciona contagem a tabela de frequencias
                    i = i + 1
                    
                    if (i < samplesize): 
                        valcomparado = seriedohist1[i]
        
        yhist.append(cont) #valor de ocorrencias contadas
        
        limite_infdabarra = pontomediodabarra - binsize/2
        rotulo = "%.2f - %.2f" %(limite_infdabarra, limitedabarra)
        #intervalo da tabela de frequencias
        hist_labels.append(rotulo)
        
        pontomediodabarra = pontomediodabarra + binsize
        #tanto os pontos medios quanto os limites se deslocam do mesmo intervalo
        
        limitedabarra = limitedabarra + binsize
        #proxima barra
        
        j = j + 1
    
    #Temos que verificar se o valor maximo foi incluido
    #isso porque o processo de aproximacao por numero inteiro pode ter
    #arredondado para baixo e excluido o limite superior
    #Porem, note que na ultima iteracao o limite superior da barra foi 
    #somado de binsize, mas como j ja e maior que ncells-1, o loop parou
    
    #assim, o limitedabarra nesse momento e o limite da barra que seria
    #construida em seguida, nao da ultima barra da tabela de frequencias
    #isso pode fazer com que esta barra ja seja maior que o highest
    
    #note porem que nao aumentamos o valor do limite inferior da barra
    #por isso, basta vermos se ele mais o binsize sao menores que o valor mais alto
    
    
    while ((limite_infdabarra+binsize) < highest):
        
        #vamos criar novas linhas ate que o ponto mais alto do histograma
        #tenha sido contado
        ncells = ncells + 1 #adiciona uma linha a tabela de frequencias
        xhist.append(pontomediodabarra)
        
        cont = 0 #variavel de contagem do histograma
        
        while (valcomparado <= limitedabarra):
                cont = cont + 1 #adiciona contagem a tabela de frequencias
                i = i + 1
                if (i < samplesize):
                    valcomparado = seriedohist1[i]
                    #apenas se i ainda nao e maior que o total de dados
                
                else: 
                    
                    break
        
        #parar o loop se i atingiu um tamanho maior que a quantidade 
        #de dados.Temos que ter este cuidado porque estamos acrescentando
        #mais linhas a tabela de frequencias para corrigir a aproximacao
        #de ncells por um numero inteiro
        
        yhist.append(cont) #valor de ocorrencias contadas
        
        limite_infdabarra = pontomediodabarra - binsize/2
        rotulo = "%.2f - %.2f" %(limite_infdabarra, limitedabarra)
        #%.2f apenas 2 casas decimais
        #intervalo da tabela de frequencias
        hist_labels.append(rotulo)
        
        pontomediodabarra = pontomediodabarra + binsize
        #tanto os pontos medios quanto os limites se deslocam do mesmo intervalo
        
        limitedabarra = limitedabarra + binsize
        #proxima barra
        
    estatisticas_col1 = []
    #contera as descricoes das colunas da tabela de estatisticas gerais
    estatisticas_col2 = []
    #contera os valores da tabela de estatisticas gerais
    
    estatisticas_col1.append("Total de dados avaliados")
    estatisticas_col2.append(samplesize)
    estatisticas_col1.append("Média (mu)")
    estatisticas_col2.append(mu)
    estatisticas_col1.append("Desvio-padrão (sigma)")
    estatisticas_col2.append(sigma)
    estatisticas_col1.append("Valor mais elevado")
    estatisticas_col2.append(highest)
    estatisticas_col1.append("Valor mais baixo")
    estatisticas_col2.append(lowest)
    estatisticas_col1.append("Range dos dados\n(valor máximo - valor mínimo)")
    estatisticas_col2.append(rangehist)
    estatisticas_col1.append("Range de especificação\n(limite superior - limite inferior)")
    estatisticas_col2.append(range_spec)
    estatisticas_col1.append("Bin size\n(largura da barra do histograma)")
    estatisticas_col2.append(binsize)
    estatisticas_col1.append("Quantidade de linhas\nna tabela de frequências")
    estatisticas_col2.append(ncells)
    #como o comando append grava linha a linha em sequencia, garantimos
    #a correspondencia das colunas
    #Assim como em qualquer string, incluindo de rotulos de graficos
    #os \n sao lidos como quebra de linha
    
    #avaliacao dos indicadores
    #constante 1/c4
    if (samplesize < 25):
        
        constant = control_chart_const.loc[(samplesize-2), ['1/c4']]
        #2 elementos correspondem ao indice zero, 3 elementos ao indice 1, etc
        #24 elementos correspondem ao indice 22
        #necessario sempre subtrair 2
    
    else:
        constant = control_chart_const.loc[23, ['1/c4']]
        #ultima linha do dataframe
    
    #le como lista, e cria uma lista de um unico elemento 'constant'
    #ocorre quando o .loc le elementos do pandas: daframes criados a partir 
    #de dicionarios, dataframes criados pelo agrupamento de outros dados, etc
    
    sigma_corrected = sigma*(constant[0])
    
    estatisticas_col1.append("Indicadores de capacidade:")
    estatisticas_col2.append(None)
    #garantir que nao haja problema de compatibilidade de tipo de variavel
    #ao mesmo tempo em que deixa a celula vazia
    
    cp = (range_spec)/(6*sigma_corrected)
    cr = 100*(6*sigma_corrected)/(range_spec)
    cm = (range_spec)/(8*sigma_corrected)
    zu = (usl-mu)/(sigma_corrected)
    zl = (mu-lsl)/(sigma_corrected)
    z_min = np.minimum(zu, zl)
    #seleciona o valor minimo entre os dois
    cpk = (z_min)/3
    
    fator = 1 + ((mu-target)**2)/((sigma_corrected)**2)
    fator = np.sqrt(fator) #raiz quadrada
    cpm = (cp)/(fator)
    
    estatisticas_col1.append("Cp")
    estatisticas_col2.append(cp)
    estatisticas_col1.append("Cr")
    estatisticas_col2.append(cr)
    estatisticas_col1.append("Cm")
    estatisticas_col2.append(cm)
    estatisticas_col1.append("Zu")
    estatisticas_col2.append(zu)
    estatisticas_col1.append("Zl")
    estatisticas_col2.append(zl)
    estatisticas_col1.append("Zmin")
    estatisticas_col2.append(z_min)
    estatisticas_col1.append("Cpk")
    estatisticas_col2.append(cpk)
    estatisticas_col1.append("Cpm")
    estatisticas_col2.append(cpm)
    
    d1 = {"Estatísticas gerais dos dados e Indicadores": estatisticas_col1, "Valor calculado": estatisticas_col2}
    #dicionario das duas series, para criar o dataframe com as descricoes
    estatisticas_gerais = pd.DataFrame(data = d1)
    
    #Casos os títulos estejam presentes (valor nao e None):
    #vamos utiliza-los
    #Caso contrario, vamos criar nomenclaturas genericas para o histograma
    
    eixo_y = "Counting/Frequency"
    
    if not (legenda_dos_dados is None):
        xlabel = legenda_dos_dados
    
    else:
        xlabel = "Frequency\n table data"
    
    if not (titulo_y is None):
        eixo_x = titulo_y
        #lembre-se que no histograma, os dados originais vao pro eixo X
        #O eixo Y vira o eixo da contagem/frequencia daqueles dados
    
    else:
        eixo_x = "X: Mean value of the interval"
    
    if not (titulo_histograma is None):
        string1 = "- Target = %.2f, $\mu = %.2f$, $\sigma = %.2f$" %(target, mu, sigma)
        main_label = titulo_histograma + string1
        #concatena a string do titulo a string com a media e desvio-padrao
        #%.2f: o numero entre %. e f indica a quantidade de casas decimais da 
        #variavel float f. No caso, arredondamos para 2 casas
        #NAO SE ESQUECA DO PONTO: ele que indicara que sera arredondado o 
        #numero de casas
    
    else:
        main_label = "Data Histogram - Target = %.2f, $\mu = %.2f$, $\sigma = %.2f$" %(target, mu, sigma)
        #os simbolos $\ $ substituem o simbolo pela letra grega
    
    d2 = {"Intervalos considerados": hist_labels, eixo_x: xhist, eixo_y: yhist}
    #dicionario que compoe a tabela de frequencias
    tab_frequencias = pd.DataFrame(data = d2)
    #cria a tabela de frequencias como um dataframe de saida
    
    """
    Normal curve equation
    
    y = p(X) = (1/((sigma)*sqrt(2*pi)))*exp((-1)*(X-mu)²/2(sigma²))
    0 <= p(X) <= 1
    mu = mean value of X
    sigma = standard deviation of X
    sqrt = square root function
    pi = 3.14159...
    e = 2.71828...
    exp = e** = e^ = exponential function
    
    numpy functions available:
        np.sqrt(X): square root of X
        np.pi = value of pi
        np.exp(X) = exponential function of X = e**X = e^X = exp(X)
    
    """
    #parametros da normal ja calculados:
    #mu e sigma
    #numero de bins: ncells
    #limites de especificacao: lsl,usl - target
    
    #valor maximo do histograma
    max_hist = max(yhist)
    #seleciona o valor maximo da serie, para ajustar a curva normal
    #isso porque a normal é criada com valores entre 0 e 1
    #multiplicando ela por max_hist, fazemos ela se adequar a altura do histograma
    
    #construir a normal ajustada/esperada
    #vamos criar pontos ao redor da media mu - 4sigma ate mu + 4sigma, 
    #de modo a garantir a quase totalidade da curva normal. 
    #O incremento será de 0.10 sigma a cada iteracao
    x_inf = mu -(4)*sigma
    x_sup = mu + 4*sigma
    x_inc = (0.10)*sigma
    
    x_normal_adj = []
    y_normal_adj = []
    
    x_adj = x_inf
    y_adj = ((1 / (np.sqrt(2 * np.pi) * sigma)) *np.exp(-0.5 * (1 / sigma * (x_adj - mu))**2))
    x_normal_adj.append(x_adj)
    y_normal_adj.append(y_adj)
    
    while(x_adj < x_sup): 
        
        x_adj = x_adj + x_inc
        y_adj = ((1 / (np.sqrt(2 * np.pi) * sigma)) *np.exp(-0.5 * (1 / sigma * (x_adj - mu))**2))
        x_normal_adj.append(x_adj)
        y_normal_adj.append(y_adj)
    
    #vamos ajustar a altura da curva ao histograma. Para isso, precisamos
    #calcular quantas vezes o ponto mais alto do histograma é maior que o ponto
    #mais alto da normal (chamaremos essa relação de fator). A seguir,
    #multiplicamos cada elemento da normal por este mesmo fator
    max_normal = max(y_normal_adj) 
    #maximo da normal ajustada, numero entre 0 e 1
    
    fator = (max_hist)/(max_normal)
    size_normal = len(y_normal_adj) #quantidade de dados criados
    
    i = 0
    while (i < size_normal):
        y_normal_adj[i] = (y_normal_adj[i])*(fator)
        i = i + 1
    
    #Fazer o grafico
    fig, ax = plt.subplots()
    
    ax.bar(xhist, yhist, width = largura_da_barra, label=xlabel, color='blue')
    #ajuste manualmente a largura, width, para deixar as barras mais ou menos proximas
    #adicionar a normal
    ax.plot(x_normal_adj, y_normal_adj, color = 'black', label = 'Adjusted/expected\n normal curve')
    ax.set_xlabel(eixo_x)
    ax.set_ylabel(eixo_y)
    ax.set_title(main_label)
    ax.set_xticks(xhist)
    
    #adicionar limites de especificacao como retas verticais tracejadas:
    #comando ax.vline() - vertical line. linhas horizontais: ax.hline() - horizontal line
    #adicionar curva em degraus: ax.step()
    #limite superior de especificacao:
    ax.axvline(usl, color = 'red', linestyle = 'dashed', label = 'Specification limits\n and target')
    #limite inferior de especificacao:
    ax.axvline(lsl, color = 'red', linestyle = 'dashed')
    #target central
    ax.axvline(target, color = 'red', linestyle = 'dashed')
    
    ax.legend()
    ax.grid(True) #mude para False, caso não deseje ver as linhas de grade
    
    fig.tight_layout()
    plt.show()

    return estatisticas_gerais, tab_frequencias

# CÉLULA 8: Função para avaliação de capacidade do processo

### ATENÇÃO: NÃO EXECUTE ESTA CÉLULA - Ela contém apenas texto explicativo

##### INTERPRETAÇÃO BÁSICA DO Cpk (indicador de capacidade)

- O Cpk avalia simultaneamente a centralidade do processo, i.e., se os resultados estão bem e simetricamente distribuídos ao longo da média do intervalo de especificação; e se o processo atende aos requisitos de qualidade.

###### Em geral, toma-se como mínimo aceitável Cpk = 1, e define-se como objetivo de qualidade alcançar Cpk = 1.33 (valor desejável).

###### Um processo 6-sigma apresenta Cpk = +2

- Baixos Cpks (e principalmente Cpks negativos) indicam processos mal centrados e com muitos resultados distantes das especificações. 

- Quanto mais negativo o indicador, mais distantes os resultados estão das especificações.

INSTRUÇÕES:

1) Esta função retorna 2 dataframes:
    
        1) dataframe estatisticas_gerais, um resumo das estatísticas gerais dos dados: total de dados avaliados; média; desvio-
        padrão; valor mais elevado; valor mais baixo; range dos dados; range das especificações; e bin size, a largura da barra 
        do histograma. 

        Este dataframe também mostra os indicadores de capacidade
    
    
        2) dataframe tab_frequencias, que mostra a tabela de frequencias usada para a construção do histograma
    

2) Os parâmetros x e y da função devem ser APENAS LISTAS, não dataframe(s)

3) FORNEÇA OS LIMITES DE ESPECIFICAÇÃO COMO UMA LISTA DE 2 VALORES:
    
        lim_spec = [lim_inf, lim_sup]
    
        Exemplo: se os limites são entre 10 a 20 kg:
            lim_spec = [10, 20]
    
        se os limites são pH entre 2.71 e 3.05:
            lim_spec = [2.71, 3.05]
    
- Não se esqueça que o separador decimal é o ponto. 

- O primeiro valor será lido como limite inferior, o segundo como limite superior.

3) Esta função retorna 2 dataframes. Deste modo, você precisa chamar 2
   daframes, não apenas um.

Exemplo: caso deseje salvar o dataframe estatisticas_gerais em df1, e o dataframe tab_frequencias em df2, e os dados estão na variável y:
    
       df1, df2 = histograma(x, y, legenda_dos_dados = None, titulo_y = None, titulo_histograma = None, largura_da_barra = 15)
    
Note que o primeiro dataframe será sempre o correspondente à saída estatisticas_gerais, enquanto que o segundo será a tab_frequencias.
   
Você pode dar outros nomes para os dataframes chamados:
   
       estatisticas_gerais, tab_frequencias = histograma(x, y, legenda_dos_dados = None, titulo_y = None, titulo_histograma = None, largura_da_barra = 15)

4) Altere manualmente o valor de largura_da_barra ate conseguir visualizar o histograma de forma clara.

5) Os demais parâmetros são textos (strings). Declare-os entre aspas ou mantenha o valor None.


### Caso esteja lidando com uma SITUAÇÃO NA QUAL NÃO EXISTE UMA DAS ESPECIFICAÇÕES: 

1) No código da função, apague da linha 'target' até 'abs(range_spec)', ou seja, todo o trecho a seguir:

        target = np.average(lim_spec)
        #centro do intervalo de especificacao
        range_spec = usl - lsl
        #range de especificacao
        range_spec = abs(range_spec)

2) Localize as seguintes linhas do código da função. O limite inferior de especificação é indicado pela variável lsl ("lower specification limit"), enquanto que o limite superior de especificação é indicado pela variável usl ("upper specification limit").

        lsl = lim_spec[0]
        #limite inferior de especificacao

        usl = lim_spec[1]
        #limite superior de especificacao

        target = np.average(lim_spec)
        #centro do intervalo de especificacao
        range_spec = usl - lsl
        #range de especificacao
        range_spec = abs(range_spec)
 
3) Apague o limite de especificação que não é usado, e defina manualmente como ler o limite correto. 
Exemplo: se houver um limite inferior de especificação igual a -10.5, substitua todo o código acima por:
        
        lsl = lim_spec

Nos argumentos da função, você então declarará lim_spec como o valor do limite de especificação. Note que, por ser um valor único, não é necessário utilizar colchetes:
        
        estatisticas_gerais, tab_frequencias = capability(y, lim_spec = -10.5, largura_da_barra, legenda_dos_dados = None, titulo_y = None, titulo_histograma = None)

Se, por outro lado, existe apenas o limite superior de especificação (por exemplo, 2.4), o código anterior deve ser substituído por:

        usl = lim_spec

E, nos argumentos da função, você teria:
        
        estatisticas_gerais, tab_frequencias = capability(y, lim_spec = 2.4, largura_da_barra, legenda_dos_dados = None, titulo_y = None, titulo_histograma = None)

4) Após fazer esta modificação, vá ao trecho do código que se refere à criação de tabelas/cálculo de indicadores e apague tudo que se refere a range_spec, target e ao indicador relacionado ao limite de especificação que não está presente. 

- Também apague zmin, cpk e cpm.

###### Isto porque ESTES INDICADORES NÃO SÃO INTERPRETÁVEIS CASO NÃO EXISTA UM dos limites de especificação.

- Isto significa que você deverá apagar as seguintes linhas:

        cp = (range_spec)/(6*sigma_corrected)
        cr = 100*(6*sigma_corrected)/(range_spec)
        cm = (range_spec)/(8*sigma_corrected)

        z_min = np.minimum(zu, zl)
        #seleciona o valor minimo entre os dois
        cpk = (z_min)/3

        fator = 1 + ((mu-target)**2)/((sigma_corrected)**2)
        fator = np.sqrt(fator) #raiz quadrada
        cpm = (cp)/(fator)

        estatisticas_col1.append("Cp")
        estatisticas_col2.append(cp)
        estatisticas_col1.append("Cr")
        estatisticas_col2.append(cr)
        estatisticas_col1.append("Cm")
        estatisticas_col2.append(cm)

        estatisticas_col1.append("Zmin")
        estatisticas_col2.append(z_min)
        estatisticas_col1.append("Cpk")
        estatisticas_col2.append(cpk)
        estatisticas_col1.append("Cpm")
        estatisticas_col2.append(cpm)
    
    - Se houver apenas limite de especificação superior, deve ser apagado o Z referente ao limite inferior (lower), Zl, presente 
        nas linhas:
    
            zl = (mu-lsl)/(sigma_corrected)
            estatisticas_col1.append("Zl")
            estatisticas_col2.append(zl)
    
     - Se houver apenas limite de especificação inferior, deve ser apagado o Z referente ao limite superior (upper), Zu, 
         presente nas linhas:
    
            zu = (usl-mu)/(sigma_corrected)
            estatisticas_col1.append("Zu")
            estatisticas_col2.append(zu)

In [None]:
## CÉLULA 9: ANÁLISE DE CAPACIDADE DO SEU PROCESSO

#DEFINA A VARIAVEL y para a qual será construído o histograma e será feita a análise de capacidade. 
#Basta substituir o valor entre aspas pelo nome da coluna onde está Y:

y = dataset['Y']

#NOTA: o valor y necessariamente deve ser uma série.

#DEFINA O limite inferior de especificação. Basta substituir o valor zero pelo valor numérico do seu limite. Lembre-se que o
#separador decimal é o ponto. Se seu limite for 2.4, faça lim_inf = 2.4
lim_inf = 0

#DEFINA O limite superior de especificação. Basta substituir o valor zero pelo valor numérico do seu limite. Lembre-se que o
#separador decimal é o ponto. Se seu limite for 7.5, faça lim_inf = 7.5
lim_sup = 0

"""
VEJA NAS INSTRUÇÕES ACIMA COMO PROCEDER CASO EXISTA UM ÚNICO VALOR DE LIMITE DE ESPECIFICAÇÃO (apenas o limite inferior ou
apenas o limite superior)
"""

estatisticas_gerais, tab_frequencias = capability(y = y, lim_spec = [lim_inf, lim_sup], largura_da_barra = 10, legenda_dos_dados = None, titulo_y = None, titulo_histograma = None)

# Altere manualmente o valor numérico da largura_da_barra do histograma até alcançar um espaçamento mínimo entre barras
#consecutivas. O valor da largura da barra depende de cada conjunto particular de dados utilizado.

"""
VEJA NAS INSTRUÇÕES ACIMA COMO PROCEDER CASO EXISTA UM ÚNICO VALOR DE LIMITE DE ESPECIFICAÇÃO (apenas o limite inferior ou
apenas o limite superior). Você terá de substituir os colchetes na função acima pelo valor numérico deste limite. Por exemplo,
se houver apenas uma especificação igual a -6.52, lim_spec = [lim_inf, lim_sup] deve ser substituído por lim_spec = -6.52

Substitua os demais campos None de acordo com as instruções dadas na CÉLULA 8.
- Os títulos e legendas devem ser fornecidos como um texto entre aspas.
"""

estatisticas_gerais
tab_frequencias

"""VOCÊ DESEJA EXPORTAR OS DADOS?
Caso deseje exportar os dados, copie as seguintes linhas para o espaço não-vermelho após as aspas. Substitua o endereço pela
pasta onde você deseja salvar seu arquivo. Substitua estatisticas e tabela_freq pelos nomes que deseja para seus arquivos. 
Mantenha a extensão csv. Você pode também optar por exportar apenas uma das tabelas (neste caso, copie apenas a desejada).

estatisticas_gerais.to_csv(r"D:\Drive\FM2S\EAD\Green Belt em Python\Machine Learning - módulo 3 - ANN classification\ANN.Class - 1 - user satisfaction\estatisticas.csv", index = False)

tab_frequencias.to_csv(r"D:\Drive\FM2S\EAD\Green Belt em Python\Machine Learning - módulo 3 - ANN classification\ANN.Class - 1 - user satisfaction\tabela_freq.csv", index = False)

"""