In [None]:
## Análise do Processo - Diagrama de Pareto

## CÉLULA 1: Instruções de carregamento do arquivo e bibliotecas a ser importadas

""""
    Para executar uma CÉLULA, pressione o botão "Run" no topo, com a CÉLULA selecionada, ou pressione:
    
    Shift + Enter

-Se seus dados estiverem em um arquivo xlsx utilize a CÉLULA 2

-Se seus dados estiverem em um arquivo csv contendo cabeçalhos, utilize a CÉLULA 3

-Se seus dados estiverem em um arquivo csv sem cabeçalhos, utilize a CÉLULA 4

-Utilize apenas a CÉLULA correta
-Substitua o texto entre aspas na variável "caminho" pelo endereço do arquivo em sua máquina.

EXECUTE ESTA CÉLULA ANTES DE PROSSEGUIR

EXECUTE APENAS UMA CÉLULA POR VEZ

-Caso deseje apagar a saída de uma célula carregada, mas não deseje carregar uma nova saída, vá à aba superior, escolha o ícone
do teclado (open the command palette/ jupyter-notebook command group) e selecione clear cell output.

@author: Marco César Prado Soares, MSc.
Especialista Lean Six Sigma Master Black Belt, Eng. Químico, MSc. Eng. Mecatrônica (instrumentação) 
Marco.Soares@br.ey.com; marcosoares.feq@gmail.com
"""
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt

In [None]:
## CÉLULA 2: dados em arquivo xlsx

caminho = "D:\Drive\FM2S\EAD\Green Belt em Python\Machine Learning - módulo 2 - ANN regression\ANN.1 - Apartment price analysis\prices_apartments.xlsx"
dataset = pd.read_excel(caminho)

dataset
#SIGA PARA A CÉLULA 5

In [None]:
## CÉLULA 3: dados em arquivo csv com cabeçalho

caminho = "D:\Drive\FM2S\EAD\Green Belt em Python\Machine Learning - módulo 3 - ANN classification\ANN.Class - 2 - advertising campaign\delivery_app_data.csv"
dataset = pd.read_csv(caminho)

dataset
#SIGA PARA A CÉLULA 5

In [None]:
## CÉLULA 4: dados em arquivo csv sem cabeçalho

caminho = "D:\Drive\FM2S\EAD\Green Belt em Python\Machine Learning - módulo 2 - ANN regression\ANN.4 - Boston housing price\housing_boston_data.txt"
dataset = pd.read_csv(caminho, delim_whitespace=True, header=None)

#here, the dataset is in a textfile. In these cases, use delim_withespace = True
#or df = pd.read_fwf('output_list.txt')
#since data has no Head, keep header = None
#if there is Head, eliminate ‘header’ from the arguments of the function

dataset
#SIGA PARA A CÉLULA 5

In [None]:
## CÉLULA 5: Eliminar linhas com entradas nulas

"""
-Utilize este CÉLULA apenas se desejar limpar as entradas nulas da sua base de dados

-Esta CÉLULA eliminará todas as linhas contendo entradas nulas. Caso NÃO DESEJE ISTO, vá direto à CÉLULA 6, sem executar esta
célula.
"""

dataset = dataset.dropna(axis=0)
dataset
#SIGA PARA A CÉLULA 6

# CÉLULA 6: Instruções Gerais

### ATENÇÃO: NÃO EXECUTE ESTA CÉLULA - Ela contém apenas texto explicativo

Este notebook destina-se à análise de processos por meio do diagrama de Pareto. Esta análise tem o objetivo de destacar os efeitos/causas/problemas etc mais relevantes em um processo.

Joseph Juran utilizou as observações de Vilfredo Pareto para enunciar aquilo que ficou conhecido como o princípio de Pareto: 80% dos problemas são relacionados a 20% das causas. Logicamente, trata-se de uma figura hiperbólica para destacar a importância de se determinar as causas mais importantes.


## 1) Tabela e diagrama de Pareto

- Aqui será obtida a tabela correspondente ao diagrama de Pareto: os efeitos/causas/defeitos serão organizados do maior número de ocorrências para o menor, e será calculada a porcentagem acumulada à medida que se lê a tabela de cima para baixo.
- O diagrama consiste num gráfico combinado: as barras verticais mostram a intensidade/contagem dos efeitos, enquanto que os pontos conectados por linhas retas representam as porcentagens acumuladas. O sistema permite limitar até um máximo de 4 efeitos mais importantes, agrupando todos os demais em uma única barra. Este recurso facilita a visualização e interpretação do gráfico.

Siga para as CÉLULAS 7 a 9.
----------------------------------------

In [None]:
## CÉLULA 7: Função para construção simultânea da tabela e do diagrama de Pareto

#Execute esta CÉLULA para carregar a função

def pareto_chart_full(x, y, show_max_4 = True, title=None):
#vamos obter os dados para construcao do diagrama de Pareto
    import pandas as pd
    import matplotlib.pyplot as plt
    
    #Entradas: dataframe, valores do eixo x, eixo y, titulo
    x1 = x
    y1 = y
    xnew = []
    ynew = []
    percent = []
    percentcum = []
    #listas vazias para agrupar os novos valores
    
    y1 = y1.sort_values(ascending=False)
    #reorganiza em ordem decrescente, mas sem mudar os indices
    #isso porque os indices nao foram reinicializados
    
    #Basta achar o indice de x1 que corresponde ao indice de y1
    #vamos encontrar os x correspondentes (os motivos)
    i = 0
    j = 0
    tamanho = len(y1) #tamanho da entrada

    while (i < tamanho):
        j = 0 #reinicia a busca no auxiliar
        
        while (j < tamanho):
            if (x1.index[j] == y1.index[i]):
                xnew.append(x1[j])
                ynew.append(y1[j])
                #quando na auxiliar encontra o indice, copia no label, na linha correspondente ao y
                #os labels de y1 ainda estao na ordem antiga, a mesma de x
                percent.append(0) # gravar valor numerico na lista
                percentcum.append(0) #gravar valor numerico na lista
                #todas as listas possuem mesma dimensao e podem formar o dataframe novo
            j = j + 1 #percorre toda a base auxiliar
        
        i = i + 1
    
    d = {'Causas': xnew, 'Contagem': ynew, 'Porcentagem': percent, 'Porcentagem acumulada': percentcum}
    #dicionario com as quatro listas que formam a tabela do Pareto
    df = pd.DataFrame(data = d)
    #cria o dataframe organizado
    
    #vamos reiniciar o indice
    df = df.reset_index(drop=True)
    
    #construir as colunas que faltam
    somatotal = df['Contagem'].sum() # soma o total de ocorrencias do Pareto
    df['Porcentagem'] = (df['Contagem'])/(somatotal)*100
    
    df.loc[0,'Porcentagem acumulada'] = df.loc[0,'Porcentagem']
    #primeiro valor definido, devemos comecar o loop do 1, nao do zero
    i = 1
    
    while (i < tamanho):
        df.loc[i,'Porcentagem acumulada'] = df.loc[(i-1),'Porcentagem acumulada'] + df.loc[i,'Porcentagem']
        i = i + 1
   
    x = df['Causas']
    y = df['Contagem']
    cumsum = df['Porcentagem acumulada']
    
    index_max = len(x) #quantidade de dados
    
    if (show_max_4 == True) and (index_max > 4):
        #apenas se tiver mais que 5 entradas
        
        x_aux = []
        y_aux = []
        cumsum_aux = []
        i = 0
        #vamos salvar os 5 primeiros nas listas auxiliares
        #5 primeiros: indices de 0 a 4
        
        while(i<5):
           x_aux.append(x[i])
           y_aux.append(y[i])
           cumsum_aux.append(cumsum[i])
           i = i + 1
    
        #Note que ja foi criado o quinto elemento nas listas
        #o indice esta em i = 4
        #o nome da variavel X esta com o do 5o elemento, vamos corrigir:
        x_aux[4] = "Others" #label
        #o elemento tera a soma igual a 100%, ja que ele soma todas as outras probabilidades
        cumsum_aux[4] = 100
        while (i < index_max): #so pode chegar ao valor -1
            
            #ATENÇÃO: Somar x vai concatenar strings, criando uma string gigante!
            y_aux[4] = y_aux[4] + y[i]
            i = i + 1
        
        #trocar as listas originais pelas novas:
        x = x_aux
        y = y_aux
        cumsum = cumsum_aux
    
    fig, ax1 = plt.subplots()
    ax1.bar(x, y, color='blue', label = "Causes")
    ax1.set_xlabel("Causes")
    ax1.set_ylabel("Count", color='blue')
    ax1.grid(False) #mude para False, caso não deseje ver as linhas de grade
    
    ax2 = ax1.twinx()
    ax2.plot(x, cumsum, '-ro', color = 'red', label = "Cumulative\n Percet (%)")
    ax2.tick_params('y', color='red')
    ax2.set_ylabel("Cumulative Percent (%)", color='red')
    ax2.legend()
    ax2.grid(True) #mude para False, caso não deseje ver as linhas de grade
    
    fig.tight_layout()

    if title:
        plt.title(title)
    
    plt.show()
    
    return df

# CÉLULA 8: Função para construção a tabela e diagrama de Pareto

### ATENÇÃO: NÃO EXECUTE ESTA CÉLULA - Ela contém apenas texto explicativo

Para executar esta função, basta fornecer:

    x: identificação das causas
    y: valor avaliado

- Se show_max_4 = True, o Pareto mostrará apenas as 4 causas mais comuns, e agrupará as demais em "Outras"

Isso tornará seu gráfico mais organizado. Caso DESEJE VER TODAS as causas, mude para show_max_4 = False

Não se esqueça que essa função gera um gráfico e um dataframe df (tabela de Pareto)

Você deve, então, declarar o dataframe que receberá a tabela:
    
    tab_pareto = pareto_chart_full(x, y, show_max_4 = True, title=None)

In [None]:
## CÉLULA 9: ANÁLISE DE PARETO PARA SEUS DADOS

#DEFINA A VARIAVEL X. Basta substituir o valor entre aspas pelo nome da coluna onde está X:
#X representa o "nome" dos efeitos
x = dataset['X']

#DEFINA A VARIAVEL y. Basta substituir o valor entre aspas pelo nome da coluna onde está Y:
#Y representa a contagem ou intensidade dos efeitos
y = dataset['Y']


tab_pareto = pareto_chart_full(x = x, y = y, show_max_4 = True, title=None)

#Caso queira mostrar todos os fatores, modifique show_max_4 = True para show_max_4 = False.
#Manter em True limitará a visualização aos 4 efeitos mais importantes.

"""
Substitua os campos de acordo com as instruções dadas na CÉLULA 8. 
- O título deve ser fornecido como um texto entre aspas. Exemplo: title="Diagrama de Pareto"

"""

tab_pareto

"""VOCÊ DESEJA EXPORTAR OS DADOS?
Caso deseje exportar os dados, copie a seguinte linha para o espaço não-vermelho após as aspas. Substitua o endereço pela
pasta onde você deseja salvar seu arquivo. Substitua pareto pelo nome que deseja para seu arquivo. Mantenha
a extensão csv

tab_pareto.to_csv(r"D:\Drive\FM2S\EAD\Green Belt em Python\Machine Learning - módulo 3 - ANN classification\ANN.Class - 1 - user satisfaction\pareto.csv", index = False)

"""