In [136]:
import pandas as pd
import numpy as np
import scipy.stats as st

df = pd.read_excel('data2.xlsx')
df.COMBUSTIVEL = 'GA'
df_BA = df[df.ESTADO == 'SC']
df_CE = df[df.ESTADO == 'RS']

In [137]:
def analyse_df(df): 
    def get_range_value(value, first=True):
        index = 0 if first else 1
        value = str(value).replace("(", "").replace("]", "").replace(" ", "").split(",")[index]
        return float(value)
        
    def get_prob(value, first=True):
        value = value['Zi(Li)'] if first else value['Zi(Ls)']
        value = st.norm.cdf(value)
        return value
        
    k = int(round(1 + (10/3) * np.log10(df.shape[0])))
    print(f'K: {k}')
    frequency = pd.value_counts(
        pd.cut(x = df.PRE_VENDA, bins = k, include_lowest = True), sort = False)

    ## percentage
    percentage = pd.value_counts(
    pd.cut(x=df.PRE_VENDA, bins = k, include_lowest = True), sort = False, normalize = True) *100 

    ## Formatting Frequency Table
    df_ = ({'O(i)' : frequency, 'pi' : percentage/100, 'Pi': percentage.cumsum()/100})

    df_ = pd.DataFrame(df_)
    df_.reset_index(inplace=True)
    df_.rename(columns={'index' : 'range'}, inplace = True)
    
    df_['Xi'] = df_.range.apply(lambda range: range.mid).astype(np.float32)
    
    df_['Xi*pi'] = df_.Xi.mul(df_.pi)
    media_DA = df_['Xi*pi'].sum()
    
    df_['di^2*pi'] = df_.apply(lambda row: ((row.Xi - media_DA)**2) * row.pi, axis=1)
    var_DA = df_['di^2*pi'].sum()
    desvio_DA = np.sqrt(df_['di^2*pi'].sum())
    
    # df_['Zi(Li)'] = (primeiro valor da classe - media_DA) / desvio_DA
    # df_['Zi(Ls)'] = (primeiro valor da classe - media_DA) / desvio_DA
    # df_['E(i)'] = (Pr Ls - Pr Li) * df.shape[0]

    df_['Zi(Li)'] = df_.apply(lambda row: (get_range_value(row.range) - media_DA) / desvio_DA, axis=1)
    df_['Zi(Ls)'] = df_.apply(lambda row: (get_range_value(row.range, False) - media_DA) / desvio_DA, axis=1)
    df_['Pr Ac até Li'] = df_.apply(lambda row: get_prob(row), axis=1)
    df_['Pr Ac até Ls'] = df_.apply(lambda row: get_prob(row, False), axis=1)


    df_['E(i)'] = (df_['Pr Ac até Ls'] - df_['Pr Ac até Li']) * df.shape[0]
    df_['(O(i)-E(i))ˆ2/E(i)'] = df_.apply(lambda row: pow((row['O(i)'] - row['E(i)']), 2)/row['E(i)'], axis=1)
    
    
    media_DNA = df.PRE_VENDA.mean()
    mediana_DNA = df.PRE_VENDA.median()
    desvio_DNA = df.PRE_VENDA.std()
    var_DNA = df.PRE_VENDA.std()**2
    
    erro_media = abs(media_DNA - media_DA) * 100 / media_DNA
    erro_desvio = abs(desvio_DNA - desvio_DA) * 100 / desvio_DNA
    erro_var = abs(var_DNA - var_DA) * 100 / var_DNA

    CV = desvio_DA / media_DA
    print(f'Medias: DNA: {media_DNA} DA: {media_DA}')
    print(f'Mediana: DNA: {mediana_DNA} DA: ')
    print(f'Desvios: DNA: {desvio_DNA} DA: {desvio_DA}')
    print(f'Variância: DNA: {var_DNA} DA: {var_DA}')
    print(f'CV: {CV}')
    print(f'Erro da média: {erro_media}')
    print(f'Erro do desvio padrão: {erro_desvio}')
    print(f'Erro da variância: {erro_var}')
    return df_

In [140]:
# Analise BAHIA
analyse_df(df_BA).to_excel('output.xlsx')

K: 9
Medias: DNA: 5.556670329670331 DA: 5.558519177384429
Mediana: DNA: 5.579 DA: 
Desvios: DNA: 0.13931184899176366 DA: 0.13521037896516377
Variância: DNA: 0.01940779126950396 DA: 0.018281846579903203
CV: 0.02432489205313622
Erro da média: 0.033272582399331514
Erro do desvio padrão: 2.944092736033078
Erro da variância: 5.8015086516825285


In [139]:
# Analise CEARA
analyse_df(df_CE).to_excel('output.xlsx')

K: 9
Medias: DNA: 6.084600823045267 DA: 6.087672741815386
Mediana: DNA: 6.089 DA: 
Desvios: DNA: 0.19271374609301772 DA: 0.18888257238006945
Variância: DNA: 0.037138587933204105 DA: 0.03567662614891218
CV: 0.031027057529334823
Erro da média: 0.050486775705729056
Erro do desvio padrão: 1.9880126823434137
Erro da variância: 3.936503420435237


Unnamed: 0,POSTO,MUNICIPIO,ESTADO,COMBUSTIVEL,BANDEIRA,PRE_VENDA,DATA COLETA
0,1,BRUMADO,BAHIA,GA,BRANCA,4.569,27/06/2021
1,2,BRUMADO,BAHIA,GA,BRANCA,4.600,27/06/2021
2,3,BRUMADO,BAHIA,GA,RAIZEN,4.600,27/06/2021
3,4,BRUMADO,BAHIA,GA,RAIZEN,4.600,27/06/2021
4,5,BRUMADO,BAHIA,GA,BRANCA,4.649,27/06/2021
...,...,...,...,...,...,...,...
340,341,SOBRAL,CEARA,GA,IPIRANGA,4.679,29/06/2021
341,342,SOBRAL,CEARA,GA,IPIRANGA,4.679,30/06/2021
342,343,SOBRAL,CEARA,GA,RAIZEN,4.690,29/06/2021
343,344,SOBRAL,CEARA,GA,PETROBRAS DISTRIBUIDORA S.A.,4.690,29/06/2021


9