In [3]:
import pandas as pd
import numpy as np

In [4]:
data = pd.read_csv('./2004-2019.tsv', sep = '\t')

In [5]:
data.columns

Index(['Unnamed: 0', 'DATA INICIAL', 'DATA FINAL', 'REGIÃO', 'ESTADO',
       'PRODUTO', 'NÚMERO DE POSTOS PESQUISADOS', 'UNIDADE DE MEDIDA',
       'PREÇO MÉDIO REVENDA', 'DESVIO PADRÃO REVENDA', 'PREÇO MÍNIMO REVENDA',
       'PREÇO MÁXIMO REVENDA', 'MARGEM MÉDIA REVENDA',
       'COEF DE VARIAÇÃO REVENDA', 'PREÇO MÉDIO DISTRIBUIÇÃO',
       'DESVIO PADRÃO DISTRIBUIÇÃO', 'PREÇO MÍNIMO DISTRIBUIÇÃO',
       'PREÇO MÁXIMO DISTRIBUIÇÃO', 'COEF DE VARIAÇÃO DISTRIBUIÇÃO', 'MÊS',
       'ANO'],
      dtype='object')

### Renomeando colunas
Como os nomes das colunas do dataset não estão na forma mais conveniente, isto é, sem espaços ou acentos, vamos, primeiramente, ajustá-los

In [6]:
def get_string_adjuster():
    untranslated_string = ' ÁÃÇÍÉÊÚ'
    translated_string = '_AACIEEU'
    
    def adjust_string(to_adjust):
        translation_map = to_adjust.maketrans(untranslated_string, translated_string)
        return to_adjust.translate(translation_map)
    
    return adjust_string

In [7]:
adjust_string = get_string_adjuster()

column_names_to_adjusted_names = {
    original_name : adjust_string(original_name)
    for original_name
    in data.columns
}

data = data.rename(columns = column_names_to_adjusted_names)
data.columns

Index(['Unnamed:_0', 'DATA_INICIAL', 'DATA_FINAL', 'REGIAO', 'ESTADO',
       'PRODUTO', 'NUMERO_DE_POSTOS_PESQUISADOS', 'UNIDADE_DE_MEDIDA',
       'PRECO_MEDIO_REVENDA', 'DESVIO_PADRAO_REVENDA', 'PRECO_MINIMO_REVENDA',
       'PRECO_MAXIMO_REVENDA', 'MARGEM_MEDIA_REVENDA',
       'COEF_DE_VARIACAO_REVENDA', 'PRECO_MEDIO_DISTRIBUICAO',
       'DESVIO_PADRAO_DISTRIBUICAO', 'PRECO_MINIMO_DISTRIBUICAO',
       'PRECO_MAXIMO_DISTRIBUICAO', 'COEF_DE_VARIACAO_DISTRIBUICAO', 'MES',
       'ANO'],
      dtype='object')

### Tipo de cada coluna
Objetivamos definir o tipo de cada coluna e, caso necessário, ajustá-lo para um condizente com o mostrado

In [8]:
data.dtypes

Unnamed:_0                         int64
DATA_INICIAL                      object
DATA_FINAL                        object
REGIAO                            object
ESTADO                            object
PRODUTO                           object
NUMERO_DE_POSTOS_PESQUISADOS       int64
UNIDADE_DE_MEDIDA                 object
PRECO_MEDIO_REVENDA              float64
DESVIO_PADRAO_REVENDA            float64
PRECO_MINIMO_REVENDA             float64
PRECO_MAXIMO_REVENDA             float64
MARGEM_MEDIA_REVENDA              object
COEF_DE_VARIACAO_REVENDA         float64
PRECO_MEDIO_DISTRIBUICAO          object
DESVIO_PADRAO_DISTRIBUICAO        object
PRECO_MINIMO_DISTRIBUICAO         object
PRECO_MAXIMO_DISTRIBUICAO         object
COEF_DE_VARIACAO_DISTRIBUICAO     object
MES                                int64
ANO                                int64
dtype: object

In [9]:
data.head()

Unnamed: 0,Unnamed:_0,DATA_INICIAL,DATA_FINAL,REGIAO,ESTADO,PRODUTO,NUMERO_DE_POSTOS_PESQUISADOS,UNIDADE_DE_MEDIDA,PRECO_MEDIO_REVENDA,DESVIO_PADRAO_REVENDA,...,PRECO_MAXIMO_REVENDA,MARGEM_MEDIA_REVENDA,COEF_DE_VARIACAO_REVENDA,PRECO_MEDIO_DISTRIBUICAO,DESVIO_PADRAO_DISTRIBUICAO,PRECO_MINIMO_DISTRIBUICAO,PRECO_MAXIMO_DISTRIBUICAO,COEF_DE_VARIACAO_DISTRIBUICAO,MES,ANO
0,0,2004-05-09,2004-05-15,CENTRO OESTE,DISTRITO FEDERAL,ETANOL HIDRATADO,127,R$/l,1.288,0.016,...,1.35,0.463,0.012,0.825,0.11,0.4201,0.9666,0.133,5,2004
1,1,2004-05-09,2004-05-15,CENTRO OESTE,GOIAS,ETANOL HIDRATADO,387,R$/l,1.162,0.114,...,1.449,0.399,0.098,0.763,0.088,0.5013,1.05,0.115,5,2004
2,2,2004-05-09,2004-05-15,CENTRO OESTE,MATO GROSSO,ETANOL HIDRATADO,192,R$/l,1.389,0.097,...,1.76,0.419,0.07,0.97,0.095,0.5614,1.161,0.098,5,2004
3,3,2004-05-09,2004-05-15,CENTRO OESTE,MATO GROSSO DO SUL,ETANOL HIDRATADO,162,R$/l,1.262,0.07,...,1.509,0.432,0.055,0.83,0.119,0.5991,1.22242,0.143,5,2004
4,4,2004-05-09,2004-05-15,NORDESTE,ALAGOAS,ETANOL HIDRATADO,103,R$/l,1.181,0.078,...,1.4,0.24,0.066,0.941,0.077,0.7441,1.0317,0.082,5,2004


Vamos começar convertendo os tipos das datas para objetos datetime de fato utilizando pd.to_datetime

In [10]:
data['DATA_INICIAL'] = pd.to_datetime(data['DATA_INICIAL'])
data['DATA_FINAL'] = pd.to_datetime(data['DATA_FINAL'])
data[['DATA_INICIAL', 'DATA_FINAL']].dtypes

DATA_INICIAL    datetime64[ns]
DATA_FINAL      datetime64[ns]
dtype: object

Consideramos que região e estado devem ser categóricos

In [11]:
data['REGIAO'] = data['REGIAO'].astype('category')
data['ESTADO'] = data['ESTADO'].astype('category')
data[['REGIAO', 'ESTADO']].dtypes

REGIAO    category
ESTADO    category
dtype: object

In [12]:
data['PRODUTO'].unique()

array(['ETANOL HIDRATADO', 'GASOLINA COMUM', 'GLP', 'GNV', 'ÓLEO DIESEL',
       'ÓLEO DIESEL S10'], dtype=object)

Produto também deve ser um dado categórico

In [13]:
data['PRODUTO'] = data['PRODUTO'].astype('category')

In [14]:
data['UNIDADE_DE_MEDIDA'].unique()

array(['R$/l', 'R$/13Kg', 'R$/m3'], dtype=object)

Há três unidades de medida diferentes para preços pesquisados. Poderíamos descobrir a proporção de litros para cada, de forma a ter o valor do litro para cada linha. Porém, os valores de desvio padrão e coeficiente de variância já estão calculados nas medidas originais, nos impossibilitando de obtê-los para as possíveis novas medidas. Sendo assim, vamos considerar três datasets - um para cada unidade de medida.

In [15]:
print({
    unit : f"{100 * data[data['UNIDADE_DE_MEDIDA'] == unit]['UNIDADE_DE_MEDIDA'].count() / data['UNIDADE_DE_MEDIDA'].count()}%"
    for unit
    in data['UNIDADE_DE_MEDIDA'].unique()
})

{'R$/l': '67.96570027054099%', 'R$/13Kg': '19.832807541447067%', 'R$/m3': '12.201492188011946%'}


Como observado, a unidade de medida menos recorrente constitui mais de 10% do dataset, de forma que nenhuma delas é desprezível. Dessa forma, realizaremos análises para cada das unidades de medidas disponíveis.
___
Antes de fazermos isso, vamos continuar convertendo valores para seus tipos apropriados.

In [16]:
data['MARGEM_MEDIA_REVENDA'].describe()

count     106823
unique     11930
top            -
freq        3431
Name: MARGEM_MEDIA_REVENDA, dtype: object

Há valores em MARGEM_MEDIA_REVENDA que não são NaN, mas são hífens. Vamos converter esses valores para NaNs e atribuir o tipo float64 à coluna.

In [17]:
data['MARGEM_MEDIA_REVENDA'] = data['MARGEM_MEDIA_REVENDA'].replace({ '-': np.nan })
data['MARGEM_MEDIA_REVENDA'] = data['MARGEM_MEDIA_REVENDA'].astype('float64')
data['MARGEM_MEDIA_REVENDA'].describe()

count    103392.000000
mean          2.225151
std           4.375085
min           0.001000
25%           0.282000
50%           0.383000
75%           0.560000
max          36.847000
Name: MARGEM_MEDIA_REVENDA, dtype: float64

Vamos corrigir o mesmo problema para outras colunas que consideramos deverem ser numéricas.

In [18]:
colnames = [
    'PRECO_MEDIO_DISTRIBUICAO',
    'DESVIO_PADRAO_DISTRIBUICAO',
    'PRECO_MINIMO_DISTRIBUICAO',
    'PRECO_MAXIMO_DISTRIBUICAO',
    'COEF_DE_VARIACAO_DISTRIBUICAO'
]

for colname in colnames:
    data[colname].replace({ '-': np.nan }, inplace = True)

data[colnames].describe()

Unnamed: 0,PRECO_MEDIO_DISTRIBUICAO,DESVIO_PADRAO_DISTRIBUICAO,PRECO_MINIMO_DISTRIBUICAO,PRECO_MAXIMO_DISTRIBUICAO,COEF_DE_VARIACAO_DISTRIBUICAO
count,103423.0,103423,103423,103423,103423
unique,15996.0,5857,21619,22575,396
top,1.283,0,24,32,0
freq,96.0,3235,832,844,3292


Agora podemos substituir os tipos dessas colunas por float64

In [19]:
for colname in colnames:
    data[colname] = data[colname].astype('float64')

Vamos analisar a quantidade de valores NaN

In [20]:
data.isna().sum()

Unnamed:_0                          0
DATA_INICIAL                        0
DATA_FINAL                          0
REGIAO                              0
ESTADO                              0
PRODUTO                             0
NUMERO_DE_POSTOS_PESQUISADOS        0
UNIDADE_DE_MEDIDA                   0
PRECO_MEDIO_REVENDA                 0
DESVIO_PADRAO_REVENDA               0
PRECO_MINIMO_REVENDA                0
PRECO_MAXIMO_REVENDA                0
MARGEM_MEDIA_REVENDA             3431
COEF_DE_VARIACAO_REVENDA            0
PRECO_MEDIO_DISTRIBUICAO         3400
DESVIO_PADRAO_DISTRIBUICAO       3400
PRECO_MINIMO_DISTRIBUICAO        3400
PRECO_MAXIMO_DISTRIBUICAO        3400
COEF_DE_VARIACAO_DISTRIBUICAO    3400
MES                                 0
ANO                                 0
dtype: int64

Vamos descobrir quantas linhas têm pelo menos um valor de coluna NaN

In [21]:
n_cols_na = data[data.isna().any(axis = 1)].count().max()
n_cols_na

3431

In [22]:
100 * n_cols_na / data.count().max()

3.211855124832667

Somente pouco mais de 3% das linhas do dataset têm valores NaN. Vamos verificar as porcentagens para os subdatasets, de acordo com a unidade de medição.

In [23]:
data_per_liter = data[data['UNIDADE_DE_MEDIDA'] == 'R$/l']
data_per_13kg = data[data['UNIDADE_DE_MEDIDA'] == 'R$/13Kg']
data_per_cmeter = data[data['UNIDADE_DE_MEDIDA'] == 'R$/m3']

Por litro:

In [24]:
n_cols_na_per_liter = data_per_liter[data_per_liter.isna().any(axis = 1)].count().max()
n_cols_na_per_liter

532

Porcentagem:

In [25]:
100 * n_cols_na_per_liter / data_per_liter.count().max()

0.7327520901340165

Por 13Kg:

In [26]:
n_cols_na_per_13kg = data_per_13kg[data_per_13kg.isna().any(axis = 1)].count().max()
n_cols_na_per_13kg

871

Porcentagem:

In [27]:
100 * n_cols_na_per_13kg / data_per_13kg.count().max()

4.111205513074672

Por m³:

In [28]:
n_cols_na_per_cmeter = data_per_cmeter[data_per_cmeter.isna().any(axis = 1)].count().max()
n_cols_na_per_cmeter

2028

Porcentagem:

In [29]:
100 * n_cols_na_per_cmeter / data_per_cmeter.count().max()

15.559306429338653

É possível observar a relevância das colunas com valores NaN no caso da unidade de medida de R$/m³. Consideramos como muito pouco relevante a quantidade de colunas com valores NaN para as outras unidades de medida.
Vamos procurar agora nos informar sobre os dados indisponíveis para o caso relevante. Para isso, vamos descrever a distribuição da quantidade de campos indisponíveis, nos casos onde há tais campos.

In [30]:
rows_with_nan = data_per_cmeter.isna().any(axis = 1)
data_per_cmeter[rows_with_nan].isna().sum(axis = 1).describe()

count    2028.000000
mean        5.928501
std         0.593765
min         1.000000
25%         6.000000
50%         6.000000
75%         6.000000
max         6.000000
dtype: float64

Aparenta faltarem valores para 6 colunas na maioria dos casos. Em um caso como esse, imputar valores pode ser contraprodutivo, por gerar muitas instâncias com valores artificiais. Por isso, vamos remover linhas com valores faltantes.

In [None]:
rows_no_nan = data_per_cemeter.isna().none(axis = 1)
data_per_cmeter_no_nan = data_per_cmeter[rows_no_nan]
data_per_cmeter_no_nan.isna().sum()

Comecemos com os dados na unidade de R$/l.