### Data Cleaning Practice - Brazilian Gas Prices dataset

#### Introduction:

+ The purpose of this notebook is to practice implementing data cleaning concepts on a sample dataset. 
    
##### The Dataset:
    
+ The dataset was downloaded from kaggle and can be found 
[here](https://www.kaggle.com/matheusfreitag/gas-prices-in-brazil)

#### Import

In [1]:
# Import necessary python packages to complete data cleaning

import zipfile
import pandas as pd

print('Importing finished')

Importing finished


## Gather

In [2]:
# Unzip file

with zipfile.ZipFile('gas-prices-in-brazil.zip',mode='r') as myzip:
    myzip.extractall()

In [5]:
# Open tsv as dataframe and save to df variable

df = pd.read_csv('2004-2019.tsv',sep='\t')

In [6]:
# Show first 5 rows of dataframe
df.head()

Unnamed: 0.1,Unnamed: 0,DATA INICIAL,DATA FINAL,REGIÃO,ESTADO,PRODUTO,NÚMERO DE POSTOS PESQUISADOS,UNIDADE DE MEDIDA,PREÇO MÉDIO REVENDA,DESVIO PADRÃO REVENDA,...,PREÇO MÁXIMO REVENDA,MARGEM MÉDIA REVENDA,COEF DE VARIAÇÃO REVENDA,PREÇO MÉDIO DISTRIBUIÇÃO,DESVIO PADRÃO DISTRIBUIÇÃO,PREÇO MÍNIMO DISTRIBUIÇÃO,PREÇO MÁXIMO DISTRIBUIÇÃO,COEF DE VARIAÇÃO DISTRIBUIÇÃO,MÊS,ANO
0,0,2004-05-09,2004-05-15,CENTRO OESTE,DISTRITO FEDERAL,ETANOL HIDRATADO,127,R$/l,1.288,0.016,...,1.35,0.463,0.012,0.825,0.11,0.4201,0.9666,0.133,5,2004
1,1,2004-05-09,2004-05-15,CENTRO OESTE,GOIAS,ETANOL HIDRATADO,387,R$/l,1.162,0.114,...,1.449,0.399,0.098,0.763,0.088,0.5013,1.05,0.115,5,2004
2,2,2004-05-09,2004-05-15,CENTRO OESTE,MATO GROSSO,ETANOL HIDRATADO,192,R$/l,1.389,0.097,...,1.76,0.419,0.07,0.97,0.095,0.5614,1.161,0.098,5,2004
3,3,2004-05-09,2004-05-15,CENTRO OESTE,MATO GROSSO DO SUL,ETANOL HIDRATADO,162,R$/l,1.262,0.07,...,1.509,0.432,0.055,0.83,0.119,0.5991,1.22242,0.143,5,2004
4,4,2004-05-09,2004-05-15,NORDESTE,ALAGOAS,ETANOL HIDRATADO,103,R$/l,1.181,0.078,...,1.4,0.24,0.066,0.941,0.077,0.7441,1.0317,0.082,5,2004


## Assess

In [7]:
# Check shape of dataframe

df.shape

(106823, 21)

In [8]:
# Check clarity and format of column labels

df.columns

Index(['Unnamed: 0', 'DATA INICIAL', 'DATA FINAL', 'REGIÃO', 'ESTADO',
       'PRODUTO', 'NÚMERO DE POSTOS PESQUISADOS', 'UNIDADE DE MEDIDA',
       'PREÇO MÉDIO REVENDA', 'DESVIO PADRÃO REVENDA', 'PREÇO MÍNIMO REVENDA',
       'PREÇO MÁXIMO REVENDA', 'MARGEM MÉDIA REVENDA',
       'COEF DE VARIAÇÃO REVENDA', 'PREÇO MÉDIO DISTRIBUIÇÃO',
       'DESVIO PADRÃO DISTRIBUIÇÃO', 'PREÇO MÍNIMO DISTRIBUIÇÃO',
       'PREÇO MÁXIMO DISTRIBUIÇÃO', 'COEF DE VARIAÇÃO DISTRIBUIÇÃO', 'MÊS',
       'ANO'],
      dtype='object')

In [9]:
# Check for null values

df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 106823 entries, 0 to 106822
Data columns (total 21 columns):
Unnamed: 0                       106823 non-null int64
DATA INICIAL                     106823 non-null object
DATA FINAL                       106823 non-null object
REGIÃO                           106823 non-null object
ESTADO                           106823 non-null object
PRODUTO                          106823 non-null object
NÚMERO DE POSTOS PESQUISADOS     106823 non-null int64
UNIDADE DE MEDIDA                106823 non-null object
PREÇO MÉDIO REVENDA              106823 non-null float64
DESVIO PADRÃO REVENDA            106823 non-null float64
PREÇO MÍNIMO REVENDA             106823 non-null float64
PREÇO MÁXIMO REVENDA             106823 non-null float64
MARGEM MÉDIA REVENDA             106823 non-null object
COEF DE VARIAÇÃO REVENDA         106823 non-null float64
PREÇO MÉDIO DISTRIBUIÇÃO         106823 non-null object
DESVIO PADRÃO DISTRIBUIÇÃO       106823 non-nu

In [11]:
# Check for duplicate rows

sum(df.duplicated())

0

In [12]:
# Check for impossible values
df.describe()

Unnamed: 0.1,Unnamed: 0,NÚMERO DE POSTOS PESQUISADOS,PREÇO MÉDIO REVENDA,DESVIO PADRÃO REVENDA,PREÇO MÍNIMO REVENDA,PREÇO MÁXIMO REVENDA,COEF DE VARIAÇÃO REVENDA,MÊS,ANO
count,106823.0,106823.0,106823.0,106823.0,106823.0,106823.0,106823.0,106823.0,106823.0
mean,53411.0,233.770976,10.87078,0.657227,9.416038,12.537731,0.045418,6.484006,2011.802271
std,30837.28824,403.282519,17.752533,1.349169,15.092193,20.841497,0.025066,3.443391,4.39153
min,0.0,1.0,0.766,0.0,0.59,0.999,0.0,1.0,2004.0
25%,26705.5,42.0,2.072,0.072,1.9,2.31,0.029,4.0,2008.0
50%,53411.0,104.0,2.718,0.114,2.51,2.999,0.041,6.0,2012.0
75%,80116.5,243.0,3.752,0.191,3.499,4.15,0.058,9.0,2016.0
max,106822.0,4167.0,99.357,10.748,90.0,120.0,0.395,12.0,2019.0


In [15]:
# Check for mispellings or unclear values in categorical columns

df['REGIÃO'].value_counts()


NORDESTE        36869
NORTE           24702
SUDESTE         17047
CENTRO OESTE    15429
SUL             12776
Name: REGIÃO, dtype: int64

In [16]:
df['ESTADO'].value_counts()


PARAIBA                4263
RIO DE JANEIRO         4263
RIO GRANDE DO SUL      4263
SAO PAULO              4263
CEARA                  4263
BAHIA                  4263
SANTA CATARINA         4262
PERNAMBUCO             4262
RIO GRANDE DO NORTE    4262
MINAS GERAIS           4261
ESPIRITO SANTO         4260
SERGIPE                4259
PARANA                 4251
ALAGOAS                4250
MATO GROSSO DO SUL     4246
MATO GROSSO            4037
AMAZONAS               3889
GOIAS                  3663
PIAUI                  3548
MARANHAO               3499
PARA                   3497
DISTRITO FEDERAL       3483
TOCANTINS              3483
ACRE                   3480
RONDONIA               3479
RORAIMA                3471
AMAPA                  3403
Name: ESTADO, dtype: int64

In [17]:
df['PRODUTO'].value_counts()

GASOLINA COMUM      21194
ÓLEO DIESEL         21194
GLP                 21186
ETANOL HIDRATADO    21102
GNV                 13034
ÓLEO DIESEL S10      9113
Name: PRODUTO, dtype: int64

## Clean

#### Define

+ Eliminate unecessary index column

#### Code

In [22]:
df.drop(["Unnamed: 0"],axis=1,inplace=True)

In [23]:
df.columns

Index(['DATA INICIAL', 'DATA FINAL', 'REGIÃO', 'ESTADO', 'PRODUTO',
       'NÚMERO DE POSTOS PESQUISADOS', 'UNIDADE DE MEDIDA',
       'PREÇO MÉDIO REVENDA', 'DESVIO PADRÃO REVENDA', 'PREÇO MÍNIMO REVENDA',
       'PREÇO MÁXIMO REVENDA', 'MARGEM MÉDIA REVENDA',
       'COEF DE VARIAÇÃO REVENDA', 'PREÇO MÉDIO DISTRIBUIÇÃO',
       'DESVIO PADRÃO DISTRIBUIÇÃO', 'PREÇO MÍNIMO DISTRIBUIÇÃO',
       'PREÇO MÁXIMO DISTRIBUIÇÃO', 'COEF DE VARIAÇÃO DISTRIBUIÇÃO', 'MÊS',
       'ANO'],
      dtype='object')

#### Test

In [26]:
assert "Unnamed: 0" not in df.columns
print('Column has successfully been deleted')

Column has successfully been deleted


### Summary

**In conclusion the data appears to already be quite clean with no obvious errors.**

**The one correction made was deleting an unnecessary index column.**

**However, more knowledge about the brazilian oil industry may be necessary to cleary identify whether