Para a realização desta análise, serão utilizados os datasets "Avocado" e "Avocado_Type", disponíveis na pasta "Data". 

O dataset "Avocado" contém dados sobre vendas de abacates em diversas regiões dos Estados Unidos. Este dataset possui as seguintes colunas:

| Coluna | Descrição |
|--------|-----------|
| Date | data da observação |
| AveragePrice | preço médio de um único abacate |
| year | ano |
| region | cidade ou região da observação |
| Total Volume | volume total de abacates vendidos |

# ETAPA 1 - TRATAMENTO DOS DADOS

Primeiramente, iniciamos importando as bibliotecas e os dois datasets:

In [1]:
import numpy as np
import pandas as pd
import matplotlib as plt

In [4]:
df_avocado = pd.read_csv("./Data/Avocado.csv", encoding='latin-1', sep=";")
df_avocado_type = pd.read_excel("./Data/Avocado_Type.xlsx") 

Em seguida, verificamos os dados presentes nos dois datasets:

In [5]:
df_avocado.head(5)

Unnamed: 0,Date,AveragePrice,Total Volume,year,region
0,2015-12-27,1.33,64236.62,2015,Albany
1,2015-12-20,1.35,54876.98,2015,Albany
2,2015-12-13,0.93,118220.22,2015,Albany
3,2015-12-06,1.08,78992.15,2015,Albany
4,2015-11-29,1.28,51039.6,2015,Albany


In [6]:
df_avocado_type.head(5)

Unnamed: 0,type
0,orgânico
1,convencional
2,convencional
3,orgânico
4,orgânico


Percebe-se que os dois datasets são complementares. Desta forma, serão concatenados lado a lado utilizando o método "concat":

In [7]:
full_df = df = pd.concat([df_avocado, df_avocado_type], axis = 1, join = "outer")
full_df.head(5)

Unnamed: 0,Date,AveragePrice,Total Volume,year,region,type
0,2015-12-27,1.33,64236.62,2015,Albany,orgânico
1,2015-12-20,1.35,54876.98,2015,Albany,convencional
2,2015-12-13,0.93,118220.22,2015,Albany,convencional
3,2015-12-06,1.08,78992.15,2015,Albany,orgânico
4,2015-11-29,1.28,51039.6,2015,Albany,orgânico


Uma vez que o datasset está completo, percebe-se que a coluna type destoa das demais por estar em português, enquanto o restante dos dados está em inglês e capitalizado. Desta forma, os dados em português serão substituídos por seus valores em inglês:

In [12]:
full_df['type'].replace({'orgânico':'Organic','convencional':'Conventional'},inplace=True)

In [13]:
full_df.head(5)

Unnamed: 0,Date,AveragePrice,Total Volume,year,region,type
0,2015-12-27,1.33,64236.62,2015,Albany,Organic
1,2015-12-20,1.35,54876.98,2015,Albany,Conventional
2,2015-12-13,0.93,118220.22,2015,Albany,Conventional
3,2015-12-06,1.08,78992.15,2015,Albany,Organic
4,2015-11-29,1.28,51039.6,2015,Albany,Organic


Verificamos a presença de dados nulos ou duplicados:

In [15]:
full_df.isna().sum()

Date            0
AveragePrice    0
Total Volume    0
year            0
region          0
type            0
dtype: int64

In [17]:
full_df.duplicated().sum()

0

Em sequência, será feita a padronização dos nomes das colunas, com _ como espaço e com palavras capitalizadas:

In [18]:
full_df.columns = [ "Date", "Average_Price", "Total_Volume", "Year", "Region", "Type"]
full_df.head(5)

Unnamed: 0,Date,Average_Price,Total_Volume,Year,Region,Type
0,2015-12-27,1.33,64236.62,2015,Albany,Organic
1,2015-12-20,1.35,54876.98,2015,Albany,Conventional
2,2015-12-13,0.93,118220.22,2015,Albany,Conventional
3,2015-12-06,1.08,78992.15,2015,Albany,Organic
4,2015-11-29,1.28,51039.6,2015,Albany,Organic


    Sem mais tratamentos a fazer neste momento, é dado início às análises.

# ETAPA 2 - ANÁLISES