# **Projeto Avocado**
### **(análise de dados com Python e Pandas)**




---



### **Extração e tratamento dos dados**


In [None]:
# bibliotecas importadas
import pandas as pd

In [None]:
# dataset que iremos utilizar (foi preciso realizar a conversão na data)
df = pd.read_csv('/content/drive/MyDrive/Colab Notebooks/datasets/avocado.csv', \
                 parse_dates=['Date'], date_parser=lambda col: \
                 pd.to_datetime(col, yearfirst=True, errors='coerce'))

In [None]:
'''
Aplicamos a conversão ao formato de data, voltando a coluna data 
para tipo String
'''
df['Date'] = df.Date.dt.strftime('%d/%m/%Y')

In [None]:
df.head(5)

Unnamed: 0.1,Unnamed: 0,Date,AveragePrice,Total Volume,4046,4225,4770,Total Bags,Small Bags,Large Bags,XLarge Bags,type,year,region
0,0,27/12/2015,1.33,64236.62,1036.74,54454.85,48.16,8696.87,8603.62,93.25,0.0,conventional,2015,Albany
1,1,20/12/2015,1.35,54876.98,674.28,44638.81,58.33,9505.56,9408.07,97.49,0.0,conventional,2015,Albany
2,2,13/12/2015,0.93,118220.22,794.7,109149.67,130.5,8145.35,8042.21,103.14,0.0,conventional,2015,Albany
3,3,06/12/2015,1.08,78992.15,1132.0,71976.41,72.58,5811.16,5677.4,133.76,0.0,conventional,2015,Albany
4,4,29/11/2015,1.28,51039.6,941.48,43838.39,75.78,6183.95,5986.26,197.69,0.0,conventional,2015,Albany


In [None]:
'''
Como será preciso novamente aplicar conversão à data (para que tenhamos um campo 
de data para trabalhar), criamos uma coluna de data em formato str
#''' 
df['Data padrão BR'] = df['Date']
df['Date'] = pd.to_datetime(df['Date'], dayfirst=True, errors='coerce', \
                            format='%d/%m/%Y')

In [None]:
df.dtypes

Unnamed: 0                 int64
Date              datetime64[ns]
AveragePrice             float64
Total Volume             float64
4046                     float64
4225                     float64
4770                     float64
Total Bags               float64
Small Bags               float64
Large Bags               float64
XLarge Bags              float64
type                      object
year                       int64
region                    object
Data padrão BR            object
dtype: object

In [None]:
# Os valores para gramas nos nomes das colunas são aproximados
df = df.rename(columns={"Date": "Data", "AveragePrice": "Preço médio", \
         "Total Volume": "Volume", "4046": "até 150 g", "4225": "até 300 g", \
         "4770": "até 425 g", "Total Bags": "Total de sacolas", \
         "Small Bags": "Sacolas pequenas", "Large Bags": "Sacolas grandes", \
         "XLarge Bags": "Sacolas extragrandes", "type": "Tipo", \
         "year": "Ano", "region": "Cidade/Região"})

In [None]:
df.head(5)

Unnamed: 0.1,Unnamed: 0,Data,Preço médio,Volume,até 150 g,até 300 g,até 425 g,Total de sacolas,Sacolas pequenas,Sacolas grandes,Sacolas extragrandes,Tipo,Ano,Cidade/Região,Data padrão BR
0,0,2015-12-27,1.33,64236.62,1036.74,54454.85,48.16,8696.87,8603.62,93.25,0.0,conventional,2015,Albany,27/12/2015
1,1,2015-12-20,1.35,54876.98,674.28,44638.81,58.33,9505.56,9408.07,97.49,0.0,conventional,2015,Albany,20/12/2015
2,2,2015-12-13,0.93,118220.22,794.7,109149.67,130.5,8145.35,8042.21,103.14,0.0,conventional,2015,Albany,13/12/2015
3,3,2015-12-06,1.08,78992.15,1132.0,71976.41,72.58,5811.16,5677.4,133.76,0.0,conventional,2015,Albany,06/12/2015
4,4,2015-11-29,1.28,51039.6,941.48,43838.39,75.78,6183.95,5986.26,197.69,0.0,conventional,2015,Albany,29/11/2015


In [None]:
# Há uma coluna de falso index, que pode ser apagada ...
df.columns

Index(['Unnamed: 0', 'Data', 'Preço médio', 'Volume', 'até 150 g', 'até 300 g',
       'até 425 g', 'Total de sacolas', 'Sacolas pequenas', 'Sacolas grandes',
       'Sacolas extragrandes', 'Tipo', 'Ano', 'Cidade/Região',
       'Data padrão BR'],
      dtype='object')

In [None]:
df.drop(columns='Unnamed: 0', axis=1, inplace=True)

In [None]:
# Descrição do dataframe
df.describe()

Unnamed: 0,Preço médio,Volume,até 150 g,até 300 g,até 425 g,Total de sacolas,Sacolas pequenas,Sacolas grandes,Sacolas extragrandes,Ano
count,18249.0,18249.0,18249.0,18249.0,18249.0,18249.0,18249.0,18249.0,18249.0,18249.0
mean,1.405978,850644.0,293008.4,295154.6,22839.74,239639.2,182194.7,54338.09,3106.426507,2016.147899
std,0.402677,3453545.0,1264989.0,1204120.0,107464.1,986242.4,746178.5,243966.0,17692.894652,0.939938
min,0.44,84.56,0.0,0.0,0.0,0.0,0.0,0.0,0.0,2015.0
25%,1.1,10838.58,854.07,3008.78,0.0,5088.64,2849.42,127.47,0.0,2015.0
50%,1.37,107376.8,8645.3,29061.02,184.99,39743.83,26362.82,2647.71,0.0,2016.0
75%,1.66,432962.3,111020.2,150206.9,6243.42,110783.4,83337.67,22029.25,132.5,2017.0
max,3.25,62505650.0,22743620.0,20470570.0,2546439.0,19373130.0,13384590.0,5719097.0,551693.65,2018.0


In [None]:
# Verificação de valores nulos ( não existem valores nulos no dataframe )
df.isnull().sum()

Data                    0
Preço médio             0
Volume                  0
até 150 g               0
até 300 g               0
até 425 g               0
Total de sacolas        0
Sacolas pequenas        0
Sacolas grandes         0
Sacolas extragrandes    0
Tipo                    0
Ano                     0
Cidade/Região           0
Data padrão BR          0
dtype: int64

### **Criação de novas colunas, extraindo informação com groupby**

In [None]:
''' A coluna de receita é calculada por meio da qtd. de 
abacates vendidos X preço médio (aplicamos arredondamento de
duas casas decimais)
'''
df['Receita'] = round((df['Volume'].mul(df['Preço médio'])), 2)

In [None]:
'''
Podemos criar colunas de porcentagens de tipo do 
abacate vendido (em relação ao volume total)
'''
df['Porcentagem 150 g'] = (df['até 150 g'] / df['Volume']) * 100
df['Porcentagem 300 g'] = (df['até 300 g'] / df['Volume']) * 100
df['Porcentagem 425 g'] = (df['até 425 g'] / df['Volume']) * 100

In [None]:
df.sample(5)

Unnamed: 0,Data,Preço médio,Volume,até 150 g,até 300 g,até 425 g,Total de sacolas,Sacolas pequenas,Sacolas grandes,Sacolas extragrandes,Tipo,Ano,Cidade/Região,Data padrão BR,Receita,Porcentagem 150 g,Porcentagem 300 g,Porcentagem 425 g
6406,2017-01-29,1.29,168252.2,1391.78,100681.06,5482.22,60697.14,53182.31,6877.73,637.1,conventional,2017,GrandRapids,29/01/2017,217045.34,0.827199,59.839372,3.258335
13844,2016-03-27,1.33,30826.41,1420.43,16074.89,1.65,13329.44,88.94,13240.5,0.0,organic,2016,Portland,27/03/2016,40999.13,4.607835,52.146487,0.005353
13627,2016-05-29,2.07,10738.68,622.97,3962.86,5.06,6147.79,5229.58,918.21,0.0,organic,2016,Philadelphia,29/05/2016,22229.07,5.801179,36.902673,0.047119
11288,2015-05-31,1.49,10940.85,2933.55,6895.9,0.0,1111.4,1111.4,0.0,0.0,organic,2015,SanDiego,31/05/2015,16301.87,26.812816,63.028924,0.0
5433,2016-07-03,0.93,613097.67,288161.65,142383.7,71.82,182480.5,116195.87,50307.96,15976.67,conventional,2016,Tampa,03/07/2016,570180.83,47.000937,23.223657,0.011714


In [None]:
df['Cidade/Região'].unique()

array(['Albany', 'Atlanta', 'BaltimoreWashington', 'Boise', 'Boston',
       'BuffaloRochester', 'California', 'Charlotte', 'Chicago',
       'CincinnatiDayton', 'Columbus', 'DallasFtWorth', 'Denver',
       'Detroit', 'GrandRapids', 'GreatLakes', 'HarrisburgScranton',
       'HartfordSpringfield', 'Houston', 'Indianapolis', 'Jacksonville',
       'LasVegas', 'LosAngeles', 'Louisville', 'MiamiFtLauderdale',
       'Midsouth', 'Nashville', 'NewOrleansMobile', 'NewYork',
       'Northeast', 'NorthernNewEngland', 'Orlando', 'Philadelphia',
       'PhoenixTucson', 'Pittsburgh', 'Plains', 'Portland',
       'RaleighGreensboro', 'RichmondNorfolk', 'Roanoke', 'Sacramento',
       'SanDiego', 'SanFrancisco', 'Seattle', 'SouthCarolina',
       'SouthCentral', 'Southeast', 'Spokane', 'StLouis', 'Syracuse',
       'Tampa', 'TotalUS', 'West', 'WestTexNewMexico'], dtype=object)

In [None]:
# Group by (para todas cidades, por ano, retornando a Receita)
df.groupby(['Cidade/Região', 'Ano'])['Receita'].sum()

Cidade/Região     Ano 
Albany            2015     4764513.62
                  2016     7009219.04
                  2017     7947716.82
                  2018     2045274.34
Atlanta           2015    24515462.19
                             ...     
West              2018    91935812.47
WestTexNewMexico  2015    32242475.25
                  2016    36941988.37
                  2017    42162256.54
                  2018    10218699.01
Name: Receita, Length: 216, dtype: float64

In [None]:
# Poderíamos observar o groupby apenas para uma cidade, por exemplo
seattle = df.loc[df['Cidade/Região'] == 'Seattle']
seattle.groupby(['Ano'])['Receita'].sum()

Ano
2015    33574695.91
2016    37881884.19
2017    43265376.61
2018    10457168.61
Name: Receita, dtype: float64

In [None]:
# Qual o preço médio por cidade (com três casas decimais)?
round(df.groupby(['Cidade/Região'])['Preço médio'].mean(), 3)

Cidade/Região
Albany                 1.561
Atlanta                1.338
BaltimoreWashington    1.534
Boise                  1.348
Boston                 1.531
BuffaloRochester       1.517
California             1.395
Charlotte              1.606
Chicago                1.557
CincinnatiDayton       1.209
Columbus               1.253
DallasFtWorth          1.086
Denver                 1.219
Detroit                1.276
GrandRapids            1.505
GreatLakes             1.339
HarrisburgScranton     1.513
HartfordSpringfield    1.819
Houston                1.048
Indianapolis           1.314
Jacksonville           1.511
LasVegas               1.381
LosAngeles             1.216
Louisville             1.287
MiamiFtLauderdale      1.428
Midsouth               1.405
Nashville              1.212
NewOrleansMobile       1.305
NewYork                1.728
Northeast              1.602
NorthernNewEngland     1.477
Orlando                1.506
Philadelphia           1.632
PhoenixTucson          1.224


In [None]:
# Aproveitando a pesquisa anterior, quais os menores preços médios?
media_preco = (round(df.groupby(['Cidade/Região'])['Preço médio'].mean(), 3))
media_preco.nsmallest(5)

Cidade/Região
Houston             1.048
DallasFtWorth       1.086
SouthCentral        1.101
CincinnatiDayton    1.209
Nashville           1.212
Name: Preço médio, dtype: float64

In [None]:
# Por outro lado, as cidades com abacates mais caros são...
media_preco.nlargest(5)

Cidade/Região
HartfordSpringfield    1.819
SanFrancisco           1.804
NewYork                1.728
Philadelphia           1.632
Sacramento             1.622
Name: Preço médio, dtype: float64

### **Próxima seção!**