**Trabalho 1 de Probabilidade e Estatística (T01) - Prof. Luiz Antônio de Freitas**

* Engenharia de Software
* Pedro Luiz da Costa Silva - RGA: 2018.1906.093-4

2018 - FACOM, UFMS

**Introdução**: O atual trabalho é sobre um Dataset colecionado pelo grupo Hass Avocado Board sobre preços de abacate nos Estados Unidos entre os anos 2004 e 2018. O Dataset contém 14 colunas:

1. *(Sem nome)*: Numera as datas de coleção dos dados (de 0 a 51) para cada estado;
2. *Date*: A data de coleção dos dados;
3. *AveragePrice*: O preço médio diário (para cada tipo de abacate);
4. *TotalVolume*: Quantidade de unidades vendidas;
5. *4096*: Quantidade de unidades com código PLU4096 vendidas;
6. *4225*: Quantidade de unidades com código PLU4225 vendidas;
7. *4770*: Quantidade de unidades com código PLU4770 vendidas;
8. *TotalBags*: Quantidade total de sacolas de abacate vendidas;
9. *SmallBags*: Quantidade de sacolas pequenas de abacate vendidas;
10. *LargeBags*: Quantidade de sacolas grandes de abacate vendidas;
11. *XLargeBags*: Quantidade de sacolas extra-grandes de abacate vendidas;
12. *Type*: Tipo do abacate (convencional ou orgânico);
13. *Year*: Ano da venda;
14. *Region*: Cidades americanas (capitais) correspondentes às regiões de venda.

Assim, faremos um estudo sobre os dados deste dataset.

**Coleção de dados e verificação deles:** Primeiramente, importamos as bibliotecas e os dados:

In [None]:
import numpy as np # álgebra linear
import pandas as pd # entrada de dados
import seaborn as sns # plotagem de gráficos
import pylab as pl #para mudar tamanho de figuras

import os

data = pd.read_csv('../input/avocado-prices/avocado.csv')

print('Dados inicializados.')

Verificando os dados:

In [None]:
#Verifica o tamanho
data.shape

In [None]:
#Imprimindo os dados (10 primeiras linhas)
data.head(10)

In [None]:
#Verifica se existem células não preenchidas
data.isnull().sum()

Portanto, aparentemente, este é um bom conjunto de dados.

**Estudos sobre o dataset**

1. **Distribuição de preços**: Primeiramente, verificaremos a distribuição dos preços de abacate por todo o dataset. Para isso, usaremos a biblioteca *seaborn*.

In [None]:
#Plotando um gráfico de distribuição do tipo KDE (Kernel Density Estimate)
pl.figure(figsize=(10,5))
pl.title("Distribuição tipo KDE - Preços dos abacates")

sns.kdeplot(data.AveragePrice)

Podemos também verificar esta distribuição em um *boxplot*. Nele, metade dos dados se encontram dentro da caixa colorida. A linha no meio da caixa indica a média.

In [None]:
#Gráfico boxplot dos preços de abacate: conventional x organic
pl.figure(figsize=(18,5))
pl.title("Preços de abacates - geral")

sns.boxplot(
    x='AveragePrice',
    data=data
)

#Imprimindo a média dos valores
data["AveragePrice"].mean()

Vamos agora verificar qual tipo de abacate é mais caro, orgânico ou convencional. Para isso, também usamos um *boxplot*.

In [None]:
#Gráfico boxplot dos preços de abacate: conventional x organic
pl.figure(figsize=(18,5))
pl.title("Preços de abacates - comparação entre tipos")

sns.boxplot(
    x='AveragePrice',
    y='type',
    data=data
)

#Obtendo os valores das médias de abacate
data.groupby('type').AveragePrice.mean()

Portanto, podemos ver que os abacates orgânicos são mais caros.

Agora iremos verificar qual região possui os abacates mais caros e os mais baratos.

In [None]:
#Gráfico boxplot dos preços de abacate: conventional x organic
pl.figure(figsize=(18,20))
pl.title("Preços de abacates - comparação entre regiões")

sns.boxplot(
    x='AveragePrice',
    y='region',
    data=data
)

#Abacates mais caros e baratos
print('------ REGIOES COM ABACATES MAIS CAROS ------')

print('\n>>> Geral:\n')
caro1 = data.groupby(['region']).AveragePrice.mean().nlargest(3)
print(caro1)

print('\n>>> Convencionais:\n')
caro2 = data.loc[data['type'] == 'conventional'].groupby(['region']).AveragePrice.mean().nlargest(3)
print(caro2)

print('\n>>> Orgânicos:\n')
caro3 = data.loc[data['type'] == 'organic'].groupby(['region']).AveragePrice.mean().nlargest(3)
print(caro3)

#Abacates mais caros e baratos
print('\n------ REGIOES COM ABACATES MAIS BARATOS ------')

print('\n>>> Geral:\n')
barato1 = data.groupby(['region']).AveragePrice.mean().nsmallest(3)
print(barato1)

print('\n>>> Convencionais:\n')
barato2 = data.loc[data['type'] == 'conventional'].groupby(['region']).AveragePrice.mean().nsmallest(3)
print(barato2)

print('\n>>> Orgânicos:\n')
barato3 = data.loc[data['type'] == 'organic'].groupby(['region']).AveragePrice.mean().nsmallest(3)
print(barato3)

Assim, obtemos as regiões com os abacates mais caros e mais baratos. Além disso, pelo gráfico, percebe-se:
* Regiões como Pittsburgh e Syracuse tiveram pouca variação de preço (pois a caixa central é pequena);
* Regiões como SanFrancisco e PhoenixTucson tiveram muita variação de preço (pois a caixa central é grande);

Dessa forma, para termos uma informação mais recente, façamos o mesmo estudo somente para o ano de 2018.

In [None]:
#Gráfico boxplot dos preços de abacate: conventional x organic
pl.figure(figsize=(18,20))
pl.title("Preços de abacates - comparação entre regiões - 2018")

dataSoh2018 = data.loc[data['year'] == 2018]

sns.boxplot(
    x='AveragePrice',
    y='region',
    data= dataSoh2018 # Restringe para as entradas com ano de 2018.
)

#Abacates mais caros e baratos
print('------ REGIOES COM ABACATES MAIS CAROS ------')

print('\n>>> Geral:\n')
caro1 = dataSoh2018.groupby(['region']).AveragePrice.mean().nlargest(3)
print(caro1)

print('\n>>> Convencionais:\n')
caro2 = dataSoh2018.loc[data['type'] == 'conventional'].groupby(['region']).AveragePrice.mean().nlargest(3)
print(caro2)

print('\n>>> Orgânicos:\n')
caro3 = dataSoh2018.loc[data['type'] == 'organic'].groupby(['region']).AveragePrice.mean().nlargest(3)
print(caro3)

#Abacates mais caros e baratos
print('\n------ REGIOES COM ABACATES MAIS BARATOS ------')

print('\n>>> Geral:\n')
barato1 = dataSoh2018.groupby(['region']).AveragePrice.mean().nsmallest(3)
print(barato1)

print('\n>>> Convencionais:\n')
barato2 = dataSoh2018.loc[data['type'] == 'conventional'].groupby(['region']).AveragePrice.mean().nsmallest(3)
print(barato2)

print('\n>>> Orgânicos:\n')
barato3 = dataSoh2018.loc[data['type'] == 'organic'].groupby(['region']).AveragePrice.mean().nsmallest(3)
print(barato3)

Assim, obtemos os dados mais recentes.

2. **Estudo sobre possíveis correlações entre variáveis**: Primeiramente, geramos alguns *heatmap*s para descobrir possíveis relações entre variáveis.

In [None]:
#Gráfico heatmap
pl.figure(figsize=(15,15))
pl.title("Comparação entre variáveis")

colunas = ['AveragePrice', 'Total Volume', '4046', '4225', '4770', 'Total Bags', 'Small Bags', 'Large Bags', 'XLarge Bags', 'year']
dataCorrigida = np.corrcoef(data[colunas].values.T) # Corrigindo valores 
sns.heatmap(dataCorrigida, annot = True, square = True, annot_kws = {'size':15}, yticklabels = colunas, xticklabels = colunas, cbar = False)

Um *heatmap* nos indica os coeficientes de correlação entre as variáveis (quanto mais próximo é de -1, mais são relacionadas negativamente; de +1, positivamente). Variáveis de coeficientes entre -0.1 e +0.1 são consideradas fracamente relacionadas. O *heatmap* gerado nos mostra que há uma grande correlação entre muitas variáveis. A imagem abaixo mostra a fórmula do cálculo do coeficiente de correlação.

In [None]:
from IPython.display import Image

Image("../input/imagem-correlao-pearson/correlacao-pearson.jpg")

Iremos, aqui, estudar 3 correlações interessantes:

2.1. **Correlação entre "Total Volume" e "Total Bags"**: Coeficiente de correlação 0.96 (alto), o que era de se esperar, pois, pela lógica, como alguns abacates são vendidos em *Bags*, a quantidade de abacates vendidos aumenta proporcionalmente à quantidade de *Bags* vendidas. Façamos um *jointplot* para estudar essa correlação mais a fundo.

In [None]:
#Gráfico jointplot entre "Total Volume" e "Total Bags"

print("Imprimindo o coeficiente de correlação...")
print(data['Total Bags'].corr(data['Total Volume']))

dataVolBags = data.loc[data['Total Bags'] < 20000]

sns.jointplot(x='Total Volume', y='Total Bags', data=dataVolBags, kind='hex', gridsize = 15)

O *jointplot* nos mostra que, principalmente para valores menores da variável "Total Volume" (menores que 50000), as duas variáveis possuem muita correlação.

2.2. **Correlação entre "Small Bags" e "Large Bags"**: Coeficiente de correlação 0.9 (alto), o que, pela lógica, faz sentido: O número de Bags pequenas tende a seguir as mesmas variações que os de Bags grandes. Fazendo um *jointplot*:

In [None]:
#Gráfico jointplot entre "Small Bags" e "Large Bags"

print("Imprimindo o coeficiente de correlação...")
print(data['Small Bags'].corr(data['Large Bags']))

dataSmallLarge = data.loc[data['Small Bags'] < 20000].loc[data['Large Bags'] < 20000]

sns.jointplot(x='Large Bags', y='Small Bags', data=dataSmallLarge, kind='hex', gridsize = 15)

Novamente, vimos que há uma forte correlação entre as variáveis, principalmente para valores menores de "Large Bags".

2.3. **Correlação entre "Year" e "Average Price"**: Coeficiente de correlação 0.093 (baixo), o que não era esperado, já que é esperado um aumento de preço com o passar dos anos, o que configuraria um grau de correlação maior. Fazendo um jointplot:

In [None]:
#Gráfico jointplot entre "Year" e "Average Price"

print("Imprimindo o coeficiente de correlação...")
print(data['year'].corr(data['AveragePrice']))

dataYearPrice = data.loc[data['AveragePrice'] < 5]

sns.jointplot(x='AveragePrice', y='year', data=dataYearPrice, kind='hex', gridsize = 15)

Para estudar este resultado mais a fundo, façamos um *boxplot* em relação aos anos e tipos de abacates.

In [None]:
#Gráficos boxplot em relação a anos e tipos
pl.figure(figsize=(5, 5))
pl.title("Boxplot em relação a anos e tipos - convencional")

sns.boxplot(
    x='year',
    y='AveragePrice',
    data= data.loc[data['type'] == "conventional"]
)

anosOrganicos = data.loc[data['type'] == 'organic'].groupby(['year']).AveragePrice.mean()
anosConvencionais = data.loc[data['type'] == 'conventional'].groupby(['year']).AveragePrice.mean()

print("Médias Orgânicos:\n")
print(anosOrganicos)

print("\n\nMédias convencionais:\n")
print(anosConvencionais)


#####################################################3

pl.figure(figsize=(5, 5))
pl.title("Boxplot em relação a anos e tipos - orgânico")

sns.boxplot(
    x='year',
    y='AveragePrice',
    data= data.loc[data['type'] == "organic"]
)


Asim, vemos que nossa hipótese da correlação entre ano e preço não é válida.  Vemos também que, em 2017, ouve uma alta no preço do abacate em relação à 2016 e 2018. De acordo com o site de notícias CNN, isto foi devido à "uma colheita fraca e uma demanda insáciavel por abacates" (https://money.cnn.com/2017/09/09/news/economy/avocado-prices-soar/index.html ). Além disso, o abacate ganhou muita popularidade recentemente nos EUA, principalmente por populações mais jovens (https://www.washingtonpost.com/news/wonk/wp/2015/01/22/the-sudden-rise-of-the-avocado-americas-new-favorite-fruit/?utm_term=.d43cbf7082ae ).

**Conclusão**: Assim, conseguimos obter uma boa visão da flutuação de preços de abacate nos últimos anos, verificando os lugares que são mais baratos e estudando possíveis causas dessas flutuações.