In [None]:
import pandas as pd
import datetime as dt
import matplotlib.pyplot as plt
import numpy as np
df = pd.read_csv('train.csv')

In [None]:
# vizualição inicial para checar possiveis erros e planejar tratativas
df.info()

In [None]:
# tratamento de valores nulos
df[df['Postal Code'].isnull()]

In [None]:
df.loc[(df['City'] == 'Burlington') & (df['State'] == 'Vermont') & (df['Postal Code'].isnull()),'Postal Code' ] = 5401

In [None]:
df[(df['City'] =='Burlington') & (df['State'] == 'Vermont')]

In [None]:
# verificando se ainda existe valores nulos
df.info()

In [None]:
# Pergunta de négocio 1, Vendas por ano pelas colunas Ano e Vendas

In [None]:
#transformando Dtypes object em date para podermos trabalhar com data

df['Order Date'] = pd.to_datetime(df['Order Date'],format= "%d/%m/%Y")
df['Ship Date'] = pd.to_datetime(df['Ship Date'],format= "%d/%m/%Y")

In [None]:
df['Ano'] = df['Order Date'].dt.year

In [None]:
vendas_ano = df.groupby('Ano')['Sales'].sum()

In [None]:
fig,ax = plt.subplots()

ax.bar(vendas_ano.index, vendas_ano.values)
ax.set_title('Vendas por ano',fontsize = 20)
ax.set_ylabel('Valores em $')
ax.xaxis.set_ticks([2015,2016,2017,2018])
plt.show()


In [None]:
# Pergunta de négocio 2, vendas por mês

In [None]:
# criando a coluna mês já que não temos ela previamente
df['Mes'] = df['Order Date'].dt.month

In [None]:
df.head()

In [None]:
# groupy por mês e por ano
vendas_mes = df.groupby(['Mes','Ano'])['Sales'].sum().reset_index()

In [None]:
#filtrando valores de 2015 apenas por exemplo
vendas_mes[vendas_mes['Ano'] == 2015]



In [None]:
#tornando isso visual

fig,ax = plt.subplots(figsize=(9,4))

ax.bar(vendas_mes[vendas_mes['Ano'] == 2015].Mes.values, vendas_mes[vendas_mes['Ano'] == 2015].Sales.values)
ax.set_title('Vendas por Mês',fontsize = 20)
ax.set_ylabel('Valores em $')
plt.show()

In [None]:
#Grafico de vendas por mês duarante o ano
fig,ax = plt.subplots(figsize=(16,4))

wid = 0.2

ax.bar(vendas_mes[vendas_mes['Ano'] == 2015].Mes.values-wid-wid/2, vendas_mes[vendas_mes['Ano'] == 2015].Sales.values, color = '#00c698',label = '2015',width=wid)
ax.set_title('Vendas por Mês',fontsize = 20)
ax.set_ylabel('Valores em $')

ax.bar(vendas_mes[vendas_mes['Ano'] == 2016].Mes.values-wid/2, vendas_mes[vendas_mes['Ano'] == 2016].Sales.values, color = '#00a9b5',label = '2016',width=wid)
ax.bar(vendas_mes[vendas_mes['Ano'] == 2017].Mes.values+wid/2, vendas_mes[vendas_mes['Ano'] == 2017].Sales.values, color = '#008ac5',label = '2017',width=wid)
ax.bar(vendas_mes[vendas_mes['Ano'] == 2018].Mes.values+wid+wid/2, vendas_mes[vendas_mes['Ano'] == 2018].Sales.values, color = '#0069c0',label = '2018',width=wid)

ax.xaxis.set_ticks(np.arange(1,13))
ax.set_xticklabels(['Jan','Fev','Mar','Abr','Mai','Jun','Jul','Ago','Set','Out','Nov','Dez'])
ax.tick_params(axis='x', labelsize = 10)

ax.legend()

plt.show()

In [None]:
# pergunta de negocio 3, quantidade mais vendida por categoria

In [None]:
#ordenando por groupby
categoria = df.groupby(['Category','Ano'])['Sales'].sum().reset_index()

In [None]:
#Reaproveitando lógica do gráfico anterior
fig,ax = plt.subplots(figsize=(16,4))

wid = 0.2

ax.bar(categoria[categoria['Category'] == 'Furniture'].Ano.values-wid,categoria[categoria['Category'] == 'Furniture'].Sales.values,
       color = '#00c698',label='Furniture',width=wid)
ax.bar(categoria[categoria['Category'] == 'Office Supplies'].Ano.values,categoria[categoria['Category'] == 'Office Supplies'].Sales.values,
       color = '#00a9b5',label='Office Supplies',width=wid)
ax.bar(categoria[categoria['Category'] == 'Technology'].Ano.values+wid,categoria[categoria['Category'] == 'Technology'].Sales.values,
       color = '#008ac5',label='Technology',width=wid)

ax.xaxis.set_ticks([2015,2016,2017,2018])

ax.legend()

plt.show()

In [None]:
# pergunta de negocio 4, produto mais vendido

In [None]:
#novamente o uso do groupby
itens= df.groupby('Product Name')['Sales'].sum().reset_index().sort_values(by='Sales',ascending=False)

In [None]:
#variavel n para visualização dinâmica
n = 10
top_itens = itens.head(n)

In [None]:
#Reaproveitando lógica do gráfico anterior
fig,ax = plt.subplots(figsize=(16,4))


ax.barh(top_itens['Product Name'].values,
        top_itens['Sales'].values,
        align = 'center')

ax.invert_yaxis() #inverter eixo y

plt.show()