# <font color='blue'>Data Science Academy</font>

## <font color='blue'>Fundamentos de Linguagem Python Para Análise de Dados e Data Science</font>

## <font color='blue'>Projeto 2</font>

## <font color='blue'>Análise Exploratória de Dados em Linguagem Python Para a Área de Varejo</font>

In [None]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
import datetime as dt

## Carregando os Dados

In [None]:
# carregamento e visualização de uma amostra do dataframe
df = pd.read_csv('dataset.csv')
df.head()

## Análise Exploratória

In [None]:
# verificando o tipo de dado de cada coluna
df.dtypes

In [None]:
# verificando a existência de duplicatas
df[df.duplicated()]

In [None]:
# verificando a existência de valores nulos
df.isnull().sum()

In [None]:
# resumo estatístico da coluna que contém os valores de vendas
df['Valor_Venda'].describe()

## Pergunta de Negócio 1:

### Qual cidade com maior valor de venda de produtos da categoria 'Office Supplies'?

In [None]:
# filtrando o dataframe para categroria Office Supplies
df_Os = df[df['Categoria'] == 'Office Supplies']
df_Os.head()

In [None]:
# agrupando por cidade com o valor de venda acumulados
df_Os.groupby('Cidade')['Valor_Venda'].sum()

In [None]:
# recuperando a cidade com maior valor acumulado de vendas
cidade_Com_Maior_Venda = df_Os.groupby('Cidade')['Valor_Venda'].sum().idxmax()
print(f'A cidade com maior valor acumulado de vendas é: {cidade_Com_Maior_Venda}')

In [None]:
# conferindo o raning das 5 primeiras cidades em ordem decrescente
df_Os.groupby('Cidade')['Valor_Venda'].sum().sort_values(ascending = False).head()

## Pergunta de Negócio 2:

### Qual o total de vendas por data do pedido?

Demonstre o resultado através de um gráfico de barras.

In [None]:
# filtrando dataframe por data pedido
df_Filtrado_Por_Data = df.groupby('Data_Pedido')['Valor_Venda'].sum()
df_Filtrado_Por_Data.head()

In [None]:
# plotando o gráfico(a data do pedido está sendo tratada como uma variável categórica e não como série temporal.)
plt.figure(figsize = (16, 6))
df_Filtrado_Por_Data.plot(x = 'Data_Pedido', y = 'Valor_Venda', color = 'green')
plt.title('Total de vendas por data do pedido')
plt.plot()

## Pergunta de Negócio 3:

### Qual o total de vendas por estado?

Demonstre o resultado através de um gráfico de barras.

In [None]:
# filtrando o dataframe por estado
df_Filtrado_Por_Estado = df.groupby('Estado')['Valor_Venda'].sum().reset_index()
df_Filtrado_Por_Estado.head(10)

In [None]:
# plotando o gráfico
plt.figure(figsize = (16, 6))
sns.barplot(data = df_Filtrado_Por_Estado,
           x = 'Estado',
           y = 'Valor_Venda',
           ).set(title = 'Vendas por estado')
plt.xticks(rotation = 80)
plt.show()

## Pergunta de Negócio 4:

### Quais são as 10 cidades com maior total de vendas?

Demonstre o resultado através de um gráfico de barras.

In [None]:
# ranking das 10 primeiras cidades com maior valor de venda
df_Ranking_10_cidades = df.groupby('Cidade')['Valor_Venda'].sum().reset_index().sort_values(by = 'Valor_Venda', ascending = False).head(10)
df_Ranking_10_cidades

In [None]:
# plotando o gráfico
plt.figure(figsize = (16,6))
sns.barplot(data = df_Ranking_10_cidades,
           x = 'Cidade',
           y = 'Valor_Venda').set(title = 'Top 10 cidades com maior valor de venda')
plt.show()

## Pergunta de Negócio 5:

### Qual segmento teve o maior total de vendas?

Demonstre o resultado através de um gráfico de pizza.

In [None]:
# argupando o dataframe por Segmento
df_Filtrado_Por_Segmento = df.groupby('Segmento')['Valor_Venda'].sum().reset_index().sort_values(by = 'Valor_Venda', ascending = False)
df_Filtrado_Por_Segmento = df_Filtrado_Por_Segmento
df_Filtrado_Por_Segmento.head()

In [None]:
# função para converter os dados da coluna dos valores de vendas em valores financeiros
import locale

locale.setlocale(locale.LC_ALL, '')

def autopct_format(values):
    def my_format(pct):
        total = sum(values)
        val = int(round(pct * total / 100.0))
        return locale.currency(val, grouping = True)
    return my_format

In [None]:
# plotando o gráfico de pizza
plt.figure(figsize = (16, 6))

plt.pie(df_Filtrado_Por_Segmento['Valor_Venda'],
       labels = df_Filtrado_Por_Segmento['Segmento'],
       autopct = autopct_format(df_Filtrado_Por_Segmento['Valor_Venda']),
       startangle = 90)

centro_Circulo = plt.Circle((0, 0), 0.82, fc = 'white')
fig = plt.gcf()
fig.gca().add_artist(centro_Circulo)

total_vendas = sum(df_Filtrado_Por_Segmento['Valor_Venda'])
total_vendas_formatado = locale.currency(total_vendas, grouping = True)

plt.annotate(text = 'Total de Vendas: ' + total_vendas_formatado, xy = (-0.25, 0))
plt.title('Total de vendas por segmento')
plt.show()

## Pergunta de Negócio 6:

### Qual o total de vendas por Segmento e por Ano?

In [None]:
# visualizando o dataframe e ajustando a coluna de datado do pedido para o formato adequado
df.head()

In [None]:
df['Data_Pedido'] = pd.to_datetime(df['Data_Pedido'], dayfirst = True)
df.dtypes

In [None]:
# extraindo o ano de cada data
df['Ano'] = df['Data_Pedido'].dt.year

In [None]:
df.head()

In [None]:
# filtrando por ano e segmento
df_Filtrado_Por_Ano_E_Segmento = df.groupby(['Ano', 'Segmento'])['Valor_Venda'].sum()
df_Filtrado_Por_Ano_E_Segmento

## Pergunta de Negócio 7:

Os gestores da empresa estão considerando conceder diferentes faixas de descontos e gostariam de fazer uma simulação com base na regra abaixo:

- Se o Valor_Venda for maior que 1000 recebe 15% de desconto.
- Se o Valor_Venda for menor que 1000 recebe 10% de desconto.

### Quantas vendas receberiam 15% de Desconto?

In [None]:
# criando uma nova coluna com as regras acima
df['Desconto'] = np.where(df['Valor_Venda'] > 1000, 0.15, 0.10)
df.head()

In [None]:
# total de registros para cada valor de desconto
df['Desconto'].value_counts()

In [None]:
print('9243 vendas receberiam desconto de 10%, 457 vendas receberiam desconto de 15%.')

## Pergunta de Negócio 8:

### Considere que a empresa decida conceder o desconto de 15% do item anterior. Qual seria a Média do valor de venda antes e depois do desconto?

In [None]:
# criando uma coluna com o valor de venda descontado
df['Valor_Venda_Desconto'] = df['Valor_Venda'] - (df['Valor_Venda'] * df['Desconto'])
df.head()

In [None]:
# filtrando as vendas antes do desconto de 15%
df_Valor_Sem_Desconto = df.loc[df['Desconto'] == 0.15, 'Valor_Venda']

In [None]:
# filtrando as vendas com desconto de 15%
df_Valor_Com_Desconto = df.loc[df['Desconto'] == 0.15, 'Valor_Venda_Desconto']

In [None]:
# calculando a média das vendas antes do desconto
media_Sem_Desconto = df_Valor_Sem_Desconto.mean()

In [None]:
# calculando a média das vendas depois do desconto
media_Com_Desconto = df_Valor_Com_Desconto.mean()

In [None]:
print(f'Média do valor de venda sem desconto: {round(media_Sem_Desconto, 2)}. \
Média do valor de venda com desconto: {round(media_Com_Desconto, 2)}')

## Pergunta de Negócio 9:

### Qual a Média de vendas por Segmento, por Ano e por Mês?

Demonstre o resultado através de gráfico de linha.

In [None]:
# extraindo o mês criando uma nova coluna
df['Mes'] = df['Data_Pedido'].dt.month
df.head()

In [None]:
# agrupando por ano, mes e segmento e calculando estatísticas da coluna venda
df_Agrupado_Ano_Mes_Segmento = df.groupby(['Ano', 'Mes', 'Segmento'])['Valor_Venda'].agg([np.mean, np.sum, np.median])
df_Agrupado_Ano_Mes_Segmento

In [None]:
# plotando o gráfico de linhas
plt.figure(figsize = (12, 6))
sns.set()
fig1 = sns.relplot(kind = 'line',
           data = df_Agrupado_Ano_Mes_Segmento,
           y = 'mean',
           x = 'Mes',
           hue = 'Segmento',
           col = 'Ano',
           col_wrap = 4)
plt.show()

## Pergunta de Negócio 10:

### Qual o total de vendas por categoria e subcategoria, considerando somente as Top 12 subcategorias? 

Demonstre tudo através de um único gráfico.

In [None]:
# agrupando por categoria e subcategoria e obtendo a soma da coluna valor de venda e exibindo somente os 12 primeiros registros
df_Agrupado_Categoria_Subcategoria_Top12 = \
df.groupby(['Categoria', 'SubCategoria']).sum(numeric_only = True).sort_values(by = 'Valor_Venda', ascending =  False).head(12)

In [None]:
# convertendo a coluna Valor_Venda em número inteiro e classificando por categoria
df_Agrupado_Categoria_Subcategoria_Top12 = \
df_Agrupado_Categoria_Subcategoria_Top12[['Valor_Venda']].astype(int).sort_values(by = 'Categoria').reset_index()

In [None]:
df_Agrupado_Categoria_Subcategoria_Top12

In [None]:
df_Soma_Total_Por_Categoria = \
df_Agrupado_Categoria_Subcategoria_Top12.groupby('Categoria').sum(numeric_only = True).reset_index()

In [None]:
df_Soma_Total_Por_Categoria

In [None]:
# convertendo a soma total da coluna Valor_Venda para notação financeira
total_Venda_Por_Categoria = sum(df_Soma_Total_Por_Categoria['Valor_Venda'])
valor_Formato_SomaC = locale.currency(total_Venda_Por_Categoria, grouping = True)

In [None]:
# Listas de cores para categorias
cores_categorias = ['#5d00de',
                    '#0ee84f',
                    '#e80e27']

In [None]:
# Listas de cores para subcategorias
cores_subcategorias = ['#aa8cd4',
                       '#aa8cd5',
                       '#aa8cd6',
                       '#aa8cd7',
                       '#26c957',
                       '#26c958',
                       '#26c959',
                       '#26c960',
                       '#e65e65',
                       '#e65e66',
                       '#e65e67',
                       '#e65e68']

In [None]:
# plotando o gráfico
fig, ax = plt.subplots(figsize = (18, 12))

p1 = ax.pie(df_Soma_Total_Por_Categoria['Valor_Venda'],
      radius = 1,
      labels = df_Soma_Total_Por_Categoria['Categoria'],
      colors = cores_categorias,
      wedgeprops = dict(edgecolor = 'white'))

p2 = ax.pie(df_Agrupado_Categoria_Subcategoria_Top12['Valor_Venda'],
           radius = 0.9,
           labels = df_Agrupado_Categoria_Subcategoria_Top12['SubCategoria'],
           autopct = autopct_format(df_Agrupado_Categoria_Subcategoria_Top12['Valor_Venda']),
           colors = cores_subcategorias,
           labeldistance = 0.7,
           wedgeprops = dict(edgecolor = 'white'),
           pctdistance = 0.65,
           rotatelabels = True)

centro_Circulo =  plt.Circle((0, 0), 0.6, fc = 'white')

fig = plt.gcf()
fig.gca().add_artist(centro_Circulo)
plt.annotate(text =  'Total de Vendas: ' + valor_Formato_SomaC, xy = (-0.2, 0))
plt.title('Total de Vendas por Categoria e top 12 SubCategorias')
plt.show()