<center><strong><h1>
    ADA FINAL PROJECT II </h1></strong></center>

<center>
<img src="https://i.postimg.cc/G3vX5dvW/new-product-sales-turn-innovation-into-growth-4x.png" width="600" alt="cognitiveclass.ai logo"  /></center>

# Project Scope

## Introdução

Na área de Ciência de dados, é comum o **manuseio, organização, transformação e extração** de conhecimento de um **grande volume de dados**. Neste projeto, seremos responsável por **coletar dados, armazená-los em diferentes bases de dados** e realizar uma **análise exploratória de dados** de uma empresa exportadora de produtos. 

Para isso, iremos acesso a um servidor que transmite dados em JSON (via localhost:3000) com o seguinte template:
- **id:** Identificação da transação realizada.
- **time:** data da transação (Unix Timestamp).
- **prod_0 – prod_7:** quantidade de produtos comprados (em unidades).
- **prod_8 – prod_20:** quantidade de produtos comprados (em kg).


### Objetivo Principal

Realizar uma **análise de dados** afim de avaliar como as **vendas de uma carteira de produtos ou serviços** podem gerar ***insights*** ao negócio, buscando propor soluções ou informações que apoiarão a tomada de decisão dos gestores da empresa

### Objetivos Secundários

**Para objetivos secundários, esperamos que nossas análises respondam os seguintes questionamentos:**
- Quais produtos tiveram maiores índices de vendas? 
- Qual foi o melhor mês para vendas? Quanto foi ganho naquele mês?
- Qual foi o melhor ano para vendas? Quanto foi ganho naquele ano?
- Qual foi a média/max/min dos preços de cada produto?
- Existe alguma correlação entre produtos vendidos?
- Quais indicações poderiam ser levantadas?


## Imports

In [None]:
import pandas as pd
import numpy as np
import requests
import datetime 
import random

import matplotlib.pyplot as plt
import seaborn as sns
%matplotlib inline 

import warnings

In [None]:
# show all Columns
pd.set_option("display.max_columns", None)

#  warnings package to suppress warnings
warnings.filterwarnings('ignore')

# Display a pandas DataFrame with a given format using:
pd.options.display.float_format = '{:.2f}'.format

## Main Fuctions

In [None]:
dict_price = {}
df_concat = pd.DataFrame()

In [None]:
# Function to request the api created
def request_api (x:str):
    '''
    x: str <- link da API
    '''
    exemple = requests.get(x)
    dados = exemple.json()
    df = pd.json_normalize(dados)
    df.iloc[:,2:] = df.iloc[:,2:].abs()

    return df

In [None]:
# getting a list of generated products (columns):
def prod_in_columns():
    global products
    products = df_api.columns
    products = products[2:]
    return products

# transforming prod_0 – prod_7 into integer, because quantity of products purchased is in units:
def integer_prod():
    for i in products:
        for j in range(8):
            if i == f'prod_{j}':
                df_api[i] = df_api[i].apply(np.floor)
    

# creating random prices for items for the first time
def price_products():    
    for i in products:
        if i not in dict_price.keys():
            # dict_price{   Prod:   [ Preço(t),             Preço(t+1),  M(t-1),     M(t)} 
            #                           [0]                     [1]        [2]       [3]      
            dict_price[i] = [round(random.uniform(5,50),2),   None,     None,     None]            
            dict_price[i][3] = df_api[i].mean()
            dict_price[i][1] = dict_price[i][0] 
        else:
            dict_price[i][0] = dict_price[i][1]
            dict_price[i][2] = dict_price[i][3]
            dict_price[i][3] = df_api[i].mean()
            if dict_price[i][2] != 0:
                v = ((dict_price[i][3] - dict_price[i][2]) / dict_price[i][2])
            else:
                v = 0            
            fv = 0.5 + (1 / (1 + np.exp(-v)))
            pt = dict_price[i][0]
            dict_price[i][1] = fv * pt            
    

# apply the unit price created into the main DataFrame
def unit_price():
    for i in products:
        indice_column = df_api.columns.get_loc(i)
        indice_column += 1
        df_api.insert(indice_column,f'{i}_unit_price',dict_price[i][0])
    

# creating a column with profits (quantity x unit price)
def prod_profit():
    for i in products:
        indice_column = df_api.columns.get_loc(i)
        indice_column += 2
        df_api.insert(indice_column,f'{i}_revenue',(df_api[i]*df_api[f'{i}_unit_price']))
        df_api[f'{i}_revenue'] = df_api[f'{i}_revenue'].apply(lambda x: round(x,2))
    

# concatenating the dataframes generated from the API
def concat_api():
    global df_concat
    df_concat = pd.concat([df_concat, df_api], axis=0, join='outer')
    df_concat= df_concat.reset_index(drop=True)
    

In [None]:
# Creating Data Bases

def database_all_sells():
    global df_all_sells
    
    df_id_date = df_concat.iloc[:,:2]
    df_all_sells = pd.concat([df_id_date, df_concat.iloc[:,2::3]], axis=1, join='outer')    
    
    return df_all_sells.to_csv('df_all_sells.csv')

def database_monthly_sells():
    global df_monthly_sells, df_prod
    
    df_id_date = df_concat.iloc[:,:2]
    df_prod = pd.concat([df_id_date, df_concat.iloc[:,2::3]], axis=1, join='outer')
    df_monthly_sells = df_prod.groupby(pd.Grouper(key='date', freq='M')).sum()    
    
    return df_monthly_sells.to_csv("df_monthly_sells.csv")

def database_weekly_price():
    global df_weekly_price 
    
    df_id_date = df_concat.iloc[:,:2]
    df_prod_price = pd.concat([df_id_date, df_concat.iloc[:,3::3]], axis=1, join='outer')
    df_prod_price.insert(0,'Year', df_prod_price['date'].dt.isocalendar().year)
    df_prod_price.insert(1,'Week', df_prod_price['date'].dt.isocalendar().week)
    df_weekly_price = df_prod_price.groupby(pd.Grouper(key='date', freq='W')).max()
    df_weekly_price = df_weekly_price.drop(columns=['id'])
    
    return df_weekly_price.to_csv("df_weekly_price.csv")

def database_monthly_revenue():
    global df_monthly_revenue 
    
    df_id_date = df_concat.iloc[:,:2]
    df_prod_revenue = pd.concat([df_id_date, df_concat.iloc[:,4::3]], axis=1, join='outer')
    df_monthly_revenue = df_prod_revenue.groupby(pd.Grouper(key='date', freq='M')).sum()
    df_monthly_revenue.columns = df_prod.columns[2:]
    df_monthly_revenue['balance'] = df_monthly_revenue.iloc[:,:].sum(axis = 1)
        
    return df_monthly_revenue.to_csv("df_month_revenue.csv")

def database_consolidate():
    global  df_consolidate   
    
    df_consolidate = df_monthly_revenue.T
    df_consolidate.drop(['balance'],inplace=True)
    df_consolidate['balance'] = df_consolidate.iloc[:,:].sum(axis = 1)
    df_consolidate.index.name = 'product'

    return df_consolidate.to_csv("df_consolidate.csv")

## Running the Code


In [None]:
# IMPORTANT: Use df_api as variable
for i in range(200):
    df_api = request_api('http://localhost:3000/api/ep1')
    prod_in_columns()
    integer_prod()
    price_products()
    unit_price()
    prod_profit()
    concat_api()
    
df_concat['date']= pd.to_datetime(df_concat['date'], unit='s')  

database_all_sells()
database_monthly_sells()
database_weekly_price()
database_monthly_revenue()
database_consolidate()

## Workflow

### Part I - Creating DataFrame and Data Wrangling

In [None]:
# Function to request the api created
def request_api (x:str):
    '''
    x: str <- link da API
    '''
    exemple = requests.get(x)
    dados = exemple.json()
    df = pd.json_normalize(dados)
    df.iloc[:,2:] = df.iloc[:,2:].abs()

    return df

In [None]:
# creating table and putting a week list:
df_api = request_api('http://localhost:3000/api/ep1')

In [None]:
df_api.shape

In [None]:
df_api.head()

In [None]:
# getting a list of generated products (columns):
def prod_in_columns():
    global products
    products = df_api.columns
    products = products[2:]
    return products

In [None]:
prod_in_columns()

In [None]:
# transforming prod_0 – prod_7 into integer, because quantity of products purchased is in units:
def integer_prod():
    for i in products:
        for j in range(8):
            if i == f'prod_{j}':
                df_api[i] = df_api[i].apply(np.floor)
    return


In [None]:
integer_prod()

In [None]:
df_api.head()

In [None]:
# creating random prices for items for the first time
def price_products():    
    for i in products:
        if i not in dict_price.keys():
            # dict_price{   Prod:   [ Preço(t),             Preço(t+1),  M(t-1),     M(t)} 
            #                           [0]                     [1]        [2]       [3]      
            dict_price[i] = [round(random.uniform(5,50),2),   None,     None,     None]            
            dict_price[i][3] = df_api[i].mean()
            dict_price[i][1] = dict_price[i][0] 
        else:
            dict_price[i][0] = dict_price[i][1]
            dict_price[i][2] = dict_price[i][3]
            dict_price[i][3] = df_api[i].mean()
            if dict_price[i][2] != 0:
                v = ((dict_price[i][3] - dict_price[i][2]) / dict_price[i][2])
            else:
                v = 0            
            fv = 0.5 + (1 / (1 + np.exp(-v)))
            pt = dict_price[i][0]
            dict_price[i][1] = fv * pt            
    return

In [None]:
price_products()

In [None]:
dict_price

In [None]:
# apply the unit price created into the DataFrame
def unit_price():
    for i in products:
        indice_column = df_api.columns.get_loc(i)
        indice_column += 1
        df_api.insert(indice_column,f'{i}_unit_price',dict_price[i][0])
    return

In [None]:
unit_price()

In [None]:
 df_api.head()

In [None]:
# creating a column with profits (quantity x unit price)
def prod_profit():
    for i in products:
        indice_column = df_api.columns.get_loc(i)
        indice_column += 2
        df_api.insert(indice_column,f'{i}_revenue',(df_api[i]*df_api[f'{i}_unit_price']))
        df_api[f'{i}_revenue'] = df_api[f'{i}_revenue'].apply(lambda x: round(x,2))
    return

In [None]:
prod_profit()

In [None]:
df_api.tail()

### Part II - Concatenating DataFrames

In [None]:
# concatenando os dataframes gerados a partir da API
def concat_api():
    global df_concat
    df_concat = pd.concat([df_concat, df_api], axis=0, join='outer')
    df_concat= df_concat.reset_index(drop=True)
    return

In [None]:
concat_api()

In [None]:
df_concat.tail(5)

In [None]:
df_concat['date'] = df_concat['date'].apply(lambda x: datetime.datetime.fromtimestamp(x))

### Part III -  Creating Data Bases

#### Separating specific columns from the main DataFrame

In [None]:
df_concat.shape

In [None]:
df_concat.head()

Creating a DataFrame only with 'id' and 'date'

In [None]:
df_id_date = df_concat.iloc[:,:2]

In [None]:
df_id_date.head()

Creating a DataFrame only with product's transaction data

In [None]:
df_prod = pd.concat([df_id_date, df_concat.iloc[:,2::3]], axis=1, join='outer')

In [None]:
df_prod.shape

In [None]:
df_prod.head()

Creating a DataFrame only with product's unit price data

In [None]:
df_prod_price = pd.concat([df_id_date, df_concat.iloc[:,3::3]], axis=1, join='outer')

In [None]:
df_prod_price.head()

Creating a DataFrame only with the product's revenue data

In [None]:
df_prod_revenue = pd.concat([df_id_date, df_concat.iloc[:,4::3]], axis=1, join='outer')

In [None]:
df_prod_revenue.head()

#### Database with all transactions

In [None]:
def database_all_sells():
    global df_all_sells
    
    df_id_date = df_concat.iloc[:,:2]
    df_all_sells = pd.concat([df_id_date, df_concat.iloc[:,2::3]], axis=1, join='outer')    
    
    return df_all_sells.to_csv('df_all_sells.csv')

In [None]:
database_all_sells()

In [None]:
df_all_sells.head()

#### Database with total transactions by month

In [None]:
def database_monthly_sells():
    global df_monthly_sells, df_prod
    
    df_id_date = df_concat.iloc[:,:2]
    df_prod = pd.concat([df_id_date, df_concat.iloc[:,2::3]], axis=1, join='outer')
    df_monthly_sells = df_prod.groupby(pd.Grouper(key='date', freq='M')).sum()    
    
    return df_monthly_sells.to_csv("df_monthly_sells.csv")

In [None]:
database_monthly_sells()

In [None]:
df_monthly_sells.head()

#### Database with weekly price of products, in R$.

In [None]:
def database_weekly_price():
    global df_weekly_price 
    
    df_id_date = df_concat.iloc[:,:2]
    df_prod_price = pd.concat([df_id_date, df_concat.iloc[:,3::3]], axis=1, join='outer')
    df_prod_price.insert(0,'Year', df_prod_price['date'].dt.isocalendar().year)
    df_prod_price.insert(1,'Week', df_prod_price['date'].dt.isocalendar().week)
    df_weekly_price = df_prod_price.groupby(pd.Grouper(key='date', freq='W')).max()
    df_weekly_price = df_weekly_price.drop(columns=['id'])
    
    return df_weekly_price.to_csv("df_weekly_price.csv")

In [None]:
database_weekly_price()

In [None]:
df_weekly_price.head()

#### Database with total monthly revenue, in R$.

In [None]:
def database_monthly_revenue():
    global df_monthly_revenue 
    
    df_id_date = df_concat.iloc[:,:2]
    df_prod_revenue = pd.concat([df_id_date, df_concat.iloc[:,4::3]], axis=1, join='outer')
    df_monthly_revenue = df_prod_revenue.groupby(pd.Grouper(key='date', freq='M')).sum()
    df_monthly_revenue.columns = df_prod.columns[2:]
    df_monthly_revenue['balance'] = df_monthly_revenue.iloc[:,:].sum(axis = 1)
        
    return df_monthly_revenue.to_csv("df_month_revenue.csv")


In [None]:
database_monthly_revenue()

In [None]:
df_monthly_revenue.head()

#### Database with consolidadte

In [None]:
def database_consolidate():
    global  df_consolidate   
    
    df_consolidate = df_monthly_revenue.T
    df_consolidate.drop(['balance'],inplace=True)
    df_consolidate['balance'] = df_consolidate.iloc[:,:].sum(axis = 1)
    df_consolidate.index.name = 'product'

    return df_consolidate.to_csv("df_consolidate.csv")

In [None]:
database_consolidate()

In [None]:
df_consolidate.head(20)

## Exploratory Data Analysis (EDA)

### Variáveis utilizadas

- **df_concat** - Tabela principal com todos os dados obtidos e concatenados
- **df_all_sells** - Tabela com o volume de vendas totais
- **df_monthly_sells** - Tabela com o volume agrupado por mês
- **df_weekly_price** - Tabela com os preços semanais de cada produto
- **df_monthly_revenue** - Tabela com a receita dos produtos vendidos agrupado em meses
- **df_consolidate** - Tabela com a receita consolidada agrupada por produtos

In [None]:
# Main DataFrame
df_concat.head()

In [None]:
# DataFrame with all transactions
df_all_sells.head()

In [None]:
# DataFrame with all transactions by month
df_monthly_sells.head()

In [None]:
# DataFrame with all prices by week
df_weekly_price.head()

In [None]:
# DataFrame with the revenue by month
df_monthly_revenue.head()

In [None]:
# DataFrame with the product as row and revenue by month as column
df_consolidate.head()

### Informações Gerais

In [None]:
# Seprando produtos a unidade (unid) e a quilograma (kg)
a=[] # lista produtos a unidade
b=[] # lista produtos a kg
for i in range(21):    
    if i <= 7:
        if f'prod_{i}'in dict_price.keys():
            a.append(f'prod_{i}')
    else:
        if f'prod_{i}'in dict_price.keys():
            b.append(f'prod_{i}') 

In [None]:
print()
print('INFORMAÇÕES  GERAIS')
print()
print(
    f'Números de produtos comercializados: {len(dict_price.keys())}\n'
    f'Total de números de pedidos: {df_all_sells.shape[0]} \n'
    f'Data inicial: {df_all_sells.iloc[0, 1].strftime("%m/%d/%Y")}\n'
    f'Data final: {df_all_sells.iloc[-1, 1].strftime("%m/%d/%Y")} \n'
    f'Produtos comercializados a unidade (unid): {a} \n'
    f'Produtos comercializados a quilogramas (Kg): {b}'
    )
print()


### Análise dos Dados

#### Quais as informações sobre as quantidades de produtos vendidos?

In [None]:
df_sum_sells = pd.DataFrame(df_all_sells.iloc[:,2:].sum())
df_sum_sells = df_sum_sells.sort_values(by=0)

plt.figure(figsize=(16,6), dpi=100)

plt.subplot(1, 2, 1)  
plt.xticks(rotation=0)
ax = sns.barplot(y = df_sum_sells.index[:len(a)], x = df_sum_sells.iloc[:len(a),0], data = df_sum_sells, palette="Set2")
ax.bar_label(ax.containers[0], fmt = '%d')
plt.title( "Produtos vendidos por Unidade (Unid)" , fontsize=20, pad=10) 
plt.ylabel( "Produtos" , size = 12 )
plt.xlabel( "Quantidade de Vendas (unid)" , size = 12 ) 
plt.ticklabel_format(style='plain', axis='x')


plt.subplot(1, 2, 2) 
plt.xticks(rotation=0)
ax = sns.barplot(y = df_sum_sells.index[len(a):], x = df_sum_sells.iloc[len(a):,0], data = df_sum_sells,  palette="Set2")
ax.bar_label(ax.containers[0], fmt = '%d')
plt.title( "Produtos vendidos por Volume (Kg)" , fontsize=20, pad=10 ) 
plt.ylabel( "Produtos" , size = 12 )
plt.xlabel( "Quantidade de Vendas (kg)" , size = 12 ) 
plt.ticklabel_format(style='plain', axis='x')

plt.show()

In [None]:
colors = sns.color_palette("Set2")
plt.figure(figsize=(16,6), dpi=100)

plt.subplot(1, 2, 1)  
plt.pie(df_sum_sells.iloc[:len(a),0], labels = df_sum_sells.index[:len(a)], autopct='%.0f%%', colors = colors)
plt.ylabel("", size = 12)
plt.xlabel("Porcentagem de vendas", size = 12)
plt.title("Produtos vendidos por Unidade (Unid)", fontsize=20, pad=10)

plt.subplot(1, 2, 2) 
plt.pie(df_sum_sells.iloc[len(a):,0], labels = df_sum_sells.index[len(a):], autopct='%.0f%%', colors = colors)
plt.ylabel("", size = 12)
plt.xlabel("Porcentagem de vendas", size = 12)
plt.title("Produtos vendidos por Volume (Kg)", fontsize=20, pad=10)

plt.show()

In [None]:
def sells_prod(prod):
    df = df_monthly_sells.copy()
    df['Year'] = df.index.year
    df['Month'] = df.index.month
    df = df.pivot('Month','Year', prod)
    plt.figure(dpi=100, figsize=(10,7))
    plt.title(f'Vendas {prod}', fontsize=20, pad=20)
    sns.heatmap(df, fmt = 'g',  annot = True, cmap = 'Blues')
    
    return plt.show()

In [None]:
sells_prod('prod_1')

#### Quais são os produtos com maiores receitas?

In [None]:
df_top_10_prod = df_consolidate.sort_values(ascending=False, by='balance')

In [None]:
plt.figure(dpi=100, figsize=(30,40))
ax = df_top_10_prod.iloc[:10,-1].plot(kind='bar', figsize=(14,8))
ax.bar_label(ax.containers[0], fmt = '%d')
plt.ticklabel_format(style='plain', axis='y')
plt.xticks(rotation=45)
plt.title('Produtos ordenados por receita', fontsize=20, pad=20)

plt.show()

In [None]:
plt.figure(dpi=100, figsize=(10,7))

plt.pie(df_top_10_prod['balance'], labels = df_top_10_prod.index, autopct='%.0f%%', colors = colors)
plt.ylabel("", size = 12)
plt.xlabel("", size = 12)
plt.title("Produdos por Receita", fontsize=20, pad=10)

plt.show()

#### Existe alguma correlação entre produtos vendidos?

In [None]:
sns.set_style("whitegrid")
plt.figure(dpi=100, figsize=(24, 18))
sns.heatmap(df_all_sells.corr(), annot=True, cmap="Blues") 
plt.title("Avaliação da Correlação entre os produtos vendidos", fontsize=30, pad=20) # title
plt.xticks(fontsize=15) 
plt.yticks(fontsize=15);

#### Qual foi o melhor mês para vendas? Quanto foi ganho naquele mês?

In [None]:
top_10_month = df_monthly_revenue.sort_values(ascending=False, by='balance')

In [None]:
top_10_month.iloc[:10,:]

In [None]:
plt.figure(dpi=100, figsize=(30,40))

ax = top_10_month.iloc[:10,:].plot(kind='bar', figsize=(14,8))

plt.ticklabel_format(style='plain', axis='y')
plt.xticks(rotation=45)

plt.show()

In [None]:
plt.figure(dpi=100, figsize=(8,6))
df_monthly_revenue.iloc[1:,:-1].plot(kind='line')
plt.title(f'Variação de receita dos produtos', fontsize=20, pad=20)
plt.show()

#### Qual foi o melhor ano para vendas? Quanto foi ganho naquele ano?

In [None]:
def df_year_revenue():
    global df_year_revenue
    
    df_id_date = df_concat.iloc[:,:2]
    df_prod_revenue = pd.concat([df_id_date, df_concat.iloc[:,4::3]], axis=1, join='outer')
    df_year_revenue = df_prod_revenue.groupby(pd.Grouper(key='date', freq='Y')).sum()
    df_year_revenue.columns = df_prod.columns[2:]
    df_year_revenue['balance'] = df_year_revenue.iloc[:,:].sum(axis = 1)
        
    return df_year_revenue

In [None]:
df_year_revenue = df_year_revenue()

In [None]:
df_year_revenue

In [None]:
sns.barplot(y = 'balance', x = df_year_revenue.index.year , data = df_year_revenue )
plt.xticks(rotation=0)
plt.ticklabel_format(style='plain', axis='y')
plt.title(f'Balanço Anual', fontsize=20, pad=20)
plt.show()

#### Qual foi a média/max/min dos preços de cada produto?

In [None]:
df_weekly_price.iloc[:,2:].describe()

In [None]:
def var_price(prod_unit_price):
    plt.figure(dpi=100, figsize=(8,6))
    sns.lineplot(data=df_weekly_price, y=prod_unit_price, x=df_weekly_price.index, color = 'blue')
    plt.title(f'Variação {prod_unit_price}', fontsize=20, pad=20)
    plt.show()

In [None]:
var_price('prod_15_unit_price')

## FIM

<center>
<img src="https://i.postimg.cc/MTX0VKmf/Thank-You-Retro-Background-Instagram-Post.png" width="600" alt="cognitiveclass.ai logo"  /></center>