#**Projeto Supply Chain**

*   **[Gustavo Rodrigues Gomes](https://www.linkedin.com/in/gustavo-rodrigues-gomes/)**
*   **[Isloana Karla de França Barros](https://www.linkedin.com/in/isloana-barros-8b3384140/)**
*   Lucas Loiola de Almeida
*   **[Marcos Roldão Xavier](https://www.linkedin.com/in/marcos-rold%C3%A3o-47108028a/)**
*   **[Rafaela Ribeiro de Souza](http://linkedin.com/in/rafaela-souza-/)**
*   **[Tiago de Freitas Faustino](https://www.linkedin.com/in/tiagofaustino91/)**

##**1 Contexto**

A cadeia de suprimentos, aliada à logística, desempenha um papel fundamental no sucesso de qualquer empresa moderna. A capacidade de atender às demandas dos clientes de forma eficiente e agregar valor à experiência de compra está diretamente ligada à eficácia dos processos logísticos.

A logística, como componente essencial da cadeia de suprimentos, é responsável pela coordenação e execução de todas as atividades relacionadas à movimentação física de produtos. Seu foco principal reside na otimização do prazo de entrega, garantindo que os produtos cheguem aos clientes no momento certo e nas condições adequadas. Além disso, a logística abrange aspectos como aquisição, armazenamento e transporte de insumos e produtos, garantindo a integridade e eficiência de toda a cadeia.

Por sua vez, a gestão eficaz da cadeia de suprimentos engloba uma visão estratégica e abrangente de todos os processos envolvidos, desde a obtenção de matérias-primas até a entrega final ao consumidor. Isso inclui a coordenação de fornecedores, distribuidores, fabricantes e varejistas, visando maximizar a eficiência operacional, reduzir custos e melhorar a satisfação do cliente.

Assim, a interligação entre logística e cadeia de suprimentos representa não apenas um aspecto operacional, mas também uma vantagem competitiva crucial para as empresas que buscam se destacar em um mercado globalizado e dinâmico.

Diante deste panorama, realizaremos, a seguir uma Análise Exploratória de Dados no contexto de Supply Chain, sobre uma startup Indiana.

##**2 Entendimento dos Dados**

>
Para este projeto, realizamos uma análise de dados da cadeia de suprimentos com base em um conjunto de dados obtido no Kaggle [1] e salvo no GitHub. O conjunto de dados consiste em 100 linhas e 24 colunas, oferecendo insights sobre vários aspectos da logística de transporte, avaliação de riscos na cadeia de suprimentos, segmentação de clientes e otimização de prazos de entrega.

É importante destacar que os dados analisados pertencem a uma empresa operando no mercado indiano, com isso assumimos como premissa que as receitas estão expressas na moeda local, a Rupia indiana (₹). Esta contextualização é essencial para compreendermos os insights obtidos e sua aplicabilidade no específico contexto do mercado de beleza na Índia.
>
Os dados disponíveis na base que utilizaremos são:

>>
  > -->	**Tipo de Produto**: O tipo de produto associado a dados específicos na
cadeia de abastecimento.
>>
  > -->	**SKU (Stock Keeping Unit)**: Código exclusivo utilizado para identificar um determinado produto.
>>
  > -->	**Preço**: O preço do produto ou item na cadeia de abastecimento.
>>
  > -->	**Disponibilidade**: Informações sobre a disponibilidade do produto.
>>
  > -->	**Número de produtos Vendidos**: O número de produtos que foram vendidos em um determinado período de tempo.
>>
  > -->	**Receita Gerada**: Receita total gerada pelas vendas de produtos em um determinado período de tempo.
>>
  > -->	**Dados demográficos do cliente**: informações sobre as características do cliente, como idade, sexo, localização geográfica, etc.
>>
  > -->	**Níveis de estoque**: O número de produtos ainda disponíveis em estoque em um determinado momento.
>>

>>
  > -->	**Quantidade dos pedidos**: O número de produtos pedidos em um pedido ou remessa.
>>
  > -->	**Tempo de envio**: O tempo necessário para enviar produtos do armazém ou centro de distribuição aos clientes.
>>
  > -->	**Transportadoras**: Empresas ou serviços usados para enviar produtos aos clientes.
>>
  > -->	**Custos de Envio**: Custos associados ao envio de produtos, incluindo taxas de entrega e taxas adicionais.
>>
  > -->	**Nome do Fornecedor**: Nome do fornecedor ou fornecedor que fornece produtos ou materiais à empresa.
>>
  > -->	**Localização**: A localização física associada aos dados na cadeia de abastecimento, como a localização de um armazém ou centro de distribuição.
>>
  > -->	**Lead Time**: O tempo necessário para obter produtos ou materiais de um determinado fornecedor.
>>
  > -->	**Volume de Produção**: O número de produtos produzidos em um determinado período de tempo.
>>
  > -->	**Lead Time de Fabricação**: O tempo necessário para produzir um produto, desde o pedido dos materiais até que o produto esteja pronto.
>>
  > -->	**Custos de Fabricação**: Custos relacionados ao processo de produção, incluindo custos de matéria-prima, mão de obra, etc.
>>
  > -->	**Resultados da inspeção**: Resultados da inspeção de qualidade do produto ou material.
>>
  > -->	**Taxa de defeitos**: O nível de defeitos ou defeitos nos produtos produzidos.
>>
  > -->	**Meios de Transporte**: O meio de transporte utilizado para enviar produtos, como terrestre, marítimo ou aéreo.
>>
  > -->	**Rotas**: Rotas ou caminhos utilizados para enviar produtos de um ponto a outro da cadeia de abastecimento.
>>
  > -->	**Custos**: Custos relacionados a vários aspectos da cadeia de abastecimento, incluindo custos de transporte, custos de produção e outros custos.


### **2.1 Bibliotecas**

In [None]:
import requests #Biblioteca usada para integrar uma API (Neste caso o DataFrame no Github)
import pandas as pd #Biblioteca usada principalmente para tratamento de dados
from io import StringIO #Classe Python que representa strings em estruturas que se comportam como se fossem arquivos
from tabulate import tabulate
import plotly.express as px
from plotly.subplots import make_subplots
import plotly.graph_objects as go



pd.set_option('display.max_columns', None)
pd.set_option('display.max_rows', None)

### **2.2 Extração e Leitura dos dados**

In [None]:
# URL do arquivo no GitHub
file_url = "https://raw.githubusercontent.com/tiagotff/Supply_Chain/main/supply_chain_data.csv"

# Fazendo uma solicitação GET para baixar o arquivo
response = requests.get(file_url)

if response.status_code == 200: #Se estiver tudo OK com a conexão no Github então entra na IF
    file_content = response.text

    # Criando um DataFrame pandas a partir do conteúdo do arquivo
    df = pd.read_csv(StringIO(file_content))

    # Exibindo o DataFrame
    display(df.head())
else:
    print(f"Erro ao obter o arquivo: {response.status_code}")


Unnamed: 0,Product type,SKU,Price,Availability,Number of products sold,Revenue generated,Customer demographics,Stock levels,Lead times,Order quantities,Shipping times,Shipping carriers,Shipping costs,Supplier name,Location,Lead time,Production volumes,Manufacturing lead time,Manufacturing costs,Inspection results,Defect rates,Transportation modes,Routes,Costs
0,haircare,SKU0,69.808006,55,802,8661.996792,Non-binary,58,7,96,4,Carrier B,2.956572,Supplier 3,Mumbai,29,215,29,46.279879,Pending,0.22641,Road,Route B,187.752075
1,skincare,SKU1,14.843523,95,736,7460.900065,Female,53,30,37,2,Carrier A,9.716575,Supplier 3,Mumbai,23,517,30,33.616769,Pending,4.854068,Road,Route B,503.065579
2,haircare,SKU2,11.319683,34,8,9577.749626,Unknown,1,10,88,2,Carrier B,8.054479,Supplier 1,Mumbai,12,971,27,30.688019,Pending,4.580593,Air,Route C,141.920282
3,skincare,SKU3,61.163343,68,83,7766.836426,Non-binary,23,13,59,6,Carrier C,1.729569,Supplier 5,Kolkata,24,937,18,35.624741,Fail,4.746649,Rail,Route A,254.776159
4,skincare,SKU4,4.805496,26,871,2686.505152,Non-binary,5,3,56,8,Carrier A,3.890548,Supplier 1,Delhi,5,414,3,92.065161,Fail,3.14558,Air,Route A,923.440632


### **2.3 Informações Gerais**

In [None]:
# Mostra quantidade de Linhas e Colunas
num_linhas = len(df)
num_colunas = len(df.columns)

print(f"Número de Linhas: {num_linhas}")
print(f"Número de Colunas: {num_colunas}")

Número de Linhas: 100
Número de Colunas: 24


### **2.4 Verificação dos valores únicos de cada coluna**

In [None]:
def verificar_todos_dados(df):  #Verificar a exclusividade e a tipagem dos dados
    resultados = []
    for coluna in df.columns:
        dados_unique = df[coluna].unique()
        tipo_dados = df[coluna].dtype
        resultados.append([coluna, tipo_dados, dados_unique ])

    tabela = tabulate(resultados, headers= ['Coluna', 'Tipo de Dado', 'Valores Únicos'], tablefmt ='psql')
    print(tabela)

verificar_todos_dados(df)

+-------------------------+----------------+---------------------------------------------------------------------------+
| Coluna                  | Tipo de Dado   | Valores Únicos                                                            |
|-------------------------+----------------+---------------------------------------------------------------------------|
| Product type            | object         | ['haircare' 'skincare' 'cosmetics']                                       |
| SKU                     | object         | ['SKU0' 'SKU1' 'SKU2' 'SKU3' 'SKU4' 'SKU5' 'SKU6' 'SKU7' 'SKU8' 'SKU9'    |
|                         |                |  'SKU10' 'SKU11' 'SKU12' 'SKU13' 'SKU14' 'SKU15' 'SKU16' 'SKU17' 'SKU18'  |
|                         |                |  'SKU19' 'SKU20' 'SKU21' 'SKU22' 'SKU23' 'SKU24' 'SKU25' 'SKU26' 'SKU27'  |
|                         |                |  'SKU28' 'SKU29' 'SKU30' 'SKU31' 'SKU32' 'SKU33' 'SKU34' 'SKU35' 'SKU36'  |
|                         |     

### **2.5 Verificação de valores ausentes**

In [None]:
def verificacao_dados_ausentes(df):     #Verificação da existência de dados ausentes em cada coluna
    for coluna in df.columns:
        dados_ausentes = df[coluna].isnull().sum()
        print(f'Dados ausentes na coluna {coluna}: {dados_ausentes}')

verificacao_dados_ausentes(df)

total_dados_ausentes = df.isnull().sum().sum()  #O número total de valores ausentes.
print(f'O total de valores ausentes é: {total_dados_ausentes}')

Dados ausentes na coluna Product type: 0
Dados ausentes na coluna SKU: 0
Dados ausentes na coluna Price: 0
Dados ausentes na coluna Availability: 0
Dados ausentes na coluna Number of products sold: 0
Dados ausentes na coluna Revenue generated: 0
Dados ausentes na coluna Customer demographics: 0
Dados ausentes na coluna Stock levels: 0
Dados ausentes na coluna Lead times: 0
Dados ausentes na coluna Order quantities: 0
Dados ausentes na coluna Shipping times: 0
Dados ausentes na coluna Shipping carriers: 0
Dados ausentes na coluna Shipping costs: 0
Dados ausentes na coluna Supplier name: 0
Dados ausentes na coluna Location: 0
Dados ausentes na coluna Lead time: 0
Dados ausentes na coluna Production volumes: 0
Dados ausentes na coluna Manufacturing lead time: 0
Dados ausentes na coluna Manufacturing costs: 0
Dados ausentes na coluna Inspection results: 0
Dados ausentes na coluna Defect rates: 0
Dados ausentes na coluna Transportation modes: 0
Dados ausentes na coluna Routes: 0
Dados ausen

### **2.6 Verificação de dados duplicados**


In [None]:
df.duplicated().sum()

0

### **2.7 Verificação dos tipos das colunas**

In [None]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 100 entries, 0 to 99
Data columns (total 24 columns):
 #   Column                   Non-Null Count  Dtype  
---  ------                   --------------  -----  
 0   Product type             100 non-null    object 
 1   SKU                      100 non-null    object 
 2   Price                    100 non-null    float64
 3   Availability             100 non-null    int64  
 4   Number of products sold  100 non-null    int64  
 5   Revenue generated        100 non-null    float64
 6   Customer demographics    100 non-null    object 
 7   Stock levels             100 non-null    int64  
 8   Lead times               100 non-null    int64  
 9   Order quantities         100 non-null    int64  
 10  Shipping times           100 non-null    int64  
 11  Shipping carriers        100 non-null    object 
 12  Shipping costs           100 non-null    float64
 13  Supplier name            100 non-null    object 
 14  Location                 10

### **2.8 Resumo**

Durante o Entendimento dos Dados foi diagnosticado que:
>
**Sobre o tipo das colunas:** Algumas colunas possuem valores FLOAT com uma
grande quantidade de decimais, o que não é recomendado para fins de visualização dos dados, pois dificulta a extração de insights. Por esse motivo, as casas decimais serão limitadas a 2 dígitos. As colunas são: Price, Revenue Generated, Shipping Costs, Manufacturing Costs, Defect Rates, Costs. A transformação é aplicada na próxima seção (2.9).

**Sobre valores ausentes:**Não foi encontrado nenhum valor ausente em nenhum dos registros.

**Anomalias:**Não foi encontrada nenhuma anomalia nos dados.


### **2.9 Transformações**

In [None]:
# Arredondando as colunas para 2 casas decimais
cols_to_round = ['Price', 'Revenue generated', 'Shipping costs', 'Manufacturing costs', 'Defect rates', 'Costs']
df[cols_to_round] = df[cols_to_round].round(2)

display(df.head(5))

Unnamed: 0,Product type,SKU,Price,Availability,Number of products sold,Revenue generated,Customer demographics,Stock levels,Lead times,Order quantities,Shipping times,Shipping carriers,Shipping costs,Supplier name,Location,Lead time,Production volumes,Manufacturing lead time,Manufacturing costs,Inspection results,Defect rates,Transportation modes,Routes,Costs
0,haircare,SKU0,69.81,55,802,8662.0,Non-binary,58,7,96,4,Carrier B,2.96,Supplier 3,Mumbai,29,215,29,46.28,Pending,0.23,Road,Route B,187.75
1,skincare,SKU1,14.84,95,736,7460.9,Female,53,30,37,2,Carrier A,9.72,Supplier 3,Mumbai,23,517,30,33.62,Pending,4.85,Road,Route B,503.07
2,haircare,SKU2,11.32,34,8,9577.75,Unknown,1,10,88,2,Carrier B,8.05,Supplier 1,Mumbai,12,971,27,30.69,Pending,4.58,Air,Route C,141.92
3,skincare,SKU3,61.16,68,83,7766.84,Non-binary,23,13,59,6,Carrier C,1.73,Supplier 5,Kolkata,24,937,18,35.62,Fail,4.75,Rail,Route A,254.78
4,skincare,SKU4,4.81,26,871,2686.51,Non-binary,5,3,56,8,Carrier A,3.89,Supplier 1,Delhi,5,414,3,92.07,Fail,3.15,Air,Route A,923.44


## **3 Análise Exploratória dos Dados (EDA)**

#### **3.1 Quantidade Total por Categoria de Produtos**

In [None]:
# Agrupando por 'Product Type'
df_aggregated = df.groupby('Product type', as_index=False)['Number of products sold'].sum()

# Ordenando em ordem decrescente
df_aggregated = df_aggregated.sort_values(by='Number of products sold', ascending=False)

# Criando o gráfico de barras com a quantidade agregada e ordenada
fig = px.bar(df_aggregated, x='Product type', y='Number of products sold', color='Product type',
             labels={'Product type': 'Tipos de Produtos', 'Number of products sold': 'Quantidade Total'},
             title='Quantidade Total por Categoria de Produto',
             text='Number of products sold',  # Exibindo os valores acima das barras
             category_orders={'Product type': df_aggregated['Product type'].tolist()})  # Ordenando em ordem decrescente

# Exibindo o gráfico
fig.show()


#### **3.2 Receita Gerada por SKU, por Categoria de Produtos**

In [None]:
# Organizando os dados
df_sorted = df.sort_values(by='Revenue generated', ascending=False)

# Criando o gráfico de barras com SKU ordenado por receita decrescente e largura ajustada
fig = px.bar(df_sorted, x='SKU', y='Revenue generated', color='Product type',
             title='Receita Gerada por SKU',
             labels={'Revenue generated': 'Receita Gerada', 'SKU': 'SKU'},
             width=1300)  # Ajustando a largura das barras

# Ajustando a inclinação e a largura das barras para melhorar a legibilidade
fig.update_layout(xaxis_tickangle=90, xaxis=dict(tickmode='array', tickvals=df_sorted['SKU']))

# Exibindo o gráfico
fig.show()


#### **3.3 Receita Total Gerada por Categoria de Produtos**

In [None]:
# Agrupando o DataFrame pela categoria Product type e somando a receita
df_product_revenue = df.groupby('Product type')['Revenue generated'].sum().reset_index()

# Ordenando o DataFrame em ordem decrescente pela receita gerada
df_product_revenue = df_product_revenue.sort_values(by='Revenue generated', ascending=False)

# Criando o gráfico de barras agrupado por tipo de produto
fig = px.bar(df_product_revenue, x='Product type', y='Revenue generated',
             title='Receita Total Gerada por Categoria de Produto',
             labels={'Revenue generated': 'Receita Gerada', 'Product type': 'Tipo de Produto'},
             width=800, height=500)

# Adicionando os valores nas barras com 2 casas decimais
for trace in fig.data:
    trace.text = trace.y.round(2).astype(str)

# Exibindo o gráfico
fig.show()


#### **3.4 Top 10 SKUs: Receita Gerada pelos principais SKUs, segmentado por Categoria (em ₹ 'Rupia Indiana')**

In [None]:
# Ordenando os dados
df_sorted = df.sort_values(by='Revenue generated', ascending=False)

# Selecionando as 10 principais SKUs
df_top10 = df_sorted.head(10)

# Criando o gráfico de barras com as 10 principais SKUs em ordem decrescente de receita
fig = px.bar(df_top10, x='SKU', y='Revenue generated', color='Product type',
             title='Top 10 SKUs: Receita Gerada pelos principais SKUs e as Categoria de Produtos (em $)',
             labels={'Revenue generated': 'Receita Gerada', 'SKU': 'SKU'},
             text='Revenue generated')  # Adicionando o parâmetro text

# Exibindo o gráfico
fig.show()

#### **3.5 TOP 10 SKUs por Receita Gerada - Geral (em ₹)**

In [None]:
# Ordenando os dados
df_sorted = df.sort_values(by='Revenue generated', ascending=False)

# Selecionando as 10 principais SKUs independentemente da categoria
df_top10 = df_sorted.head(10)

# Criando o gráfico de barras com as 10 principais SKUs em ordem decrescente de receita
fig = px.bar(df_top10, x='SKU', y='Revenue generated', text='Revenue generated',
             title='Top 10 SKUs por Receita Gerada - Geral (em $)',
             labels={'Revenue generated': 'Receita Gerada', 'SKU': 'SKU'},
             width=1000)  # Ajustando a largura das barras

# Exibindo o gráfico
fig.show()

#### **3.6 TOP 10 SKUs por Receita Gerada - Geral (em %)**

In [None]:
# Ordenando os dados
df_sorted = df.sort_values(by='Revenue generated', ascending=False)

# Selecionando as 10 principais SKUs independentemente da categoria
df_top10 = df_sorted.head(10)

# Calculando o percentual em relação ao total
df_top10['Percentual'] = (df_top10['Revenue generated'] / df['Revenue generated'].sum()) * 100

# Arredondando o percentual para duas casas decimais
df_top10['Percentual'] = df_top10['Percentual'].round(2)

# Criando o gráfico de barras com as 10 principais SKUs em ordem decrescente de receita percentual
fig = px.bar(df_top10, x='SKU', y='Percentual', text='Percentual',
             title='Top 10 SKUs por Receita Gerada (em %) ',
             labels={'Percentual': 'Percentual de Receita', 'SKU': 'SKU'},
             width=1000)  # Ajustando a largura das barras

# Exibindo o gráfico
fig.show()



A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy



A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy



#### **3.7 Ticket Médio por Categoria de Produtos (em ₹)**

In [None]:
# Ordenando os dados
df_sorted = df.sort_values(by='Revenue generated', ascending=False)

# Calculando o ticket médio por categoria
df_ticket_medio = df.groupby('Product type', as_index=False)['Revenue generated'].mean()

# Ordenando o DataFrame do ticket médio em ordem decrescente
df_ticket_medio = df_ticket_medio.sort_values(by='Revenue generated', ascending=False)

# Formatando os valores para duas casas decimais
df_ticket_medio['Revenue generated'] = df_ticket_medio['Revenue generated'].round(2)

# Criando o gráfico de barras para o ticket médio por categoria
fig = px.bar(df_ticket_medio, x='Product type', y='Revenue generated',
             title='Ticket Médio por Categoria',
             labels={'Revenue generated': 'Ticket Médio', 'Product type': 'Categoria'},
             text='Revenue generated')  # Adicionando o parâmetro text

# Exibindo o gráfico
fig.show()

#### **3.8 Perfil dos Consumidores por Categoria de Produtos (em ₹)**

In [None]:
# Agrupando o DataFrame pela combinação de Customer demographics e Product type e somando a receita
df_aggregated = df.groupby(['Customer demographics', 'Product type'])['Revenue generated'].sum().reset_index()

# Calculando o total de receita gerada para cada categoria de Customer demographics
df_total = df_aggregated.groupby('Customer demographics')['Revenue generated'].sum().reset_index()

# Ordenando o DataFrame em ordem decrescente pelo total de receita gerada em cada categoria de Customer demographics
df_total_sorted = df_total.sort_values(by='Revenue generated', ascending=False)

# Criando o gráfico de barras empilhadas 100%
fig = px.bar(df_aggregated, x='Customer demographics', y='Revenue generated', color='Product type',
             title='Perfil dos Consumidores por Categoria de Produto (Em $)',
             labels={'Revenue generated': 'Receita Gerada'},
             width=1000, height=600,
             category_orders={'Customer demographics': df_total_sorted['Customer demographics'].unique()},
             barmode='stack')  # Definindo o modo de empilhamento

# Adicionando os valores nas barras com 2 casas decimais
for trace in fig.data:
    trace.text = trace.y.round(2)  # Define o texto para os valores do eixo y com 2 casas decimais

# Adicionando o valor total no topo de cada categoria Customer demographics
for customer_demographics in df_total_sorted['Customer demographics']:
    total_value = df_total_sorted[df_total_sorted['Customer demographics'] == customer_demographics]['Revenue generated'].iloc[0]
    fig.add_annotation(
        x=customer_demographics,
        y=total_value,
        text=f'Total: {total_value:.2f}',  # Adiciona o valor da soma
        showarrow=False,
        font=dict(size=10),
        xshift=0,
        yshift=10,
    )

# Exibindo o gráfico
fig.show()

#### **3.9 Perfil dos Consumidores por Categoria de Produtos (Em %)**

In [None]:
# Definindo a ordem desejada para a categoria Customer demographics
order_customer_demographics = ['Unknown', 'Female', 'Male', 'Non-binary']

# Agrupando o DataFrame pela combinação de Customer demographics e Product type e somando a receita
df_aggregated = df.groupby(['Customer demographics', 'Product type'])['Revenue generated'].sum().reset_index()

# Calculando o percentual em relação ao total de cada categoria Customer demographics
df_aggregated['Percentual'] = df_aggregated.groupby('Customer demographics')['Revenue generated'].transform(lambda x: x / x.sum() * 100)

# Criando o gráfico de barras empilhadas 100%
fig = px.bar(df_aggregated, x='Customer demographics', y='Percentual', color='Product type',
             title='Perfil dos Consumidores por Categoria de Produto (em %)',
             labels={'Percentual': 'Percentual (%)'},
             width=1000, height=600,
             category_orders={'Customer demographics': order_customer_demographics},
             barmode='stack')  # Definindo o modo de empilhamento

# Adicionando os valores nas barras com 2 casas decimais e percentual
for trace in fig.data:
    trace.text = trace.y.round(2).astype(str) + f' ({trace.customdata.round(2)}%)' if trace.customdata is not None else trace.y.round(2).astype(str)

# Exibindo o gráfico
fig.show()

#### **3.10 Contagem e % correspondente de Defeitos por SKU, por Categoria de Produtos**

In [None]:
# Agrupando os dados
df_defects = df.groupby(['Product type', 'SKU', 'Defect rates']).size().reset_index(name='Count')

# Criando o gráfico de treemap
fig = px.treemap(df_defects, path=['Product type', 'SKU', 'Defect rates'], values='Count',
                 title='Contagem e % correspondente de Defeitos por SKU, em cada Tipo de Produto',
                 labels={'Count': 'Contagem', 'Product type': 'Tipo de Produto', 'SKU': 'SKU', 'Defect rates': 'Taxa de Defeitos'},
                 width=1200, height=1200)

# Adicionando rótulos de quantidade nos blocos
fig.update_traces(textinfo='label+value')

# Exibindo o gráfico
fig.show()

#### **3.11 Taxa Média de Defeito por Categoria de Produtos**

In [None]:
# Agrupando os dados
df_defects = df.groupby(['Product type', 'SKU', 'Defect rates']).size().reset_index(name='Count')

# Calculando a média das taxas de defeito por tipo de produto
df_avg_defects = df_defects.groupby('Product type')['Defect rates'].mean().reset_index(name='Average Defect Rate')

# Ordenando o DataFrame em ordem decrescente pela taxa média de defeito
df_avg_defects = df_avg_defects.sort_values(by='Average Defect Rate', ascending=False)

# Criando o gráfico de barras
fig = px.bar(df_avg_defects, x='Product type', y='Average Defect Rate',
             title='Taxa Média de Defeito por Tipo de Produto',
             labels={'Average Defect Rate': 'Taxa Média de Defeito', 'Product type': 'Tipo de Produto'},
             width=1000, height=600)

# Adicionando os valores nas barras com 2 casas decimais
for trace in fig.data:
    trace.text = trace.y.round(2).astype(str)

# Exibindo o gráfico
fig.show()

#### **3.12 Prazo Médio de Fabricação por Categoria de Produtos**

In [None]:
# Agrupando os dados
df_lead_time = df.groupby('Product type')['Manufacturing lead time'].mean().reset_index(name='Average Lead Time')

# Ordenando o DataFrame em ordem decrescente pela média do prazo de fabricação
df_lead_time = df_lead_time.sort_values(by='Average Lead Time', ascending=False)

# Criando o gráfico de barras
fig = px.bar(df_lead_time, x='Product type', y='Average Lead Time',
             title='Prazo Médio de Fabricação por Tipo de Produto',
             labels={'Average Lead Time': 'Prazo Médio de Fabricação', 'Product type': 'Tipo de Produto'},
             width=1000, height=600)

# Adicionando os valores nas barras com 2 casas decimais
for trace in fig.data:
    trace.text = trace.y.round(2).astype(str)

# Exibindo o gráfico
fig.show()

#### **3.13 Categoria de Produtos e Prazo de Fabricação**

In [None]:
# Iniciando a criação com as colunas indicadas
df_parallel = df[['Product type', 'Manufacturing lead time']]

# Ordenando o DataFrame por 'Manufacturing lead time' em ordem decrescente
df_parallel = df_parallel.sort_values(by='Manufacturing lead time', ascending=True)

# Criando o gráfico de Parallel Sets
fig = make_subplots(rows=1, cols=1, specs=[[{'type': 'parcats'}]])

fig.add_trace(
    go.Parcats(
        dimensions=[
            {'label': 'Product type', 'values': df_parallel['Product type']},
            {'label': 'Manufacturing lead time', 'values': df_parallel['Manufacturing lead time']},
        ],
        line={'color': df_parallel['Manufacturing lead time'], 'colorscale': 'Viridis'},
    )
)

# Adicionando legenda na parte inferior centralizada
fig.update_layout(
    legend=dict(
        orientation="h",
        yanchor="bottom",
        y=1.02,
        xanchor="center",
        x=0.5,
        title='Manufacturing lead time',
    )
)

# Atualizando o layout do gráfico
fig.update_layout(
    title='Tipo de Produto e Prazo de Fabricação',
    height=1500
)

# Exibindo o gráfico
fig.show()

#### **3.14 Categoria de Produtos, Prazo de Fabricação e SKU**

In [None]:
# Iniciando a criação com as colunas indicadas
df_parallel = df[['Product type', 'Manufacturing lead time', 'SKU']]

# Ordenando o DataFrame por 'Manufacturing lead time' em ordem decrescente
df_parallel = df_parallel.sort_values(by='Manufacturing lead time', ascending=True)

# Criando o gráfico de Parallel Sets
fig = make_subplots(rows=1, cols=1, specs=[[{'type': 'parcats'}]])

fig.add_trace(
    go.Parcats(
        dimensions=[
            {'label': 'Product type', 'values': df_parallel['Product type']},
            {'label': 'Manufacturing lead time', 'values': df_parallel['Manufacturing lead time']},
            {'label': 'SKU', 'values': df_parallel['SKU']}
        ],
        line={'color': df_parallel['Manufacturing lead time'], 'colorscale': 'Viridis'},
    )
)

# Adicionando legenda na parte inferior centralizada
fig.update_layout(
    legend=dict(
        orientation="h",
        yanchor="bottom",
        y=1.02,
        xanchor="center",
        x=0.5,
        title='Manufacturing lead time',
    )
)

# Atualizando o layout do gráfico
fig.update_layout(
    title='Tipo de Produto, Prazo de Fabricação e SKU',
    height=1500
)

# Exibindo o gráfico
fig.show()

####**3.15 Localização, Nome do Fornecedor e Lead time**

In [None]:
# Iniciando a criação com as colunas indicadas
df_parallel = df[['Location', 'Supplier name', 'Lead time']]

# Ordenando o DataFrame por 'Lead time' em ordem decrescente
df_parallel = df_parallel.sort_values(by='Lead time', ascending=True)

# Criando o gráfico de Parallel Sets
fig = make_subplots(rows=1, cols=1, specs=[[{'type': 'parcats'}]])

fig.add_trace(
    go.Parcats(
        dimensions=[
            {'label': 'Location', 'values': df_parallel['Location']},
            {'label': 'Supplier name', 'values': df_parallel['Supplier name']},
            {'label': 'Lead time', 'values': df_parallel['Lead time']},
        ],
        line={'color': df_parallel['Lead time'], 'colorscale': 'Viridis'},
    )
)

# Adicionando legenda na parte inferior centralizada
fig.update_layout(
    legend=dict(
        orientation="h",
        yanchor="bottom",
        y=1.02,
        xanchor="center",
        x=0.5,
        title='Lead time',
    )
)

# Atualizando o layout do gráfico
fig.update_layout(
    title='Localização, Nome do Fornecedor e Lead time',
    height=1500
)

# Exibindo o gráfico
fig.show()

####**3.16 Lead Time por Localização e Fornecedor**

In [None]:
# Iniciando a criação com as colunas indicadas
df_grouped = df.groupby(['Location', 'Supplier name'])['Lead time'].mean().reset_index()

fig = go.Figure()

for supplier in df_grouped['Supplier name'].unique():
    supplier_data = df_grouped[df_grouped['Supplier name'] == supplier]
    fig.add_trace(go.Bar(
        x=supplier_data['Location'],
        y=supplier_data['Lead time'],
        text=supplier_data['Lead time'].round(1),  # Adiciona os valores nas barras com 2 casas decimais
        name=supplier
    ))

# Ajustando o layout
fig.update_layout(
    title='Lead Time por Localização e Fornecedor',
    xaxis_title='Localização',
    yaxis_title='Lead Time (média)',
    barmode='group',  # Agrupa as barras
    legend_title='Fornecedor',
    width=1500  # Largura do gráfico
)

# Exibindo o gráfico
fig.show()

####**3.17 Lead Time Médio por Modal de Transporte - Geral**

In [None]:
# Iniciando a criação com as colunas indicadas
df_grouped = df.groupby('Transportation modes')['Lead time'].mean().reset_index()

# Ordenando o DataFrame por 'Lead time' em ordem decrescente
df_grouped = df_grouped.sort_values(by='Lead time', ascending=False)

fig = go.Figure()

fig.add_trace(go.Bar(
    x=df_grouped['Transportation modes'],
    y=df_grouped['Lead time'],
    text=df_grouped['Lead time'].round(1),  # Adiciona os valores nas barras com 1 casa decimal
    hoverinfo='text',
    marker_color='blue'  # Cor das barras
))

# Ajustando o layout
fig.update_layout(
    title='Lead Time Médio por Modal de Transporte - Geral',
    xaxis_title='Modal de Transporte',
    yaxis_title='Lead Time (média)',
    width=1000  # Largura do gráfico
)


# Exibindo o gráfico
fig.show()

####**3.18 Lead Time Médio por Modal de Transporte, em cada Rota**

In [None]:
# Iniciando a criação com as colunas indicadas
df_grouped = df.groupby(['Routes', 'Transportation modes'])['Lead time'].mean().reset_index()

# Criando uma ordem específica para as rotas
custom_order = ['Route A', 'Route B', 'Route C']

# Convertendo a coluna 'Routes' para categoria com a ordem desejada
df_grouped['Routes'] = pd.Categorical(df_grouped['Routes'], categories=custom_order, ordered=True)

# Ordenando o DataFrame pelas rotas e pelo 'Lead time' em ordem decrescente
df_grouped = df_grouped.sort_values(by=['Routes', 'Lead time'], ascending=[True, False])

fig = go.Figure()

for transportation_mode in df_grouped['Transportation modes'].unique():
    transportation_mode_data = df_grouped[df_grouped['Transportation modes'] == transportation_mode]

    fig.add_trace(go.Bar(
        x=transportation_mode_data['Routes'],
        y=transportation_mode_data['Lead time'],
        text=transportation_mode_data['Lead time'].round(2),  # Adiciona os valores nas barras com 1 casa decimal
        name=transportation_mode
    ))

# Ajustando o layout
fig.update_layout(
    title='Lead Time Médio por Modal de Transporte, em cada Rota',
    xaxis_title='Rota',
    yaxis_title='Lead Time (média)',
    barmode='group',  # Agrupa as barras
    legend_title='Modal de Transporte',
    width=1500  # Largura do gráfico
)

# Exibindo o gráfico
fig.show()

##**4 Relatório de Insights**


>
Na Análise Exploratória dos Dados, identificamos alguns insights valiosos.
>
No gráfico Quantidade Total por Categoria de Produtos (Seção 3.1), observamos que a categoria ***skincare*** possui o maior volume, com 20731 unidades, em comparação com as categorias ***haircare*** e ***cosmetics***, que têm 13611 e 11757 unidades, respectivamente. Ao analisarmos os gráficos de Receita Total Gerada por Categoria de Produtos (seção 3.3), notamos que a maior receita está nos produtos ***skincare*** (₹241628.17),
seguida por ***haircare*** (₹74455.42) e ***cosmetics*** (₹161521.27).
>
Esses números fazem ainda mais sentido quando é realizada uma análise entre as receitas e a quantidade gerada por cada SKU (SKU, ou Unidade de Manutenção de Estoque, é um código único atribuído a cada produto em nosso inventário, ajudando a identificar e rastrear itens individualmente). É possível ver nos gráficos de Receita Gerada (Seção 3.2 e 3.3) que ***skincare*** possui mais produtos(40 SKUs) se comparado às outras duas categorias. ***Haircare*** possui 34 SKUs e ***cosmetics*** possui 26 SKUs. Contudo, a diferença de receita gerada entre ***haircare*** (₹174455.39) e ***cosmetics*** (₹161521.27) é de ₹12934.15, uma diferença pequena. Isso é algo que precisa ser averiguado mais profundamente, já que quando observamos os SKUs, percebemos que existe uma diferença de 8 SKUs, o que nos faz pensar que a receita de ***haircare*** deveria ser maior se comparada à ***cosmetics***.
>
Quando olhamos os gráficos Top 10 SKUs de Receita Gerada (Seção 3.4) e (Seção 3.5), podemos notar que temos 5 SKUs de ***skincare***, 3 SKUs de ***haircare*** e 2 SKUs de ***cosmetics***. Selecionando as primeiras posições, percebemos uma boa distribuição, pois no gráfico da seção 3.5, a SKU 51 é a que mais gera receita (com ₹9866.47), pertencendo à categoria ***haircare***, em segundo e terceiro lugar vêm as SKUs 38 e 31, das categorias ***cosmetics*** e ***skincare***, com receita de ₹9692.32 e ₹9655.14, respectivamente.
>
Já o gráfico Ticket Médio por Categoria (Seção 3.7) mostra um destaque para a categoria ***cosmetics***. Apesar de ter apenas 26 SKUs de um total de 100 SKUs, e de ter o menor receita total, ela possui o maior ticket médio, ₹6212.36, enquanto que as demais categorias, categoria ***skincare*** e categoria ***haircare***, possuem, ₹6040.7 e ₹5131.04, respectivamente. Uma maneira de aumentar os tickets médios das categorias mencionada é a adoção de estratégias como Up-Selling e Cross-Selling.
>
Sobre o Up-Selling, poderiam ser ofertados produtos superiores para atender às necessidades do cliente, demonstrando os benefícios de adquirir um produto de maior qualidade do que o inicialmente procurado. Por exemplo, se um cliente esteja comprando uma base líquida, os vendedores podem sugerir uma outra base de maior valor e que teria um resultado melhor.Essa estratégia pode ser personalizada para cada cliente, conhecendo melhor suas preferências e destacando o valor adicional da compra [2].
>
Outra estratégia que pode ser adotada é a Cross-Selling, visando vendas complementares. Por exemplo, se um cliente decide comprar determinados shampoo e condicionador, os vendedores podem oferecer uma máscara capilar, reparador de pontas, leave-in capilar, creme de cabelo, entre outros produtos, enfatizando os benefícios adicionais [2].
>
Ao analisarmos os gráficos Perfil dos Consumidores nas seções 3.8 e 3.9, o perfil feminino possui um consumo menor de compra na categoria ***haircare***. Isso indica uma potencial oportunidade. Surge então a questão do porquê a taxa da receita gerada por ***haircare*** está abaixo de 8% (₹12724.84). Seria esse o motivo pelo qual a renda gerada por essa categoria é baixa, com ₹174455.39 rupia? Poderia essa ser uma oportunidade para aumentar a receita gerada nessa categoria? São perguntas que podem ser exploradas numa análise mais aprofundada.
>

Graças ao crescimento de sua população jovem (atualmente a maior do mundo), ao aumento de sua classe média e à expansão do uso da internet tanto nas cidades como nas zonas rurais, a Índia está a um passo de se tornar o próximo gigante do mercado de beleza. A inserção dos cosméticos coloridos no mercado indiano está aumentando à medida que cresce o apelo estético da geração mais jovem. Na região asiática, a Índia é considerada um dos países que mais cresce no mercado de produtos cosméticos. Cada vez mais atentos à sua aparência, os consumidores indianos demonstram um grande interesse por produtos inovadores. Reforçando essa tendência, o país cultiva uma tradição milenar de beleza e saúde inspirada na medicina Ayurveda, além de valorizar o modelo de glamour veiculado pelas celebridades da indústria de Bollywood.Com isso, podemos afirmar que o setor de ***haircare*** no público feminino está perdendo renda. É necessário revisar se estão atingindo todos os públicos femininos, além de buscar aumentar a porcentagem da receita gerada por esse público [3][4].
>
>
Ainda nos gráficos de perfil de consumidores das seções 3.8 e 3.9, podemos observar que o consumidor do gênero masculino representa cerca de 16% (₹26235.48) do consumo na categoria ***cosmetics***, que é a categoria com menor retorno em termos de receita gerada desse público. Isso chama à atenção e pode ser um ponto a ser abordado pelo setor de marketing para entender o porquê isso ocorre. Um dos setores mais dinâmicos no país indiano é o de cuidados masculinos. Além de o número de novas marcas indie ter aumentado exponencialmente no ano de 2019, o mercado é também caracterizado pela presença de produtos altamente inovadores. Para citar apenas alguns, nos segmentos de cuidados para barba e cabelos estão surgindo novos produtos dos mais variados tipos, como soluções para aliviar a coceira da barba, ceras perfumadas para o bigode e óleos para dar mais brilho aos fios.

O relatório reúne um grande número de informações sobre o universo da beleza no país: diferentes motivações e ideais de beleza dos consumidores indianos, rituais tradicionais e seu legado nos dias de hoje, rotina de cuidados e maquiagem no dia a dia, evolução dos cuidados capilares, tendências que mais estão crescendo, novidades no mercado e expansão dos produtos destinados ao público masculino. Oferecendo uma ampla visão do potencial desse mercado, o relatório apresenta uma série de reflexões bem embasadas sobre o futuro da indústria de beleza na Índia [3].  Com isso, entendemos que esse público, assim como os demais, pode ser estudado mais de perto para identificação de oportunidade em termos de geração de mais Receita.
>
No gráfico Taxa Média por Defeitos por Categoria de Produtos (Seção 3.11), as categorias ***skincare, haircare e cosmetics*** possuem 40, 34 e 26 SKUs, respectivamente, e suas taxas médias por defeitos são baixas, de 2.33, 2.48 e 1.98, na mesma ordem. Mesmo sendo taxas pequenas, seria interessante a empresa estabelecer como meta uma média ainda menor, mais próxima de 0%. Isso pode viabilizar a redução dos custos associados à condição final de um produto, garantindo economia e proporcionando produtos de maior qualidade.
>
Quando observamos o Prazo Médio de Fabricação por Categoria de Produtos (gráfico da Seção 3.12) percebemos que o prazo médio de fabricação mais longo é da categoria ***haircare***, com uma média de 17 dias. Já nas categorias ***skincare e cosmetics***, os prazos são bem parecidos, 14 e 13 dias, respectivamente. Quando olhamos para Categoria de Produtos, Prazo de Fabricação e SKU (gráficos das Seções 3.13 e 3.14), é possível visualizar com mais clareza essas informações, compreendendo, por exemplo, quanto tempo cada produto (SKU) leva para ser fabricado e suas respectivas categorias. É notável que a categoria ***haircare*** possui um prazo de fabricação maior dentre as categorias analisadas. ***Haircare*** possui uma média de 17 dias, enquanto ***skincare e cosmetics*** possuem, respectivamente, 14 e 13 dias em média.
>
Ao analisar os dados relacionados à localização, fornecedores e tempo de entrega (gráficos das Seções 3.15 e 3.16), observamos que os fornecedores 2, 3 e 5 apresentam uma média de tempo de entrega mais elevada, com valores de 19,8, 20,38 e 19,80 dias, respectivamente, considerando a soma das médias em todas as 5 cidades. Por outro lado, os fornecedores 1 e 4 demonstram uma média de tempo de entrega mais curta, com 14 dias ao somar suas médias nas mesmas 5 cidades.

Essa disparidade nos prazos de entrega sugere duas questões importantes a serem consideradas. Em primeiro lugar, é necessário investigar as causas subjacentes que contribuem para os prazos mais longos dos fornecedores 2, 3 e 5, visando identificar possíveis áreas de melhoria ou gargalos na cadeia de suprimentos. Em segundo lugar, é pertinente avaliar se os fornecedores 1 e 4 têm a capacidade de fornecer produtos semelhantes aos oferecidos pelos fornecedores com prazos de entrega mais longos. Essa análise pode proporcionar insights valiosos sobre oportunidades de otimização da cadeia de suprimentos e maximização da eficiência operacional.
>
Observando os Modais de Transporte (gráfico Seção 3.17), temos informações sobre o tempo médio de cada modal em cada rota. No geral, em média, o modal rodoviário (Road) possui média de 18 dias. Já o modal ferroviário (Rail), uma média bem próxima de  17.5 dias. Por outro lado, o modal marítimo (Sea) uma média de  16.4 dias e o modal aéreo (Air), uma média de 16 dias, portanto, a melhor média. O Gráfico Lead Time por Modal de Transporte em cada rota (Seção 3.18) oferece insights específicos sobre como o tempo médio de fornecimento varia entre diferentes modais de transporte em rotas específicas. Diante disso, é possível observar que a rota B é a que possui o maior tempo de média quando ,olhamos o todo, com média de  18,49 dias.  Já a rota A e C  são melhores quando observadas a médias dos transportes utilizados, possuindo médias parecidas de  16,33 e  16,98 dias, respectivamente. Com isso, percebemos que existem vantagens e desvantagens em todos os transportes utilizados. Cabe entender o contexto para verificar qual o modal de transporte mais apropriado para determinada situação.
>

Com base na análise aprofundada dos dados e nos insights obtidos, é evidente que o mercado de ***skincare, cosmetics e haircare*** na Índia oferece oportunidades significativas para impulsionar a receita e melhorar a eficiência operacional. Ao examinar os dados, observamos que a categoria ***skincare*** lidera em termos de quantidade de produtos, receita gerada e variedade de SKUs. No entanto, todas as categorias apresentam potencial para aumentar a receita.

Considerando o cenário do mercado de beleza na Índia, podemos vislumbrar um ambiente promissor, impulsionado pelo crescimento da população jovem e pela demanda crescente por produtos inovadores. Isso ressalta a importância de explorar novas oportunidades de crescimento e adaptar estratégias para atender às necessidades do mercado em constante mudança.

A análise de métricas como taxa média de defeitos, prazo médio de fabricação, desempenho dos fornecedores e modais de transporte proporciona insights valiosos para identificar áreas de aprimoramento na cadeia de suprimentos. Essas informações são essenciais para otimizar processos, reduzir custos e garantir a eficiência em toda a cadeia de valor.

Durante a análise dos dados, identificamos uma dificuldade significativa ao examinar o perfil dos consumidores, especialmente em relação à categoria "Unknown", que representa uma parcela considerável dos dados. Essa categoria genérica dificulta a formulação de estratégias específicas para cada segmento de gênero, pois não fornece informações detalhadas sobre as preferências e comportamentos dos consumidores. Uma sugestão para lidar com essa questão seria remover a opção "Unknown" e substituí-la por categorias mais específicas, como "Female", "Male" e "Non-binary". Essa abordagem simplificaria a análise, permitindo uma compreensão mais clara das características e necessidades de cada segmento de gênero. Dessa forma, seria possível desenvolver estratégias mais direcionadas e eficazes para atender às demandas de cada grupo de consumidores. Essa mudança contribuiria para uma análise mais precisa e aprimoraria a capacidade da empresa de personalizar suas iniciativas de marketing e vendas, maximizando assim o engajamento e a satisfação do cliente. Ao eliminar a categoria "Unknown" e adotar uma abordagem mais específica, a empresa estaria melhor posicionada para aproveitar ao máximo os insights derivados da análise dos dados do perfil dos consumidores.

Assim, ao aproveitar os insights derivados da análise dos dados e alinhar as estratégias operacionais com as demandas do mercado, a empresa pode maximizar seu potencial de crescimento e sucesso no competitivo mercado de beleza na Índia.

Essas são as principais considerações observadas.

## **5 Referências**

[1] **[Base de dados Kaggle](https://www.kaggle.com/datasets/harshsingh2209/supply-chain-analysis/)**
>
>
[2] **[Up-Sell e Cross-Sell: o que são e estratégias](https://www.salesforce.com/br/blog/up-sell-e-cross-sell/)**
>
>
[3] **[Indústria cosmética - na Índia Análise de tamanho e participação - Tendências e previsões de crescimento (2023 - 2028)](https://www.mordorintelligence.com/pt/industry-reports/india-cosmetics-products-market-industry)**
>
>
[4] **[Índia desponta como novo gigante do mercado de beleza](https://www.brazilbeautynews.com/india-desponta-como-novo-gigante-do-mercado-de,3500)**
>
>

>
>

