# **ANÁLISE DESCRITIVA**

In [None]:
"""
    Perguntas de negócio:
    - Margem de lucro
    - Prejuízos
    - Recomendações
    - Padrão nos dados dos países

    Mensurar o passado, resumir os dados
"""

In [None]:
import pandas as pd
import numpy as np

In [None]:
# 700 linhas, 13 colunas
df = pd.read_excel('report-consolidado.xlsx')

In [None]:
# quantitativas e qualitativas > ex. idade e faixa etária
df.head(100)

In [None]:
# conversão de Qtde de Unidades Vendidas, Preço Unitário, Data
df.info()

In [None]:
df.columns
colunas = ['segmento', 'pais', 'produto', 'qtd_unidades_vendidas',
       'preco_unitario', 'valor_total', 'desconto', 'valor_total_c/_desconto',
       'custo_total', 'lucro', 'data', 'mes', 'ano']

df.columns = colunas
df.columns

In [None]:
df.info()

In [None]:
df['qtd_unidades_vendidas']
df['preco_unitario']

In [None]:
# conversão de qtd_unidades_vendidas e preco_unitario
df = df.astype(
    {
        'qtd_unidades_vendidas': np.int64,
        'preco_unitario': np.float64
    }
)

In [None]:
df.info()

In [None]:
# conversão de data
df.data

df['data'] = pd.to_datetime(df['data'], format='%d/%m/%Y')
df.data

In [None]:
# não existe valores duplicados
df.duplicated().sum()

In [None]:
# não existe valores nulos
df.isnull().sum()

In [None]:
# ordenar colunas
df.sort_values(['país', 'produto', 'data'], inplace=True)

In [None]:
# identificar problemas > lucro negativo
# coluna = variável (valor de cada coluna)

df.describe().round(2)

In [None]:
df.describe(include=object)

In [None]:
# verificar o menor lucro
df.sort_values(['lucro'])

In [None]:
# verificar o maior lucro
df.sort_values(['lucro'], ascending=False)

In [None]:
df.info()

### **ANÁLISE DE MARGEM DE LUCRO**

In [None]:
# agrupando dados por segmento
# agrupar as variáveis quantitativas pelas variáveis qualitativas
# agrupa as informações do meu segmento pelas variáveis das colunas

# maior e menor lucro por segmentos
colunas = ['valor_total_c/_desconto', 'custo_total', 'lucro']
df_segmento = df.groupby('segmento')[colunas].sum().round(2)

df_segmento['margem_lucro'] = round((df_segmento['lucro'] / df_segmento['valor_total_c/_desconto']) * 100, 2)
df_segmento

In [None]:
import matplotlib.pyplot as plt # ferramenta para gráficos

plt.figure(figsize=(10, 5))

df_segmento['valor_total_c/_desconto'].plot(kind='bar', color='pink')

plt.title('Faturamento por segmento')
plt.ylabel('Faturamento')
plt.xlabel('Segmentos')
plt.xticks(rotation=0);

In [None]:
# maior e menor lucro por país

colunas = ['valor_total_c/_desconto', 'custo_total', 'lucro']
df_pais = df.groupby('pais')[colunas].sum().round(2)

df_pais['margem_lucro'] = round((df_pais['lucro'] / df_pais['valor_total_c/_desconto']) * 100, 2)
df_pais

In [None]:
# maior e menor lucro por produto

colunas = ['valor_total_c/_desconto', 'custo_total', 'lucro']
df_produto = df.groupby('produto')[colunas].sum().round(2)

df_produto['margem_lucro'] = round((df_produto['lucro'] / df_produto['valor_total_c/_desconto']) * 100, 2)
df_produto

In [None]:
# agrupando dados por pais, segmento e produto

colunas = ['valor_total_c/_desconto', 'custo_total', 'lucro']

df_geral = df.groupby(['pais', 'segmento', 'produto'])[colunas].sum().round(2)
df_geral = df.groupby(['produto', 'segmento'])[colunas].sum().round(2) # prejuízos

df_geral

In [None]:
# cálculos de soma, média e mínimo em um agrupamento (funções de agregração)

df.groupby('segmento').agg(
    {
        'valor_total_c/_desconto': ['count', 'sum', 'mean', 'min', 'max'],
        'custo_total': 'mean',
        'lucro': ['min', 'max']
    }
).round(2)

### **FILTRANDO DADOS COM O MÉTODO QUERY DO DATAFRAME**

In [None]:
# método query

df_prejuizo = df.query('lucro < 0')
df_prejuizo

In [None]:
# prejuízos por cada país
df_prejuizo.groupby('pais')['lucro'].sum().round(2)

In [None]:
df_prejuizo.groupby('segmento')['lucro'].sum().round(2)

In [None]:
# gráfico de lucros negativos

df_grafico = df_prejuizo.groupby('produto')['lucro'].sum().round(2)
df_grafico.plot(kind='bar', color='pink')