# **ANÁLISE EXPLORATÓRIA**
*   ### **Case**: *Livraria*



### Instalação de bibliotecas

In [None]:
# As bibliotecas utilizadas neste notebook já vêm pré-instaladas no Google Colab

### Carregamento de bibliotecas

In [None]:
from IPython.display import display
import pandas as pd
import numpy as np
import seaborn as sns
import matplotlib.pyplot as plt

### Leitura da base de dados

In [None]:
dados_estoque = pd.read_table('Livraria_Estoque.txt', sep = '\t')

### Visualização da base de dados

In [None]:
display(dados_estoque)

### Análise de unicidade

*Verificação de quais registros estão duplicados em uma variável*

In [None]:
dados_estoque.duplicated(subset = 'id_titulo')

*Contabilização da quantidade de duplicados*

In [None]:
dados_estoque.duplicated(subset = 'id_titulo').sum()

### Análise univariada: variáveis qualitativas *(exemplos)*

*Tabela de frequências absolutas, incluindo missings*

In [None]:
dados_estoque['tipo_capa'].value_counts(dropna = False)

*Tabela de frequências relativas, incluindo missings*

In [None]:
dados_estoque['tipo_capa'].value_counts(normalize = True, dropna = False)

*Arredondando as frequências na tabela anterior*

In [None]:
(dados_estoque['tipo_capa'].value_counts(normalize = True, dropna = False) * 100).round(1)

*Ordenando categorias em uma variável qualitativa ordinal*

In [None]:
dados_estoque['ano'] = pd.Categorical(
    dados_estoque['ano'],
    categories = ['2021-2023', '2018-2020', 'Até 2017'],
    ordered    = True)

*Gráfico de barras (básico)*

In [None]:
dados_estoque['tipo_capa'].value_counts(dropna = False).plot(kind = 'bar')

plt.show() # Exibir o gráfico

*Gráfico de barras (formatado)*

In [None]:
ax = dados_estoque['tipo_capa'].value_counts(dropna = False).plot(kind = 'bar', color = 'turquoise')

ax.set_title('Distribuição do tipo de capa')              # Título do gráfico
ax.set_xlabel('Tipo de capa')                             # Título do eixo horizontal
ax.set_ylabel('Quantidade de livros')                     # Título do eixo vertical

ax.set_yticks([])                                         # Remover ticks do eixo vertical
ax.set_yticklabels([])                                    # Remover rótulos do eixo vertical
ax.tick_params(axis = 'x', rotation = 0)                  # Rotação dos rótulos do eixo horizontal
ax.set_ylim(0, ax.get_ylim()[1] * 1.05)                   # Ajustar limite do eixo vertical para caberem os rótulos das barras

total = sum([bar.get_height() for bar in ax.patches])     # Inserir rótulos sobre as barras
for bar in ax.patches:
    height     = bar.get_height()
    percentage = f'{(height / total) * 100:.0f}%'
    ax.annotate(f'{int(height):,}'.replace(',', '.') + f' ({percentage})',
                xy         = (bar.get_x() + bar.get_width() / 2, height),
                xytext     = (0, 5),
                textcoords = 'offset points',
                ha         = 'center',
                va         = 'bottom')

plt.show()

# for bar in ax.containers:                               # Inserir rótulos sobre as barras (opção mais simples)
#    ax.bar_label(bar)

*Gráfico de setores (básico)*

In [None]:
dados_estoque['tipo_capa'].value_counts(dropna = False).plot(kind = 'pie')

plt.show()

*Gráfico de setores (formatado)*

In [None]:
autopct = lambda p: '{:,.0f}\n({:.0f}%)'.format((p/100) * sum(dados_estoque['tipo_capa'].value_counts(dropna = False)), p).replace(',', '.')   # Formatação dos rótulos das fatias

ax = dados_estoque['tipo_capa'].value_counts(dropna = False).plot(kind = 'pie', colors = ['paleturquoise', 'darkturquoise'],
                                                                  autopct = autopct)

ax.set_title('Distribuição do tipo de capa')   # Título do gráfico
ax.set_ylabel('')                              # Título do eixo vertical

plt.show()

### Análise univariada: variáveis quantitativas *(exemplos)*

*Mínimo, máximo, quartis, mediana, média*

In [None]:
dados_estoque.describe()            # Considera todas as variáveis quantitativas da base

In [None]:
dados_estoque['preco'].describe()   # Apenas a variável 'preco'

*Qtde. de missings*

In [None]:
dados_estoque.isnull().sum()

*Moda*

In [None]:
dados_estoque['preco'].mode()[0]  # Note que preço é uma variável quantitativa contínua; caso houvesse alguma quantitativa discreta, faria mais sentido para cálculo da moda

*Percentis*

In [None]:
dados_estoque['preco'].quantile([0.01, 0.80, 0.99])

*Variância*

In [None]:
dados_estoque['preco'].var()

*Desvio padrão*

In [None]:
dados_estoque['preco'].std()

*Coeficiente de variação*

In [None]:
dados_estoque['preco'].std() / dados_estoque['preco'].mean()

*Amplitude*

In [None]:
dados_estoque['preco'].max() - dados_estoque['preco'].min()

*Amplitude percentílica*

In [None]:
dados_estoque['preco'].quantile(0.99) - dados_estoque['preco'].quantile(0.01)

*Intervalo interquartil*

In [None]:
dados_estoque['preco'].quantile(0.75) - dados_estoque['preco'].quantile(0.25)

*Histograma (básico)*

In [None]:
dados_estoque['preco'].plot(kind = 'hist')

plt.show()

*Histograma (formatado)*

In [None]:
dados_estoque['preco'].plot(
    kind      = 'hist',
    title     = 'Histograma',
    xlabel    = 'Metragem (em m2)',
    ylabel    = 'Frequência',
    color     = 'darkturquoise',
    edgecolor = 'white')

plt.show()

*Boxplot (básico)*

In [None]:
sns.boxplot(y = 'preco', data = dados_estoque)

plt.show()

*Boxplot (formatado)*

In [None]:
# Usando função 'boxplot' da biblioteca 'seaborn'

sns.boxplot(y     = 'preco',
            data  = dados_estoque,
            width = 0.3,                                                     # Largura da caixa
            boxprops     = {'facecolor':'darkturquoise', 'edgecolor':'white'},   # Cor de preenchimento e borda da caixa
            whiskerprops = {'color':'turquoise'},                            # Cor das hastes/bigodes
            capprops     = {'color': 'darkturquoise'},                       # Cor das barras de limite superior e inferior
            medianprops  = {'color':'white'},                                # Cor da linha da mediana
            flierprops   = {'markerfacecolor': 'white', 'markeredgecolor': 'darkturquoise', 'marker': 'o', 'markersize': 3, 'color': 'turquoise', 'linestyle': 'none'})    # Cor e tamanho dos outliers

plt.title('Distribuição do preço de custo dos títulos')    # Título do gráfico
plt.ylabel('Preço')                                        # Título do eixo vertical
plt.xticks([])                                             # Remover ticks do eixo horizontal

plt.show()

In [None]:
# Usando método 'plot' da biblioteca 'pandas'

ax = dados_estoque['preco'].plot(
    kind  = 'box',
    title = 'Boxplot',
    patch_artist = True,
    widths       = 0.3,                                                # Largura da caixa
    boxprops     = {'facecolor': 'darkturquoise', 'color': 'white'},   # Cor de preenchimento e borda da caixa
    whiskerprops = {'color': 'darkturquoise'},                         # Cor das hastes/bigodes
    capprops     = {'color': 'white'},                                 # Cor das barras de limite superior e inferior
    medianprops  = {'color': 'white'},                                 # Cor da linha da mediana
    flierprops   = {'markerfacecolor': 'white', 'markeredgecolor': 'darkturquoise', 'marker': 'o', 'markersize': 3, 'color': 'turquoise', 'linestyle': 'none'})    # Cor e tamanho dos outliers

ax.set_title('Distribuição do preço de custo dos títulos')    # Título do gráfico
ax.set_ylabel('Preço')                                        # Título do eixo vertical
ax.set_xticks([])                                             # Remover ticks do eixo horizontal

plt.show()

### Análise bivariada/trivariada: qualitativas vs. qualitativas *(exemplos)*

*Tabela de frequências absolutas de dupla entrada*

In [None]:
pd.crosstab(dados_estoque['tipo_capa'], dados_estoque['densidade_papel'], dropna = False)

*Tabela de frequências relativas de dupla entrada, somando 100% em cada linha*

In [None]:
(pd.crosstab(dados_estoque['tipo_capa'], dados_estoque['densidade_papel'], dropna = False, normalize = 'index') * 100).round(1)

*Tabela de frequências relativas de dupla entrada, somando 100% em cada coluna*

In [None]:
(pd.crosstab(dados_estoque['tipo_capa'], dados_estoque['densidade_papel'], dropna = False, normalize = 'columns') * 100).round(1)

*Gráfico de barras empilhadas (básico)*

In [None]:
pd.crosstab(
    dados_estoque['tipo_capa'],
    dados_estoque['densidade_papel'],
    dropna = False,
    normalize = 'index'
).plot(kind = 'bar', stacked = True)

plt.show()

*Gráfico de barras empilhadas (formatado)*

In [None]:
ax = pd.crosstab(
    dados_estoque['tipo_capa'],
    dados_estoque['densidade_papel'],
    dropna    = False,
    normalize = 'index'
).plot(
    kind = 'bar',
    stacked = True,
    color   = ['paleturquoise', 'darkturquoise'],
    title   = 'Distribuição de densidade do papel por tipo de capa',
    xlabel  = 'Tipo de capa',
    ylabel  = 'Frequência (%)'
)

ax.set_yticks([])                                             # Remover ticks do eixo vertical
ax.set_yticklabels([])                                        # Remover rótulos do eixo vertical
ax.tick_params(axis = 'x', rotation = 0)                      # Rotação dos rótulos do eixo horizontal

for bar in ax.containers:
    labels = [f'{v.get_height() * 100:.0f}%' for v in bar]    # Inserir rótulos dentro das barras
    ax.bar_label(bar, labels=labels, label_type = 'center')

ax.legend(bbox_to_anchor = (1.02, 1), loc = 'upper left')     # Posicionar legenda fora da área de plotagem

plt.show()

*Tabela de frequências absolutas de tripla entrada*

In [None]:
pd.crosstab(
    dados_estoque.loc[dados_estoque['cor'] == 'Preto', 'tipo_capa'],
    dados_estoque.loc[dados_estoque['cor'] == 'Preto', 'densidade_papel'],
    dropna = False
)

In [None]:
pd.crosstab(
    dados_estoque.loc[dados_estoque['cor'] == 'Cores', 'tipo_capa'],
    dados_estoque.loc[dados_estoque['cor'] == 'Cores', 'densidade_papel'],
    dropna = False
)

*Tabela de frequências relativas de tripla entrada, somando 100% em cada linha*

In [None]:
pd.crosstab(
    dados_estoque.loc[dados_estoque['cor'] == 'Preto', 'tipo_capa'],
    dados_estoque.loc[dados_estoque['cor'] == 'Preto', 'densidade_papel'],
    dropna = False,
    normalize = 'index'
)

In [None]:
pd.crosstab(
    dados_estoque.loc[dados_estoque['cor'] == 'Cores', 'tipo_capa'],
    dados_estoque.loc[dados_estoque['cor'] == 'Cores', 'densidade_papel'],
    dropna = False,
    normalize = 'index'
)

*Tabela de frequências relativas de tripla entrada, somando 100% em cada coluna*

In [None]:
pd.crosstab(
    dados_estoque.loc[dados_estoque['cor'] == 'Preto', 'tipo_capa'],
    dados_estoque.loc[dados_estoque['cor'] == 'Preto', 'densidade_papel'],
    dropna = False,
    normalize = 'columns'
)

In [None]:
pd.crosstab(
    dados_estoque.loc[dados_estoque['cor'] == 'Cores', 'tipo_capa'],
    dados_estoque.loc[dados_estoque['cor'] == 'Cores', 'densidade_papel'],
    dropna = False,
    normalize = 'columns'
)

### Análise bivariada/trivariada: quantitativas vs. quantitativas *(exemplos)*

*Gráfico de dispersão (básico)*

In [None]:
plt.scatter(dados_estoque['qtde_paginas'], dados_estoque['preco'])

plt.show()

*Gráfico de dispersão (formatado)*

In [None]:
plt.scatter(
    dados_estoque['qtde_paginas'],
    dados_estoque['preco'],
    color  = 'darkturquoise',
    marker = 'o'
)

plt.title('Distribuição do preço versus qtde. de páginas')
plt.xlabel('Qtde. de páginas')
plt.ylabel('Preço (em R$)')

plt.show()

*Gráfico de dispersão (formatado e com transparência nos pontos)*

In [None]:
import matplotlib.colors as mcolors

plt.scatter(
    dados_estoque['qtde_paginas'],
    dados_estoque['preco'],
    color  = mcolors.to_rgba('darkturquoise', 0.2),
    marker = 'o'
)

plt.title('Distribuição do preço versus qtde. de páginas')
plt.xlabel('Qtde. de páginas')
plt.ylabel('Preço (em R$)')

plt.show()

### Análise bivariada/trivariada: qualitativas vs. quantitativas *(exemplos)*

*Principais medidas resumo com quebra por variável qualitativa*

In [None]:
print('Capa dura')
dados_estoque['preco'][dados_estoque['tipo_capa'] == 'Dura'].describe()

In [None]:
print('Capa flexível')
dados_estoque['preco'][dados_estoque['tipo_capa'] == 'Flexivel'].describe()

*Percentis com quebra por variável qualitativa*

In [None]:
print('Capa dura')
dados_estoque['preco'][dados_estoque['tipo_capa'] == 'Dura'].quantile([0.01, 0.99])

In [None]:
print('Capa flexível')
dados_estoque['preco'][dados_estoque['tipo_capa'] == 'Flexivel'].quantile([0.01, 0.99])

*Histograma com quebra por variável qualitativa (básico)*

In [None]:
plt.subplot(2, 1, 1)
dados_estoque['preco'][dados_estoque['tipo_capa'] == 'Dura'].plot(kind = 'hist')
plt.subplot(2, 1, 2)
dados_estoque['preco'][dados_estoque['tipo_capa'] == 'Flexivel'].plot(kind = 'hist')

plt.show()

*Histograma com quebra por variável qualitativa (formatado)*

In [None]:
preco_min = dados_estoque['preco'].min() - 10    # Definir valor mínimo para os gráficos
preco_max = dados_estoque['preco'].max() + 10    # Definir valor máximo para os gráficos

plt.subplot(2, 1, 1)
dados_estoque['preco'][dados_estoque['tipo_capa'] == 'Dura'].plot(kind = 'hist',
                                                                  title = 'Histograma',
                                                                  xlabel = 'Preço (em R$)',
                                                                  ylabel = 'Frequência',
                                                                  bins = 20,
                                                                  color = 'darkturquoise',
                                                                  edgecolor = 'white')
plt.title('Histograma: Preços de títulos com capa dura')
plt.xlim(preco_min, preco_max)    # Definir limites do eixo horizontal
plt.tight_layout()                # Adiciona espaçamento entre os subplots

plt.subplot(2, 1, 2)
dados_estoque['preco'][dados_estoque['tipo_capa'] == 'Flexivel'].plot(kind = 'hist',
                                                                      title = 'Histograma',
                                                                      xlabel = 'Preço (em R$)',
                                                                      ylabel = 'Frequência',
                                                                      bins = 20,
                                                                      color = 'darkturquoise',
                                                                      edgecolor = 'white')
plt.title('Histograma: Preços de títulos com capa flexível')
plt.xlim(preco_min, preco_max)    # Definir limites do eixo horizontal
plt.tight_layout()                # Adiciona espaçamento entre os subplots

plt.show()

*Boxplot com quebra por variável qualitativa (básico)*

In [None]:
dados_estoque.boxplot(column = 'preco', by = 'tipo_capa')

plt.show()

*Boxplot com quebra por variável qualitativa (formatado)*

In [None]:
ax = dados_estoque.boxplot(
    column       = 'preco',
    by           = 'tipo_capa',
    grid         = False,
    patch_artist = True,
    widths       = 0.6,                                                         # Largura da caixa
    boxprops     = dict(facecolor = 'darkturquoise', color = 'white'),          # Cor de preenchimento e borda da caixa
    whiskerprops = dict(color = 'darkturquoise'),                               # Cor das hastes/bigodes
    capprops     = dict(color = 'white'),                                       # Cor das barras de limite superior e inferior
    medianprops  = dict(color = 'white'),                                       # Cor da linha da mediana
    flierprops   = dict(markerfacecolor = 'white', markeredgecolor = 'darkturquoise', marker = 'o', markersize = 3, color = 'turquoise', linestyle = 'none')    # Cor dos outliers
)

ax.set_title('Distribuição do preço de custo dos títulos, por tipo de capa')    # Título do gráfico
ax.set_ylabel('Preço')                                                          # Título do eixo vertical
ax.set_xlabel('')                                                               # Título do eixo horizontal
plt.suptitle('')                                                                # Remover o título gerado automaticamente

plt.show()

*Gráfico de dispersão com terceira dimensão qualitativa (básico)*

In [None]:
plt.scatter(dados_estoque['qtde_paginas'], dados_estoque['preco'], c = dados_estoque['tipo_capa'].apply(lambda x: 'darkturquoise' if x == 'Dura' else 'lightsalmon'))

plt.show()

*Gráfico de dispersão com terceira dimensão qualitativa (formatado e com transparência nos pontos)*

In [None]:
import matplotlib.colors as mcolors

plt.scatter(
    dados_estoque['qtde_paginas'],
    dados_estoque['preco'],
    c = dados_estoque['tipo_capa'].apply(lambda x: mcolors.to_rgba('darkturquoise', 0.2) if x == 'Dura' else mcolors.to_rgba('lightsalmon', 0.4)),
    marker = 'o'
)

handles = [    # Definir legenda
    plt.Line2D([0], [0], marker = 'o', color = 'w', markerfacecolor = 'darkturquoise', alpha = 0.6, markersize = 10, label = 'Dura'),
    plt.Line2D([0], [0], marker = 'o', color = 'w', markerfacecolor = 'lightsalmon', alpha = 0.6, markersize = 10, label = 'Flexível')
]

plt.legend(handles = handles)    # Acrescentar legenda
plt.title('Distribuição do preço versus qtde. de páginas, por tipo de capa', pad = 10)    # pad: acrescentar espaço entre gráfico e título
plt.xlabel('Qtde. de páginas', labelpad = 10)                                             # labelpad: acrescentar espaço entre eixo e título do eixo
plt.ylabel('Preço', labelpad = 5)

plt.show()