#### **Extração, Carregamento e Transformação**

1 - Instalação das Bibliotecas

In [1]:
# Instalação do Pandas para manipulação de dados.
!pip install pandas

# Instalação do Open Py XL para gerenciamento de arquivos do Excel.
!pip install openpyxl



2 - Importação das Bibliotecas

In [2]:
# Importa o Pandas inteiro.
import pandas

# Importa o Open Py XL inteiro.
import openpyxl

3 - Extração e Carregamento dos Dados

In [3]:
# Define o caminho para o arquivo com os dados.
arquivo = 'Loja de Varejo.xlsx'

# Carrega o arquivo do Excel.
df_dados = pandas.read_excel(arquivo, sheet_name='Vendas')

# Exibe uma amostra do data frame do Pandas.
display(df_dados.head())

# Exibe informações detalhadas sobre a estrutura dos dados.
display(df_dados.info())

Unnamed: 0.1,Unnamed: 0,Nome do Cliente,Preço Unitário,Custo de Envio,Categoria do Produto,Nome do Produto,País,Estado,Cidade,Quantidade,Custo Final
0,,Bonnie Potter,2.84,0.93,Office Supplies,SANFORD Liquid Accent™ Tank-Style Highlighters,United States,Washington,Anacortes,4.0,8.52
1,,Ronnie Proctor,500.98,26.0,Furniture,Global Troy™ Executive Leather Low-Back Tilter,United States,California,San Gabriel,12.0,4508.82
2,,Marcus Dunlap,9.48,7.29,Furniture,"DAX Two-Tone Rosewood/Black Document Frame, De...",United States,New Jersey,Roselle,22.0,156.42
3,,Gwendolyn F Tyson,78.69,19.99,Furniture,Howard Miller 12-3/4 Diameter Accuwave DS ™ Wa...,United States,Minnesota,Prior Lake,16.0,944.28
4,,Gwendolyn F Tyson,3.28,2.31,Office Supplies,Newell 321,United States,Minnesota,Prior Lake,7.0,17.22


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1982 entries, 0 to 1981
Data columns (total 11 columns):
 #   Column                Non-Null Count  Dtype  
---  ------                --------------  -----  
 0   Unnamed: 0            0 non-null      float64
 1   Nome do Cliente       1952 non-null   object 
 2   Preço Unitário        1952 non-null   object 
 3   Custo de Envio        1952 non-null   object 
 4   Categoria do Produto  1951 non-null   object 
 5   Nome do Produto       1932 non-null   object 
 6   País                  1949 non-null   object 
 7   Estado                1947 non-null   object 
 8   Cidade                1946 non-null   object 
 9   Quantidade            1950 non-null   float64
 10  Custo Final           1949 non-null   float64
dtypes: float64(3), object(8)
memory usage: 170.5+ KB


None

4 - Limpeza de dados

- Remover colunas desnecessárias.
- Verificar a existência e remover duplicatas.
- Preencher valores ausentes (nulos).

In [4]:
# Verifica se existem colunas vazias.
if 'Unnamed: 0' in df_dados.columns:

    # Remove colunas completamente vazias.
    df_dados = df_dados.drop(columns=['Unnamed: 0'])

In [5]:
# Exibe a quantidade de linhas duplicadas.
print(f'Quantidade de Duplicatas: {df_dados.duplicated().sum()}')

# Remove as linhas duplicadas.
df_dados = df_dados.drop_duplicates()

Quantidade de Duplicatas: 20


In [6]:
# Exibe a quantidade de valores nulos por coluna.
print(df_dados.isnull().sum())

Nome do Cliente         10
Preço Unitário          10
Custo de Envio          10
Categoria do Produto    11
Nome do Produto         30
País                    13
Estado                  15
Cidade                  16
Quantidade              12
Custo Final             13
dtype: int64


In [7]:
# Preenche valores ausentes usando a mediana.
df_dados['Custo de Envio'] = df_dados['Custo de Envio'].fillna(df_dados['Custo de Envio'].median())

# Preenche valores ausentes usando a média aritmética.
df_dados['Quantidade'] = df_dados['Quantidade'].fillna(df_dados['Quantidade'].mean())

In [8]:
# Exibe o conjunto de dados após a execução dos processos de limpeza.
display(df_dados.head())

Unnamed: 0,Nome do Cliente,Preço Unitário,Custo de Envio,Categoria do Produto,Nome do Produto,País,Estado,Cidade,Quantidade,Custo Final
0,Bonnie Potter,2.84,0.93,Office Supplies,SANFORD Liquid Accent™ Tank-Style Highlighters,United States,Washington,Anacortes,4.0,8.52
1,Ronnie Proctor,500.98,26.0,Furniture,Global Troy™ Executive Leather Low-Back Tilter,United States,California,San Gabriel,12.0,4508.82
2,Marcus Dunlap,9.48,7.29,Furniture,"DAX Two-Tone Rosewood/Black Document Frame, De...",United States,New Jersey,Roselle,22.0,156.42
3,Gwendolyn F Tyson,78.69,19.99,Furniture,Howard Miller 12-3/4 Diameter Accuwave DS ™ Wa...,United States,Minnesota,Prior Lake,16.0,944.28
4,Gwendolyn F Tyson,3.28,2.31,Office Supplies,Newell 321,United States,Minnesota,Prior Lake,7.0,17.22


5 - Transformação dos Dados

- Realizar a tipagem dos dados para evitar erros.
- Remover dados vazios remanescentes.
- Calcular o lucro bruto (Preço Final - (Preço Unitário x Quantidade + Custo de Envio)).
- Ordenar os dados do maior para o menor lucro bruto.

In [9]:
# Exibe o tipo de dados de cada coluna do data frame.
display(df_dados.dtypes)

# Converte as colunas textuais para numéricas.
df_dados['Preço Unitário'] = pandas.to_numeric(df_dados['Preço Unitário'], errors='coerce')
df_dados['Custo de Envio'] = pandas.to_numeric(df_dados['Custo de Envio'], errors='coerce')

Nome do Cliente          object
Preço Unitário           object
Custo de Envio           object
Categoria do Produto     object
Nome do Produto          object
País                     object
Estado                   object
Cidade                   object
Quantidade              float64
Custo Final             float64
dtype: object

In [10]:
# Exibe a quantidade de valores nulos por coluna.
print(df_dados.isnull().sum())

# Remove a linha inteira caso tenha algum valor nulo.
df_dados = df_dados.dropna()

Nome do Cliente         10
Preço Unitário          13
Custo de Envio           4
Categoria do Produto    11
Nome do Produto         30
País                    13
Estado                  15
Cidade                  16
Quantidade               0
Custo Final             13
dtype: int64


In [12]:
# Cria uma nova coluna contendo o cálculo do Lucro Bruto.
df_dados['Lucro Bruto'] = df_dados['Custo Final'] - (df_dados['Preço Unitário'] * df_dados['Quantidade'] + df_dados['Custo de Envio'])

# Arredonda o Lucro Bruto para duas casa decimais.
df_dados['Lucro Bruto'] = df_dados['Lucro Bruto'].round(2)

In [13]:
# Classificação dos dados do maior para o menor Lucro Bruto.
df_ordenado = df_dados.sort_values(by='Lucro Bruto', ascending=False)

# Exibe o conjunto de dados após a execução dos processos de limpeza.
display(df_dados.head())

Unnamed: 0,Nome do Cliente,Preço Unitário,Custo de Envio,Categoria do Produto,Nome do Produto,País,Estado,Cidade,Quantidade,Custo Final,Lucro Bruto
0,Bonnie Potter,2.84,0.93,Office Supplies,SANFORD Liquid Accent™ Tank-Style Highlighters,United States,Washington,Anacortes,4.0,8.52,-3.77
1,Ronnie Proctor,500.98,26.0,Furniture,Global Troy™ Executive Leather Low-Back Tilter,United States,California,San Gabriel,12.0,4508.82,-1528.94
2,Marcus Dunlap,9.48,7.29,Furniture,"DAX Two-Tone Rosewood/Black Document Frame, De...",United States,New Jersey,Roselle,22.0,156.42,-59.43
3,Gwendolyn F Tyson,78.69,19.99,Furniture,Howard Miller 12-3/4 Diameter Accuwave DS ™ Wa...,United States,Minnesota,Prior Lake,16.0,944.28,-334.75
4,Gwendolyn F Tyson,3.28,2.31,Office Supplies,Newell 321,United States,Minnesota,Prior Lake,7.0,17.22,-8.05


6 - Exportação dos Resultados para o Excel

In [14]:
# Cria um arquivo do Excel com os dados já tratados.
df_ordenado.to_excel('Loja de Varejo - Tratado.xlsx', index=False)