In [2]:
import pandas as pd
import re

In [3]:
# Local do arquivo
path_file = "/home/davicruvel/airflow_project/data/raw/fruits/fruit-main/Apples-2022.xlsx"

# Passando arquivo excel para uma variável
excel_file = pd.ExcelFile(path_file)

# Passando os dados do excel para um dataframe
df_apple = pd.read_excel(excel_file, sheet_name='Apples', skiprows=1)

# Removendo as colunas com textos explicativos no final do arquivo
df_apple = df_apple[~df_apple.iloc[:, 0].astype(str).str.contains("USDA|Excludes|Includes|Source", na=False)]

# Resetando o índice depois da limpeza de dados desnecessários
df_apple.reset_index(drop=True, inplace=True)

# Renomeando as colunas para facilitar a interpretação
df_apple.columns = [
    "Category", "Avg_Retail_price", "Unit", "Prep_Yield_Factor",
    "Cup_Size", "Cup_Unit", "Avg_Price_Cup"
]

df_apple.head(5)

Unnamed: 0,Category,Avg_Retail_price,Unit,Prep_Yield_Factor,Cup_Size,Cup_Unit,Avg_Price_Cup
0,Fresh1,1.854107,per pound,0.9,0.242508,Pounds,0.499596
1,Applesauce2,1.170549,per pound,1.0,0.540133,Pounds,0.632252
2,Juice,,,,,,
3,Ready to drink3,0.869853,per pint,1.0,8.0,Fluid ounces,0.434926
4,Frozen4,0.608641,per pint,1.0,8.0,Fluid ounces,0.304321


#### Tratando o subtítulo "Juice" e tratando o número que aparece após cada item

In [4]:
# Função que remove o número no final das strings
def clean_product_name(name):
    return re.sub(r'\d+$', '', name).strip()

# Pegando o índice que "Juice" aparece
juice_index = df_apple[df_apple.iloc[:, 0] == "Juice"].index

if not juice_index.empty: # Se "Juice" ocorrer na coluna 0 em alguma linha da planilha
    juice_index = juice_index[0] # Pegar o primeiro índice encontrado

    # Criar um DataFrame com todos os dados antes de "Juice" e remove o número no final do produto
    df_fresh_apples = df_apple.iloc[:juice_index].reset_index(drop=True)
    df_fresh_apples.iloc[:, 0] = df_fresh_apples.iloc[:, 0].apply(clean_product_name)

    # Criar um DataFrame com todos os dados de "Juice" e remove o número no final do produto
    df_juices = df_apple.iloc[juice_index+1:].reset_index(drop=True)
    df_juices.iloc[:, 0] = df_juices.iloc[:, 0].apply(clean_product_name)
else:
    # Se "Juice" não for encontrado, mantem-se apenas os dados principais
    df_fresh_apples = df_apple.copy()
    df_fresh_apples.iloc[:, 0] = df_fresh_apples.iloc[:, 0].apply(clean_product_name)
    df_juices = None # Indica que não há dados de "Juice" nessa planilha

# df_fresh_apples.head()
df_juices.head()

Unnamed: 0,Category,Avg_Retail_price,Unit,Prep_Yield_Factor,Cup_Size,Cup_Unit,Avg_Price_Cup
0,Ready to drink,0.869853,per pint,1.0,8.0,Fluid ounces,0.434926
1,Frozen,0.608641,per pint,1.0,8.0,Fluid ounces,0.304321


#### Testando com outra planilha

In [5]:
# Local do arquivo
path_file = "/home/davicruvel/airflow_project/data/raw/fruits/fruit-main/Bananas-2022.xlsx"

# Passando arquivo excel para uma variável
excel_file = pd.ExcelFile(path_file)

# Passando os dados do excel para um dataframe
df_apple = pd.read_excel(excel_file, sheet_name='Bananas', skiprows=1)

# Removendo as colunas com textos explicativos no final do arquivo
df_apple = df_apple[~df_apple.iloc[:, 0].astype(str).str.contains("USDA|Excludes|Includes|Source", na=False)]

# Resetando o índice depois da limpeza de dados desnecessários
df_apple.reset_index(drop=True, inplace=True)

# Renomeando as colunas para facilitar a interpretação
df_apple.columns = [
    "Category", "Avg_Retail_price", "Unit", "Prep_Yield_Factor",
    "Cup_Size", "Cup_Unit", "Avg_Price_Cup"
]

df_apple.head(5)

Unnamed: 0,Category,Avg_Retail_price,Unit,Prep_Yield_Factor,Cup_Size,Cup_Unit,Avg_Price_Cup
0,Fresh1,0.597117,per pound,0.64,0.330693,Pounds,0.308535


#### Tratando o caso onde a planilha tem subtítulos

In [7]:
# Função que remove o número no final das strings
def clean_product_name(name):
    return re.sub(r'\d+$', '', name).strip()

# Pegando o índice que "Juice" aparece
juice_index = df_apple[df_apple.iloc[:, 0] == "Juice"].index

if not juice_index.empty: # Se "Juice" ocorrer na coluna 0 em alguma linha da planilha
    juice_index = juice_index[0] # Pegar o primeiro índice encontrado

    # Criar um DataFrame com todos os dados antes de "Juice" e remove o número no final do produto
    df_fresh_apples = df_apple.iloc[:juice_index].reset_index(drop=True)
    df_fresh_apples.iloc[:, 0] = df_fresh_apples.iloc[:, 0].apply(clean_product_name)

    # Criar um DataFrame com todos os dados de "Juice" e remove o número no final do produto
    df_juices = df_apple.iloc[juice_index+1:].reset_index(drop=True)
    df_juices.iloc[:, 0] = df_juices.iloc[:, 0].apply(clean_product_name)
else:
    # Se "Juice" não for encontrado, mantem-se apenas os dados principais
    df_fresh_apples = df_apple.copy()
    df_fresh_apples.iloc[:, 0] = df_fresh_apples.iloc[:, 0].apply(clean_product_name)
    df_juices = None # Indica que não há dados de "Juice" nessa planilha

# df_fresh_apples.head()
df_fresh_apples.head()

Unnamed: 0,Category,Avg_Retail_price,Unit,Prep_Yield_Factor,Cup_Size,Cup_Unit,Avg_Price_Cup
0,Fresh,0.597117,per pound,0.64,0.330693,Pounds,0.308535
