# Pandas: 

In [None]:
# instalar Parquet, Pandas e Pyarrow
%!pip install parquet
%!pip install pandas
%!pip install pyarrow

In [None]:
# importar os pacotes necessários
import pandas as pd
import numpy as np
import os

In [None]:
# Criando um DataFrame de exemplo com diversos tipos de dados
df = pd.DataFrame({
    'Nome': ['Maria', 'John', 'Tonico', 'Mariane'],
    'Idade': [25, 30, 35, np.nan],  # Incluindo um valor nulo
    'Salario': [50000.50, 60000.75, 70000.00, 80000.25],
    'Data_Admissao': pd.to_datetime(['2020-01-15', '2019-05-20', '2018-11-01', '2021-03-10']),
    'Descrição': ['Desenvolvedora Python', 'Analista de Dados', 'Cientista de Dados', 'Gerente de Projetos com acentuação çãõ'],
    'Status': ['Ativo', 'Inativo', 'Ativo', 'Ativo']
})

In [None]:
# Escrevendo o DataFrame para um arquivo Parquet usando pandas (com pyarrow como engine padrão)
try:
    df.to_parquet('dataset/df_pandas_pyarrow.parquet', engine='pyarrow') # Especificando o engine pyarrow
    print("\nArquivo Parquet 'dataset/df_pandas_pyarrow.parquet' escrito com sucesso usando pandas com engine pyarrow!")

    # df.to_parquet('dataset/df_pandas_fastparquet.parquet', engine='fastparquet') # Especificando o engine fastparquet
    # print("\nArquivo Parquet 'dataset/df_pandas_fastparquet.parquet' escrito com sucesso usando pandas com engine fastparquet!")

    # df.to_parquet('dataset/df_pandas.parquet') # Usando o engine padrão (pyarrow se instalado, senão fastparquet)
    # print("\nArquivo Parquet 'dataset/df_pandas.parquet' escrito com sucesso usando pandas com engine padrão!")

except Exception as e:
    print(f"Erro ao escrever o arquivo Parquet: {e}")

## Ler arquivo `Parquet` utilizando `Pandas`

In [None]:
# Lendo o arquivo Parquet de volta usando pandas
try:
    df_lido = pd.read_parquet('dataset/df_pandas_pyarrow.parquet')
    print("\nDataFrame lido do arquivo Parquet:")
    display(df_lido)
except Exception as e:
    print(f"Erro ao ler o arquivo Parquet: {e}")

## Ler apenas colunas especificas em uma tabela utilizando `Pandas`

In [None]:
# Lendo apenas colunas
try:
    # Lendo o arquivo Parquet
    df = pd.read_parquet('dataset/df_pandas_pyarrow.parquet')

    # 1. Lendo uma única coluna como uma Series (ex: 'Nome')
    nomes = df['Nome']
    print("\nColuna 'Nome' como Series:")
    print(nomes)
    print(type(nomes))

    # 2. Lendo múltiplas colunas como um novo DataFrame (ex: 'Nome' e 'Salario')
    dados_pessoais = df[['Nome', 'Salario']]
    display("\nColunas 'Nome' e 'Salario' como DataFrame:")
    print(dados_pessoais)
    display(type(dados_pessoais))

    # 3. Lendo uma coluna usando .loc (ex: 'Data_Admissao')
    datas_admissao = df.loc[:, 'Data_Admissao']
    print("\nColuna 'Data_Admissao' usando .loc:")
    print(datas_admissao)
    print(type(datas_admissao))

    # 4. Lendo uma coluna usando .iloc (ex: segunda coluna, 'Idade')
    idades = df.iloc[:, 1]
    print("\nSegunda coluna ('Idade') usando .iloc:")
    print(idades)
    print(type(idades))

    # 5. Iterando sobre os valores de uma coluna (ex: 'Descrição')
    print("\nIterando sobre a coluna 'Descrição':")
    for descricao in df['Descrição']:
        print(descricao)

except FileNotFoundError:
    print("Erro: Arquivo 'dataset/df_pandas.parquet' não encontrado. Certifique-se de que o arquivo existe no diretório correto.")
except Exception as e:
    print(f"Ocorreu um erro ao ler o arquivo Parquet: {e}")

## Adicionar uma nova coluna e seus valores a uma tabela com `Pandas`

In [None]:
# Adicionando colunas ao DataFrame
try:
    # Lendo o arquivo Parquet
    df = pd.read_parquet('dataset/df_pandas_pyarrow.parquet')

    # 1. Adicionando uma nova coluna com um valor constante
    df['Nova_Coluna_Constante'] = 'Valor Constante'
    print("\nDataFrame com nova coluna constante:")
    display(df)

    # 2. Adicionando uma nova coluna com valores calculados com base em outras colunas
    df['Salario_Anual'] = df['Salario'] * 12
    print("\nDataFrame com nova coluna 'Salario_Anual':")
    display(df)

    # 3. Adicionando uma nova coluna com valores condicionais (usando np.where)
    df['Status'] = np.where(df['Idade'] >= 30, 'Adulto', 'Jovem')
    print("\nDataFrame com nova coluna 'Status':")
    display(df)

    # 4. Adicionando uma nova coluna com valores a partir de uma lista
    nova_lista = ['A', 'B', 'C', 'D']
    if len(nova_lista) == len(df): # importante verificar se o tamanho da lista é igual ao tamanho do dataframe
        df['Nova_Coluna_Lista'] = nova_lista
        print("\nDataFrame com nova coluna a partir de uma lista:")
        display(df)
    else:
        print("\nErro: O tamanho da lista não corresponde ao número de linhas do DataFrame.")


    # Salvando o DataFrame modificado de volta para um arquivo Parquet (sobrescreve o arquivo existente)
    df.to_parquet('dataset/df_pandas_com_nova_coluna.parquet') # Salvando com outro nome para não sobrescrever o original
    print("\nDataFrame modificado salvo em 'dataset/df_pandas_com_nova_coluna.parquet'")

    # Lendo o arquivo Parquet modificado para verificar
    df_modificado = pd.read_parquet('dataset/df_pandas_com_nova_coluna.parquet')
    print("\nDataFrame lido do novo arquivo Parquet:")
    display(df_modificado)

except FileNotFoundError:
    print("Erro: Arquivo 'dataset/df_pandas.parquet' não encontrado. Certifique-se de que o arquivo existe no diretório correto.")
except Exception as e:
    print(f"Ocorreu um erro: {e}")

## Alterar um valor específico em uma coluna de uma tabela com `pandas`.

In [None]:
# Alterando valores no DataFrame
try:
    # Lendo o arquivo Parquet
    df = pd.read_parquet('dataset/df_pandas_com_nova_coluna.parquet')

    print("\nDataFrame original:")
    display(df)

    # 1. Alterando um valor específico com base no índice da linha e nome da coluna (usando .loc)
    df.loc[0, 'Nome'] = 'Novo Nome da Maria'  # Altera o nome na primeira linha (índice 0)
    print("\nDataFrame com nome alterado (usando .loc):")
    display(df)

    # 2. Alterando valores com base em uma condição (usando .loc e indexação booleana)
    df.loc[df['Idade'] == 30, 'Status'] = 'Adulto Experiente'  # Altera o status onde a idade é 30
    print("\nDataFrame com status alterado (usando .loc e condição):")
    display(df)

    # 3. Alterando múltiplos valores com base em uma condição (usando .loc e indexação booleana)
    df.loc[df['Salario_Anual'] > 900000, ['Status', 'Nova_Coluna_Lista']] = ['Profissional de Alta Renda', 'X']
    print("\nDataFrame com status e nova coluna alterados (usando .loc e condição):")
    display(df)

    # 4. Alterando um valor usando .at (mais eficiente para acesso a um único valor)
    df.at[2, 'Descrição'] = 'Cientista de Dados Sênior com acentuação çãõ' # Altera a descrição na terceira linha (índice 2)
    print("\nDataFrame com descrição alterada (usando .at):")
    display(df)

    # 5. Usando np.where para alterar valores condicionalmente em toda a coluna
    df['Status'] = np.where(df['Idade'] < 25, 'Jovem Adulto', df['Status']) # Altera o status para 'Jovem Adulto' onde a idade é menor que 25
    print("\nDataFrame com status alterado (usando np.where):")
    display(df)

    # Salvando as alterações de volta para um arquivo Parquet
    df.to_parquet('dataset/df_parquet_alterado.parquet') # Salvando com outro nome para não sobrescrever o original
    print("\nDataFrame modificado salvo em 'dataset/df_parquet_alterado.parquet'")

    # Lendo o arquivo Parquet modificado para verificar as alterações
    df_alterado = pd.read_parquet('dataset/df_parquet_alterado.parquet')
    print("\nDataFrame lido do arquivo Parquet alterado:")
    display(df_alterado)


except FileNotFoundError:
    print("Erro: Arquivo 'dataset/df_pandas_com_nova_coluna.parquet' não encontrado. Certifique-se de que o arquivo existe no diretório correto.")
except Exception as e:
    print(f"Ocorreu um erro: {e}")

## Excluir coluna existente de uma tabela com `pandas`.

In [None]:
try:
    # Lendo o arquivo Parquet
    df = pd.read_parquet('dataset/df_parquet_alterado.parquet')

    print("\nDataFrame original:")
    display(df)

    # 1. Excluindo uma única coluna usando o método drop()
    df = df.drop(columns=['Nova_Coluna_Constante'])  # Removendo a coluna 'Nova_Coluna_Constante'
    print("\nDataFrame com a coluna 'Nova_Coluna_Constante' excluída:")
    display(df)

    # 2. Excluindo múltiplas colunas usando o método drop()
    df = df.drop(columns=['Salario_Anual', 'Nova_Coluna_Lista'])  # Removendo as colunas 'Salario_Anual' e 'Nova_Coluna_Lista'
    print("\nDataFrame com as colunas 'Salario_Anual' e 'Nova_Coluna_Lista' excluídas:")
    display(df)

    # 3. Excluindo uma coluna usando del (menos recomendado, mas funciona)
    del df['Status']
    print("\nDataFrame com a coluna 'Status' excluída usando del:")
    display(df)

    # Salvando o DataFrame modificado de volta para um arquivo Parquet
    df.to_parquet('dataset/df_parquet_sem_colunas.parquet') # Salvando com outro nome para não sobrescrever o original
    print("\nDataFrame modificado salvo em 'dataset/df_parquet_sem_colunas.parquet'")

    # Lendo o arquivo Parquet modificado para verificar as alterações
    df_sem_colunas = pd.read_parquet('dataset/df_parquet_sem_colunas.parquet')
    print("\nDataFrame lido do arquivo Parquet sem as colunas:")
    display(df_sem_colunas)

except FileNotFoundError:
    print("Erro: Arquivo 'dataset/df_parquet_alterado.parquet' não encontrado. Certifique-se de que o arquivo existe no diretório correto.")
except Exception as e:
    print(f"Ocorreu um erro: {e}")

## Particionando um DataFrame

In [None]:
try:
    # Lendo o arquivo Parquet
    df = pd.read_parquet('dataset/df_parquet_alterado.parquet')

    # Criando o diretório de destino
    output_dir = 'dataset/df_parquet_particionado'
    os.makedirs(output_dir, exist_ok=True)

    print("\nDataFrame original:")
    display(df)
except Exception as e:
    print(f"Ocorreu um erro: {e}")

In [None]:
try:
    # Particionando por 'Idade'
    df.to_parquet(
        path=output_dir,
        partition_cols=['Idade'],
        engine='pyarrow'
    )
    print(f"\nDataFrame particionado por 'Idade' e salvo em '{output_dir}'.")
except Exception as e:
    print(f"Ocorreu um erro: {e}")

In [None]:
try:
    # Verificando os arquivos particionados
    print("\nArquivos particionados criados:")
    for root, dirs, files in os.walk(output_dir):
        for file in files:
            print(os.path.join(root, file))

except Exception as e:
    print(f"Ocorreu um erro: {e}")

In [None]:
try:
    # Lendo um subconjunto particionado (agora usando uma idade existente: 30)
    idade_para_ler = 30  # Escolhe uma idade existente
    caminho_particao = os.path.join(output_dir, f'Idade={idade_para_ler}')

    # Verificando se o diretório da partição existe antes de tentar ler
    if os.path.exists(caminho_particao):
        df_particionado = pd.read_parquet(caminho_particao)
        print(f"\nDataFrame particionado onde Idade == {idade_para_ler}:")
        display(df_particionado)
    else:
        print(f"\nPartição com Idade == {idade_para_ler} não encontrada.")
except Exception as e:
    print(f"Ocorreu um erro: {e}")

In [None]:
try:
    # Exemplo com iteração para ler todas as partições
    print("\nLendo todas as partições existentes:")
    for nome_diretorio in os.listdir(output_dir):
        if nome_diretorio.startswith("Idade="):
            caminho_particao = os.path.join(output_dir, nome_diretorio)
            df_particionado = pd.read_parquet(caminho_particao)
            print(f"\nConteúdo da partição {nome_diretorio}:")
            display(df_particionado)
        elif nome_diretorio == "__HIVE_DEFAULT_PARTITION__":
            print(f"\nPartição default {nome_diretorio} ignorada:")
        else:
            print(f"\nDiretório {nome_diretorio} não é uma partição válida:")
except Exception as e:
    print(f"Ocorreu um erro: {e}")

In [None]:
try:
    # Particionando por múltiplas colunas (Idade e Descrição)
    output_dir_multiplas_colunas = 'dataset/df_parquet_particionado_multiplas_colunas'
    os.makedirs(output_dir_multiplas_colunas, exist_ok=True)

    df.to_parquet(
        path=output_dir_multiplas_colunas,
        partition_cols=['Idade', 'Descrição'],
        engine='pyarrow'
    )
    print(f"\nDataFrame particionado por 'Idade' e 'Descrição' e salvo em '{output_dir_multiplas_colunas}'.")
    # Verificando os arquivos particionados criados
    print("\nArquivos particionados criados:")
    for root, dirs, files in os.walk(output_dir_multiplas_colunas):
        for file in files:
            print(os.path.join(root, file))

except FileNotFoundError:
    print("Erro: Arquivo 'dataset/df_pandas.parquet' não encontrado. Certifique-se de que o arquivo existe no diretório correto.")
except Exception as e:
    print(f"Ocorreu um erro: {e}")