In [11]:
!pip install pyarrow --quiet

import pandas as pd
import numpy as np

# Técnica 1: Armazenamento Colunar
def armazenamento_colunar(dados):
    df = pd.DataFrame(dados)
    df_colunar = df.to_dict('list')
    return df_colunar

# Técnica 2: Processamento Vetorial
def processamento_vetorial(dados):
    produtos = dados['Produto'].unique()
    resultado = {}
    for produto in produtos:
        quantidades = dados[dados['Produto'] == produto]['Quantidade'].values
        resultado[produto] = np.sum(quantidades)
    return resultado



# Técnica 3: Uso de Disco
def uso_de_disco(dados, arquivo):
    pd.DataFrame(dados).to_csv(arquivo, index=False)
    dados_lidos = pd.read_csv(arquivo)
    return dados_lidos

# Técnica 4: Suporte a Formatos de Arquivo
def suporte_a_formatos(dados, arquivo):
    pd.DataFrame(dados).to_parquet(arquivo, index=False)
    dados_lidos = pd.read_parquet(arquivo)
    return dados_lidos

# Gera o arquivo CSV
dados = [
    {'Produto': 'Arroz', 'Quantidade': 10},
    {'Produto': 'Feijão', 'Quantidade': 20},
    {'Produto': 'Arroz', 'Quantidade': 15},
    {'Produto': 'Feijão', 'Quantidade': 30},
    {'Produto': 'Açúcar', 'Quantidade': 5},
    {'Produto': 'Açúcar', 'Quantidade': 10}
]

arquivo_csv = "produtos.csv"
pd.DataFrame(dados).to_csv(arquivo_csv, index=False)
print('Dataset Original')
print(pd.DataFrame(dados, columns=['Produto','Quantidade']))
arquivo_csv = "produtos.csv"
pd.DataFrame(dados).to_csv(arquivo_csv, index=False)
print('\n')
# Lê o arquivo CSV e agrega os dados por produto
df = pd.read_csv(arquivo_csv)
df_agregado = df.groupby('Produto')['Quantidade'].sum().reset_index()

# Armazenamento Colunar
df_colunar = armazenamento_colunar(df_agregado)
print("Armazenamento Colunar:", df_colunar)
print('\n')
# Processamento Vetorial
resultado = processamento_vetorial(df_agregado)
print("Processamento Vetorial:", resultado)
print('\n')
# Uso de Disco
dados_lidos = uso_de_disco(df_agregado, "agregado.csv")
print("Uso de Disco:", dados_lidos)
print('\n')
# Suporte a Formatos de Arquivo
print('Dataset Final')
dados_lidos = suporte_a_formatos(df_agregado, "agregado.parquet")
print("Suporte a Formatos de Arquivo:", dados_lidos)

[0mDataset Original
  Produto  Quantidade
0   Arroz          10
1  Feijão          20
2   Arroz          15
3  Feijão          30
4  Açúcar           5
5  Açúcar          10


Armazenamento Colunar: {'Produto': ['Arroz', 'Açúcar', 'Feijão'], 'Quantidade': [25, 15, 50]}


Processamento Vetorial: {'Arroz': 25, 'Açúcar': 15, 'Feijão': 50}


Uso de Disco:   Produto  Quantidade
0   Arroz          25
1  Açúcar          15
2  Feijão          50


Dataset Final
Suporte a Formatos de Arquivo:   Produto  Quantidade
0   Arroz          25
1  Açúcar          15
2  Feijão          50
