# Sobre as estruturas de dados:

<div align='justify'>

**Lista:**

Utilidade: Listas são úteis quando você precisa realizar operações simples, como cálculos de soma ou média. Elas são eficazes para realizar essas operações em uma única coluna de um DataFrame.

Desempenho: O desempenho das listas para cálculos de soma e média é bom e rápido, especialmente em DataFrames de pequeno a médio porte. No entanto, em DataFrames muito grandes, pode haver uma pequena sobrecarga devido à conversão de uma coluna para uma lista.

**Dicionário:**

Utilidade: Dicionários são ideais quando você precisa realizar agregações ou mapeamentos de valores de uma coluna para outra. Eles são úteis para calcular totais, médias, máximos, mínimos ou qualquer operação que envolva agrupamento.

Desempenho: Dicionários são eficientes para agrupar valores com base em chaves e calcular agregações. São especialmente úteis quando você precisa calcular totais ou médias de várias categorias, pois permitem acesso rápido aos valores associados a cada chave.

**Tuplas:**

Utilidade: Tuplas podem ser usadas quando você precisa armazenar e iterar sobre valores imutáveis, como sequências de vendas de um produto específico. Elas são úteis para calcular médias, desvios padrão e outras estatísticas descritivas.

Desempenho: O desempenho das tuplas é bom para cálculos simples que envolvem iterar por um pequeno conjunto de valores imutáveis. No entanto, para operações mais complexas em grandes conjuntos de dados, outras estruturas, como NumPy arrays, podem ser mais eficientes.

**Set:**

Utilidade: Conjuntos são valiosos quando você precisa encontrar valores únicos em uma coluna. Eles podem ser usados para eliminar duplicatas e obter uma visão rápida dos valores distintos presentes em uma coluna.

Desempenho: Conjuntos têm desempenho excepcionalmente rápido para identificar valores exclusivos em uma coluna, mesmo em DataFrames muito grandes. Isso é útil quando se lida com dados com muitas entradas duplicadas.

**Resumo:**

A escolha da estrutura de dados depende da tarefa específica que você deseja realizar e do tamanho do DataFrame. Listas e dicionários são úteis para cálculos e agregações simples, enquanto tuplas são mais adequadas para operações imutáveis em pequenos conjuntos de dados.

Conjuntos (sets) são ideais para encontrar valores exclusivos em uma coluna. Em termos de desempenho, todas essas estruturas são geralmente eficientes, mas a eficiência real pode depender do tamanho dos dados e da complexidade das operações. Para tarefas intensivas em cálculos, o uso de bibliotecas como NumPy pode oferecer um desempenho significativamente melhor.

In [1]:
import pandas as pd
import numpy as np

# Gerar dados de exemplo
np.random.seed(0)  # Para tornar os resultados reproduzíveis
num_rows = 1000
data = {
    'ID': np.arange(1, num_rows + 1),
    'Produto': np.random.choice(['A', 'B', 'C', 'D'], num_rows),
    'Vendas': np.random.randint(1, 100, num_rows),
    'Lucro': np.random.uniform(1, 50, num_rows)
}
df = pd.DataFrame(data)

# Lista: calcular a soma das vendas usando uma lista.

vendas_lista = df['Vendas'].tolist()
soma_vendas_lista = sum(vendas_lista)
print("Soma das vendas (usando lista):", soma_vendas_lista)

# Dicionário: criar um dicionário que calcula o lucro total por produto.

lucro_por_produto = {}
for produto in df['Produto'].unique():
    lucro_por_produto[produto] = df[df['Produto'] == produto]['Lucro'].sum()

print("\nLucro total por produto (usando dicionário):")
for produto, lucro in lucro_por_produto.items():
    print(f"{produto}: {lucro}")

# Tuplas: calcular a média de vendas por produto usando tuplas.

media_vendas_por_produto = {}
for produto in df['Produto'].unique():
    vendas_produto = tuple(df[df['Produto'] == produto]['Vendas'])
    media_vendas_por_produto[produto] = sum(vendas_produto) / len(vendas_produto)

print("\nMédia de vendas por produto (usando tuplas):")
for produto, media in media_vendas_por_produto.items():
    print(f"{produto}: {media}")

# Set: encontrar os produtos únicos vendidos.

produtos_unicos = set(df['Produto'])
print("\nProdutos únicos (usando set):", produtos_unicos)

# Calcular o total de produtos vendidos para cada produto.

total_produtos_vendidos = {}
for produto in df['Produto'].unique():
    total_produtos_vendidos[produto] = len(df[df['Produto'] == produto])

print("\nTotal de produtos vendidos por produto:")
for produto, total in total_produtos_vendidos.items():
    print(f"{produto}: {total}")

# Dicionário: criar um dicionário que calcula o produto mais vendido.

produto_mais_vendido = max(total_produtos_vendidos, key=total_produtos_vendidos.get)
print("\nProduto mais vendido (usando dicionário):", produto_mais_vendido)

# Dicionário: calcular a margem de lucro média por produto.

margem_lucro_media_por_produto = {}
for produto in df['Produto'].unique():
    margem_lucro_media_por_produto[produto] = df[df['Produto'] == produto]['Lucro'].mean()

print("\nMargem de lucro média por produto (usando dicionário):")
for produto, margem in margem_lucro_media_por_produto.items():
    print(f"{produto}: {margem:.2f}")

# DataFrame: encontrar o mês com as maiores vendas.

df['Data'] = pd.date_range(start='2023-01-01', periods=num_rows, freq='M')
mes_maior_vendas = df[df['Vendas'] == df['Vendas'].max()]['Data'].iloc[0].strftime('%B')
print("\nMês com as maiores vendas (usando DataFrame):", mes_maior_vendas)


Soma das vendas (usando lista): 49848

Lucro total por produto (usando dicionário):
A: 6475.571598268585
D: 6413.395406843623
B: 6486.158242276035
C: 6161.172664243112

Média de vendas por produto (usando tuplas):
A: 48.96078431372549
D: 50.20318725099602
B: 49.60079051383399
C: 50.67634854771784

Produtos únicos (usando set): {'C', 'A', 'D', 'B'}

Total de produtos vendidos por produto:
A: 255
D: 251
B: 253
C: 241

Produto mais vendido (usando dicionário): A

Margem de lucro média por produto (usando dicionário):
A: 25.39
D: 25.55
B: 25.64
C: 25.57

Mês com as maiores vendas (usando DataFrame): July
