# Demonstração de ETL com Dados Aleatórios usando Pandas

Nesta demonstração, vamos realizar o processo de ETL (Extração, Transformação e Carga) utilizando um exemplo simples de dados aleatórios. Vamos criar um conjunto de dados aleatórios, realizar algumas transformações básicas e exibir os resultados.

## Etapa 1: Extração e Criação do DataFrame

Vamos começar importando a biblioteca pandas e numpy, que serão usadas para criar nosso DataFrame com dados aleatórios.



In [1]:
import pandas as pd
import numpy as np

# Criando um DataFrame com dados aleatórios
np.random.seed(42)  # Definindo uma semente para reproduzir os resultados
num_rows = 100  # Número de linhas no DataFrame
categorias = ['Categoria X', 'Categoria Y', 'Categoria Z']
produtos = ['Produto A', 'Produto B', 'Produto C']
data = {
    'produto': np.random.choice(produtos, num_rows),
    'valor': np.random.randint(50, 300, num_rows),
    'categoria': np.random.choice(categorias, num_rows)
}
df = pd.DataFrame(data)

#Etapa 2: Transformação - Cálculo da Média por Categoria
Agora que temos nosso DataFrame df com dados aleatórios, vamos calcular a média dos valores por categoria.

In [2]:
# Calculando a média dos valores por categoria
media_por_categoria = df.groupby('categoria')['valor'].mean().reset_index()


#Etapa 3: Visualização dos Resultados
Vamos exibir os resultados das etapas anteriores, mostrando o DataFrame original, a média dos valores por categoria e os dados transformados.

In [3]:
# Exibindo os primeiros registros do DataFrame original
print("Dados originais:")
print(df.head())

# Exibindo a média dos valores por categoria
print("\nMédia dos valores por categoria:")
print(media_por_categoria)

# Salvando os dados transformados em um novo DataFrame
dados_transformados = media_por_categoria.copy()

# Exibindo os dados transformados
print("\nDados transformados:")
print(dados_transformados)


Dados originais:
     produto  valor    categoria
0  Produto C    285  Categoria Z
1  Produto A    185  Categoria Y
2  Produto C    265  Categoria X
3  Produto C    112  Categoria X
4  Produto A    188  Categoria X

Média dos valores por categoria:
     categoria       valor
0  Categoria X  188.472222
1  Categoria Y  190.200000
2  Categoria Z  161.764706

Dados transformados:
     categoria       valor
0  Categoria X  188.472222
1  Categoria Y  190.200000
2  Categoria Z  161.764706


#Conclusão
Nesta demonstração, criamos um DataFrame com dados aleatórios usando a biblioteca numpy. Em seguida, realizamos a etapa de transformação calculando a média dos valores por categoria.