<a href="https://colab.research.google.com/github/JosenildoJunior/DIO/blob/main/Pipeline_ETL.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Criando dados aleatorios para utilização

In [None]:
import random
import csv

# Dados aleatórios de clientes
dados_clientes = []
num_clientes = 10

for i in range(1, num_clientes + 1):
    cliente = {
        "Id": random.randint(25, 74),
        "Nome": f"Cliente {i}",
        "Idade": random.randint(18, 70),
        "Saldo Bancário": round(random.uniform(1000, 100000), 2)
    }
    dados_clientes.append(cliente)

# Cabeçalho das colunas
cabecalho = ["Id", "Nome", "Idade", "Saldo Bancário"]

# Nome do arquivo CSV
nome_arquivo = "dados_clientes.csv"

# Salvar dados em um arquivo CSV
with open(nome_arquivo, mode="w", newline="", encoding="utf-8") as arquivo_csv:
    escritor_csv = csv.DictWriter(arquivo_csv, fieldnames=cabecalho)

    # Escrever o cabeçalho
    escritor_csv.writeheader()

    # Escrever os dados
    for cliente in dados_clientes:
        escritor_csv.writerow(cliente)

print("Arquivo CSV criado com sucesso!")


Arquivo CSV criado com sucesso!


# Extração (Extract)

In [None]:
# Importando o pandas
import pandas as pd

df = pd.read_csv("/content/dados_clientes.csv")

df.head()

Unnamed: 0,Id,Nome,Idade,Saldo Bancário
0,51,Cliente 1,41,15784.01
1,28,Cliente 2,24,45837.08
2,30,Cliente 3,36,79497.59
3,27,Cliente 4,69,23067.31
4,40,Cliente 5,70,84689.29


In [None]:
# Armazenando os Ids dos clientes
user_ids = df['Id'].tolist()

# Criando ids inexistentes
novos_ids = [65, 78]

# Incrementando os ids inexistentes
user_ids += novos_ids

# Observando os valores
print(user_ids)

[51, 28, 30, 27, 40, 30, 36, 25, 74, 64, 65, 78]


In [None]:
# Atribuindo na variavel users apenas os Ids que existem em ambos os df tanto no 'df' quanto no 'user_ids'
users = df[df['Id'].isin(user_ids)]

# Observando os valores
users

# Transformação (Transform)

* Limpeza de Dados

In [None]:
# Observando se existe Ids duplicados no Df
duplicatas = users[users.duplicated('Id')]

num_dupli = 0

if not duplicatas.empty:
    num_dupli += 1
    print(f"Foram encontrados {num_dupli} IDs repetidos:\n")
    print(duplicatas)
else:
    print("Nenhum ID repetido encontrado.")

In [None]:
# Criando função para observar se existe Ids duplicados no Df
def encontrar_ids_duplicados(df, coluna_id):
    duplicatas = users[users.duplicated(coluna_id)]
    num_dupli = 0

    if not duplicatas.empty:
        num_dupli += 1
        print(f"Foram encontrados {num_dupli} IDs repetidos:\n")
        print(duplicatas)
    else:
        print("Nenhum ID repetido encontrado.")

Foram encontrados 1 IDs repetidos:

   Id       Nome  Idade  Saldo Bancário
5  30  Cliente 6     65        82097.93


In [None]:
# Chamando a função
encontrar_ids_duplicados(users, 'Id')

In [None]:
# Observando os valores
users

Unnamed: 0,Id,Nome,Idade,Saldo Bancário
0,51,Cliente 1,41,15784.01
1,28,Cliente 2,24,45837.08
2,30,Cliente 3,36,79497.59
3,27,Cliente 4,69,23067.31
4,40,Cliente 5,70,84689.29
5,30,Cliente 6,65,82097.93
6,36,Cliente 7,50,41432.69
7,25,Cliente 8,67,36711.77
8,74,Cliente 9,43,42166.12
9,64,Cliente 10,24,38207.25


Como nesse caso não podemos manter ids iguais teremos que tratar essa problematica

In [None]:
# Função para alterar os valores repitidos
def alterar_id_repetido(df, coluna_id, novo_valor):

    # Obtendo os valores repitidos
    ids_repetidos = df[df.duplicated(coluna_id)][coluna_id].unique()

    # Observando se o novo valor já existe na coluna
    while novo_valor in df[coluna_id].values or novo_valor in ids_repetidos:
      # Caso exista vai ser incrementado mais um para ver se gera um valor único
        novo_valor += 1
    # Encontrando a linha de ocorrencia do primeiro Id repitido
    indice_linha = df[df[coluna_id] == ids_repetidos[0]].index[0]
    # Atribuindo um novo valor
    df.at[indice_linha, coluna_id] = novo_valor
    print("Valor alterado com sucesso!")

Valor alterado com sucesso!


In [None]:
# Chamando a função
#novo_valor = 57 ou Colocar o numero direto na função
alterar_id_repetido(users, 'Id', 57)

Valor alterado com sucesso!


In [None]:
# Chamando a função
encontrar_ids_duplicados(users, 'Id')

Nenhum ID repetido encontrado.


In [None]:
# Observando os valores
users

Unnamed: 0,Id,Nome,Idade,Saldo Bancário
0,51,Cliente 1,41,15784.01
1,28,Cliente 2,24,45837.08
2,57,Cliente 3,36,79497.59
3,27,Cliente 4,69,23067.31
4,40,Cliente 5,70,84689.29
5,30,Cliente 6,65,82097.93
6,36,Cliente 7,50,41432.69
7,25,Cliente 8,67,36711.77
8,74,Cliente 9,43,42166.12
9,64,Cliente 10,24,38207.25
