# Santander Dev Week 2023 (ETL com Python)

**Instalando libs**

In [2]:
pip install pandas



Na etapa de Extração, os dados são obtidos de uma fonte de dados. Isso pode ser um banco de dados, um arquivo, uma API ou qualquer outra fonte que contenha os dados necessários para o processo.

# Extract

In [3]:
import requests

# Função para extrair dados da API JSONPlaceholder
def extract_data():
    url = "https://jsonplaceholder.typicode.com/posts"
    response = requests.get(url)

    if response.status_code == 200:
        data = response.json()
        return data
    else:
        print("Falha ao extrair dados da API. Código de status:", response.status_code)
        return None

# Executar a extração
data_extracted = extract_data()

# Exibir alguns dados extraídos para verificação
if data_extracted:
    print("Exemplo de dados extraídos:")
    print(data_extracted[:5])  # Exibindo os primeiros 5 registros
else:
    print("Extração falhou. Não foram obtidos dados.")


Exemplo de dados extraídos:
[{'userId': 1, 'id': 1, 'title': 'sunt aut facere repellat provident occaecati excepturi optio reprehenderit', 'body': 'quia et suscipit\nsuscipit recusandae consequuntur expedita et cum\nreprehenderit molestiae ut ut quas totam\nnostrum rerum est autem sunt rem eveniet architecto'}, {'userId': 1, 'id': 2, 'title': 'qui est esse', 'body': 'est rerum tempore vitae\nsequi sint nihil reprehenderit dolor beatae ea dolores neque\nfugiat blanditiis voluptate porro vel nihil molestiae ut reiciendis\nqui aperiam non debitis possimus qui neque nisi nulla'}, {'userId': 1, 'id': 3, 'title': 'ea molestias quasi exercitationem repellat qui ipsa sit aut', 'body': 'et iusto sed quo iure\nvoluptatem occaecati omnis eligendi aut ad\nvoluptatem doloribus vel accusantium quis pariatur\nmolestiae porro eius odio et labore et velit aut'}, {'userId': 1, 'id': 4, 'title': 'eum et est occaecati', 'body': 'ullam et saepe reiciendis voluptatem adipisci\nsit amet autem assumenda provi

# Transform


Vamos usar os dados extraídos a partir da função de extração e aplicar a transformação para renomear colunas e criar um DataFrame

In [6]:
import pandas as pd

# Função para transformar os dados (renomear colunas e converter para DataFrame)
def transform_data(data):
    # Renomear colunas
    transformed_data = pd.DataFrame(data)
    transformed_data = transformed_data.rename(columns={'userId': 'user_id', 'id': 'post_id'})
    return transformed_data


# Transformar os dados e criar um DataFrame
data_transformed = transform_data(data_extracted)

# Exibir dados transformados
print("Exemplo de dados transformados:")
print(data_transformed.head())

Exemplo de dados transformados:
   user_id  post_id                                              title  \
0        1        1  sunt aut facere repellat provident occaecati e...   
1        1        2                                       qui est esse   
2        1        3  ea molestias quasi exercitationem repellat qui...   
3        1        4                               eum et est occaecati   
4        1        5                                 nesciunt quas odio   

                                                body  
0  quia et suscipit\nsuscipit recusandae consequu...  
1  est rerum tempore vitae\nsequi sint nihil repr...  
2  et iusto sed quo iure\nvoluptatem occaecati om...  
3  ullam et saepe reiciendis voluptatem adipisci\...  
4  repudiandae veniam quaerat sunt sed\nalias aut...  


Vamos utilizar o dataframe para gerar um arquivo xlsx (Excel) com os dados já atualizados.

# Load


In [7]:
# Função para carregar os dados transformados em um arquivo Excel (xlsx)
def load_data_excel(data, file_path):
    data.to_excel(file_path, index=False)
    print(f'Dados carregados em {file_path}')

# Caminho onde os dados transformados serão salvos em xlsx
arquivo_xlsx_transformado = 'dados_transformados.xlsx'

# Carregar os dados transformados em um arquivo Excel (xlsx)
load_data_excel(data_transformed, arquivo_xlsx_transformado)

Dados carregados em dados_transformados.xlsx
