In [3]:
pip install pandas pyarrow sqlalchemy psycopg2

Collecting sqlalchemy
  Downloading SQLAlchemy-2.0.36-cp312-cp312-win_amd64.whl.metadata (9.9 kB)
Collecting psycopg2
  Downloading psycopg2-2.9.10-cp312-cp312-win_amd64.whl.metadata (5.0 kB)
Collecting typing-extensions>=4.6.0 (from sqlalchemy)
  Using cached typing_extensions-4.12.2-py3-none-any.whl.metadata (3.0 kB)
Collecting greenlet!=0.4.17 (from sqlalchemy)
  Downloading greenlet-3.1.1-cp312-cp312-win_amd64.whl.metadata (3.9 kB)
Downloading SQLAlchemy-2.0.36-cp312-cp312-win_amd64.whl (2.1 MB)
   ---------------------------------------- 0.0/2.1 MB ? eta -:--:--
   ------------------------- -------------- 1.3/2.1 MB 11.2 MB/s eta 0:00:01
   ---------------------------------------- 2.1/2.1 MB 11.7 MB/s eta 0:00:00
Downloading psycopg2-2.9.10-cp312-cp312-win_amd64.whl (1.2 MB)
   ---------------------------------------- 0.0/1.2 MB ? eta -:--:--
   ---------------------------------------- 1.2/1.2 MB 11.6 MB/s eta 0:00:00
Downloading greenlet-3.1.1-cp312-cp312-win_amd64.whl (299 kB)
U

In [11]:
import pandas as pd

# Função para a extração de dados de um arquivo CSV
def extract_from_csv(file_path):
    return pd.read_csv(file_path)

# Função para transformar dados (limpeza, padronização, etc)
def transform_data(df):
    # Exibir as colunas do DataFrame
    print("Colunas disponíveis no CSV:", df.columns)

    # Exemplo de limpeza: Remover valores nulos
    df = df.dropna()

    # Filtrar carros com preço acima de $5000
    if 'price' in df.columns:
        df = df[df['price'] > 5000]  # Filtrando linhas com valor 'price' > 5000
    else:
        print("Coluna 'price' não encontrada. Verifique o nome da coluna no CSV.")

    # Enriquecimento: criar uma nova coluna 'car_age' com a idade do carro
    current_year = pd.Timestamp.now().year
    if 'year' in df.columns:
        df['car_age'] = current_year - df['year']
    else:
        print("Coluna 'year' não encontrada. Verifique o nome da coluna no CSV.")

    # Selecionar apenas colunas relevantes
    df = df[['price', 'brand', 'model', 'year', 'car_age', 'mileage', 'state', 'country']]

    return df

# Função para exibir o DataFrame em formato de tabela
def display_table(df):
    # Configurar pandas para mostrar todas as colunas e até 20 linhas
    pd.set_option('display.max_columns', None)  # Mostra todas as colunas
    pd.set_option('display.max_rows', 20)       # Limita a exibição a 20 linhas

    print("\nResultado final após as transformações:\n")
    print(df)

# Função para salvar dados no formato Parquet
def load_to_parquet(df, output_file):
    df.to_parquet(output_file, engine='pyarrow')

# Função principal do pipeline ETL
def etl_pipeline(csv_file, parquet_output):
    # Extração de dados do arquivo CSV
    csv_data = extract_from_csv(csv_file)

    # Transformação dos dados
    transformed_data = transform_data(csv_data)

    # Exibir os dados transformados em formato de tabela
    display_table(transformed_data)

    # Carga dos dados transformados em Parquet
    load_to_parquet(transformed_data, parquet_output)

if __name__ == "__main__":
    # Definir o caminho do arquivo CSV e o local de saída do Parquet
    csv_file_path = 'C:/Users/José Pedro Morgado/Desktop/projeto/USA_cars_datasets.csv'
    parquet_output_path = 'C:/Users/José Pedro Morgado/Desktop/projeto/dados_final.parquet'

    # Executar o pipeline ETL
    etl_pipeline(csv_file_path, parquet_output_path)


Colunas disponíveis no CSV: Index(['Unnamed: 0', 'price', 'brand', 'model', 'year', 'title_status',
       'mileage', 'color', 'vin', 'lot', 'state', 'country', 'condition'],
      dtype='object')

Resultado final após as transformações:

      price      brand    model  year  car_age   mileage       state country
0      6300     toyota  cruiser  2008       16  274117.0  new jersey     usa
2      5350      dodge      mpv  2018        6   39590.0     georgia     usa
3     25000       ford     door  2014       10   64146.0    virginia     usa
4     27700  chevrolet     1500  2018        6    6654.0     florida     usa
5      5700      dodge      mpv  2018        6   45561.0       texas     usa
...     ...        ...      ...   ...      ...       ...         ...     ...
2494   7800     nissan    versa  2019        5   23609.0  california     usa
2495   9200     nissan    versa  2018        6   34553.0     florida     usa
2496   9200     nissan    versa  2018        6   31594.0     florida