# **Contruindo um Pipeline ETL com Python - Analisando Preço Médio de Carros**

Este é um desafio de projeto do Santander Bootcamp 2023 - Ciência de Dados com Python.

O projeto modelo tem o título Explorando IA Generativa em um Pipeline de ETL com Python.

🚀 Entendendo o desafio
Inspirado pelo projeto modelo o aluno deveria replicar ou reimaginar uma pipeline ETL utilizando Python.

💰 No meu projeto uma concessionária de carros precisa é criar um pipeline ETL para extrair os valores de veículos de um arquivo CSV, realizar algumas transformações simples como cálculo do preço médio dos veículos categorizando-os por quilometragem e por fim realizar carregamento dos dados transformados em um novo arquivo CSV além de criar uma visualização em tela para mostrar o resultados.

# **Extrair**

Nesta etapa vamos extrair os valores no arquivo preco_de_carros.csv. Este arquivo traz informações referentes aos carros Amarok e Civic, onde serão coletados os dados das colunas km e preco.

In [4]:
import pandas as pd

# Carregando o arquivo CSV em um DataFrame
file_path = "preco_de_carros.csv"
df = pd.read_csv(file_path)

# Visualizando as primeiras linhas do DataFrame para verificar os dados
print(df.head())

    carro                                      especificacao     cor     km  \
0  amarok  VOLKSWAGEN AMAROK 2.0 4X2 CD 16V TURBO INTERCO...  branco      0   
1  amarok  VOLKSWAGEN AMAROK 2.0 4X2 CD 16V TURBO INTERCO...   preto  12345   
2  amarok  VOLKSWAGEN AMAROK 2.0 4X2 CD 16V TURBO INTERCO...  branco  19500   
3  amarok  VOLKSWAGEN AMAROK 2.0 4X2 CD 16V TURBO INTERCO...   cinza  20000   
4  amarok  VOLKSWAGEN AMAROK 2.0 4X2 CD 16V TURBO INTERCO...  branco  30000   

      anomod   preco  
0  2011/2011   77000  
1  2014/2014  101345  
2  2012/2012   82990  
3  2012/2013   89000  
4  2012/2012   81990  


# **Transformação**

Análise estatística dos preços dos carros por categorias (carro).

In [5]:
# Calculando o preço médio por carro
media_por_carro = df.groupby('carro')['preco'].mean()
print("O preço médio por carro é:")
print(media_por_carro)

# Calculando o preço mediano por carro
mediano_por_carro = df.groupby('carro')['preco'].median()
print("O preço mediano por carro é:")
print(mediano_por_carro)

O preço médio por carro é:
carro
amarok       104698.844523
civic         45093.689234
cruze         65846.583538
duster        54293.030142
ecosport      41349.012915
fluence       53917.422170
focus         40460.165912
fusion        64858.510836
gol           23442.688935
hb20          43182.880626
hilux         95711.343651
jetta         66386.395936
onix          38721.902299
punto         35145.229579
sandero       28978.267919
silverado     54251.634146
uno           22367.699112
Name: preco, dtype: float64
O preço mediano por carro é:
carro
amarok       105900.0
civic         42900.0
cruze         63990.0
duster        53900.0
ecosport      36990.0
fluence       52900.0
focus         38900.0
fusion        56645.0
gol           23000.0
hb20          41000.0
hilux         93945.0
jetta         63000.0
onix          38005.0
punto         33000.0
sandero       27800.0
silverado     42000.0
uno           22990.0
Name: preco, dtype: float64


In [None]:
from google.colab import drive
drive.mount('/content/drive')

# **Carregamento**

Nessa etapa foi realizado o carregamento dos resultados em uma nova planilha.

In [6]:
# Salvando os dados transformados em um arquivo CSV
media_por_carro.to_csv("media_por_carro.csv")
mediano_por_carro.to_csv("mediano_por_carro.csv")
