Atividade Individual

Correla√ß√£o e Regress√£o Simples/Multivariada

### üìö Importa√ß√£o de Bibliotecas

In [4]:

# Manipula√ß√£o e an√°lise de dados
import pandas as pd
import numpy as np

# Visualiza√ß√£o
import seaborn as sns
import matplotlib.pyplot as plt

from scipy import stats
from statsmodels.stats.power import TTestIndPower
from statsmodels.stats.proportion import proportions_ztest

# Configura√ß√µes est√©ticas para os gr√°ficos
sns.set_style("whitegrid")
plt.rcParams["figure.figsize"] = (10, 6)



#### üìÅ Visualiza√ß√£o Inicial

Nesta etapa, vamos observar as primeiras linhas do dataset para entender sua estrutura, as colunas dispon√≠veis e o formato dos dados.

Nosso objetivo aqui √© ter uma vis√£o geral antes de qualquer limpeza ou tratamento.

üíª C√≥digo

In [6]:
url = "https://raw.githubusercontent.com/CristianaMoura/Desafios_Equipe_DadosWomakersCode/refs/heads/master/5_Desafio_Regressao/desafio_carros_usados.csv"

df_carros = pd.read_csv(url)

df_carros.head()


Unnamed: 0,id,make,model,year,price,mileage,engine_size,fuel_type,transmission,doors,color,tax,mpg,sold_date
0,1,Volkswagen,Model B,2022,23859,94811,3.6,Diesel,Manual,2,Grey,288,39.2,2023-10-11
1,2,Chevrolet,Model A,2008,16953,128028,4.9,Diesel,Manual,5,Red,339,15.3,2021-04-22
2,3,BMW,Model B,2006,12332,49178,4.1,Diesel,Automatic,4,Red,458,37.2,2020-05-04
3,4,Chevrolet,Model B,2018,18475,42821,2.7,Hybrid,Manual,5,Silver,486,43.7,2021-06-20
4,5,Chevrolet,Model C,2017,12129,192799,2.8,Gasoline,Manual,4,Silver,295,19.1,2021-12-06


### üßΩ  Verifica√ß√£o de Valores Ausentes e Duplicatas - Base 1

Nesta etapa, vamos verificar se existem valores ausentes ou registros duplicados no dataset.

Esses problemas podem impactar os resultados das an√°lises estat√≠sticas e visualiza√ß√µes, e devem ser tratados ainda na fase de pr√©-processamento.

**üß™ C√≥digo ‚Äì Diagn√≥stico**

In [7]:
# Verificar valores ausentes
print("üîç Valores ausentes por coluna:")
print(df_carros.isnull().sum())

# Verificar registros duplicados
duplicatas = df_carros.duplicated().sum()
print(f"\nüì¶ Registros duplicados encontrados: {duplicatas}")

üîç Valores ausentes por coluna:
id              0
make            0
model           0
year            0
price           0
mileage         0
engine_size     0
fuel_type       0
transmission    0
doors           0
color           0
tax             0
mpg             0
sold_date       0
dtype: int64

üì¶ Registros duplicados encontrados: 0


### üîß Padroniza√ß√£o de Colunas e Tipos de Dados

Nesta etapa, vamos:
- Padronizar os nomes das colunas para facilitar a manipula√ß√£o (ex: letras min√∫sculas, sem espa√ßos)
- Garantir que as vari√°veis estejam nos **tipos corretos**:

**üíª C√≥digo ‚Äì Padroniza√ß√£o**

In [None]:
# Verificando escrita das do id produto para evitar contabiliza√ß√£o incorreta
df_carros['id_produto'].unique()

In [None]:
# Padronizar nomes das colunas
df_carros.columns = df_carros.columns.str.lower().str.strip()

# Converter colunas num√©ricas
col_numericas = ['ganho_massa', 'idade', 'frequencia_treino']
df_carros[col_numericas] = df_suplementos[col_numericas].apply(pd.to_numeric, errors='coerce')

# Garantir que id_produto seja categ√≥rico
df_suplementos['id_produto'] = df_suplementos['id_produto'].astype('category')

# Verificar os tipos atualizados
df_suplementos.dtypes

### üìä Visualiza√ß√£o Geral das Vari√°veis

Agora que os dados est√£o limpos e padronizados, vamos criar gr√°ficos para observar a distribui√ß√£o das vari√°veis principais:

Vamos usar:
- **Histogramas** para ver a distribui√ß√£o
- **Boxplots** para detectar poss√≠veis outliers

**üíª C√≥digo ‚Äì Histogramas e Boxplots**

In [None]:
# Criar subplots para visualiza√ß√£o lado a lado
fig, axes = plt.subplots(2, 3, figsize=(18, 10))

# Histogramas
sns.histplot(df_suplementos['ganho_massa'], bins=20, kde=True, ax=axes[0, 0], color='skyblue')
axes[0, 0].set_title("Distribui√ß√£o do Ganho de Massa (kg)")

sns.histplot(df_suplementos['idade'], bins=20, kde=True, ax=axes[0, 1], color='lightgreen')
axes[0, 1].set_title("Distribui√ß√£o da Idade")

sns.histplot(df_suplementos['frequencia_treino'], bins=7, discrete=True, ax=axes[0, 2], color='salmon')
axes[0, 2].set_title("Frequ√™ncia de Treino (dias/semana)")

# Boxplots
sns.boxplot(y=df_suplementos['ganho_massa'], ax=axes[1, 0], color='skyblue')
axes[1, 0].set_title("Boxplot ‚Äì Ganho de Massa")

sns.boxplot(y=df_suplementos['idade'], ax=axes[1, 1], color='lightgreen')
axes[1, 1].set_title("Boxplot ‚Äì Idade")

sns.boxplot(y=df_suplementos['frequencia_treino'], ax=axes[1, 2], color='salmon')
axes[1, 2].set_title("Boxplot ‚Äì Frequ√™ncia de Treino")

# Ajuste final
plt.tight_layout()
plt.show()

Desafio 4: Venda de Ve√≠culos Usados

Voc√™ trabalha em uma empresa de revenda de ve√≠culos usados. O sucesso 
da empresa depende fortemente da precifica√ß√£o adequada dos ve√≠culos. 
Caso o pre√ßo seja muito alto, o carro n√£o vende. Se for muito baixo, a 
empresa perde dinheiro. 
Como parte da equipe de dados, voc√™ recebeu uma base de dados com 
informa√ß√µes sobre carros vendidos nos √∫ltimos anos, com o objetivo de 
entender quais fatores mais impactam no pre√ßo de venda. 
A empresa espera que voc√™ identifique as vari√°veis mais relevantes e 
proponha uma an√°lise baseada em correla√ß√µes e modelos preditivos 
simples.

Base de Dados: desafio_carros_usados.csv 
‚óè  id: Identificador √∫nico do ve√≠culo  
‚óè  make: Marca do carro (ex: Ford, Toyota)  
‚óè  model: Modelo do carro  
‚óè  year: Ano de fabrica√ß√£o  
‚óè  price: Pre√ßo de venda do carro 
 
‚óè  mileage: Quilometragem (km rodados)  
‚óè  engine_size: Tamanho do motor (em litros)  
‚óè  fuel_type: Tipo de combust√≠vel (gasolina, diesel, el√©trico)  
‚óè  transmission: Tipo de transmiss√£o (manual, autom√°tica) 
‚óè  doors: N√∫mero de portas  
‚óè  color: Cor do carro 
‚óè  tax: Taxa anual de imposto veicular 
‚óè  mpg: Milhas por Gal√£o(indicador de efici√™ncia de combust√≠vel) 
‚óè  sold_date: Data de venda do ve√≠culo

Tarefa: 

1. An√°lise de Correla√ß√£o 
 

‚óè  Calcule a correla√ß√£o entre as vari√°veis num√©ricas e o pre√ßo do carro 
(price).

‚óè  Quais vari√°veis est√£o mais correlacionadas com o pre√ßo? 

‚óè  Quais est√£o menos correlacionadas? 

2. An√°lise das 5 Vari√°veis Mais Correlacionadas 
Para as cinco vari√°veis com maior correla√ß√£o com o pre√ßo: 
   

2.1.  Plote histograma e boxplot de cada vari√°vel.

2.2.  Plote o scatterplot (gr√°fico de dispers√£o), com price no eixo Y e a 
vari√°vel no eixo X.

2.3.  Fa√ßa uma regress√£o linear simples, utilizando cada vari√°vel como 
preditora (X) e o pre√ßo como resposta (Y). Interprete os coeficientes e 
o R¬≤. 