Atividade Individual

Correlação e Regressão Simples/Multivariada

### 📚 Importação de Bibliotecas

In [4]:

# Manipulação e análise de dados
import pandas as pd
import numpy as np

# Visualização
import seaborn as sns
import matplotlib.pyplot as plt

from scipy import stats
from statsmodels.stats.power import TTestIndPower
from statsmodels.stats.proportion import proportions_ztest

# Configurações estéticas para os gráficos
sns.set_style("whitegrid")
plt.rcParams["figure.figsize"] = (10, 6)



#### 📁 Visualização Inicial

Nesta etapa, vamos observar as primeiras linhas do dataset para entender sua estrutura, as colunas disponíveis e o formato dos dados.

Nosso objetivo aqui é ter uma visão geral antes de qualquer limpeza ou tratamento.

💻 Código

In [6]:
url = "https://raw.githubusercontent.com/CristianaMoura/Desafios_Equipe_DadosWomakersCode/refs/heads/master/5_Desafio_Regressao/desafio_carros_usados.csv"

df_carros = pd.read_csv(url)

df_carros.head()


Unnamed: 0,id,make,model,year,price,mileage,engine_size,fuel_type,transmission,doors,color,tax,mpg,sold_date
0,1,Volkswagen,Model B,2022,23859,94811,3.6,Diesel,Manual,2,Grey,288,39.2,2023-10-11
1,2,Chevrolet,Model A,2008,16953,128028,4.9,Diesel,Manual,5,Red,339,15.3,2021-04-22
2,3,BMW,Model B,2006,12332,49178,4.1,Diesel,Automatic,4,Red,458,37.2,2020-05-04
3,4,Chevrolet,Model B,2018,18475,42821,2.7,Hybrid,Manual,5,Silver,486,43.7,2021-06-20
4,5,Chevrolet,Model C,2017,12129,192799,2.8,Gasoline,Manual,4,Silver,295,19.1,2021-12-06


### 🧽  Verificação de Valores Ausentes e Duplicatas - Base 1

Nesta etapa, vamos verificar se existem valores ausentes ou registros duplicados no dataset.

Esses problemas podem impactar os resultados das análises estatísticas e visualizações, e devem ser tratados ainda na fase de pré-processamento.

**🧪 Código – Diagnóstico**

In [7]:
# Verificar valores ausentes
print("🔍 Valores ausentes por coluna:")
print(df_carros.isnull().sum())

# Verificar registros duplicados
duplicatas = df_carros.duplicated().sum()
print(f"\n📦 Registros duplicados encontrados: {duplicatas}")

🔍 Valores ausentes por coluna:
id              0
make            0
model           0
year            0
price           0
mileage         0
engine_size     0
fuel_type       0
transmission    0
doors           0
color           0
tax             0
mpg             0
sold_date       0
dtype: int64

📦 Registros duplicados encontrados: 0


### 🔧 Padronização de Colunas e Tipos de Dados

Nesta etapa, vamos:
- Padronizar os nomes das colunas para facilitar a manipulação (ex: letras minúsculas, sem espaços)
- Garantir que as variáveis estejam nos **tipos corretos**:

**💻 Código – Padronização**

In [None]:
# Verificando escrita das do id produto para evitar contabilização incorreta
df_carros['id_produto'].unique()

In [None]:
# Padronizar nomes das colunas
df_carros.columns = df_carros.columns.str.lower().str.strip()

# Converter colunas numéricas
col_numericas = ['ganho_massa', 'idade', 'frequencia_treino']
df_carros[col_numericas] = df_suplementos[col_numericas].apply(pd.to_numeric, errors='coerce')

# Garantir que id_produto seja categórico
df_suplementos['id_produto'] = df_suplementos['id_produto'].astype('category')

# Verificar os tipos atualizados
df_suplementos.dtypes

### 📊 Visualização Geral das Variáveis

Agora que os dados estão limpos e padronizados, vamos criar gráficos para observar a distribuição das variáveis principais:

Vamos usar:
- **Histogramas** para ver a distribuição
- **Boxplots** para detectar possíveis outliers

**💻 Código – Histogramas e Boxplots**

In [None]:
# Criar subplots para visualização lado a lado
fig, axes = plt.subplots(2, 3, figsize=(18, 10))

# Histogramas
sns.histplot(df_suplementos['ganho_massa'], bins=20, kde=True, ax=axes[0, 0], color='skyblue')
axes[0, 0].set_title("Distribuição do Ganho de Massa (kg)")

sns.histplot(df_suplementos['idade'], bins=20, kde=True, ax=axes[0, 1], color='lightgreen')
axes[0, 1].set_title("Distribuição da Idade")

sns.histplot(df_suplementos['frequencia_treino'], bins=7, discrete=True, ax=axes[0, 2], color='salmon')
axes[0, 2].set_title("Frequência de Treino (dias/semana)")

# Boxplots
sns.boxplot(y=df_suplementos['ganho_massa'], ax=axes[1, 0], color='skyblue')
axes[1, 0].set_title("Boxplot – Ganho de Massa")

sns.boxplot(y=df_suplementos['idade'], ax=axes[1, 1], color='lightgreen')
axes[1, 1].set_title("Boxplot – Idade")

sns.boxplot(y=df_suplementos['frequencia_treino'], ax=axes[1, 2], color='salmon')
axes[1, 2].set_title("Boxplot – Frequência de Treino")

# Ajuste final
plt.tight_layout()
plt.show()

Desafio 4: Venda de Veículos Usados

Você trabalha em uma empresa de revenda de veículos usados. O sucesso 
da empresa depende fortemente da precificação adequada dos veículos. 
Caso o preço seja muito alto, o carro não vende. Se for muito baixo, a 
empresa perde dinheiro. 
Como parte da equipe de dados, você recebeu uma base de dados com 
informações sobre carros vendidos nos últimos anos, com o objetivo de 
entender quais fatores mais impactam no preço de venda. 
A empresa espera que você identifique as variáveis mais relevantes e 
proponha uma análise baseada em correlações e modelos preditivos 
simples.

Base de Dados: desafio_carros_usados.csv 
●  id: Identificador único do veículo  
●  make: Marca do carro (ex: Ford, Toyota)  
●  model: Modelo do carro  
●  year: Ano de fabricação  
●  price: Preço de venda do carro 
 
●  mileage: Quilometragem (km rodados)  
●  engine_size: Tamanho do motor (em litros)  
●  fuel_type: Tipo de combustível (gasolina, diesel, elétrico)  
●  transmission: Tipo de transmissão (manual, automática) 
●  doors: Número de portas  
●  color: Cor do carro 
●  tax: Taxa anual de imposto veicular 
●  mpg: Milhas por Galão(indicador de eficiência de combustível) 
●  sold_date: Data de venda do veículo

Tarefa: 

1. Análise de Correlação 
 

●  Calcule a correlação entre as variáveis numéricas e o preço do carro 
(price).

●  Quais variáveis estão mais correlacionadas com o preço? 

●  Quais estão menos correlacionadas? 

2. Análise das 5 Variáveis Mais Correlacionadas 
Para as cinco variáveis com maior correlação com o preço: 
   

2.1.  Plote histograma e boxplot de cada variável.

2.2.  Plote o scatterplot (gráfico de dispersão), com price no eixo Y e a 
variável no eixo X.

2.3.  Faça uma regressão linear simples, utilizando cada variável como 
preditora (X) e o preço como resposta (Y). Interprete os coeficientes e 
o R². 