Atividade Individual

Correlação e Regressão Simples/Multivariada

### 📚 Importação de Bibliotecas

In [None]:

# Manipulação e análise de dados
import pandas as pd
import numpy as np

# Visualização
import seaborn as sns
import matplotlib.pyplot as plt

from scipy import stats
from statsmodels.stats.power import TTestIndPower
from statsmodels.stats.proportion import proportions_ztest

# Configurações estéticas para os gráficos
sns.set_style("whitegrid")
plt.rcParams["figure.figsize"] = (10, 6)



#### 📁 Visualização Inicial

Nesta etapa, vamos observar as primeiras linhas do dataset para entender sua estrutura, as colunas disponíveis e o formato dos dados.

Nosso objetivo aqui é ter uma visão geral antes de qualquer limpeza ou tratamento.

💻 Código

In [None]:
url_1 = "" 
url_2 = ""

df_car = 
df_house = 

### 🧽  Verificação de Valores Ausentes e Duplicatas - Base 1

Nesta etapa, vamos verificar se existem valores ausentes ou registros duplicados no dataset.

Esses problemas podem impactar os resultados das análises estatísticas e visualizações, e devem ser tratados ainda na fase de pré-processamento.

**🧪 Código – Diagnóstico**

In [None]:
# Verificar valores ausentes
print("🔍 Valores ausentes por coluna:")
print(df_suplementos.isnull().sum())

# Verificar registros duplicados
duplicatas = df_suplementos.duplicated().sum()
print(f"\n📦 Registros duplicados encontrados: {duplicatas}")

### 🔧 Padronização de Colunas e Tipos de Dados

Nesta etapa, vamos:
- Padronizar os nomes das colunas para facilitar a manipulação (ex: letras minúsculas, sem espaços)
- Garantir que as variáveis estejam nos **tipos corretos**:

**💻 Código – Padronização**

In [None]:
# Verificando escrita das do id produto para evitar contabilização incorreta
df_suplementos['id_produto'].unique()

In [None]:
# Padronizar nomes das colunas
df_suplementos.columns = df_suplementos.columns.str.lower().str.strip()

# Converter colunas numéricas
col_numericas = ['ganho_massa', 'idade', 'frequencia_treino']
df_suplementos[col_numericas] = df_suplementos[col_numericas].apply(pd.to_numeric, errors='coerce')

# Garantir que id_produto seja categórico
df_suplementos['id_produto'] = df_suplementos['id_produto'].astype('category')

# Verificar os tipos atualizados
df_suplementos.dtypes

### 📊 Visualização Geral das Variáveis

Agora que os dados estão limpos e padronizados, vamos criar gráficos para observar a distribuição das variáveis principais:

Vamos usar:
- **Histogramas** para ver a distribuição
- **Boxplots** para detectar possíveis outliers

**💻 Código – Histogramas e Boxplots**

In [None]:
# Criar subplots para visualização lado a lado
fig, axes = plt.subplots(2, 3, figsize=(18, 10))

# Histogramas
sns.histplot(df_suplementos['ganho_massa'], bins=20, kde=True, ax=axes[0, 0], color='skyblue')
axes[0, 0].set_title("Distribuição do Ganho de Massa (kg)")

sns.histplot(df_suplementos['idade'], bins=20, kde=True, ax=axes[0, 1], color='lightgreen')
axes[0, 1].set_title("Distribuição da Idade")

sns.histplot(df_suplementos['frequencia_treino'], bins=7, discrete=True, ax=axes[0, 2], color='salmon')
axes[0, 2].set_title("Frequência de Treino (dias/semana)")

# Boxplots
sns.boxplot(y=df_suplementos['ganho_massa'], ax=axes[1, 0], color='skyblue')
axes[1, 0].set_title("Boxplot – Ganho de Massa")

sns.boxplot(y=df_suplementos['idade'], ax=axes[1, 1], color='lightgreen')
axes[1, 1].set_title("Boxplot – Idade")

sns.boxplot(y=df_suplementos['frequencia_treino'], ax=axes[1, 2], color='salmon')
axes[1, 2].set_title("Boxplot – Frequência de Treino")

# Ajuste final
plt.tight_layout()
plt.show()

### 🧽  Verificação de Valores Ausentes e Duplicatas - Base 2

Nesta etapa, vamos verificar se existem valores ausentes ou registros duplicados no dataset.

Esses problemas podem impactar os resultados das análises estatísticas e visualizações, e devem ser tratados ainda na fase de pré-processamento.

**🧪 Código – Diagnóstico**

In [None]:
# Verificar valores ausentes
print("🔍 Valores ausentes por coluna:")
print(df_suplementos.isnull().sum())

# Verificar registros duplicados
duplicatas = df_suplementos.duplicated().sum()
print(f"\n📦 Registros duplicados encontrados: {duplicatas}")

### 🔧 Padronização de Colunas e Tipos de Dados - Base 2

Nesta etapa, vamos:
- Padronizar os nomes das colunas para facilitar a manipulação (ex: letras minúsculas, sem espaços)
- Garantir que as variáveis estejam nos **tipos corretos**:

**💻 Código – Padronização**

In [None]:
# Verificando escrita das do id produto para evitar contabilização incorreta
df_suplementos['id_produto'].unique()

In [None]:
# Padronizar nomes das colunas
df_suplementos.columns = df_suplementos.columns.str.lower().str.strip()

# Converter colunas numéricas
col_numericas = ['ganho_massa', 'idade', 'frequencia_treino']
df_suplementos[col_numericas] = df_suplementos[col_numericas].apply(pd.to_numeric, errors='coerce')

# Garantir que id_produto seja categórico
df_suplementos['id_produto'] = df_suplementos['id_produto'].astype('category')

# Verificar os tipos atualizados
df_suplementos.dtypes

### 📊 Visualização Geral das Variáveis - Base 2

Agora que os dados estão limpos e padronizados, vamos criar gráficos para observar a distribuição das variáveis principais:

Vamos usar:
- **Histogramas** para ver a distribuição
- **Boxplots** para detectar possíveis outliers

**💻 Código – Histogramas e Boxplots**

In [None]:
# Criar subplots para visualização lado a lado
fig, axes = plt.subplots(2, 3, figsize=(18, 10))

# Histogramas
sns.histplot(df_suplementos['ganho_massa'], bins=20, kde=True, ax=axes[0, 0], color='skyblue')
axes[0, 0].set_title("Distribuição do Ganho de Massa (kg)")

sns.histplot(df_suplementos['idade'], bins=20, kde=True, ax=axes[0, 1], color='lightgreen')
axes[0, 1].set_title("Distribuição da Idade")

sns.histplot(df_suplementos['frequencia_treino'], bins=7, discrete=True, ax=axes[0, 2], color='salmon')
axes[0, 2].set_title("Frequência de Treino (dias/semana)")

# Boxplots
sns.boxplot(y=df_suplementos['ganho_massa'], ax=axes[1, 0], color='skyblue')
axes[1, 0].set_title("Boxplot – Ganho de Massa")

sns.boxplot(y=df_suplementos['idade'], ax=axes[1, 1], color='lightgreen')
axes[1, 1].set_title("Boxplot – Idade")

sns.boxplot(y=df_suplementos['frequencia_treino'], ax=axes[1, 2], color='salmon')
axes[1, 2].set_title("Boxplot – Frequência de Treino")

# Ajuste final
plt.tight_layout()
plt.show()

Considerando a base de dados kc_house_data.csv responda as questões de 1
a 6 abaixo:

1. Codifique e exiba a matriz de correlação entre as variáveis numéricas.
Além disso, qual é a correlação entre o preço price e o número de
quartos bedrooms? Existe alguma diferença na correlação quando
consideramos apenas casas com uma área total sqft_living superior a
2000 pés quadrados?


2. Existe alguma correlação entre o preço price e a área total da casa
sqft_living, considerando apenas casas com pelo menos dois
banheiros bathrooms?

3. Como a quantidade de banheiros bathrooms influencia na correlação
entre a área total da casa sqft_living e o preço price?

4. Qual é a relação entre a condição da casa condition e o preço price,
considerando apenas casas com uma área total sqft_living superior a
3000 pés quadrados?

5. Existe alguma correlação entre a localização geográfica lat e long e o
preço price para casas com pelo menos três quartos bedrooms?


6. preço price para casas com pelo menos três quartos bedrooms?
Calcule a correlação entre uma variável categórica(waterfront) e uma
variável numérica(price) usando ANOVA.

Considerando a base de dados car_price.csv responda as questões de 7 a 11
abaixo:


7. Codifique e exiba a Matriz de correlação para as variáveis numéricas e
dê exemplos de correlações positivas, negativas e neutras.

8. Codifique e exiba Gráficos de Dispersão para cada uma das variáveis
numéricas em relação à variável de interesse Price.

9. Crie um modelo de Regressão Linear Simples, exiba a Tabela de
Regressão e exiba o plot da Reta Estimada.

10. Codifique e exiba o gráfico dos resíduos do modelo de Regressão Simples.

11. Crie um modelo de Regressão Multivariada, exiba a Tabela de Regressão
e exiba o gráfico dos resíduos do modelo.