# Análise Exploratória de Dados (EDA) - Imóveis Rurais

**Autor:** Marcos Paulo Roriz Lima Reis  
**RA:** 22007534  
**Curso:** Engenharia da Computação - UniCEUB

## Objetivo
Realizar análise exploratória dos dados coletados de imóveis rurais para entender:
- Distribuição de preços
- Relação entre área e preço
- Características dos dados
- Identificação de outliers
- Correlações entre variáveis

## 1. Importação de Bibliotecas

In [None]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from pathlib import Path

# Configurações de visualização
plt.style.use('seaborn-v0_8-darkgrid')
sns.set_palette('husl')
%matplotlib inline

# Configurações do pandas
pd.set_option('display.max_columns', None)
pd.set_option('display.max_rows', 100)
pd.set_option('display.float_format', lambda x: '%.2f' % x)

## 2. Carregamento dos Dados

In [None]:
# Encontrar o arquivo CSV mais recente na pasta data/raw
data_path = Path('../data/raw')
csv_files = list(data_path.glob('imoveis_rurais_*.csv'))

if csv_files:
    # Pegar o arquivo mais recente
    latest_file = max(csv_files, key=lambda x: x.stat().st_mtime)
    print(f"Carregando dados de: {latest_file.name}")
    df = pd.read_csv(latest_file)
else:
    print("Nenhum arquivo de dados encontrado. Execute o scraper primeiro.")
    df = pd.DataFrame()

## 3. Visão Geral dos Dados

In [None]:
# Informações básicas do dataset
print("Dimensões do dataset:", df.shape)
print("\nPrimeiras linhas:")
df.head()

In [None]:
# Informações sobre tipos de dados e valores nulos
print("Informações do dataset:")
df.info()

In [None]:
# Estatísticas descritivas
print("Estatísticas descritivas:")
df.describe()

## 4. Tratamento de Dados

In [None]:
# Verificar valores nulos
print("Valores nulos por coluna:")
print(df.isnull().sum())
print(f"\nPercentual de nulos:")
print((df.isnull().sum() / len(df)) * 100)

In [None]:
# Remover duplicatas, se houver
duplicates = df.duplicated().sum()
print(f"Número de duplicatas: {duplicates}")

if duplicates > 0:
    df = df.drop_duplicates()
    print(f"Duplicatas removidas. Novo tamanho: {df.shape}")

In [None]:
# Criar variável derivada: Preço por hectare
if 'preco' in df.columns and 'area' in df.columns:
    df['preco_por_hectare'] = df['preco'] / df['area']
    print("Variável 'preco_por_hectare' criada com sucesso.")

## 5. Análise Univariada

In [None]:
# Distribuição de preços
if 'preco' in df.columns:
    fig, axes = plt.subplots(1, 2, figsize=(15, 5))
    
    # Histograma
    axes[0].hist(df['preco'], bins=30, edgecolor='black')
    axes[0].set_xlabel('Preço (R$)')
    axes[0].set_ylabel('Frequência')
    axes[0].set_title('Distribuição de Preços')
    axes[0].grid(True, alpha=0.3)
    
    # Boxplot
    axes[1].boxplot(df['preco'])
    axes[1].set_ylabel('Preço (R$)')
    axes[1].set_title('Boxplot de Preços')
    axes[1].grid(True, alpha=0.3)
    
    plt.tight_layout()
    plt.show()
    
    print(f"Preço médio: R$ {df['preco'].mean():,.2f}")
    print(f"Preço mediano: R$ {df['preco'].median():,.2f}")
    print(f"Preço mínimo: R$ {df['preco'].min():,.2f}")
    print(f"Preço máximo: R$ {df['preco'].max():,.2f}")

In [None]:
# Distribuição de áreas
if 'area' in df.columns:
    fig, axes = plt.subplots(1, 2, figsize=(15, 5))
    
    # Histograma
    axes[0].hist(df['area'], bins=30, edgecolor='black', color='green')
    axes[0].set_xlabel('Área (hectares)')
    axes[0].set_ylabel('Frequência')
    axes[0].set_title('Distribuição de Áreas')
    axes[0].grid(True, alpha=0.3)
    
    # Boxplot
    axes[1].boxplot(df['area'])
    axes[1].set_ylabel('Área (hectares)')
    axes[1].set_title('Boxplot de Áreas')
    axes[1].grid(True, alpha=0.3)
    
    plt.tight_layout()
    plt.show()
    
    print(f"Área média: {df['area'].mean():.2f} hectares")
    print(f"Área mediana: {df['area'].median():.2f} hectares")
    print(f"Área mínima: {df['area'].min():.2f} hectares")
    print(f"Área máxima: {df['area'].max():.2f} hectares")

In [None]:
# Distribuição de preço por hectare
if 'preco_por_hectare' in df.columns:
    plt.figure(figsize=(15, 5))
    
    plt.subplot(1, 2, 1)
    plt.hist(df['preco_por_hectare'], bins=30, edgecolor='black', color='orange')
    plt.xlabel('Preço por Hectare (R$)')
    plt.ylabel('Frequência')
    plt.title('Distribuição de Preço por Hectare')
    plt.grid(True, alpha=0.3)
    
    plt.subplot(1, 2, 2)
    plt.boxplot(df['preco_por_hectare'])
    plt.ylabel('Preço por Hectare (R$)')
    plt.title('Boxplot de Preço por Hectare')
    plt.grid(True, alpha=0.3)
    
    plt.tight_layout()
    plt.show()

## 6. Análise Bivariada

In [None]:
# Relação entre área e preço
if 'area' in df.columns and 'preco' in df.columns:
    plt.figure(figsize=(12, 6))
    plt.scatter(df['area'], df['preco'], alpha=0.5)
    plt.xlabel('Área (hectares)')
    plt.ylabel('Preço (R$)')
    plt.title('Relação entre Área e Preço')
    plt.grid(True, alpha=0.3)
    plt.tight_layout()
    plt.show()
    
    # Calcular correlação
    correlation = df['area'].corr(df['preco'])
    print(f"Correlação entre área e preço: {correlation:.4f}")

In [None]:
# Distribuição de preços por localização
if 'localizacao' in df.columns and 'preco' in df.columns:
    plt.figure(figsize=(12, 6))
    df.boxplot(column='preco', by='localizacao', figsize=(12, 6))
    plt.xlabel('Localização')
    plt.ylabel('Preço (R$)')
    plt.title('Distribuição de Preços por Localização')
    plt.suptitle('')  # Remove título padrão do pandas
    plt.xticks(rotation=45, ha='right')
    plt.tight_layout()
    plt.show()

## 7. Matriz de Correlação

In [None]:
# Selecionar apenas colunas numéricas
numeric_cols = df.select_dtypes(include=[np.number]).columns

if len(numeric_cols) > 0:
    # Calcular matriz de correlação
    correlation_matrix = df[numeric_cols].corr()
    
    # Plotar heatmap
    plt.figure(figsize=(10, 8))
    sns.heatmap(correlation_matrix, annot=True, cmap='coolwarm', center=0,
                square=True, linewidths=1, cbar_kws={"shrink": 0.8})
    plt.title('Matriz de Correlação')
    plt.tight_layout()
    plt.show()
    
    print("\nMatriz de Correlação:")
    print(correlation_matrix)

## 8. Identificação de Outliers

In [None]:
# Identificar outliers usando IQR (Interquartile Range)
def identify_outliers(data, column):
    """Identifica outliers usando o método IQR."""
    Q1 = data[column].quantile(0.25)
    Q3 = data[column].quantile(0.75)
    IQR = Q3 - Q1
    
    lower_bound = Q1 - 1.5 * IQR
    upper_bound = Q3 + 1.5 * IQR
    
    outliers = data[(data[column] < lower_bound) | (data[column] > upper_bound)]
    
    return outliers, lower_bound, upper_bound

# Analisar outliers em preço
if 'preco' in df.columns:
    outliers_preco, lower_preco, upper_preco = identify_outliers(df, 'preco')
    print(f"Outliers em Preço:")
    print(f"  - Limite inferior: R$ {lower_preco:,.2f}")
    print(f"  - Limite superior: R$ {upper_preco:,.2f}")
    print(f"  - Número de outliers: {len(outliers_preco)} ({len(outliers_preco)/len(df)*100:.2f}%)")

# Analisar outliers em área
if 'area' in df.columns:
    outliers_area, lower_area, upper_area = identify_outliers(df, 'area')
    print(f"\nOutliers em Área:")
    print(f"  - Limite inferior: {lower_area:.2f} hectares")
    print(f"  - Limite superior: {upper_area:.2f} hectares")
    print(f"  - Número de outliers: {len(outliers_area)} ({len(outliers_area)/len(df)*100:.2f}%)")

## 9. Salvamento dos Dados Processados

In [None]:
# Salvar dados processados
output_path = Path('../data/processed')
output_path.mkdir(parents=True, exist_ok=True)

processed_file = output_path / 'imoveis_processados.csv'
df.to_csv(processed_file, index=False)
print(f"Dados processados salvos em: {processed_file}")

## 10. Conclusões da Análise Exploratória

### Principais Insights:

1. **Distribuição dos Dados:**
   - Analisar se os dados seguem uma distribuição normal
   - Identificar presença de outliers significativos

2. **Correlações:**
   - Verificar relação entre área e preço
   - Identificar outras variáveis correlacionadas

3. **Qualidade dos Dados:**
   - Verificar completude dos dados
   - Identificar necessidade de tratamento adicional

4. **Preparação para Modelagem:**
   - Dados estão prontos para a etapa de modelagem
   - Considerar transformações se necessário

### Próximos Passos:
- Desenvolver modelo de regressão linear no notebook `linear_regression.ipynb`
- Avaliar performance do modelo
- Realizar ajustes conforme necessário