<a href="https://colab.research.google.com/github/Kudo-San/Estudos/blob/main/P%C3%B3s_Gradua%C3%A7%C3%A3o_Perth_House.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

## NOVA ANÁLISE

In [None]:
# EXPLORAÇÃO DOS DADOS:
# Primeiro, uma análise exploratória dos dados para entender a estrutura e as características dos dados.
import pandas as pd

# Carregar os dados
df = pd.read_csv("all_perth.csv")

# Exibir informações básicas sobre o DataFrame
print(df.info())
print(df.describe())
print(df.head())


In [None]:
# Verificação das colunas
df.head(5)

In [None]:
# ANÁLISE DE VALORES AUSENTES:

# Verifique se há valores ausentes nas colunas e decida como lidar com eles (remoção, imputação, etc.).
# Verificar valores ausentes
print(df.isnull().sum())

# Opcional: remover linhas ou colunas com muitos valores ausentes
# Remover linhas com valores ausentes
df = df.dropna()

In [None]:
# ANÁLISE ESTATÍSTICA DESCRITIVA:

# Estatística descritiva
print(df.describe())

In [None]:
# Uma matriz de correlação é uma ferramenta usada para entender a relação entre várias variáveis em um conjunto de dados.

# O que é correlação?:
# Correlação é uma medida que indica como duas variáveis estão relacionadas entre si. Se duas variáveis aumentam ou diminuem juntas, dizemos que elas têm uma correlação positiva.
# Se uma aumenta enquanto a outra diminui, elas têm uma correlação negativa. Se não há um padrão claro, dizemos que não há correlação.

# Matriz de correlação:
# Uma matriz de correlação é como uma tabela que mostra as correlações entre todas as combinações possíveis de variáveis em seu conjunto de dados. Cada linha e coluna representa uma variável,
#e a célula onde uma linha e uma coluna se encontram mostra a correlação entre aquelas duas variáveis.

#Como interpretar:
# Os valores na matriz variam de -1 a 1. Um valor próximo de 1 indica uma forte correlação positiva, um valor próximo de -1 indica uma forte correlação negativa, e um valor próximo de 0 indica que não há correlação significativa.

In [None]:
# ANÁLISE DE CORRELAÇÃO:
# Calcular a correlação entre as variáveis numéricas para entender as relação entre elas

import seaborn as sns
import matplotlib.pyplot as plt

# Selecionar apenas colunas numéricas para calcular a correlação
numeric_df = df.select_dtypes(include=['number'])

# Matrix de correlação
corr_matrix = numeric_df.corr()

# plotando matriz de correlação
plt.figure(figsize=(10,8))
sns.heatmap(corr_matrix, annot=True, cmap='coolwarm', linewidths=0.5)
plt.show()

In [None]:
# VISUALIZAÇÃO DOS DADOS:
# gráficos para visualizar a distribuição dos dados e possíveis relações entre variáveis.

# Distribuição de preços
sns.histplot(df['PRICE'], kde=True)
plt.show()

# Relação entre preços e números de quartos
sns.scatterplot(x='BEDROOMS', y='PRICE', data=df)
plt.show()

# Relação entre preço e distância até o CDB
sns.scatterplot(x='CBD_DIST', y='PRICE', data=df)
plt.show()


In [None]:
# ANÁLISE DE TENDÊNCIAS TEMPORAIS
# Se houver uma coluna de datas (DATE_SOLD), você pode analisar tendências ao longo do tempo.

# Converter DATA_SOLD para Datetime
df['DATE_SOLD'] = pd.to_datetime(df['DATE_SOLD'])

# Plotar preços ao longo do tempo
plt.figure(figsize=(16,6))
df.set_index('DATE_SOLD')['PRICE'].plot()
plt.title('Preço dos imóveis ao longo do tempo')
plt.xlabel('Data')
plt.ylabel('Preço')
plt.show()


In [None]:
# ANÁLISE DE LOCALIZAÇÃO:
# Com dados de latitude e longitude foi possivel realizar a análise geoespacial.

# Importando as bbibliotecas
import folium
from folium.plugins import MarkerCluster
import pandas as pd
from IPython.display import display

# Importando o arquivo CSV
df = pd.read_csv('all_perth.csv')

# Criando um mapa centrado na média de latitude e longitude
map_center = [df['LATITUDE'].mean(), df['LONGITUDE'].mean()]
map = folium.Map(location=map_center, zoom_start=12)

# Devido a grande quantidade de marcadores, foi nesessario utilizar a biblioteca 'MarkerCluster' para agrupar os marcadores e melhorar o desempenho do mapa.
# Criar um MarkerCluster
marker_cluster = MarkerCluster().add_to(map)

# Adicionar pontos ao MarkerCluster
for idx, row in df.iterrows():
    folium.Marker(
        location=[row['LATITUDE'], row['LONGITUDE']],
        popup=f"Preço: {row['PRICE']}\nEndereço: {row['ADDRESS']}",
    ).add_to(marker_cluster)

# Exibir o mapa
display(map)


## Criação de um modelo Preditivo de Machine Learning para prever com base nas caractesristicas disponiveis no Dataframe


In [None]:
# MODELAGEM PREDITIVA:
#Importando as bibliotecas
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_squared_error


In [None]:
# Importando o arquivo CSV
df = pd.read_csv('all_perth.csv')

# Selecionando as features e target
features = ['BEDROOMS', 'BATHROOMS', 'GARAGE', 'LAND_AREA', 'FLOOR_AREA', 'BUILD_YEAR', 'CBD_DIST', 'NEAREST_STN_DIST', 'NEAREST_SCH_DIST']
target = 'PRICE'

# Tratando os valores ausentes (uma forma simples foi remover linhas com valores ausentes)
df = df.dropna(subset=features + [target])

# Dividindo os dados em features (X) e target (y)
X = df[features]
y = df[target]

# Dividir os dados em conjuntos de treino e teste
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)


In [None]:
# Inicializando o modelo de regressão linear
model = LinearRegression()

# Treinando o modelo com os dados de treino
model.fit(X_train, y_train)


In [None]:
# Fazendo previsões com os dados de teste
y_pred = model.predict(X_test)

# Calcular o erro quadrático médio (MSE)
mse = mean_squared_error(y_test, y_pred)
print(f'Mean Squared Error: {mse}')

# Opcional: exibir coeficientes do modelo
coef_df = pd.DataFrame(model.coef_, index=features, columns=['Coefficient'])
print(coef_df)


In [None]:
from sklearn.ensemble import RandomForestRegressor

model = RandomForestRegressor()
model.fit(X_train, y_train)
y_pred = model.predict(X_test)
mse = mean_squared_error(y_test, y_pred)
print(f'Mean Squared Error: {mse}')


In [None]:
import seaborn as sns
import matplotlib.pyplot as plt

plt.figure(figsize=(12, 8))
sns.heatmap(X.corr(), annot=True, cmap='coolwarm')
plt.show()
