In [61]:
import pandas as pd 
import seaborn as sns


from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_absolute_error

In [62]:
df = pd.read_csv('USA_Housing.csv')

In [63]:
df.head()

Unnamed: 0,Avg. Area Income,Avg. Area House Age,Avg. Area Number of Rooms,Avg. Area Number of Bedrooms,Area Population,Price,Address
0,79545.458574,5.682861,7.009188,4.09,23086.800503,1059034.0,"208 Michael Ferry Apt. 674\nLaurabury, NE 3701..."
1,79248.642455,6.0029,6.730821,3.09,40173.072174,1505891.0,"188 Johnson Views Suite 079\nLake Kathleen, CA..."
2,61287.067179,5.86589,8.512727,5.13,36882.1594,1058988.0,"9127 Elizabeth Stravenue\nDanieltown, WI 06482..."
3,63345.240046,7.188236,5.586729,3.26,34310.242831,1260617.0,USS Barnett\nFPO AP 44820
4,59982.197226,5.040555,7.839388,4.23,26354.109472,630943.5,USNS Raymond\nFPO AE 09386


In [64]:
# Excluir a coluna 'Address' e 'bedrooms'
excluir_address_bedrooms = df.drop(['Address', 'Avg. Area Number of Bedrooms'],axis=1) # passando uma lista de colunas que desejo excluir usando o método dro, para a variavel excluir_address_bedrooms.
excluir_address_bedrooms

Unnamed: 0,Avg. Area Income,Avg. Area House Age,Avg. Area Number of Rooms,Area Population,Price
0,79545.458574,5.682861,7.009188,23086.800503,1.059034e+06
1,79248.642455,6.002900,6.730821,40173.072174,1.505891e+06
2,61287.067179,5.865890,8.512727,36882.159400,1.058988e+06
3,63345.240046,7.188236,5.586729,34310.242831,1.260617e+06
4,59982.197226,5.040555,7.839388,26354.109472,6.309435e+05
...,...,...,...,...,...
4995,60567.944140,7.830362,6.137356,22837.361035,1.060194e+06
4996,78491.275435,6.999135,6.576763,25616.115489,1.482618e+06
4997,63390.686886,7.250591,4.805081,33266.145490,1.030730e+06
4998,68001.331235,5.534388,7.130144,42625.620156,1.198657e+06


In [65]:
# Calcular a correlação
correlation_matrix = excluir_address_bedrooms.corr()
correlation_matrix

Unnamed: 0,Avg. Area Income,Avg. Area House Age,Avg. Area Number of Rooms,Area Population,Price
Avg. Area Income,1.0,-0.002007,-0.011032,-0.016234,0.639734
Avg. Area House Age,-0.002007,1.0,-0.009428,-0.018743,0.452543
Avg. Area Number of Rooms,-0.011032,-0.009428,1.0,0.00204,0.335664
Area Population,-0.016234,-0.018743,0.00204,1.0,0.408556
Price,0.639734,0.452543,0.335664,0.408556,1.0


In [68]:
# Fazendo separacao das variaveiss que queremos prever 
# x é = as previsoes que queremos fazer
# y = relação com o alvo
# A regreção Linear vai olhar para os 4 valores das colunas que listei  na variavel (x) e vai tentar achar uma reta que se aproxime bem da coluna price que listei na variavel (y).
x = df[['Avg. Area Income', 'Avg. Area House Age', 'Avg. Area Number of Rooms', 'Area Population']]
y = df['Price']

In [69]:
# Criando a divisão dos subconjuntos/fatiamento
# A função train_test_split da biblioteca scikit-learn é usada para dividir um conjunto de dados em dois subconjuntos: um para treinamento e outro para teste. Isso é fundamental em tarefas de aprendizado de máquina para avaliar a performance de um modelo de forma justa e evitar overfitting.
# Treino - é o que possue a maior parcela dos dados para teinar o modelo.
# Teste - tem uma menor parcela dos dados, usado para validar ou verificar se o modelo treinado está correto.
x_treino, x_teste, y_treino, y_teste = train_test_split(x, y) 

In [79]:
# modelo = LinearRegression() cria uma nova instância do modelo de regressão linear. Neste ponto, o modelo foi apenas instanciado, mas ainda não foi treinado com nenhum dado.
modelo = LinearRegression()

In [80]:
# O método fit() é usado para treinar um modelo de machine learning com um conjunto de dados fornecido
# O método fit() da classe LinearRegression ajusta o modelo aos dados de entrada 𝑋X (features) e aos dados de saída 𝑦y (targets). Ele encontra os valores dos coeficientes (pesos) que minimizam a soma dos erros quadráticos entre as previsões do modelo e os valores reais do target.
modelo.fit(x_treino, y_treino)

In [82]:
# modelo.predict(x_teste): Este método faz previsões com base no modelo de regressão linear treinado (modelo) usando os dados de entrada (x_teste). O método predict utiliza os coeficientes (pesos) e o intercepto calculados durante o treinamento para prever os valores da variável dependente (target) para os novos dados de entrada.
y_previsto = modelo.predict(x_teste)
y_previsto

array([1535162.07279256, 1497691.0498207 ,  828850.31267194, ...,
       1598223.44856319, 1264957.99694366,  857344.27330427])

In [84]:
# Verificando a media dos precos das casas
df['Price'].mean()

1232072.654142357

In [89]:
# Verificando a avaliação do modelo criado para ver se ele foi bem ou mal sucedido, usando a metrica do erro medio absoluto - Ou seja, o qual distante os dados estao da reta linear, a função ira fazer um calculo para todos os dados e fazer uma media, pra ver o quanto erramos na media, pra mais ou pra menos 
# A função mean_absolute_error(y_true, y_pred) é usada para calcular o erro absoluto médio (MAE) entre os valores reais e os valores previstos. O MAE é uma métrica de avaliação que mede a média das diferenças absolutas entre os valores previstos pelo modelo e os valores reais.
mean_absolute_error(y_previsto, y_teste)

81430.77683377216

In [None]:
# Analise da Modelagem: Esse modelo poderia ser substituido por um corretor? Se eu estou errando 80 mil dolares para mais, provalvelmente ninguem vai querer comprar esta casa.
# Por outro lado, se eu erro pra menos as pessoas iram querer comprar esta casa muito rapido, porem eu na posição da corretora vou tomar prejuizo.
# Nesse caso nao chegamos em um modelo que vale apena aplicar. Devemos tentar outras tecnicas
