<a href="https://colab.research.google.com/github/carloshfmaciel/datascience/blob/master/Sistema_de_Recomenda%C3%A7%C3%A3o_Nearest_Neighboors_Livro_Machine_Learning_Make_Your_Own_Recommender_System.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

## Recomendando Livros - Filtragem Colaborativa baseada em conteúdo



## Introdução

Esse notebook tem o objetivo de consolidar através do exercício e explanação detalhada o conteúdo do exercício Recommending Books do livro Machine Learning: **Make Your Own Recommender System** de **Oliver Theobald**, que pode ser adquirido em livrarias virtuais como a Amazon.

## Objetivo

Criar um sistema de recomendação imobilário, que baseado nos atributos do imóvel desejado por um usuário, recomendar os mais similares.

## Qual técnica iremos usar?

Como queremos encontrar similares, iremos usar o algoritmo Neirest Neighbors. 

## Dataset

O dataset utilizado neste exercício fora coletado do Kaggle em https://www.kaggle.com/anthonypino/melbourne-housing-market/.

Esse dataset se refere á imóveis á venda em Melbourn(Australia) e possui os atributos dos mesmos tais como: **price, bedrooms, bathrooms, year built** and etc...

## Codificando

In [0]:
import pandas as pd
from sklearn.neighbors import NearestNeighbors

Importando os dados e exibindo uma prévia do mesmos

In [0]:
df = pd.read_csv('https://dl.dropboxusercontent.com/s/adghhhdl0ufl66z/Melbourne_housing_FULL.csv?dl=0')

df.head()

Unnamed: 0,Suburb,Address,Rooms,Type,Price,Method,SellerG,Date,Distance,Postcode,Bedroom2,Bathroom,Car,Landsize,BuildingArea,YearBuilt,CouncilArea,Lattitude,Longtitude,Regionname,Propertycount
0,Abbotsford,68 Studley St,2,h,,SS,Jellis,3/09/2016,2.5,3067.0,2.0,1.0,1.0,126.0,,,Yarra City Council,-37.8014,144.9958,Northern Metropolitan,4019.0
1,Abbotsford,85 Turner St,2,h,1480000.0,S,Biggin,3/12/2016,2.5,3067.0,2.0,1.0,1.0,202.0,,,Yarra City Council,-37.7996,144.9984,Northern Metropolitan,4019.0
2,Abbotsford,25 Bloomburg St,2,h,1035000.0,S,Biggin,4/02/2016,2.5,3067.0,2.0,1.0,0.0,156.0,79.0,1900.0,Yarra City Council,-37.8079,144.9934,Northern Metropolitan,4019.0
3,Abbotsford,18/659 Victoria St,3,u,,VB,Rounds,4/02/2016,2.5,3067.0,3.0,2.0,1.0,0.0,,,Yarra City Council,-37.8114,145.0116,Northern Metropolitan,4019.0
4,Abbotsford,5 Charles St,3,h,1465000.0,SP,Biggin,4/03/2017,2.5,3067.0,3.0,2.0,0.0,134.0,150.0,1900.0,Yarra City Council,-37.8093,144.9944,Northern Metropolitan,4019.0


Temos um dataset de 34857 linhas e 21 colunas

In [0]:
df.shape

(34857, 21)

Valores nulos/inextistentes não podem ser utilizados no algoritmo Nearest Neighbors. Portanto iremos deletar a linha que possuir qualquer uma das propriedades nulas.

In [0]:
df.dropna(axis=0, how='any', thresh=None, subset=None, inplace=True)

Após a deleção de linhas com propriedades nulas, temos um novo dataset de 8887 linhas.

In [0]:
df.shape

(8887, 21)

Como algoritmo **Nearest Neighbors trabalha apenas com valores numéricos(contínuos ou inteiros)**, devemos especificar quais propriedades do dataset serão os **input features** para o cálculo do algoritmo.

Abaixo, as propriedades numéricas do dataset que serão utilizadas como parâmetro do algoritmo:

![alt text](https://dl.dropboxusercontent.com/s/aiqemsqbqezekez/melbourne_properties_dataset.JPG?dl=0)

In [0]:
# Extraindo as propriedades numericas do dataset e definindo as mesmas como variáveis de explanatória, ou seja, X
X = df.loc[:, ['Price', 'Distance', 'Bedroom2', 'Bathroom', 'Landsize', 'BuildingArea', 'YearBuilt']].values

Agora definimos as preferências do nosso usuário alvo(o usuário para o qual queremos recomendar imóveis), ou seja, as preferências referente as propriedades do imóvel desejado pelo mesmo. 

Lembrando que essas propriedades devem ser apenas aquelas definidas como variável explanatória, que será utilizada para o calculo de distância do Nearest Beighbors.

Para este exemplo, vamos considerar que o nosso usuário está buscando um imóvel com as características abaixo:

![](https://dl.dropboxusercontent.com/s/l5zkofxmh4tz92q/09.JPG?dl=0)

In [0]:
# criando um array com as características do imóvel desejado pelo usuário
target = [1350000, 2, 2, 2, 220, 200, 2005]

Abaixo, treinamos nosso modelo com as variáveis independentes, ou seja X, obtidos do nosso dataset.

In [0]:
model = NearestNeighbors(n_neighbors=3)
model.fit(X)

NearestNeighbors(algorithm='auto', leaf_size=30, metric='minkowski',
                 metric_params=None, n_jobs=None, n_neighbors=3, p=2,
                 radius=1.0)

E finalmente, passando as características do imóvel desejado pelo usuário, o modelo calcula e identifica o imóvel do dataset mais próximo daquilo que o usuário informou.

O primeiro array informa a distância do target point(dados de imóvel que o usuário informou) para cada neighbor(registro com valores mais próximos que o usuário informou).

O segundo array é a posição do neighbor(registro com valores mais próximos que o usuário informou), no dataset(base de dados de imóvel).

Os valores dos arrays são ordenados do mais próximo para o mais distante, portanto aqui entendemos que o registro de imóvel que possui os valores mais próximos dos informado pelo usuário é o registro do índice 6.


In [0]:
model.kneighbors([target])

(array([[11.71537451, 17.12191578, 46.64643609]]), array([[   6, 3002, 6669]]))

Abaixo, recuperando os dados de imóvel do registro na posição 6.

In [0]:
df.iloc[6]

Suburb                      Abbotsford
Address                40 Nicholson St
Rooms                                3
Type                                 h
Price                         1.35e+06
Method                              VB
SellerG                         Nelson
Date                        12/11/2016
Distance                           2.5
Postcode                          3067
Bedroom2                             3
Bathroom                             2
Car                                  2
Landsize                           214
BuildingArea                       190
YearBuilt                         2005
CouncilArea         Yarra City Council
Lattitude                     -37.8085
Longtitude                     144.996
Regionname       Northern Metropolitan
Propertycount                     4019
Name: 24, dtype: object

Encontramos assim no nosso dataset, os 3 imóveis **mais similares** com o imóvel informado pelo usuário. 

## Sobre Mim

Carlos Maciel trabalha com desenvolvimento de software há 12 anos, tendo atuado em diversos projetos em empresas pública e privadas, incluindo também o setor financeiro.

Atualmente, como Tech Lead na Superbid, tem implementado soluções de data science visando o aumento de valor de vendas no Superbid Marketplace.

**Contatos**:<br>
Email: carloshfmaciel@gmail.com<br>
Linkedin: https://www.linkedin.com/in/carloshfmaciel/