Introdução
Começaremos com uma visão geral de como funcionam os modelos de aprendizado de máquina e como eles são usados. Isso pode parecer básico se você já fez modelagem estatística ou aprendizado de máquina antes. Não se preocupe, em breve passaremos a construir modelos poderosos.
Este curso terá você construindo modelos à medida que você segue o seguinte cenário:
Seu primo ganhou milhões de dólares especulando em imóveis. Ele ofereceu-se para se tornar seu parceiro de negócios por causa de seu interesse em ciência de dados. Ele fornecerá o dinheiro, e você fornecerá modelos que prevejam quanto valem várias casas.
Você pergunta ao seu primo como ele previu os valores imobiliários no passado, e ele diz que é apenas intuição. Mas mais perguntas revelam que ele identificou padrões de preços das casas que ele viu no passado, e ele usa esses padrões para fazer previsões para novas casas que está considerando.
A aprendizagem de máquina funciona da mesma forma. Começaremos com um modelo chamado Árvore de Decisão. Existem modelos mais sofisticados que dão previsões mais precisas. Mas as árvores de decisão são fáceis de entender e são o bloco básico para alguns dos melhores modelos em ciência de dados.
Para simplificar, começaremos com a árvore de decisão mais simples possível.

Isso divide as casas em apenas duas categorias. O preço previsto para qualquer casa em consideração é o preço médio histórico das casas na mesma categoria.
Usamos dados para decidir como dividir as casas em dois grupos e, em seguida, determinar o preço previsto em cada grupo. Essa etapa de capturar padrões a partir de dados é chamada de ajuste ou treinamento do modelo. Os dados usados ​​para ajustar o modelo são chamados de dados de treinamento.
Os detalhes de como o modelo é ajustado (por exemplo, como dividir os dados) são complexos o suficiente para que possamos deixá-los para mais tarde. Depois que o modelo for ajustado, você poderá aplicá-lo a novos dados para prever os preços de casas adicionais.

Melhorando a Árvore de Decisão
Qual das duas árvores de decisão a seguir é mais provável de resultar do ajuste dos dados de treinamento imobiliário?
A árvore de decisão da esquerda (Árvore de Decisão 1) provavelmente faz mais sentido, porque captura a realidade de que casas com mais quartos tendem a ser vendidas a preços mais altos do que casas com menos quartos. A maior limitação desse modelo é que ele não captura a maioria dos fatores que afetam o preço da casa, como número de banheiros, tamanho do lote, localização, etc.
Você pode capturar mais fatores usando uma árvore que tem mais "divisões". Estas são chamadas de árvores "mais profundas". Uma árvore de decisão que também considera o tamanho total do lote de cada casa pode parecer assim:
Você prevê o preço de qualquer casa percorrendo a árvore de decisão, sempre escolhendo o caminho correspondente às características daquela casa. O preço previsto para a casa está na parte inferior da árvore. O ponto na parte inferior onde fazemos uma previsão é chamado de folha.
As divisões e valores nas folhas serão determinados pelos dados, então é hora de você dar uma olhada nos dados com os quais estará trabalhando.




Usando o Pandas para se familiarizar com os dados
O primeiro passo em qualquer projeto de machine learning é se familiarizar com os dados. Você usará a biblioteca Pandas para isso. O Pandas é a principal ferramenta que cientistas de dados usam para explorar e manipular dados. A maioria das pessoas abrevia pandas em seu código como pd. Fazemos isso com o comando:




In [None]:
import pandas as pd

A parte mais importante da biblioteca Pandas é o DataFrame. Um DataFrame contém o tipo de dados que você pode pensar como uma tabela. Isso é semelhante a uma planilha no Excel ou a uma tabela em um banco de dados SQL.

O Pandas possui métodos poderosos para a maioria das coisas que você deseja fazer com esse tipo de dados.

Como exemplo, vamos olhar os dados sobre os preços das casas em Melbourne, Austrália. Nos exercícios práticos, você aplicará os mesmos processos a um novo conjunto de dados, que tem preços de casas em Iowa.

Os dados de exemplo (Melbourne) estão no caminho do arquivo ../input/melbourne-housing-snapshot/melb_data.csv.

Carregamos e exploramos os dados com os seguintes comandos:

In [9]:
# save filepath to variable for easier access
melbourne_file_path = '/kaggle/input/melb-data/melb_data.csv'
# read the data and store data in DataFrame titled melbourne_data
melbourne_data = pd.read_csv(melbourne_file_path) 

Interpretando a descrição dos dados
Os resultados mostram 8 números para cada coluna no conjunto de dados original. O primeiro número, a contagem, mostra quantas linhas têm valores não faltantes.

Os valores faltantes surgem por muitas razões. Por exemplo, o tamanho do segundo quarto não seria coletado ao pesquisar uma casa de 1 quarto. Voltaremos ao tópico de dados faltantes posteriormente.

O segundo valor é a média, que é a média aritmética. Abaixo disso, o std é o desvio padrão, que mede como os valores estão numericamente espalhados.

Para interpretar os valores min, 25%, 50%, 75% e max, imagine que cada coluna seja ordenada do valor mais baixo para o mais alto. O primeiro (menor) valor é o min. Se você avançar um quarto da lista, encontrará um número que é maior do que 25% dos valores e menor do que 75% dos valores. Esse é o valor de 25% (pronunciado "percentil 25"). Os percentis 50 e 75 são definidos analogamente, e o valor máximo é o maior número.

In [11]:
# print a summary of the data in Melbourne data
pd.set_option('display.max_columns', None)
melbourne_data.describe()

Unnamed: 0.1,Unnamed: 0,Rooms,Price,Distance,Postcode,Bedroom2,Bathroom,Car,Landsize,BuildingArea,YearBuilt,Lattitude,Longtitude,Propertycount
count,18396.0,18396.0,18396.0,18395.0,18395.0,14927.0,14925.0,14820.0,13603.0,7762.0,8958.0,15064.0,15064.0,18395.0
mean,11826.787073,2.93504,1056697.0,10.389986,3107.140147,2.913043,1.538492,1.61552,558.116371,151.220219,1965.879996,-37.809849,144.996338,7517.975265
std,6800.710448,0.958202,641921.7,6.00905,95.000995,0.964641,0.689311,0.955916,3987.326586,519.188596,37.013261,0.081152,0.106375,4488.416599
min,1.0,1.0,85000.0,0.0,3000.0,0.0,0.0,0.0,0.0,0.0,1196.0,-38.18255,144.43181,249.0
25%,5936.75,2.0,633000.0,6.3,3046.0,2.0,1.0,1.0,176.5,93.0,1950.0,-37.8581,144.931193,4294.0
50%,11820.5,3.0,880000.0,9.7,3085.0,3.0,1.0,2.0,440.0,126.0,1970.0,-37.803625,145.00092,6567.0
75%,17734.25,3.0,1302000.0,13.3,3149.0,3.0,2.0,2.0,651.0,174.0,2000.0,-37.75627,145.06,10331.0
max,23546.0,12.0,9000000.0,48.1,3978.0,20.0,8.0,10.0,433014.0,44515.0,2018.0,-37.40853,145.52635,21650.0


In [12]:
# Visualizando as colunas
melbourne_data.columns

Index(['Unnamed: 0', 'Suburb', 'Address', 'Rooms', 'Type', 'Price', 'Method',
       'SellerG', 'Date', 'Distance', 'Postcode', 'Bedroom2', 'Bathroom',
       'Car', 'Landsize', 'BuildingArea', 'YearBuilt', 'CouncilArea',
       'Lattitude', 'Longtitude', 'Regionname', 'Propertycount'],
      dtype='object')

Selecionando dados para modelagem

Seu conjunto de dados tinha muitas variáveis para entender ou até mesmo imprimir com clareza. Como você pode reduzir essa quantidade avassaladora de dados para algo que possa entender?

Começaremos selecionando algumas variáveis usando nossa intuição. Cursos posteriores mostrarão técnicas estatísticas para priorizar variáveis automaticamente.

Para escolher as variáveis/colunas, precisaremos ver uma lista de todas as colunas no conjunto de dados. Isso é feito com a propriedade columns do DataFrame (a última linha de código abaixo).

In [13]:
# O conjunto de dados de Melbourne tem alguns valores ausentes (algumas casas para as quais algumas variáveis não foram registradas).
# Aprenderemos a lidar com valores ausentes em um tutorial posterior. 
# Seus dados de Iowa não têm valores ausentes nas colunas que você usa.
# Então, por enquanto, vamos escolher a opção mais simples e eliminar as casas dos nossos dados.
# Mas não se preocupe com isso por enquanto, o código é:

# dropna elimina valores ausentes (pense em "na" como "não disponível")
melbourne_data = melbourne_data.dropna(axis=0)

Existem muitas maneiras de selecionar um subconjunto de seus dados. O curso de Pandas aborda isso com mais profundidade, mas nos concentraremos em duas abordagens por enquanto.

Notação de ponto, que usamos para selecionar o "target de predição"
Selecionando com uma lista de colunas, que usamos para selecionar as "features"

Selecionando o alvo de predição
Você pode extrair uma variável com a notação de ponto. Essa única coluna é armazenada em uma Series, que é amplamente semelhante a um DataFrame com apenas uma única coluna de dados.

Usaremos a notação de ponto para selecionar a coluna que queremos prever, que é chamada de alvo de previsão. Por convenção, o alvo de previsão é chamado de y. Portanto, o código que precisamos para salvar os preços das casas nos dados de Melbourne é:

In [14]:
# Alvo da previsão - chamado de y
y = melbourne_data.Price

In [15]:
y

1        1035000.0
2        1465000.0
4        1600000.0
6        1876000.0
7        1636000.0
           ...    
15388     601000.0
15389    1050000.0
15390     385000.0
15392     560000.0
15395    2450000.0
Name: Price, Length: 6196, dtype: float64

Escolhendo "Recursos"
As colunas que são inseridas no nosso modelo (e posteriormente usadas para fazer previsões) são chamadas de "recursos". No nosso caso, essas seriam as colunas usadas para determinar o preço da casa. Às vezes, você usará todas as colunas, exceto a variável alvo, como recursos. Outras vezes, será melhor usar menos recursos.

Por enquanto, construiremos um modelo com apenas alguns recursos. Mais tarde, você verá como iterar e comparar modelos construídos com diferentes recursos.

Selecionamos vários recursos fornecendo uma lista de nomes de colunas entre colchetes. Cada item nessa lista deve ser uma string (entre aspas).

Aqui está um exemplo:

In [17]:
melbourne_features = ['Rooms', 'Bathroom', 'Landsize', 'Lattitude', 'Longtitude']

Por convenção, os dados são chamados de X

In [19]:
X = melbourne_data[melbourne_features]

Vamos rapidamente revisar os dados que usaremos para prever preços de casas usando o método describe e o método head, que mostra as primeiras linhas.

In [20]:
X.describe()

Unnamed: 0,Rooms,Bathroom,Landsize,Lattitude,Longtitude
count,6196.0,6196.0,6196.0,6196.0,6196.0
mean,2.931407,1.57634,471.00694,-37.807904,144.990201
std,0.971079,0.711362,897.449881,0.07585,0.099165
min,1.0,1.0,0.0,-38.16492,144.54237
25%,2.0,1.0,152.0,-37.855438,144.926198
50%,3.0,1.0,373.0,-37.80225,144.9958
75%,4.0,2.0,628.0,-37.7582,145.0527
max,8.0,8.0,37000.0,-37.45709,145.52635


In [21]:
X.head()

Unnamed: 0,Rooms,Bathroom,Landsize,Lattitude,Longtitude
1,2,1.0,156.0,-37.8079,144.9934
2,3,2.0,134.0,-37.8093,144.9944
4,4,1.0,120.0,-37.8072,144.9941
6,3,2.0,245.0,-37.8024,144.9993
7,2,1.0,256.0,-37.806,144.9954


Verificar visualmente os dados com esses comandos é uma parte importante do trabalho de um cientista de dados. Com frequência, você encontrará surpresas no conjunto de dados que merecem uma inspeção mais detalhada.

Você usará a biblioteca scikit-learn para criar seus modelos. Ao codificar, essa biblioteca é escrita como sklearn, como você verá no código de exemplo. O scikit-learn é facilmente a biblioteca mais popular para modelar os tipos de dados normalmente armazenados em DataFrames.

Os passos para construir e usar um modelo são:

Definir: Que tipo de modelo será? Uma árvore de decisão? Algum outro tipo de modelo? Alguns outros parâmetros do tipo de modelo também são especificados.
Fit: Capturar padrões a partir dos dados fornecidos. Este é o coração da modelagem.
Prever: Exatamente o que parece
Avaliar: Determinar a precisão das previsões do modelo.

Aqui está um exemplo de definição de um modelo de árvore de decisão com o scikit-learn e ajustando-o com as características e a variável de destino.

In [23]:
from sklearn.tree import DecisionTreeRegressor

# Defina o modelo. Especifique um número para random_state para garantir os mesmos resultados em cada execução
melbourne_model = DecisionTreeRegressor(random_state=1)

# O modelo é ajustado aos dados de treinamento usando a função fit(). Neste exemplo, os dados de treinamento são X e y
melbourne_model.fit(X, y)

DecisionTreeRegressor(random_state=1)

In [24]:
DecisionTreeRegressor(random_state=1)

DecisionTreeRegressor(random_state=1)

Muitos modelos de machine learning permitem algum nível de aleatoriedade no treinamento do modelo. Especificar um número para random_state garante que você obtenha os mesmos resultados em cada execução. Isso é considerado uma boa prática. Você pode usar qualquer número, e a qualidade do modelo não dependerá significativamente do valor exato que você escolher.

Agora temos um modelo ajustado que podemos usar para fazer previsões.

Na prática, você vai querer fazer previsões para novas casas que chegam ao mercado, em vez das casas para as quais já temos preços. Mas faremos previsões para as primeiras linhas dos dados de treinamento para ver como funciona a função predict.

In [25]:
print("Fazendo previsões para as seguintes 5 casas:")
print(X.head())
print("As predições são:")
print(melbourne_model.predict(X.head()))

Fazendo previsões para as seguintes 5 casas:
   Rooms  Bathroom  Landsize  Lattitude  Longtitude
1      2       1.0     156.0   -37.8079    144.9934
2      3       2.0     134.0   -37.8093    144.9944
4      4       1.0     120.0   -37.8072    144.9941
6      3       2.0     245.0   -37.8024    144.9993
7      2       1.0     256.0   -37.8060    144.9954
As predições são:
[1035000. 1465000. 1600000. 1876000. 1636000.]


In [27]:
print("Fazendo previsões para as seguintes 50 casas:")
print(X.head(50))
print("As predições são:")
print(melbourne_model.predict(X.head(50)))

Fazendo previsões para as seguintes 50 casas:
     Rooms  Bathroom  Landsize  Lattitude  Longtitude
1        2       1.0     156.0   -37.8079    144.9934
2        3       2.0     134.0   -37.8093    144.9944
4        4       1.0     120.0   -37.8072    144.9941
6        3       2.0     245.0   -37.8024    144.9993
7        2       1.0     256.0   -37.8060    144.9954
11       2       1.0     220.0   -37.8010    144.9989
16       3       2.0     214.0   -37.8085    144.9964
17       2       2.0       0.0   -37.8078    144.9965
22       2       1.0     238.0   -37.8090    144.9976
23       3       2.0     113.0   -37.8056    144.9930
25       3       1.0     138.0   -37.8021    144.9965
27       2       1.0     150.0   -37.8011    145.0004
28       4       2.0     780.0   -37.8073    144.9952
31       2       1.0       0.0   -37.8015    144.9972
32       2       2.0     124.0   -37.8079    144.9977
33       2       1.0     147.0   -37.8080    144.9940
37       3       3.0     166.0   -37