### Introdução ao Machine Learning - Parte 1

Machine Learning, ou Aprendizado de Máquina, é um campo da inteligência artificial que se concentra em desenvolver algoritmos e técnicas que permitem aos computadores aprender a partir de dados.

Nesta primeira parte, geralmente são abordados os seguintes tópicos:

1. **Definição de Machine Learning**: Explicação básica do que é Machine Learning e sua importância na solução de problemas complexos.

2. **Tipos de Aprendizado**: Introdução aos principais tipos de aprendizado, como Supervisionado, Não Supervisionado e por Reforço, e suas características distintas.

3. **Principais Conceitos**: Apresentação dos conceitos fundamentais, como Dados de Treinamento, Modelo, Algoritmo de Aprendizado, e como esses elementos interagem no processo de Machine Learning.

4. **Aplicações**: Exemplos de aplicações reais de Machine Learning em diversos domínios, como reconhecimento de padrões, processamento de linguagem natural, diagnóstico médico, entre outros.

5. **Ferramentas e Bibliotecas**: Breve introdução às principais ferramentas e bibliotecas utilizadas em Machine Learning, como Scikit-learn, TensorFlow e PyTorch.

Essa primeira parte geralmente estabelece uma base sólida para compreensão dos conceitos e técnicas que serão explorados nas partes subsequentes do curso ou estudo sobre Machine Learning.

#### Regressão Linear

Regressão Linear é uma técnica de Machine Learning que é amplamente utilizada para entender e prever a relação entre duas variáveis. É especialmente útil quando queremos prever um resultado contínuo com base em uma ou mais variáveis independentes.

Aqui está uma explicação passo a passo:

1. **Definição**: A regressão linear modela a relação entre uma variável dependente (a que queremos prever) e uma ou mais variáveis independentes (as que usamos para fazer a previsão) através de uma equação linear.

2. **Equação da Regressão Linear**: A equação básica da regressão linear para uma variável independente é: \( y = mx + b \), onde \( y \) é a variável dependente, \( x \) é a variável independente, \( m \) é o coeficiente angular (inclinação da reta) e \( b \) é o intercepto (onde a linha corta o eixo \( y \)).

3. **Ajuste do Modelo**: O objetivo da regressão linear é ajustar a linha ou plano que melhor se ajusta aos dados observados. Isso é feito minimizando a soma dos quadrados das diferenças entre os valores observados e os valores preditos pela linha de regressão.

4. **Interpretação dos Coeficientes**: O coeficiente angular (m) indica a magnitude e a direção da relação entre as variáveis, enquanto o intercepto (b) representa o valor esperado da variável dependente quando a variável independente é zero.

5. **Avaliação do Modelo**: O desempenho do modelo de regressão linear pode ser avaliado usando métricas como R² (coeficiente de determinação), erro médio quadrático (MSE) ou erro médio absoluto (MAE).

Em resumo, a regressão linear é uma técnica poderosa e amplamente utilizada para modelar e prever relacionamentos entre variáveis, com aplicações em diversas áreas, como economia, ciências sociais, ciências naturais e engenharia.

In [1]:
import pandas as pd
import seaborn as sns

from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_absolute_error

In [5]:
df = pd.read_csv('USA_Housing.csv')

In [6]:
df.head()

Unnamed: 0,Avg. Area Income,Avg. Area House Age,Avg. Area Number of Rooms,Avg. Area Number of Bedrooms,Area Population,Price,Address
0,79545.458574,5.682861,7.009188,4.09,23086.800503,1059034.0,"208 Michael Ferry Apt. 674\nLaurabury, NE 3701..."
1,79248.642455,6.0029,6.730821,3.09,40173.072174,1505891.0,"188 Johnson Views Suite 079\nLake Kathleen, CA..."
2,61287.067179,5.86589,8.512727,5.13,36882.1594,1058988.0,"9127 Elizabeth Stravenue\nDanieltown, WI 06482..."
3,63345.240046,7.188236,5.586729,3.26,34310.242831,1260617.0,USS Barnett\nFPO AP 44820
4,59982.197226,5.040555,7.839388,4.23,26354.109472,630943.5,USNS Raymond\nFPO AE 09386


In [None]:
df.corr()

In [11]:
x = df[['Avg. Area Income', 'Avg. Area House Age', 'Avg. Area Number of Rooms', 'Area Population']]         # Características usadas para a previsão
y = df['Price']                                                                                            # O que eu quero prever (alvo)

In [12]:
x_treino, x_teste, y_treino, y_teste = train_test_split(x, y)              #Separar uma parte dos dados para o modelo aprender

In [15]:
modelo = LinearRegression()

In [16]:
modelo.fit(x_treino, y_treino)

In [17]:
y_previsto = modelo.predict(x_teste)

In [18]:
y_previsto

array([1389475.99287778, 1395943.76234446, 1257904.24237753, ...,
       1155573.76793335, 1419836.35383641,  845807.90660375])

In [20]:
# Média dos preços das casas

df['Price'].mean()

1232072.654142357

In [22]:
# Avaliação do Modelo

# O Erro Médio Absoluto (EMA) é uma métrica de avaliação comumente utilizada em modelos de regressão.
# Ele calcula a média das diferenças absolutas entre as previsões do modelo e os valores reais.
# Um valor de EMA mais baixo indica previsões mais precisas, com menores diferenças entre as previsões e os valores reais.


mean_absolute_error(y_previsto, y_teste)

82085.65329887596

Com base na média dos preços das casas de $1,232,072.65 e um Erro Médio Absoluto (EMA) de $82,085.65, podemos interpretar que o modelo está, em média, cometendo um erro de aproximadamente 6.7% em suas previsões. Isso significa que, em média, as previsões do modelo estão se desviando em torno de 6.7% do valor real das casas. Esse desvio significativo pode impactar negativamente as decisões de compra e venda da corretora de imóveis.

Se o modelo está superestimando os preços, os clientes podem considerar as casas muito caras e desistir das compras. Por outro lado, se o modelo está subestimando os preços, a corretora pode perder oportunidades de venda e sofrer prejuízos financeiros.

Diante disso, é fundamental buscar formas de reduzir esse erro, seja por meio da otimização dos parâmetros do modelo atual, da exploração de outras técnicas de modelagem ou até mesmo da utilização de modelos mais complexos. O objetivo é melhorar a precisão das previsões e tornar o modelo mais confiável e útil para a corretora de imóveis.

Com base na análise do erro médio absoluto e na compreensão do impacto desse erro nas decisões de compra e venda, concluímos que o modelo atual, com um erro médio absoluto de aproximadamente 6.7%, não seria uma substituição adequada para um corretor de imóveis. Esse nível de erro é considerável e pode afetar significativamente as transações imobiliárias, levando a decisões erradas e prejuízos financeiros para a corretora e seus clientes. Portanto, é essencial buscar formas de melhorar a precisão do modelo ou considerar outras abordagens antes de substituir completamente um corretor de imóveis pelo modelo de machine learning.

#### Exercícios de fixação

**Questão 1**

Seu chefe pediu para que você avalie um modelo de regressão que está desenvolvendo. Para isso você precisa utilizar métricas adequadas.
Assinale a alternativa que contém apenas métricas de avaliação de regressão:

R: **Erro médio absoluto, Erro médio quadratico e R2**

**Questão 2**

Você recebeu uma base de dados de geração de receita da empresa que trabalha.
Seu gerente deseja que você a use para fazer uma regressão, que vai gerar previsibilidade de receita para a empresa.
Assinale a alternativa que explica o que é um algoritmo de regressão:

R: **Um algoritmo de regressão tenta prever um valor contínuo para uma variável, a partir das demais características de um registro**