#### Este notebook versa Regressao Linear, sobre uma tabela de vendas.
#### This notebook deals with Linear Regression on a sales table.

In [1]:
# Importar bibliotecas de funcoes matematicas
import pandas as pd # para trabalhar com conjunto de dados
from sklearn.model_selection import train_test_split # para dividir os dados em treino e teste
from sklearn.linear_model import LinearRegression # para fazer a regressao linear
from sklearn.metrics import mean_squared_error # para avaliar o modelo de regressao linear

In [2]:
# Carregar os dados -- leitura do arquivo csv
df = pd.read_csv(r'Result_Vendas.csv', sep = ',', encoding='ISO-8859-1')

In [4]:
df.head(1) # para conhecer o que ha no arquivo input

Unnamed: 0,CLIENTE_ID,NOME,IDADE,CIDADE,PRODUTO,CATEGORIA,VALOR
0,1,Maria Silva,34,São Paulo,Televisão,Eletrônicos,2500


In [5]:
df['CATEGORIA'].unique()

array(['Eletrônicos', 'Informática', 'Eletrodomésticos', 'Fotografia'],
      dtype=object)

In [23]:
dicionario = {
    'Eletrônicos': 0,
    'Informática': 1,
    'Eletrodomésticos': 2,
    'Fotografia': 3
} # regra para associar valores categoricos com valores numericos

In [24]:
df['categoria_numerica'] = [dicionario[a] for a in df['CATEGORIA']] # criar nova coluna com designação numerica

In [8]:
df.head(1)

Unnamed: 0,CLIENTE_ID,NOME,IDADE,CIDADE,PRODUTO,CATEGORIA,VALOR,categoria_numerica
0,1,Maria Silva,34,São Paulo,Televisão,Eletrônicos,2500,0


In [9]:
# regressão linear para prever valor
# Prever o valor da venda com base na idade e categoria do produto
X = pd.get_dummies(df[['IDADE','categoria_numerica']], drop_first=True) # input
y = df['VALOR'] # output

In [11]:
# Metodo supervisionado de Machine Learning - Inteligência Artificial - Regressao Linear
# Dividir os dados
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.15, random_state=42)
# 15% dos dados - para verificar desempenho de previsão da IA
# 85% dos dados - para treinar o algoritmo de IA

In [12]:
# Regressão Linear
modelo = LinearRegression() # definicao do modelo matematico para previsao
modelo.fit(X_train, y_train) # ajuste do modelo matematico de IA

# Previsões
y_pred = modelo.predict(X_test) # verificacao do desempenho de previsao com IA

# Avaliação
mse = mean_squared_error(y_test, y_pred) # avaliação do erro médio quadratico
print(f'O erro quadrático médio é =: {mse}')


O erro quadrático médio é =: 194370.2893852051


In [14]:
X_train.info()

<class 'pandas.core.frame.DataFrame'>
Index: 12 entries, 13 to 6
Data columns (total 2 columns):
 #   Column              Non-Null Count  Dtype
---  ------              --------------  -----
 0   IDADE               12 non-null     int64
 1   categoria_numerica  12 non-null     int64
dtypes: int64(2)
memory usage: 288.0 bytes


In [17]:
a.head(1)

Unnamed: 0,IDADE,categoria_numerica


In [22]:
a = pd.DataFrame()
a['IDADE'] = [25] # idade em anos
a['categoria_numerica'] = [1] # categoria de produtos em forma numérica
y1 = modelo.predict(a)
y1 = [round(num, 2) for num in y1]
print(f'O valor previsto para a venda é =',y1,'em Reais R$')


O valor previsto para a venda é = [2381.7] em Reais R$
