In [8]:
# Importando as bibliotecas numpy e pandas para análise dados 

import numpy as np 
import pandas as pd


In [38]:
from sklearn.preprocessing import StandardScaler, OneHotEncoder
from sklearn.compose import ColumnTransformer
from sklearn.pipeline import Pipeline

In [39]:
from sklearn.pipeline import Pipeline
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression

In [32]:
# onehotencoder - transforma cada valor único de uma variável categórica em uma nova coluna binária (0 ou 1).
# Cada coluna representa uma categoria, e a presença da categoria
# em uma linha específica é marcada com 1, enquanto a ausência é marcada com 0.
# StandardSclae é uma ferramenta essencial para o pré-processamento de dados em machine learning.
# Ele padroniza os dados para melhorar a performance de muitos algoritmos, garantindo que cada feature contribua igualmente para o modelo. 
# A integração com pipelines facilita a criação de fluxos de trabalho eficientes e consistentes.

In [33]:
# Criando uma base de dados qualquer
idades = [25, 32, 47, 51, 28, 35, 44, 23, 36, 29]
salarios = [40000, 50000, 60000, 70000, 45000, 52000, 61000, 39000, 58000, 43000]
cidades = ['SP', 'RJ', 'SP', 'MG', 'BA', 'RS', 'RJ', 'MG', 'BA', 'RS']

# Nomeando as colunas
colunas = ['Idade', 'Salario', 'Cidade']

# Criando o DataFrame
df = pd.DataFrame({
    'Idade': idades,
    'Salario': salarios,
    'Cidade': cidades
})
print(df)

   Idade  Salario Cidade
0     25    40000     SP
1     32    50000     RJ
2     47    60000     SP
3     51    70000     MG
4     28    45000     BA
5     35    52000     RS
6     44    61000     RJ
7     23    39000     MG
8     36    58000     BA
9     29    43000     RS


In [34]:
scaler = StandardScaler()
# criando o método para colocar em escala as idades e salários

In [35]:
encoder = OneHotEncoder()
# criando o método de encoder OneHotEncoder

In [50]:
# processar os dados das colunas 
preprocessor = ColumnTransformer(
    transformers = [
        ("num", scaler, ["Idade", "Salario"]),
        ("cat", encoder, ["Cidade"])
    ]
)
preprocessor
#print(preprocessor)

In [47]:
# Criação de uma pipeline

pipeline = Pipeline(steps=[
    ('preprocessor', preprocessor),
    ('regressor', LinearRegression())
])


In [52]:
# determinando os x e y 
X = df[['Idade', 'Salario', 'Cidade']]
y  = df["Salario"]

In [53]:
# Divisão dos dados para treino e teste e determinando os mesmos
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)


In [54]:
# Treinamento do modelo
pipeline.fit(X_train, y_train)


In [58]:
# Resolvendo as predições do modelo treinado 
predicoes = pipeline.predict(X_test)
print(predicoes)

[58000. 50000.]


In [59]:
# avaliação do erro do modelo
from sklearn.metrics import mean_absolute_error, mean_squared_error, r2_score

In [61]:
#erro médio absoluto
mean = mean_absolute_error(y_test, predicoes)

In [63]:
# erro médio quadrado
ms = mse = mean_squared_error(y_test, predicoes)

In [64]:
#qualidade do ajuste
r = r2_score(y_test, predicoes)


In [65]:
print(mean)

0.0


In [66]:
print(ms)

0.0


In [67]:
print(r)
#ou seja todos os pontos estão na reta da regressão linear 

1.0
