<a href="https://colab.research.google.com/github/arfmatos/time-series/blob/main/basico_sklearn.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

### Módulo "sklearn.datasets"
datasets.load_iris(): Carrega o conjunto de dados Iris.

datasets.load_boston(): Carrega o conjunto de dados Boston House Prices.

datasets.make_classification(): Gera um conjunto de dados para classificação binária ou multiclasse.

### Módulo "sklearn.model_selection"
model_selection.train_test_split(): Separa um conjunto de dados em conjuntos de treinamento e teste.

model_selection.GridSearchCV(): Realiza a validação cruzada em grades para encontrar os melhores hiperparâmetros de um modelo.

model_selection.cross_val_score(): Calcula a pontuação de validação cruzada para um estimador.

### Módulo "sklearn.preprocessing"
preprocessing.StandardScaler(): Escala os recursos para terem média zero e desvio padrão unitário.

preprocessing.MinMaxScaler(): Escala os recursos para o intervalo [0, 1].

preprocessing.OneHotEncoder(): Codifica variáveis categóricas como vetores binários.

### Módulo "sklearn.linear_model"
linear_model.LinearRegression(): Realiza a regressão linear.

linear_model.LogisticRegression(): Realiza a regressão logística.

linear_model.Ridge(): Realiza a regressão Ridge.

### Módulo "sklearn.tree"
tree.DecisionTreeClassifier(): Realiza a classificação usando uma árvore de decisão.

tree.DecisionTreeRegressor(): Realiza a regressão usando uma árvore de decisão

### Módulo "sklearn.ensemble"
ensemble.RandomForestClassifier(): Realiza a classificação usando uma floresta aleatória.

ensemble.RandomForestRegressor(): Realiza a regressão usando uma floresta aleatória.

### Módulo "sklearn.cluster"
cluster.KMeans(): Realiza a clusterização k-means.

cluster.DBSCAN(): Realiza a clusterização DBSCAN.

Esses são apenas alguns exemplos das funções disponíveis no Scikit-learn. Para obter mais informações, consulte a documentação oficial da biblioteca em https://scikit-learn.org/stable/documentation.html.

In [2]:
import numpy as np
import matplotlib.pyplot as plt
from sklearn.datasets import load_iris, make_classification
from sklearn.model_selection import train_test_split, GridSearchCV, cross_val_score
from sklearn.preprocessing import StandardScaler, MinMaxScaler, OneHotEncoder
from sklearn.linear_model import LinearRegression, LogisticRegression, Ridge
from sklearn.tree import DecisionTreeClassifier, DecisionTreeRegressor
from sklearn.ensemble import RandomForestClassifier, RandomForestRegressor
from sklearn.cluster import KMeans, DBSCAN

In [4]:
# Exemplo de carregamento de conjunto de dados
iris = load_iris()
X_iris = iris.data
y_iris = iris.target

print(X_iris.shape) # Saída: (150, 4)


# Exemplo de separação de conjunto de dados em treinamento e teste
X_train, X_test, y_train, y_test = train_test_split(X_iris, y_iris, test_size=0.3)

print(X_train.shape) # Saída: (105, 4)
print(X_test.shape) # Saída: (45, 4)




(150, 4)
(105, 4)
(45, 4)


In [6]:
# Exemplo de validação cruzada em grades para encontrar os melhores hiperparâmetros de um modelo
iris2 = load_iris()
X_iris2 = iris2.data
y_iris2 = iris2.target

param_grid = {'alpha': np.logspace(-4, 4, 9)}
grid = GridSearchCV(Ridge(), param_grid, cv=5)
grid.fit(X_iris2, y_iris2)

print(grid.best_params_) # Saída: {'alpha': 10.0}

{'alpha': 0.0001}


In [7]:
# Exemplo de cálculo da pontuação de validação cruzada para um estimador
clf = DecisionTreeClassifier()
scores = cross_val_score(clf, X_iris, y_iris, cv=5)

print(scores.mean()) # Saída: 0.96


# Exemplo de escalonamento de recursos para terem média zero e desvio padrão unitário
scaler = StandardScaler()
X_iris_scaled = scaler.fit_transform(X_iris)

print(X_iris_scaled.mean(axis=0)) # Saída: [ 0. -0.  0.  0.]
print(X_iris_scaled.std(axis=0)) # Saída: [1. 1. 1. 1.]


# Exemplo de codificação de variáveis categóricas como vetores binários
encoder = OneHotEncoder()
y_iris_encoded = encoder.fit_transform(y_iris.reshape(-1, 1))

print(y_iris_encoded.toarray()[0]) # Saída: [1. 0. 0.]

0.9666666666666668
[-1.69031455e-15 -1.84297022e-15 -1.69864123e-15 -1.40924309e-15]
[1. 1. 1. 1.]
[1. 0. 0.]


In [9]:
# Exemplo de regressão linear
reg = LinearRegression()
reg.fit(X_iris2, y_iris2)

print(reg.coef_) # Saída: 

[-0.11190585 -0.04007949  0.22864503  0.60925205]


In [14]:
# Exemplo de regressão logística

# Escala os dados
scaler = StandardScaler()
X_iris_scaled = scaler.fit_transform(X_iris)

# Treina o modelo usando os dados escalados
clf = LogisticRegression(max_iter=1000)
clf.fit(X_iris_scaled, y_iris)

print(clf.predict(X_iris[:3, :])) # Saída: [0 0 0]





[1 1 1]


Neste exemplo, estamos usando o dataset de Boston e dividindo-o em conjunto de treinamento e teste. Em seguida, criamos um objeto Ridge com um parâmetro de regularização alpha igual a 1, treinamos o modelo usando os dados de treinamento e realizamos a predição usando o conjunto de teste. Por fim, calculamos o erro médio quadrático para avaliar o desempenho do modelo.

In [15]:
from sklearn.linear_model import Ridge
from sklearn.datasets import load_diabetes
from sklearn.model_selection import train_test_split
from sklearn.metrics import mean_squared_error

# Load the diabetes dataset
diabetes = load_diabetes()

# Split the dataset into training and testing sets
X_train, X_test, y_train, y_test = train_test_split(diabetes.data, diabetes.target, test_size=0.2, random_state=0)

# Create a Ridge regression object with alpha = 1
ridge_reg = Ridge(alpha=1)

# Train the model using the training data
ridge_reg.fit(X_train, y_train)

# Make predictions using the testing data
y_pred = ridge_reg.predict(X_test)

# Calculate the mean squared error
mse = mean_squared_error(y_test, y_pred)
print("Mean squared error:", mse)

Mean squared error: 3379.4063076042657
