<a href="https://colab.research.google.com/github/emilianog4/Data-Science-Projects/blob/main/ejemplos_sklearn.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Regresion lineal con SKLearn

In [None]:
import sklearn as skl
import pandas as pd

In [None]:
print(skl.__version__)

1.2.2


## Importamos el dataset IRIS que viene integrado en sklearn.datasets

In [None]:
import sklearn.datasets
dataset = sklearn.datasets.load_iris()

In [None]:
dataset.feature_names # Nombres de las columnas

## Partición del dataset en training set y test set

In [None]:
from sklearn.model_selection import train_test_split

# Renombramos los valores para que X sean los atributos e Y sean las respuestas del sistema
X = dataset.data
y = dataset.target

# Realizamos la partición de nuestro dataset en un conjunto de entrenamiento y otro de test (20%)
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

## Utilizamos el clasificador SVM (Support Vector Machine) lineal

In [None]:
from sklearn.svm import SVC

# Creamos el clasificador SVM lineal
classifier =  SVC(kernel="linear", C=0.025)

# Realizamos el entrenamiento
classifier.fit(X_train, y_train)

# Obtenemos el accuracy de nuestro modelo para el conjunto de test
print(classifier.score(X_test, y_test))

0.9666666666666667


# Para una mejor fiabilidad del modelo utilizamos cross validation

In [None]:
# Importamos la función de entrenamiento y validación cruzada
from sklearn.model_selection import cross_val_score
nScores = cross_val_score(classifier, X, y, cv=10)
# Nos devuelve un array de tipo Numpy. Podemos usar el método mean para obtener la media de los valores devueltos
nScores.mean()

0.9400000000000001



---



# Ahora utilizamos el dataset integrado en SKLearn de California housing

In [None]:
import sklearn as skl
from sklearn.datasets import fetch_california_housing

dataset = fetch_california_housing()
 
# Mostramos la descripción para nuestro dataset
print(dataset['DESCR'])
# Mostramos los valores de una instancia
print(dataset['data'][0])

.. _california_housing_dataset:

California Housing dataset
--------------------------

**Data Set Characteristics:**

    :Number of Instances: 20640

    :Number of Attributes: 8 numeric, predictive attributes and the target

    :Attribute Information:
        - MedInc        median income in block group
        - HouseAge      median house age in block group
        - AveRooms      average number of rooms per household
        - AveBedrms     average number of bedrooms per household
        - Population    block group population
        - AveOccup      average number of household members
        - Latitude      block group latitude
        - Longitude     block group longitude

    :Missing Attribute Values: None

This dataset was obtained from the StatLib repository.
https://www.dcc.fc.up.pt/~ltorgo/Regression/cal_housing.html

The target variable is the median house value for California districts,
expressed in hundreds of thousands of dollars ($100,000).

This dataset was derived

# Utilizamos un modelo de regresion lineal

In [None]:
# Importamos el modelo de regresión lineal
from sklearn.linear_model import LinearRegression
lin_reg = LinearRegression()

# Extraemos los atributos (X) y los valores objetivo (Y)
X = dataset['data']
Y = dataset['target']

# Entrenamos el modelo
lin_reg.fit(X, Y)

In [None]:
# Mostramos la predicción para un ejemplo del dataset
print(lin_reg.predict([X[10]]))
# Mostramos el valor real que tiene el inmueble en nuestro dataset
print(Y[10])

[2.22077066]
2.815


In [None]:
from sklearn.metrics import mean_squared_error
import numpy as np
preds = lin_reg.predict(X)

# Calculamos el error medio entre las predicciones del modelo con los valores reales
mse = mean_squared_error(Y, preds)
rmse = np.sqrt(mse)
print(mse)
print(rmse)

0.5243209861846072
0.7241001216576387




---



# Clustering

In [None]:
import sklearn
from matplotlib import pyplot as plt
from sklearn import datasets

random_state = 100

n_samples = 100

centers = [[-4, -4], [0, 0], [4, 4]]
X_kmeans, y_kmeans = datasets.make_blobs(n_samples=n_samples, centers=centers, cluster_std=0.7, random_state=random_state)

plt.scatter(X_kmeans[:, 0], X_kmeans[:, 1])
plt.title("Dataset generado para k-means")