In [None]:
"""
Uso de scikit-learn tiene un paradigma orientado a objetos
scikit-learn tiene tres componentes:
estimadores: estiman los valores en los que esta basado el dataset en este ejemplo se usa el metodo fit 
y se usan los modelos StandardScaler y LogisticRegression
tranformadores: StandardScaler tambie puede ser usado como transformador usando el metodo transform 
predictores: algunos estimadores tambien son capaces de funcionar como predictores como LogisticRegression
"""

In [2]:
from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LogisticRegression
from sklearn.preprocessing import StandardScaler

# Se carga el dataset
data = load_iris()
X = data.data
y = data.target

# Se divide el dataset en conjuntos de entrenamiento y de prueba
X_entrena, X_prueba, y_entrena, y_prueba = train_test_split(X, y, test_size=0.25, random_state=0)

# Se crea una instancia del escalador
scaler = StandardScaler()

# Estimador(usando standardscaler): Aprender los parametros de escalado con fit
scaler.fit(X_entrena)

# Transformador (StandardScaler): se aplica la transformacion a los datos de entrenamiento y prueba
x_entrena_escalado = scaler.transform(X_entrena)
x_prueba_escalado = scaler.transform(X_prueba)

# Creamos una instancia del modelo
modelo = LogisticRegression()

# Estimador(LogisticRegression): Se entrena el modelo con los datos escalados
modelo.fit(x_entrena_escalado, y_entrena)

# Predictor (LogisticRegression): Se hacen predicciones y se evalua el modelo
y_pred = modelo.predict(x_prueba_escalado)
puntaje = modelo.score(x_prueba_escalado, y_prueba)
print(f"Las predicciones son:{y_pred}")
print(f"La precision del modelo es {puntaje:.2f}")

Las predicciones son:[2 1 0 2 0 2 0 1 1 1 2 1 1 1 1 0 1 1 0 0 2 1 0 0 2 0 0 1 1 0 2 1 0 2 2 1 0
 2]
La precision del modelo es 0.97


In [3]:
#############################################
# Preprocesamiento de datos en Scikit-Learn #
#############################################

In [4]:
# Los datos bien preparados son mas faciles de analizar y se hace el procesamiento de forma mas 
# eficiente, se usa para manejar los datos faltantes y categoricos

In [None]:
# MinMaxScaler transforma los datos cambiando la escala de los valores a una escala personalizada por el usuario

In [20]:
import numpy as np
from sklearn.datasets import load_iris
from sklearn.preprocessing import MinMaxScaler, StandardScaler, OneHotEncoder

In [6]:
data= np.array([
    [1,-1,2],
    [2,0,0],
    [0,1,-1]
])
data

array([[ 1, -1,  2],
       [ 2,  0,  0],
       [ 0,  1, -1]])

In [10]:
scaler = MinMaxScaler(feature_range=(0,1))
data_escalada = scaler.fit_transform(data)
data_escalada


array([[0.5       , 0.        , 1.        ],
       [1.        , 0.5       , 0.33333333],
       [0.        , 1.        , 0.        ]])

In [13]:
iris = load_iris()
X = iris.data

In [14]:
scaler = MinMaxScaler(feature_range=(0,1))

In [15]:
X_escalado = scaler.fit_transform(X)

In [16]:
print(X[:5])
print(X_escalado[:5])

[[5.1 3.5 1.4 0.2]
 [4.9 3.  1.4 0.2]
 [4.7 3.2 1.3 0.2]
 [4.6 3.1 1.5 0.2]
 [5.  3.6 1.4 0.2]]
[[0.22222222 0.625      0.06779661 0.04166667]
 [0.16666667 0.41666667 0.06779661 0.04166667]
 [0.11111111 0.5        0.05084746 0.04166667]
 [0.08333333 0.45833333 0.08474576 0.04166667]
 [0.19444444 0.66666667 0.06779661 0.04166667]]


In [None]:
# standardScaler solo debe usarse cuando los datos estan escalados previamente.

In [18]:
scaler2= StandardScaler()
data_escalada2 = scaler2.fit_transform(data)
data_escalada2

array([[ 0.        , -1.22474487,  1.33630621],
       [ 1.22474487,  0.        , -0.26726124],
       [-1.22474487,  1.22474487, -1.06904497]])

In [19]:
np.std(data_escalada2)

np.float64(1.0)

In [21]:
categorias = np.array([["rojo"],["verde"],["azul"],["verde"],["verde"],["azul"]])
categorias

array([['rojo'],
       ['verde'],
       ['azul'],
       ['verde'],
       ['verde'],
       ['azul']], dtype='<U5')

In [26]:
# Una ventaja de usar una matriz inversa es que son muy eficientes computacionalmente ya que no tienen mucho peso
# sin embargo no son eficientes para visualizar la información
# en el ejemplo se usa el parametro output_sparse en false ya que los valores utilizados son muy pocos
encoder = OneHotEncoder(sparse_output=False)
# fit_transform cambia los valores de un arrglo  por de categorias por un arreglo bidimensional el cual tiene
# una dimension igual al anterior y la segunda dimension es igual al numero valores en el primer arreglo 
data_codificada = encoder.fit_transform(categorias)
data_codificada

array([[0., 1., 0.],
       [0., 0., 1.],
       [1., 0., 0.],
       [0., 0., 1.],
       [0., 0., 1.],
       [1., 0., 0.]])

In [None]:
##################################################
# Seleccion y Division de datos con Scikit-Learn #
##################################################

In [44]:
import numpy as np
from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split
from sklearn.feature_selection import SelectKBest, SelectFromModel, chi2
from sklearn.ensemble import RandomForestClassifier

data = load_iris()
X = data.data
y = data.target

In [31]:
X_entrena, X_prueba, y_entrena, y_prueba = train_test_split(X, y, test_size=0.2, random_state=42)

In [34]:
print("Tamaño del conjunto total:", len(X))
print("Tamaño del conjunto entrenamiento:", len(X_entrena))
print("Tamaño del conjunto pruebas:", len(X_prueba))

Tamaño del conjunto total: 150
Tamaño del conjunto entrenamiento: 120
Tamaño del conjunto pruebas: 30


In [41]:
# SelectKBest es muy util cuando el numero de caracteristicas del conjunto de datos es muy grande 
# y se necesita reducir las columnas que se tomaran en cuenta para simplificar el modelo y mejorar 
# su eficiencia con el fin de que se sobreajuste la información 
selector = SelectKBest(chi2,k=2)
x_nuevo = selector.fit_transform(X_entrena, y_entrena)

In [43]:
print(X_entrena[:5])
print(X_prueba[:5])
print(x_nuevo[:5])

[[4.6 3.6 1.  0.2]
 [5.7 4.4 1.5 0.4]
 [6.7 3.1 4.4 1.4]
 [4.8 3.4 1.6 0.2]
 [4.4 3.2 1.3 0.2]]
[[6.1 2.8 4.7 1.2]
 [5.7 3.8 1.7 0.3]
 [7.7 2.6 6.9 2.3]
 [6.  2.9 4.5 1.5]
 [6.8 2.8 4.8 1.4]]
[[1.  0.2]
 [1.5 0.4]
 [4.4 1.4]
 [1.6 0.2]
 [1.3 0.2]]


In [46]:
# La diferencia entre SelectKBest y SelectFromModel es que SelectKBest selecciona las mejores variables en genral
# del grupo de datos y SelectFromModel selecciona las mejores variables en base a las mejores variables tomando
# en cuenta un modelo de machine learning 
model = RandomForestClassifier(n_estimators=100, random_state=42)
# se puede usar la propiedad threshoold para seleccionar el numero de caracteristicas pero es mejor dejar que el 
# modelo las seleccione de forma automatica.
selector2 = SelectFromModel(modelo)
X_importante = selector2.fit_transform(X_entrena, y_entrena)

In [47]:
print(X_importante[:5])
print(x_nuevo[:5])

[[1.  0.2]
 [1.5 0.4]
 [4.4 1.4]
 [1.6 0.2]
 [1.3 0.2]]
[[1.  0.2]
 [1.5 0.4]
 [4.4 1.4]
 [1.6 0.2]
 [1.3 0.2]]


In [49]:
###################################################################
# Pipelines y automatizacion de flujos de trabajo en Scikit-Learn #
###################################################################

In [53]:
# trabajar con pipelines tiene como ventaja la consistencia pues garantiza que todos los datos se procesen
# de la misma forma y esto evita que se olvide procesar alguna parte de los datos o que se transformen de 
# manera incorrecta. Otra ventaja es que es mas simple y reduce la posibilidad de errores. Es mas uniforme
# por lo que es mas facil reproducir valores iguales nuevamente.

from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LogisticRegression
from sklearn.preprocessing import StandardScaler
#nuevo
from sklearn.pipeline import Pipeline

# Se carga el dataset
data = load_iris()
X = data.data
y = data.target

# Se divide el dataset en conjuntos de entrenamiento y de prueba
X_entrena, X_prueba, y_entrena, y_prueba = train_test_split(X, y, test_size=0.25, random_state=0)


pipeline = Pipeline([
    ("scaler", StandardScaler()),
    ("modelo", LogisticRegression())
])

# La transformacion de los datos se hace de forma interna en el entrenamiento y no es necesario escalarlos
pipeline.fit(X_entrena, y_entrena)

# Predictor (LogisticRegression): Se hacen predicciones y se evalua el modelo
y_pred = pipeline.predict(X_prueba)
puntaje = pipeline.score(X_prueba, y_prueba)

print(f"Las predicciones son:{y_pred}")
print(f"La precision del modelo es {puntaje:.2f}")

Las predicciones son:[2 1 0 2 0 2 0 1 1 1 2 1 1 1 1 0 1 1 0 0 2 1 0 0 2 0 0 1 1 0 2 1 0 2 2 1 0
 2]
La precision del modelo es 0.97


In [54]:
from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LogisticRegression
from sklearn.preprocessing import StandardScaler
#nuevo
from sklearn.pipeline import Pipeline, make_pipeline

# Se carga el dataset
data = load_iris()
X = data.data
y = data.target

# Se divide el dataset en conjuntos de entrenamiento y de prueba
X_entrena, X_prueba, y_entrena, y_prueba = train_test_split(X, y, test_size=0.25, random_state=0)

# Aqui cambio usando make_pipeline en vez de Pipeline
pipeline = make_pipeline(
    StandardScaler(),
    LogisticRegression()
)

# La transformacion de los datos se hace de forma interna en el entrenamiento y no es necesario escalarlos
pipeline.fit(X_entrena, y_entrena)

# Predictor (LogisticRegression): Se hacen predicciones y se evalua el modelo
y_pred = pipeline.predict(X_prueba)
puntaje = pipeline.score(X_prueba, y_prueba)

print(f"Las predicciones son:{y_pred}")
print(f"La precision del modelo es {puntaje:.2f}")

Las predicciones son:[2 1 0 2 0 2 0 1 1 1 2 1 1 1 1 0 1 1 0 0 2 1 0 0 2 0 0 1 1 0 2 1 0 2 2 1 0
 2]
La precision del modelo es 0.97


In [55]:
##########################################
# Evaluacion de modelos con Scikit-Learn #
##########################################

In [3]:
from sklearn.datasets import load_iris
from sklearn.ensemble import RandomForestClassifier
from sklearn.model_selection import cross_val_score

In [4]:
data = load_iris()
x = data.data
y = data.target

In [5]:
modelo = RandomForestClassifier(n_estimators = 100, random_state=42)

In [6]:
# cv es el numero de particiones cruzadas y dividira los datos en 5 partes, y 4 de estos conjuntos seran 
# usados como entrenamiento y el resto como prueba y esto sucedera 5 veces
# cross_val_score ejecuta al mismo tiempo el proceso de entrenamiento y de evaluacion en el modelo especificado
# en este caso es RandomForestClassifier usando la validacion cruzada.
puntaje = cross_val_score(modelo, x, y, cv=5)




In [7]:
print("Exactitud de cada particion:", puntaje)
print("Media de la exactitud", puntaje.mean())

Exactitud de cada particion: [0.96666667 0.96666667 0.93333333 0.96666667 1.        ]
Media de la exactitud 0.9666666666666668


In [9]:
from sklearn.datasets import load_wine
from sklearn.neighbors import KNeighborsClassifier
from sklearn.model_selection import cross_val_score

data = load_wine()
X = data.data 
y = data.target

knn_modelo = KNeighborsClassifier()

knn_puntaje = cross_val_score(knn_modelo, X, y, cv=10)
knn_puntaje

array([0.66666667, 0.66666667, 0.61111111, 0.61111111, 0.61111111,
       0.61111111, 0.72222222, 0.66666667, 0.82352941, 0.76470588])

In [None]:
##############################################
# Ajuste de hiperparametros con Scikit-Learn #
##############################################

In [None]:
# Los hiper parametros son las configuraciones que se pueden ajustar antes de entrenar un modelo para
# que prediga las cosas por ejemplo: tiempo de entrenamiento del modelo, complejidad del modelo, etc
# para hacer que el modelo prediga de la mejor manera posible 
# greedsearchtv prueba una serie de configuraciones de lo s hiperparametros para devolver la mejor 
# configuracion para los datos que se tienen y obtener el mejor rendimiento.

In [27]:
from sklearn.datasets import load_iris
from sklearn.ensemble import RandomForestClassifier
from sklearn.model_selection import GridSearchCV

In [28]:
data = load_iris()
X = data.data
y = data.target

In [29]:
modelo = RandomForestClassifier(random_state=42)

In [30]:
parametros = {
    "n_estimators": [50,100,200],
    "max_features": ["sqrt","log2"],
    "max_depth": [4,5,6,7,8],
    "criterion": ["gini", "entropy"]
}

In [31]:
mi_grid_search = GridSearchCV(
    estimator=modelo,
    param_grid=parametros,
    cv=5,
    scoring="accuracy"
)

In [32]:
mi_grid_search.fit(X,y)

0,1,2
,estimator,RandomForestC...ndom_state=42)
,param_grid,"{'criterion': ['gini', 'entropy'], 'max_depth': [4, 5, ...], 'max_features': ['sqrt', 'log2'], 'n_estimators': [50, 100, ...]}"
,scoring,'accuracy'
,n_jobs,
,refit,True
,cv,5
,verbose,0
,pre_dispatch,'2*n_jobs'
,error_score,
,return_train_score,False

0,1,2
,n_estimators,50
,criterion,'gini'
,max_depth,4
,min_samples_split,2
,min_samples_leaf,1
,min_weight_fraction_leaf,0.0
,max_features,'sqrt'
,max_leaf_nodes,
,min_impurity_decrease,0.0
,bootstrap,True


In [33]:
print("Mejores parametros:", mi_grid_search.best_params_)
print("Mejor exactitud", mi_grid_search.best_score_)

Mejores parametros: {'criterion': 'gini', 'max_depth': 4, 'max_features': 'sqrt', 'n_estimators': 50}
Mejor exactitud 0.9666666666666668
