## Machine Learning Process
* cargar data
* preprocesar
* entrenar un modelo
* evaluar el modelo
* hacer predicciones

La línea de código `from sklearn.linear_model import LogisticRegression` sirve para importar la clase `LogisticRegression` del módulo `linear_model` de la biblioteca `scikit-learn`. Esta clase permite crear y entrenar modelos de regresión logística, que se utilizan principalmente para resolver problemas de clasificación binaria o multiclase en machine learning.

`Numpy` es una biblioteca fundamental para la computación científica en Python. Permite trabajar de manera eficiente con arreglos y matrices, facilitando operaciones matemáticas y estadísticas rápidas. Es ampliamente utilizada en ciencia de datos, machine learning y procesamiento numérico.

La línea de código `from sklearn.model_selection import train_test_split` se utiliza para importar la función `train_test_split` de la biblioteca `scikit-learn`. Esta función permite dividir un conjunto de datos en dos subconjuntos: uno para entrenamiento y otro para prueba. Esto es fundamental en machine learning para evaluar el rendimiento de los modelos y evitar el sobreajuste.

La línea de código from `sklearn.preprocessing import StandardScaler` se utiliza para importar la clase `StandardScaler` de la biblioteca `scikit-learn`. Esta clase permite estandarizar las características de los datos, es decir, transformar las variables para que tengan media cero y desviación estándar uno. Esto es importante en machine learning porque muchos algoritmos funcionan mejor cuando los datos están en la misma escala.

La línea de código from `sklearn.metrics import accuracy_score` se utiliza para importar la función `accuracy_score` de la biblioteca `scikit-learn`. Esta función permite calcular la precisión de un modelo de clasificación, es decir, la proporción de predicciones correctas sobre el total de muestras evaluadas. Es una métrica fundamental para evaluar el rendimiento de los modelos de clasificación en machine learning.


In [56]:
# importando librerías obligatorias
# instalar previamente : pip install scikit-learn

import pandas as pd
from sklearn.linear_model import LogisticRegression
import numpy as np  
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
from sklearn.metrics import accuracy_score


In [57]:
# cargar el data set y mostrar las primeras filas
iris_data = pd.read_csv('iris.csv')
iris_data.head()


Unnamed: 0,sepal.length,sepal.width,petal.length,petal.width,variety
0,5.1,3.5,1.4,0.2,Setosa
1,4.9,3.0,1.4,0.2,Setosa
2,4.7,3.2,1.3,0.2,Setosa
3,4.6,3.1,1.5,0.2,Setosa
4,5.0,3.6,1.4,0.2,Setosa


In [58]:
# se dividirá la data en caracteristicas (x) y etiquetas (y)
# la función drop elimina las columnas que se le asignen como parámetro, así la variable x solo contiene las columnas 'sepal.width', 'petal.length' y 'petal.width'
# x,y son nuevos dataframes
# y es la variable de destino de las etiquetas
x = iris_data.drop(columns=['variety'])
y = iris_data['variety']
x.head()

Unnamed: 0,sepal.length,sepal.width,petal.length,petal.width
0,5.1,3.5,1.4,0.2
1,4.9,3.0,1.4,0.2
2,4.7,3.2,1.3,0.2
3,4.6,3.1,1.5,0.2
4,5.0,3.6,1.4,0.2


In [59]:
# se dividen los datos en conjuntos de datos pare entrenamiento y prueba

x_train, x_test, y_train, y_test = train_test_split(x,y,test_size=0.2, random_state=42)

# Esta línea de código divide los datos en conjuntos de entrenamiento y prueba.
# 'x' y 'y' son los datos de entrada y las etiquetas, respectivamente.
# 'test_size=0.2' indica que el 20% de los datos se usarán para prueba y el 80% para entrenamiento.
# 'random_state=42' asegura que la división sea reproducible, para controlar la aleatoriedad
# El resultado son cuatro variables: x_train, x_test, y_train, y_test.

In [None]:
# estandarización de funciones
# creando una instancia de StandardScaler que se utiliza para estandarizar las funciones
# StandardScaler transforma tus datos para que tengan media 0 y desviación estándar 1, lo que se conoce como escalado estándar. Este tipo de normalización ayuda a muchos algoritmos de machine 
# learning a funcionar mejor, especialmente los que usan distancias (como SVM o regresión logística).

scaler = StandardScaler()
# No transforma los datos aún, solo se está inicializando el objeto que lo hará.

x_train_scaled = scaler.fit_transform(x_train)
# - Se ajusta (fit) a los datos de entrenamiento (x_train) y luego los transforma (transform).
# - El método fit calcula la media y desviación estándar de x_train.
# - Luego transform utiliza esos valores para escalar x_train.

x_test_scaled = scaler.transform(x_test)
# - Se transforman los datos de prueba (x_test) usando la media y desviación estándar calculadas del x_train.
# - ¡nunca se debe usar los datos de prueba para ajustar el scaler! Solo se transforman usando lo que aprendiste del x_train.
# - Mejora la convergencia de algunos algoritmos.
# - Evita que variables con mayor escala dominen otras.
# - Mantiene la coherencia entre entrenamiento y prueba


In [61]:
# creando el modelo

model = LogisticRegression()

In [62]:
# entrenando el modelo de regresion logistica usando las caracteristicas de entrenamiento estandarizadas x y las habilidades entrenadas y
# model aprende la relación entre las funciones y las etiquetas durante este paso
model.fit(x_train_scaled,y_train)

0,1,2
,penalty,'l2'
,dual,False
,tol,0.0001
,C,1.0
,fit_intercept,True
,intercept_scaling,1
,class_weight,
,random_state,
,solver,'lbfgs'
,max_iter,100


In [63]:
# antes de predecir vamos a evaluar el modelo en el conjunto de pruebas
# es ver como funciona el modelo con los datos no vistos con los datos de entrenamiento que ha aprendido

y_pred = model.predict(x_test_scaled)
accuracy = accuracy_score(y_test, y_pred)
print ('Precisión ', accuracy)

# una mayor puntuación de precisión significa que el modelo es mejor = 1 significa 100% precisa

Precisión  1.0


In [64]:
# un conjunto de datos nuevos para una predicción
# el modelo no ha visto esos datos

new_data = np.array([[5.1,3.5,1.4,0.2],
                     [6.3,2.9,5.6,1.8],
                     [4.9,3.0,1.4,0.2]])

In [65]:
# estandarizar la nueva data
new_data_scaled = scaler.transform(new_data)

# hacer predicciones
predictions = model.predict(new_data_scaled)
print ('Predicciones ', predictions)

Predicciones  ['Setosa' 'Virginica' 'Setosa']


