In [1]:
# importar bibliotecas (previamente instalar):

# Pandas para manipulación de datos a través de DataFrames:
import pandas as pd
# numpy: biblioteca por excelencia a la hora de trabajar con vectores o matrices
import numpy as np

# Scikit-learn: biblioteca de aprendizaje automático de código abierto para Python.
# de aquí obtendremos:
# - train_test_split: para dividir los datos en conjuntos de entrenamiento y prueba
# - normalizadores y escaladores de características
# - pipelines
# - algoritmos de IA: regresión lineal, regresión logística, etc.
# - métricas de evaluación
# - métodos de optimización de hiperparámetros (los veremos más adelante)
# - incluso contiene conjuntos de datos de juguete para practicar
# - etc.

from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler, OneHotEncoder
from sklearn.pipeline import Pipeline
from sklearn.linear_model import LogisticRegression, LinearRegression, Lasso, Ridge, ElasticNet
from sklearn.metrics import accuracy_score, confusion_matrix, classification_report, roc_auc_score, roc_curve, auc, precision_recall_curve, f1_score
from sklearn.impute import SimpleImputer


In [3]:
######## Cargar un dataset con pandas
# Usaremos el dataset Iris como ejemplo
df = pd.read_csv('https://raw.githubusercontent.com/mwaskom/seaborn-data/master/iris.csv')
print(df.head())

### el csv puede estar en tu computadora, y en otros formatos: excel, db, etc (hay una funcion especifica para cada uno de ellos)


   sepal_length  sepal_width  petal_length  petal_width species
0           5.1          3.5           1.4          0.2  setosa
1           4.9          3.0           1.4          0.2  setosa
2           4.7          3.2           1.3          0.2  setosa
3           4.6          3.1           1.5          0.2  setosa
4           5.0          3.6           1.4          0.2  setosa


In [4]:
###### division train - test
# dividir el dataset en dos conjuntos: entrenamiento y prueba
# esto es para poder evaluar el modelo en datos que no ha visto antes

# X: matriz de características (FEATURES)
# y: vector de etiquetas (TARGET)

X = df.drop('species', axis=1)
y = df['species']

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

## podés hacerlo de forma aleatoria, o no.

In [5]:
X_train.shape, X_test.shape, y_train.shape, y_test.shape

((120, 4), (30, 4), (120,), (30,))

In [6]:

### Transformaciones con fit_transform y transform
# Ejemplo con StandardScaler
scaler = StandardScaler()
X_train_scaled = scaler.fit_transform(X_train)
X_test_scaled = scaler.transform(X_test)

print("Antes del escalado:")
print(X_train.head())
print("Después del escalado:")
print(X_train_scaled[:5, :])




Antes del escalado:
    sepal_length  sepal_width  petal_length  petal_width
22           4.6          3.6           1.0          0.2
15           5.7          4.4           1.5          0.4
65           6.7          3.1           4.4          1.4
11           4.8          3.4           1.6          0.2
42           4.4          3.2           1.3          0.2
Después del escalado:
[[-1.47393679  1.20365799 -1.56253475 -1.31260282]
 [-0.13307079  2.99237573 -1.27600637 -1.04563275]
 [ 1.08589829  0.08570939  0.38585821  0.28921757]
 [-1.23014297  0.75647855 -1.2187007  -1.31260282]
 [-1.7177306   0.30929911 -1.39061772 -1.31260282]]


In [7]:
df.isna().sum()

Unnamed: 0,0
sepal_length,0
sepal_width,0
petal_length,0
petal_width,0
species,0


In [2]:
imputador = SimpleImputer(strategy = 'mean')

In [8]:
X_train_imputado = imputador.fit_transform(X_train)
X_test_imputado = imputador.transform(X_test)

In [12]:
###### entrenar un modelo con tuberia

print("\n4. Entrenar un modelo (fit)")
lr = LogisticRegression()

lr.fit(X_train_scaled, y_train)

# 5. Hacer predicciones (predict)
print("\n5. Hacer predicciones (predict)")
# Hacer predicciones con el conjunto de prueba
y_pred = lr.predict(X_test_scaled)
print(f"Accuracy: {accuracy_score(y_test, y_pred)}")


4. Entrenar un modelo (fit)

5. Hacer predicciones (predict)
Accuracy: 1.0


In [13]:
###### entrenar un modelo con tuberia

print("\n4. Entrenar un modelo (fit)")
# Crear un pipeline para la preprocesamiento y el modelo
pipeline = Pipeline([
    ('scaler', StandardScaler()),  # escalar los datos
    ('classifier', LogisticRegression())  # Modelo de clasificación
])

# Ajustar el modelo a los datos de entrenamiento
pipeline.fit(X_train, y_train)

# 5. Hacer predicciones (predict)
print("\n5. Hacer predicciones (predict)")
# Hacer predicciones con el conjunto de prueba
y_pred = pipeline.predict(X_test)
print(f"Accuracy: {accuracy_score(y_test, y_pred)}")






4. Entrenar un modelo (fit)

5. Hacer predicciones (predict)
Accuracy: 1.0


In [7]:
###### Conclusiones y referencias
### documentación oficial de scikit-learn: https://scikit-learn.org/stable/user_guide.html")