# **Diplomado de Machine Learning con Python**
## Tarea 02 ‚Äì Sesi√≥n 03
## **Separar tabla en entrenamiento y prueba**


üìä La separaci√≥n de datos en conjuntos de entrenamiento y prueba es una etapa esencial en el desarrollo de modelos predictivos. Su prop√≥sito es evaluar el rendimiento del modelo de manera objetiva, evitando el sobreajuste y asegurando que las m√©tricas reflejen su capacidad de generalizaci√≥n sobre datos no vistos.

La proporci√≥n de divisi√≥n puede ajustarse seg√∫n el tama√±o del dataset y el objetivo del an√°lisis. En contextos est√°ndar, se suele utilizar una partici√≥n del 70‚Äì80% para entrenamiento y 20‚Äì30% para prueba. Adem√°s, se puede fijar una semilla aleatoria (`random_state`) para garantizar reproducibilidad.

Esta pr√°ctica no solo mejora la confiabilidad del modelo, sino que tambi√©n permite comparar distintos algoritmos bajo condiciones controladas, facilitando la selecci√≥n del enfoque m√°s robusto.

Para esta tarea se utilizar√° el **Iris Flower Dataset**.

![Palmer Penguins Illustration](https://miro.medium.com/v2/resize:fit:1100/format:webp/1*lFC_U5j_Y8IXF4Ga87KNVg.png)


## Importaci√≥n de librer√≠as y lectura de archivo csv

In [None]:
# Importar librer√≠as
import pandas as pd
from sklearn.model_selection import train_test_split

# Leer el CSV
df = pd.read_csv("iris_dataset.csv")
print(f'Dimensiones del dataset: Filas: {df.shape[0]}, Columnas: {df.shape[1]} \n')
df.head(5)

Dimensiones del dataset: Filas: 150, Columnas: 6 



Unnamed: 0,Id,SepalLengthCm,SepalWidthCm,PetalLengthCm,PetalWidthCm,Class
0,1,5.1,3.5,1.4,0.2,Iris-setosa
1,2,4.9,3.0,1.4,0.2,Iris-setosa
2,3,4.7,3.2,1.3,0.2,Iris-setosa
3,4,4.6,3.1,1.5,0.2,Iris-setosa
4,5,5.0,3.6,1.4,0.2,Iris-setosa


## Revisi√≥n inicial de datos

In [None]:
d_type = df.dtypes # Tipo de dato
n_non_null = df.count() # Numero de valores no nulos
n_unique = df.nunique() # Numero de valores unicos
n_null = df.isnull().sum() # Numero de valors nulos
ratio_null = df.isnull().sum()/df.shape[0] # Porcentaje de valores nulos

pd.DataFrame(
    {"d_type": d_type,
     "n_non_null": n_non_null,
     "n_unique": n_unique,
     "n_null": n_null,
     "ratio_null": ratio_null}
)

Unnamed: 0,d_type,n_non_null,n_unique,n_null,ratio_null
Id,int64,150,150,0,0.0
SepalLengthCm,float64,150,35,0,0.0
SepalWidthCm,float64,150,23,0,0.0
PetalLengthCm,float64,150,43,0,0.0
PetalWidthCm,float64,150,22,0,0.0
Class,object,150,3,0,0.0


In [None]:
df['Class'].value_counts()

Unnamed: 0_level_0,count
Class,Unnamed: 1_level_1
Iris-setosa,50
Iris-versicolor,50
Iris-virginica,50


## Separaci√≥n de datos de entrenamiento y prueba

In [None]:
# Separar variables predictoras (X) y variable objetivo (y)
X = df.drop(['Id', 'Class'], axis=1) # Crear la matriz X con las variables predictoras
y = df["Class"] # Crear el vector y con la variable objetivo


# Dividir los datos en conjuntos de entrenamiento (80%) y prueba (20%)
X_train, X_test, y_train, y_test = train_test_split(
    X,               # Matriz de variables predictoras
    y,               # Vector de variable objetivo
    test_size=0.25,   # Proporci√≥n del conjunto de prueba (25%)
    random_state=42, # Semilla para reproducibilidad
    stratify=y       # Asegura que la distribuci√≥n de clases se mantenga en ambos conjuntos
)

# Revisar tama√±os
print(f'Tama√±o entrenamiento: {X_train.shape}, {y_train.shape}')
print(f'Tama√±o prueba: {X_test.shape}, {y_test.shape}')

Tama√±o entrenamiento: (112, 4), (112,)
Tama√±o prueba: (38, 4), (38,)


## Visualizaci√≥n de conjuntos de entrenamiento y prueba

In [10]:
# Visualizar conjuntos de entrenamiento

print('Conjuntos de entrenamiento:\n')
print('X_train:\n')
display(X_train)
print('\ny_train:\n')
display(y_train)

# Visualizar conjuntos de prueba

print('\n\nConjuntos de prueba:\n')
print('X_test:\n')
display(X_test.head(5))
print('\ny_test:\n')
display(y_test.head(5))


Conjuntos de entrenamiento:

X_train:



Unnamed: 0,SepalLengthCm,SepalWidthCm,PetalLengthCm,PetalWidthCm
130,7.4,2.8,6.1,1.9
122,7.7,2.8,6.7,2.0
81,5.5,2.4,3.7,1.0
71,6.1,2.8,4.0,1.3
89,5.5,2.5,4.0,1.3
...,...,...,...,...
49,5.0,3.3,1.4,0.2
21,5.1,3.7,1.5,0.4
45,4.8,3.0,1.4,0.3
92,5.8,2.6,4.0,1.2



y_train:



Unnamed: 0,Class
130,Iris-virginica
122,Iris-virginica
81,Iris-versicolor
71,Iris-versicolor
89,Iris-versicolor
...,...
49,Iris-setosa
21,Iris-setosa
45,Iris-setosa
92,Iris-versicolor




Conjuntos de prueba:

X_test:



Unnamed: 0,SepalLengthCm,SepalWidthCm,PetalLengthCm,PetalWidthCm
42,4.4,3.2,1.3,0.2
56,6.3,3.3,4.7,1.6
99,5.7,2.8,4.1,1.3
53,5.5,2.3,4.0,1.3
38,4.4,3.0,1.3,0.2



y_test:



Unnamed: 0,Class
42,Iris-setosa
56,Iris-versicolor
99,Iris-versicolor
53,Iris-versicolor
38,Iris-setosa
