# Clase 1: Introducción a Machine Learning
## Ejemplo 1: Primer Modelo de Machine Learning

**Diplomado en Machine Learning - Universidad Distrital**

---

### Objetivos
- Cargar y explorar un dataset
- Preparar datos para entrenamiento
- Entrenar un modelo simple de clasificación
- Evaluar el rendimiento del modelo

## 1. Importar Librerías

In [None]:
# Librerías básicas
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

# Scikit-learn
from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import accuracy_score, classification_report, confusion_matrix

# Configuración de visualización
plt.style.use('seaborn-v0_8')
sns.set_palette('husl')
%matplotlib inline

## 2. Cargar y Explorar Datos

In [None]:
# Cargar dataset Iris
iris = load_iris()
X = iris.data
y = iris.target

# Crear DataFrame para mejor visualización
df = pd.DataFrame(X, columns=iris.feature_names)
df['species'] = iris.target_names[y]

print("Primeras filas del dataset:")
df.head()

In [None]:
# Información del dataset
print("Forma del dataset:", df.shape)
print("\nInformación:")
df.info()
print("\nEstadísticas descriptivas:")
df.describe()

## 3. Visualización de Datos

In [None]:
# Distribución de clases
plt.figure(figsize=(8, 5))
df['species'].value_counts().plot(kind='bar')
plt.title('Distribución de Especies')
plt.xlabel('Especie')
plt.ylabel('Cantidad')
plt.xticks(rotation=45)
plt.tight_layout()
plt.show()

## 4. Preparación de Datos

In [None]:
# Dividir en entrenamiento y prueba
X_train, X_test, y_train, y_test = train_test_split(
    X, y, test_size=0.2, random_state=42, stratify=y
)

print(f"Tamaño del conjunto de entrenamiento: {X_train.shape[0]}")
print(f"Tamaño del conjunto de prueba: {X_test.shape[0]}")

In [None]:
# Normalizar datos
scaler = StandardScaler()
X_train_scaled = scaler.fit_transform(X_train)
X_test_scaled = scaler.transform(X_test)

## 5. Entrenar Modelo

In [None]:
# Crear y entrenar modelo
model = LogisticRegression(random_state=42, max_iter=200)
model.fit(X_train_scaled, y_train)

print("Modelo entrenado exitosamente!")

## 6. Evaluar Modelo

In [None]:
# Predicciones
y_pred = model.predict(X_test_scaled)

# Accuracy
accuracy = accuracy_score(y_test, y_pred)
print(f"Accuracy: {accuracy:.2%}")

# Reporte de clasificación
print("\nReporte de Clasificación:")
print(classification_report(y_test, y_pred, target_names=iris.target_names))

In [None]:
# Matriz de confusión
cm = confusion_matrix(y_test, y_pred)
plt.figure(figsize=(8, 6))
sns.heatmap(cm, annot=True, fmt='d', cmap='Blues', 
            xticklabels=iris.target_names, 
            yticklabels=iris.target_names)
plt.title('Matriz de Confusión')
plt.ylabel('Valor Real')
plt.xlabel('Valor Predicho')
plt.tight_layout()
plt.show()

## 7. Conclusiones

En este notebook hemos:
- ✅ Cargado y explorado el dataset Iris
- ✅ Preparado los datos para entrenamiento
- ✅ Entrenado un modelo de clasificación
- ✅ Evaluado el rendimiento del modelo

### Próximos Pasos
- Probar con diferentes algoritmos
- Optimizar hiperparámetros
- Aplicar validación cruzada