## ========================================================================
## PRÁCTICA SEMANA 1: LIBRERÍAS ML/DL - OPTIMIZADA PARA GOOGLE COLAB
## ========================================================================
## Curso: Inteligencia Artificial (MINCD 500)
## Plataforma: Google Colab (cloud-based)
## Ventajas Colab: GPU gratuita, entorno preconfigurado, colaboración
## ========================================================================

### ========================================================================
### CONFIGURACIÓN INICIAL ESPECÍFICA PARA GOOGLE COLAB
### ========================================================================



In [1]:
# Verificar si estamos en Google Colab
try:
    import google.colab
    IN_COLAB = True
    print(" Ejecutándose en Google Colab")
except ImportError:
    IN_COLAB = False
    print(" No está en Google Colab")

# Verificar recursos disponibles en Colab
if IN_COLAB:
    # Verificar GPU disponible
    import tensorflow as tf
    print(" Verificando recursos de hardware:")
    print(f"   - GPUs disponibles: {len(tf.config.list_physical_devices('GPU'))}")

    if len(tf.config.list_physical_devices('GPU')) > 0:
        print("   - Tipo GPU:", tf.config.list_physical_devices('GPU')[0])
        print("    GPU activada - Ideal para Deep Learning")
    else:
        print("     Solo CPU disponible - Suficiente para esta práctica")

    # Verificar RAM disponible
    import psutil
    ram_gb = round(psutil.virtual_memory().total / (1024**3), 1)
    print(f"   - RAM disponible: {ram_gb} GB")
    print(f"   - Almacenamiento temporal: ~100GB")

# Instalar librerías adicionales específicas para Colab
if IN_COLAB:
    print("\n Instalando librerías adicionales en Colab...")
    !pip install -q plotly kaleido  # Para gráficos interactivos
    !pip install -q seaborn --upgrade  # Asegurar última versión
    print(" Instalación completada")

 Ejecutándose en Google Colab
 Verificando recursos de hardware:
   - GPUs disponibles: 0
     Solo CPU disponible - Suficiente para esta práctica
   - RAM disponible: 12.7 GB
   - Almacenamiento temporal: ~100GB

 Instalando librerías adicionales en Colab...
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m51.5/51.5 kB[0m [31m3.4 MB/s[0m eta [36m0:00:00[0m
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m51.3/51.3 kB[0m [31m3.8 MB/s[0m eta [36m0:00:00[0m
[?25h Instalación completada


In [2]:
# Importaciones optimizadas para Colab
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
import plotly.express as px
import plotly.graph_objects as go
from plotly.subplots import make_subplots

# Importaciones específicas para ML/DL
from sklearn import datasets
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler, LabelEncoder
from sklearn.ensemble import RandomForestClassifier
from sklearn.linear_model import LogisticRegression
from sklearn.svm import SVC
from sklearn.metrics import accuracy_score, confusion_matrix, classification_report
import tensorflow as tf
from tensorflow import keras
from tensorflow.keras import layers

# Configuración específica para Colab
import warnings
warnings.filterwarnings('ignore')

# Configuración de visualización optimizada para Colab
plt.style.use('default')
sns.set_palette("husl")
plt.rcParams['figure.figsize'] = (12, 8)  # Más grande para pantallas Colab
plt.rcParams['font.size'] = 12
plt.rcParams['figure.dpi'] = 100  # Mejor resolución en Colab

# Configurar plotly para Colab
import plotly.io as pio
pio.renderers.default = 'colab'  # Renderizado específico para Colab

print("\n Configuración específica para Google Colab completada")
print("=" * 60)


 Configuración específica para Google Colab completada


In [3]:
# ========================================================================
# FUNCIONES ESPECÍFICAS PARA COLAB
# ========================================================================

def conectar_google_drive():
    """Función para conectar con Google Drive en Colab"""
    if IN_COLAB:
        from google.colab import drive
        try:
            drive.mount('/content/drive')
            print(" Google Drive conectado exitosamente")
            return True
        except Exception as e:
            print(f" Error conectando Google Drive: {e}")
            return False
    else:
        print(" Esta función solo funciona en Google Colab")
        return False



def mostrar_grafico_interactivo(fig):
    """Mostrar gráficos Plotly optimizados para Colab"""
    if IN_COLAB:
        fig.show()
    else:
        fig.show(renderer='browser')

In [4]:
# Opción 2: Cargar desde URL (aprovechando conectividad de Colab)
print("\nMétodo 2: Cargar desde URL")
try:
    # Dataset de vinos desde UCI
    wine_url = "https://archive.ics.uci.edu/ml/machine-learning-databases/wine/wine.data"
    wine_columns = ['class', 'alcohol', 'malic_acid', 'ash', 'alcalinity', 'magnesium',
                   'phenols', 'flavanoids', 'nonflavanoid_phenols', 'proanthocyanins',
                   'color_intensity', 'hue', 'od280', 'proline']

    wine_df = pd.read_csv(wine_url, names=wine_columns)
    print(f" Wine dataset desde UCI: {wine_df.shape}")
except Exception as e:
    print(f" No se pudo cargar dataset desde URL: {e}")
    wine_df = None


Método 2: Cargar desde URL
 Wine dataset desde UCI: (178, 14)


In [6]:


# ========================================================================
# CARGAR DATOS ESPECÍFICO PARA COLAB
# ========================================================================

print("\n CARGANDO DATOS EN GOOGLE COLAB")
print("=" * 40)

# Opción 1: Datasets integrados en Colab (más rápido)
print("Método 1: Datasets integrados en Seaborn")
titanic = sns.load_dataset('titanic')
tips = sns.load_dataset('tips')
flights = sns.load_dataset('flights')

print(f" Titanic dataset: {titanic.shape}")
print(f" Tips dataset: {tips.shape}")
print(f" Flights dataset: {flights.shape}")


 CARGANDO DATOS EN GOOGLE COLAB
Método 1: Datasets integrados en Seaborn
 Titanic dataset: (891, 15)
 Tips dataset: (244, 7)
 Flights dataset: (144, 3)


In [7]:
# Opción 3: Crear datasets sintéticos más grandes (aprovechando RAM de Colab)
print("\nMétodo 3: Datasets sintéticos grandes")
np.random.seed(42)

# Dataset más grande para aprovechar recursos de Colab
n_samples = 10000  # Más grande que en entorno local
n_features = 20

# Dataset de empleados expandido
empleados_data = {
    'id': range(1, n_samples + 1),
    'edad': np.random.randint(22, 65, n_samples),
    'salario': np.random.lognormal(10.8, 0.5, n_samples),  # Distribución más realista
    'departamento': np.random.choice(['IT', 'Marketing', 'Ventas', 'RRHH', 'Finanzas',
                                     'Operaciones', 'Legal', 'Calidad'], n_samples),
    'años_experiencia': np.random.randint(0, 25, n_samples),
    'satisfaccion': np.random.beta(2, 5, n_samples) * 10,  # Distribución sesgada
    'educacion': np.random.choice(['Bachiller', 'Técnico', 'Universitario', 'Posgrado'],
                                 n_samples, p=[0.1, 0.2, 0.5, 0.2]),
    'ubicacion': np.random.choice(['Quito', 'Guayaquil', 'Cuenca', 'Ambato', 'Machala'],
                                 n_samples, p=[0.4, 0.35, 0.15, 0.05, 0.05]),
    'genero': np.random.choice(['M', 'F'], n_samples, p=[0.52, 0.48]),
    'tiene_certificaciones': np.random.choice([True, False], n_samples, p=[0.3, 0.7])
}

# Agregar algunas correlaciones realistas
for i in range(n_samples):
    # Correlación experiencia-salario
    exp_bonus = empleados_data['años_experiencia'][i] * 1500
    empleados_data['salario'][i] += exp_bonus

    # Correlación educación-salario
    edu_multiplier = {'Bachiller': 0.8, 'Técnico': 0.9, 'Universitario': 1.0, 'Posgrado': 1.3}
    empleados_data['salario'][i] *= edu_multiplier[empleados_data['educacion'][i]]

df_empleados_grande = pd.DataFrame(empleados_data)
print(f" Dataset de empleados expandido: {df_empleados_grande.shape}")


Método 3: Datasets sintéticos grandes
 Dataset de empleados expandido: (10000, 10)


In [9]:
# ========================================================================
# APROVECHANDO GPU PARA DEEP LEARNING
# ========================================================================

print("\n CONFIGURACIÓN GPU PARA DEEP LEARNING")
print("=" * 40)

# Verificar y configurar GPU
if len(tf.config.list_physical_devices('GPU')) > 0:
    print(" GPU detectada - Configurando para usar aceleración por hardware")

    # Configurar memoria GPU para evitar errores
    gpus = tf.config.experimental.list_physical_devices('GPU')
    if gpus:
        try:
            tf.config.experimental.set_memory_growth(gpus[0], True)
            print(" Configuración GPU completada")
        except RuntimeError as e:
            print(f" Error configurando GPU: {e}")

    # Crear modelo más complejo para aprovechar GPU
    def crear_modelo_grande():
        model = keras.Sequential([
            layers.Dense(128, activation='relu', input_shape=(n_features,)),
            layers.Dropout(0.3),
            layers.Dense(64, activation='relu'),
            layers.Dropout(0.3),
            layers.Dense(32, activation='relu'),
            layers.Dense(10, activation='softmax')
        ])
        return model

    print(" Modelo complejo preparado para GPU")
else:
    print("Usando CPU - Creando modelo optimizado para CPU")

    def crear_modelo_grande():
        model = keras.Sequential([
            layers.Dense(32, activation='relu', input_shape=(n_features,)),
            layers.Dense(16, activation='relu'),
            layers.Dense(10, activation='softmax')
        ])
        return model



 CONFIGURACIÓN GPU PARA DEEP LEARNING
Usando CPU - Creando modelo optimizado para CPU


In [11]:
# ========================================================================
# VISUALIZACIONES INTERACTIVAS CON PLOTLY
# ========================================================================

print("\n VISUALIZACIONES INTERACTIVAS EN COLAB")
print("=" * 40)

# Aprovechar Plotly para gráficos interactivos
print("Creando visualizaciones interactivas con Plotly...")

# Gráfico interactivo 3D
fig_3d = px.scatter_3d(
    df_empleados_grande,
    x='edad',
    y='años_experiencia',
    z='salario',
    color='departamento',
    size='satisfaccion',
    title='Análisis 3D: Edad vs Experiencia vs Salario',
    hover_data=['educacion', 'ubicacion']
)

fig_3d.update_layout(height=600)
print(" Gráfico 3D interactivo creado")
mostrar_grafico_interactivo(fig_3d)

# Dashboard interactivo
fig_dashboard = make_subplots(
    rows=2, cols=2,
    subplot_titles=('Distribución Salarios', 'Salarios por Departamento',
                   'Correlación Edad-Experiencia', 'Satisfacción por Educación'),
    specs=[[{"type": "histogram"}, {"type": "box"}],
           [{"type": "scatter"}, {"type": "bar"}]]
)

# Histograma
fig_dashboard.add_trace(
    go.Histogram(x=df_empleados_grande['salario'], name='Salarios'),
    row=1, col=1
)

# Box plot
for dept in df_empleados_grande['departamento'].unique():
    dept_data = df_empleados_grande[df_empleados_grande['departamento'] == dept]
    fig_dashboard.add_trace(
        go.Box(y=dept_data['salario'], name=dept),
        row=1, col=2
    )

# Scatter plot
fig_dashboard.add_trace(
    go.Scatter(x=df_empleados_grande['edad'],
              y=df_empleados_grande['años_experiencia'],
              mode='markers',
              name='Edad vs Experiencia'),
    row=2, col=1
)

# Bar plot
satisfaccion_edu = df_empleados_grande.groupby('educacion')['satisfaccion'].mean()
fig_dashboard.add_trace(
    go.Bar(x=satisfaccion_edu.index, y=satisfaccion_edu.values,
           name='Satisfacción'),
    row=2, col=2
)

fig_dashboard.update_layout(height=800, title_text="Dashboard Interactivo de Análisis")
print(" Dashboard interactivo creado")
mostrar_grafico_interactivo(fig_dashboard)


 VISUALIZACIONES INTERACTIVAS EN COLAB
Creando visualizaciones interactivas con Plotly...
 Gráfico 3D interactivo creado


 Dashboard interactivo creado


In [12]:
# ========================================================================
# MACHINE LEARNING PARALELO (APROVECHANDO COLAB)
# ========================================================================

print("\n MACHINE LEARNING OPTIMIZADO PARA COLAB")
print("=" * 40)

# Preparar datos para ML con dataset más grande
X = df_empleados_grande.select_dtypes(include=[np.number]).drop(['id'], axis=1)
# Crear target sintético basado en múltiples variables
y = (df_empleados_grande['salario'] > df_empleados_grande['salario'].median()).astype(int)

print(f"Dataset para ML: {X.shape}")
print(f"Distribución target: {np.bincount(y)}")

# Entrenar múltiples modelos en paralelo (Colab maneja bien esto)
from sklearn.model_selection import cross_val_score
from concurrent.futures import ThreadPoolExecutor
import time

modelos = {
    'Random Forest': RandomForestClassifier(n_estimators=100, n_jobs=-1, random_state=42),
    'Logistic Regression': LogisticRegression(n_jobs=-1, random_state=42, max_iter=1000),
    'SVM': SVC(random_state=42),
}

def evaluar_modelo(nombre_modelo, modelo, X, y):
    """Función para evaluar modelo con validación cruzada"""
    start_time = time.time()
    scores = cross_val_score(modelo, X, y, cv=5, n_jobs=-1)
    end_time = time.time()

    return {
        'modelo': nombre_modelo,
        'mean_score': scores.mean(),
        'std_score': scores.std(),
        'tiempo': end_time - start_time
    }

print(" Evaluando múltiples modelos de ML...")

# Normalizar datos
scaler = StandardScaler()
X_scaled = scaler.fit_transform(X)

resultados = []
for nombre, modelo in modelos.items():
    resultado = evaluar_modelo(nombre, modelo, X_scaled, y)
    resultados.append(resultado)
    print(f" {nombre}: Accuracy = {resultado['mean_score']:.3f} (±{resultado['std_score']:.3f}) - Tiempo: {resultado['tiempo']:.2f}s")



 MACHINE LEARNING OPTIMIZADO PARA COLAB
Dataset para ML: (10000, 4)
Distribución target: [5000 5000]
 Evaluando múltiples modelos de ML...
 Random Forest: Accuracy = 1.000 (±0.000) - Tiempo: 4.89s
 Logistic Regression: Accuracy = 0.997 (±0.002) - Tiempo: 0.12s
 SVM: Accuracy = 0.992 (±0.001) - Tiempo: 2.16s


In [13]:
# ========================================================================
# DEEP LEARNING CON GPU ACCELERATION
# ========================================================================

print("\n DEEP LEARNING CON ACELERACIÓN GPU")
print("=" * 40)

# Crear dataset más complejo para Deep Learning
from sklearn.datasets import make_classification

X_dl, y_dl = make_classification(
    n_samples=20000,  # Dataset más grande para aprovechar GPU
    n_features=50,
    n_informative=30,
    n_redundant=10,
    n_classes=5,
    random_state=42
)

print(f"Dataset para Deep Learning: {X_dl.shape}")

# Preparar datos
X_train, X_test, y_train, y_test = train_test_split(X_dl, y_dl, test_size=0.2, random_state=42)
X_train = StandardScaler().fit_transform(X_train)
X_test = StandardScaler().fit_transform(X_test)

y_train_cat = keras.utils.to_categorical(y_train, 5)
y_test_cat = keras.utils.to_categorical(y_test, 5)

# Crear modelo aprovechando GPU
print("🔨 Creando red neuronal profunda...")

model = keras.Sequential([
    layers.Dense(256, activation='relu', input_shape=(50,)),
    layers.BatchNormalization(),
    layers.Dropout(0.3),

    layers.Dense(128, activation='relu'),
    layers.BatchNormalization(),
    layers.Dropout(0.3),

    layers.Dense(64, activation='relu'),
    layers.BatchNormalization(),
    layers.Dropout(0.2),

    layers.Dense(32, activation='relu'),
    layers.Dense(5, activation='softmax')
])

model.compile(
    optimizer=keras.optimizers.Adam(learning_rate=0.001),
    loss='categorical_crossentropy',
    metrics=['accuracy']
)

print(" Arquitectura del modelo:")
model.summary()

# Callbacks para mejorar entrenamiento
callbacks = [
    keras.callbacks.EarlyStopping(patience=10, restore_best_weights=True),
    keras.callbacks.ReduceLROnPlateau(patience=5, factor=0.5),
]

print("Entrenando red neuronal (aprovechando GPU si está disponible)...")

# Entrenar con más epochs aprovechando la potencia de Colab
start_time = time.time()
history = model.fit(
    X_train, y_train_cat,
    epochs=100,
    batch_size=128,  # Batch más grande para GPU
    validation_split=0.2,
    callbacks=callbacks,
    verbose=1
)
end_time = time.time()

print(f"⏱ Entrenamiento completado en {end_time - start_time:.2f} segundos")

# Evaluación final
test_loss, test_accuracy = model.evaluate(X_test, y_test_cat, verbose=0)
print(f" Accuracy final en test: {test_accuracy:.3f}")


 DEEP LEARNING CON ACELERACIÓN GPU
Dataset para Deep Learning: (20000, 50)
🔨 Creando red neuronal profunda...
 Arquitectura del modelo:


Entrenando red neuronal (aprovechando GPU si está disponible)...
Epoch 1/100
[1m100/100[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m11s[0m 13ms/step - accuracy: 0.3322 - loss: 1.6994 - val_accuracy: 0.6356 - val_loss: 1.1192 - learning_rate: 0.0010
Epoch 2/100
[1m100/100[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m2s[0m 10ms/step - accuracy: 0.5935 - loss: 1.0437 - val_accuracy: 0.7366 - val_loss: 0.7730 - learning_rate: 0.0010
Epoch 3/100
[1m100/100[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m1s[0m 9ms/step - accuracy: 0.6846 - loss: 0.8450 - val_accuracy: 0.7997 - val_loss: 0.5842 - learning_rate: 0.0010
Epoch 4/100
[1m100/100[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m1s[0m 11ms/step - accuracy: 0.7401 - loss: 0.7071 - val_accuracy: 0.8372 - val_loss: 0.4764 - learning_rate: 0.0010
Epoch 5/100
[1m100/100[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m1s[0m 11ms/step - accuracy: 0.7743 - loss: 0.6147 - val_accuracy: 0.8644 - val_loss: 0.4003 - learning_rate: 0.

In [None]:
# ========================================================================
# GUARDAR RESULTADOS EN GOOGLE DRIVE
# ========================================================================

print("\n GUARDANDO RESULTADOS")
print("=" * 30)

# Conectar con Google Drive si es necesario
if IN_COLAB:
    conectar_google_drive()

# Crear DataFrame de resultados
resultados_df = pd.DataFrame(resultados)

# Guardar datasets y resultados
try:
    if IN_COLAB:
        guardar_en_drive(df_empleados_grande, 'empleados_dataset.csv')
        guardar_en_drive(resultados_df, 'resultados_ml.csv')

        # Guardar modelo de Deep Learning
        model.save('/content/drive/My Drive/UEES_IA_Curso/modelo_dl.h5')
        print(" Modelo de Deep Learning guardado")
    else:
        resultados_df.to_csv('resultados_ml.csv', index=False)
        print(" Resultados guardados localmente")

except Exception as e:
    print(f" Error guardando archivos: {e}")



# ========================================================================
# FIN DE LA PRÁCTICA OPTIMIZADA PARA GOOGLE COLAB
# ========================================================================