# ü§ñ An√°lisis de Riesgo de Automatizaci√≥n Laboral por IA

## Modelo Predictivo - Jalisco, M√©xico (2025-2030)

**Autor:** Carlos Pulido Rosas  
**Instituci√≥n:** CUCEA - Universidad de Guadalajara  
**Programa:** Maestr√≠a en Ciencia de los Datos  
**L√≠nea LGAC:** SMART DATA  
**Fecha:** Noviembre 2025

---

### üìã Objetivo del Proyecto

Desarrollar un modelo predictivo usando **PySpark** que identifique ocupaciones con alto riesgo de sustituci√≥n laboral por Inteligencia Artificial en el estado de Jalisco, mediante an√°lisis de caracter√≠sticas ocupacionales y tendencias socioecon√≥micas.

### üìä Fuentes de Datos

1. **O*NET Database** - Caracter√≠sticas de ocupaciones
2. **INEGI - ENOE** - Empleo en Jalisco
3. **Estudios de automatizaci√≥n** (Frey-Osborne, McKinsey)

### üéØ Resultados Esperados

- Identificaci√≥n de ocupaciones de alto riesgo
- Cuantificaci√≥n del impacto laboral por sector
- Proyecciones 2025-2030
- Recomendaciones de pol√≠tica p√∫blica

## üìë Tabla de Contenidos

1. [Configuraci√≥n Inicial](#1-configuraci√≥n-inicial)
2. [Carga de Datos](#2-carga-de-datos)
3. [Exploraci√≥n de Datos](#3-exploraci√≥n-de-datos)
4. [Preprocesamiento](#4-preprocesamiento)
5. [Feature Engineering](#5-feature-engineering)
6. [An√°lisis de Riesgo](#6-an√°lisis-de-riesgo)
7. [An√°lisis por Dimensiones](#7-an√°lisis-por-dimensiones)
8. [Visualizaciones](#8-visualizaciones)
9. [Modelado Predictivo](#9-modelado-predictivo)
10. [Resultados y Conclusiones](#10-resultados-y-conclusiones)

---

## 1. Configuraci√≥n Inicial

### 1.1 Importaci√≥n de Librer√≠as

In [None]:
# Suprimir warnings
import warnings
warnings.filterwarnings('ignore')

# Librer√≠as b√°sicas
import sys
import os

# Agregar src al path
sys.path.append('../src')

# PySpark
from pyspark.sql import SparkSession
import pyspark.pandas as ps

# An√°lisis de datos
import pandas as pd
import numpy as np

# Visualizaci√≥n
import matplotlib.pyplot as plt
import seaborn as sns
import plotly.express as px
import plotly.graph_objects as go

# Configurar visualizaciones
%matplotlib inline
plt.style.use('seaborn-v0_8-whitegrid')
sns.set_palette("husl")

print("‚úì Librer√≠as importadas exitosamente")

### 1.2 Crear Spark Session

In [None]:
from data_loader import create_spark_session

# Crear sesi√≥n de Spark
spark = create_spark_session(
    app_name="AI_Automation_Risk_Jalisco",
    memory="8g"
)

print(f"‚úì Spark Session creada")
print(f"  Versi√≥n: {spark.version}")
print(f"  Master: {spark.sparkContext.master}")

---

## 2. Carga de Datos

### 2.1 Datos Simulados para Pruebas

Para este an√°lisis usaremos datos simulados que replican las caracter√≠sticas del Global Terrorism Database adaptado a ocupaciones laborales.

In [None]:
from data_loader import load_sample_data, convert_to_pandas_api

# Generar datos simulados
# Para producci√≥n: usar load_onet_occupations() y load_enoe_jalisco()
df_spark = load_sample_data(spark, n_occupations=200)

print(f"‚úì Datos cargados: {df_spark.count():,} ocupaciones")

### 2.2 Convertir a pyspark.pandas

Convertimos a `pyspark.pandas` para facilitar la manipulaci√≥n con sintaxis familiar.

In [None]:
# Convertir a pyspark.pandas
df = convert_to_pandas_api(df_spark)

print(f"‚úì Conversi√≥n exitosa")
print(f"  Shape: {df.shape}")
print(f"  Tipo: {type(df)}")

---

## 3. Exploraci√≥n de Datos

### 3.1 Primeras Filas

In [None]:
# Mostrar primeras 10 ocupaciones
df.head(10)

### 3.2 Informaci√≥n General del Dataset

In [None]:
# Informaci√≥n del dataset
print("="*80)
print("INFORMACI√ìN DEL DATASET")
print("="*80)
print(f"\nDimensiones: {df.shape}")
print(f"Filas: {df.shape[0]:,}")
print(f"Columnas: {df.shape[1]}")

print("\nColumnas disponibles:")
for i, col in enumerate(df.columns, 1):
    print(f"  {i:2d}. {col}")

### 3.3 Estad√≠sticas Descriptivas

In [None]:
# Estad√≠sticas de variables num√©ricas clave
numeric_cols = ['routine_index', 'cognitive_demand', 'social_interaction', 
                'creativity', 'education_level', 'workers_jalisco', 'avg_salary_mxn']

stats = df[numeric_cols].describe()
print("\nESTAD√çSTICAS DESCRIPTIVAS")
print("="*80)
print(stats)

### 3.4 Distribuci√≥n por Sector

In [None]:
# Distribuci√≥n de ocupaciones por sector
print("\nDISTRIBUCI√ìN POR SECTOR ECON√ìMICO")
print("="*80)
sector_counts = df['sector'].value_counts()
print(sector_counts)

# Visualizaci√≥n
plt.figure(figsize=(10, 6))
sector_counts.plot(kind='bar', color='steelblue', edgecolor='black')
plt.xlabel('Sector Econ√≥mico', fontsize=12)
plt.ylabel('N√∫mero de Ocupaciones', fontsize=12)
plt.title('Distribuci√≥n de Ocupaciones por Sector', fontsize=14, fontweight='bold')
plt.xticks(rotation=45, ha='right')
plt.grid(True, alpha=0.3, axis='y')
plt.tight_layout()
plt.show()

### 3.5 Valores Faltantes

In [None]:
from data_preprocessing import analyze_missing_values

# Analizar valores faltantes
missing_df = analyze_missing_values(df)

if len(missing_df) > 0:
    print("\nCOLUMNAS CON VALORES FALTANTES:")
    print("="*80)
    print(missing_df)
else:
    print("\n‚úì No hay valores faltantes en el dataset")

---

## 4. Preprocesamiento

### 4.1 Pipeline de Limpieza

In [None]:
from data_preprocessing import preprocess_pipeline

# Ejecutar pipeline de preprocesamiento
df_clean = preprocess_pipeline(df, config={
    'handle_missing': 'auto',
    'remove_duplicates': True,
    'filter_outliers': False
})

print(f"\n‚úì Preprocesamiento completado")
print(f"  Filas originales: {df.shape[0]:,}")
print(f"  Filas limpias: {df_clean.shape[0]:,}")
print(f"  Diferencia: {df.shape[0] - df_clean.shape[0]:,} filas eliminadas")

### 4.2 Validaci√≥n de Calidad

In [None]:
from data_preprocessing import validate_data_quality

# Validar calidad de datos
metrics = validate_data_quality(df_clean)

print("\nM√âTRICAS DE CALIDAD DE DATOS")
print("="*80)
for key, value in metrics.items():
    print(f"  {key}: {value}")

---

## 5. Feature Engineering

### 5.1 Creaci√≥n de Features

Crearemos m√∫ltiples √≠ndices y features derivados para el an√°lisis.

In [None]:
from feature_engineering import feature_engineering_pipeline

# Ejecutar pipeline de feature engineering
df_features = feature_engineering_pipeline(df_clean, config={
    'create_indices': True,
    'create_categories': True,
    'create_ratios': True,
    'create_temporal': True,
    'create_sector_agg': True
})

print(f"\n‚úì Feature engineering completado")
print(f"  Columnas originales: {df_clean.shape[1]}")
print(f"  Columnas finales: {df_features.shape[1]}")
print(f"  Features nuevos: {df_features.shape[1] - df_clean.shape[1]}")

### 5.2 Features Creados

**√çndices Base:**
- `routine_index` - Grado de rutinizaci√≥n (0-100)
- `cognitive_demand` - Demanda cognitiva (0-100)
- `social_interaction` - Nivel de interacci√≥n social (0-100)
- `creativity` - Nivel de creatividad requerida (0-100)
- `complexity_index` - Complejidad general
- `automation_susceptibility` - Susceptibilidad a automatizaci√≥n

**Categor√≠as:**
- `education_category` - B√°sica/Media/Superior/Posgrado
- `salary_category` - Quintiles salariales
- `occupation_size` - Peque√±a/Mediana/Grande

**Features Temporales:**
- `risk_projection_2026` a `risk_projection_2030`

**Agregaciones por Sector:**
- `sector_avg_risk` - Riesgo promedio del sector
- `sector_total_workers` - Total de trabajadores del sector

In [None]:
# Mostrar algunos features creados
print("\nNUEVOS FEATURES CREADOS:")
print("="*80)
new_cols = set(df_features.columns) - set(df_clean.columns)
for i, col in enumerate(sorted(new_cols), 1):
    print(f"  {i:2d}. {col}")

---

## 6. An√°lisis de Riesgo de Automatizaci√≥n

### 6.1 Calcular Riesgo Base

Usando metodolog√≠a basada en Frey & Osborne (2013).

In [None]:
from automation_analyzer import AutomationRiskAnalyzer

# Crear analizador
analyzer = AutomationRiskAnalyzer()

# Calcular riesgo de automatizaci√≥n
df_risk = analyzer.calculate_automation_risk(
    df_features,
    method='frey_osborne'
)

print("\n‚úì Riesgo de automatizaci√≥n calculado")
print("\nDISTRIBUCI√ìN DE RIESGO:")
print("="*80)
print(df_risk['automation_risk'].describe())

### 6.2 Categorizar Riesgo

Clasificamos ocupaciones en tres categor√≠as:
- **Bajo Riesgo:** < 0.30
- **Riesgo Medio:** 0.30 - 0.70
- **Alto Riesgo:** > 0.70

In [None]:
# Categorizar riesgo
df_risk = analyzer.categorize_risk(df_risk, thresholds=(0.30, 0.70))

print("\nCATEGORIZACI√ìN DE RIESGO")
print("="*80)
risk_counts = df_risk['risk_category'].value_counts()
print("\nConteo:")
print(risk_counts)

print("\nPorcentajes:")
risk_pct = df_risk['risk_category'].value_counts(normalize=True) * 100
print(risk_pct)

### 6.3 Top Ocupaciones en Riesgo

In [None]:
# Top 20 ocupaciones m√°s riesgosas
top_risk = analyzer.identify_top_at_risk(df_risk, n=20)

print("\nTOP 20 OCUPACIONES CON MAYOR RIESGO")
print("="*80)
print(top_risk[['occupation_name', 'sector', 'automation_risk', 'workers_jalisco']])

### 6.4 Ocupaciones M√°s Seguras

In [None]:
# Top 20 ocupaciones m√°s seguras
low_risk = analyzer.identify_low_risk_occupations(df_risk, n=20)

print("\nTOP 20 OCUPACIONES M√ÅS SEGURAS")
print("="*80)
print(low_risk[['occupation_name', 'sector', 'automation_risk']])

---

## 7. An√°lisis por Dimensiones

### 7.1 An√°lisis por Sector Econ√≥mico

In [None]:
# An√°lisis por sector
sector_analysis = analyzer.analyze_by_sector(df_risk)

print("\nAN√ÅLISIS DE RIESGO POR SECTOR")
print("="*80)
print(sector_analysis.sort_values('risk_mean', ascending=False))

### 7.2 An√°lisis por Nivel Educativo

In [None]:
# An√°lisis por educaci√≥n
education_analysis = analyzer.analyze_by_education(df_risk)

print("\nAN√ÅLISIS DE RIESGO POR NIVEL EDUCATIVO")
print("="*80)
print(education_analysis)

### 7.3 Impacto Econ√≥mico

In [None]:
# Calcular impacto econ√≥mico
impact = analyzer.calculate_economic_impact(df_risk)

print("\nIMPACTO ECON√ìMICO DE LA AUTOMATIZACI√ìN")
print("="*80)
print(f"\nTotal de trabajadores: {impact['total_workers']:,}")
print(f"Trabajadores en alto riesgo: {impact['workers_high_risk']:,}")
print(f"Porcentaje en riesgo: {impact['pct_workers_at_risk']:.1f}%")

if impact['salary_at_risk_mxn']:
    print(f"\nMasa salarial en riesgo: ${impact['salary_at_risk_mxn']:,.2f} MXN")
    print(f"Porcentaje de masa salarial: {impact['pct_salary_at_risk']:.1f}%")

---

## 8. Visualizaciones

### 8.1 Distribuci√≥n del Riesgo

In [None]:
from visualizations import plot_risk_distribution

# Gr√°fico de distribuci√≥n
plot_risk_distribution(df_risk)

### 8.2 Riesgo por Sector

In [None]:
from visualizations import plot_risk_by_sector

# Riesgo por sector
plot_risk_by_sector(df_risk, top_n=15)

### 8.3 Salario vs Riesgo (Interactivo)

In [None]:
from visualizations import plot_salary_vs_risk

# Scatter plot interactivo
plot_salary_vs_risk(df_risk)

### 8.4 Educaci√≥n vs Riesgo

In [None]:
from visualizations import plot_education_vs_risk

# Boxplot por nivel educativo
plot_education_vs_risk(df_risk)

### 8.5 Heatmap: Sector vs Educaci√≥n

In [None]:
from visualizations import plot_heatmap_sector_education

# Mapa de calor
plot_heatmap_sector_education(df_risk)

### 8.6 Treemap: Trabajadores en Riesgo

In [None]:
from visualizations import plot_treemap_workers_at_risk

# Treemap interactivo
plot_treemap_workers_at_risk(df_risk)

### 8.7 Proyecciones Temporales 2025-2030

In [None]:
from visualizations import plot_temporal_projections

# Serie temporal de proyecciones
plot_temporal_projections(df_risk)

### 8.8 Matriz de Correlaci√≥n

In [None]:
from visualizations import plot_correlation_matrix

# Correlaciones entre variables
plot_correlation_matrix(df_risk)

### 8.9 Top Ocupaciones en Riesgo

In [None]:
from visualizations import plot_top_occupations_at_risk

# Barras de top ocupaciones
plot_top_occupations_at_risk(df_risk, n=20)

---

## 9. Modelado Predictivo

### 9.1 Preparar Datos para Modelado

In [None]:
from pyspark.ml.feature import VectorAssembler, StringIndexer
from pyspark.ml import Pipeline

# Convertir a Spark DataFrame para MLlib
df_spark_ml = df_risk.to_spark()

# Features para el modelo
feature_cols = [
    'routine_index',
    'cognitive_demand',
    'social_interaction',
    'creativity',
    'education_level',
    'avg_salary_mxn'
]

# Ensamblar features
assembler = VectorAssembler(
    inputCols=feature_cols,
    outputCol='features',
    handleInvalid='skip'
)

# Indexar target (risk_category)
indexer = StringIndexer(
    inputCol='risk_category',
    outputCol='label'
)

print("‚úì Pipeline de features configurado")

### 9.2 Split Train/Test

In [None]:
# Dividir datos 80/20
train_df, test_df = df_spark_ml.randomSplit([0.8, 0.2], seed=42)

print(f"‚úì Datos divididos:")
print(f"  Entrenamiento: {train_df.count():,} registros")
print(f"  Prueba: {test_df.count():,} registros")

### 9.3 Entrenar Random Forest

In [None]:
from pyspark.ml.classification import RandomForestClassifier

# Crear modelo Random Forest
rf = RandomForestClassifier(
    featuresCol='features',
    labelCol='label',
    numTrees=100,
    maxDepth=10,
    seed=42
)

# Pipeline completo
pipeline = Pipeline(stages=[assembler, indexer, rf])

# Entrenar
print("Entrenando modelo Random Forest...")
model = pipeline.fit(train_df)

print("‚úì Modelo entrenado exitosamente")

### 9.4 Evaluaci√≥n del Modelo

In [None]:
from pyspark.ml.evaluation import MulticlassClassificationEvaluator

# Hacer predicciones
predictions = model.transform(test_df)

# Evaluar
evaluator = MulticlassClassificationEvaluator(
    labelCol='label',
    predictionCol='prediction',
    metricName='accuracy'
)

print("\nM√âTRICAS DEL MODELO")
print("="*80)

# Accuracy
accuracy = evaluator.evaluate(predictions)
print(f"Accuracy: {accuracy:.3f}")

# Otras m√©tricas
for metric in ['weightedPrecision', 'weightedRecall', 'f1']:
    evaluator.setMetricName(metric)
    score = evaluator.evaluate(predictions)
    print(f"{metric}: {score:.3f}")

### 9.5 Feature Importance

In [None]:
# Obtener importancia de features
rf_model = model.stages[-1]
importances = rf_model.featureImportances

# Crear DataFrame
feature_importance_df = ps.DataFrame({
    'feature': feature_cols,
    'importance': importances.toArray()
}).sort_values('importance', ascending=False)

print("\nIMPORTANCIA DE FEATURES")
print("="*80)
print(feature_importance_df)

# Visualizar
plt.figure(figsize=(10, 6))
plt.barh(feature_importance_df['feature'], feature_importance_df['importance'], color='coral', edgecolor='black')
plt.xlabel('Importancia', fontsize=12)
plt.title('Importancia de Caracter√≠sticas en el Modelo', fontsize=14, fontweight='bold')
plt.grid(True, alpha=0.3, axis='x')
plt.tight_layout()
plt.show()

---

## 10. Resultados y Conclusiones

### 10.1 Hallazgos Clave

In [None]:
print("\n" + "="*80)
print("HALLAZGOS CLAVE DEL AN√ÅLISIS")
print("="*80)

# 1. Distribuci√≥n general
total_high = len(df_risk[df_risk['automation_risk'] >= 0.70])
pct_high = (total_high / len(df_risk)) * 100

print(f"\n1. DISTRIBUCI√ìN DE RIESGO")
print(f"   ‚Ä¢ {pct_high:.1f}% de ocupaciones en alto riesgo")
print(f"   ‚Ä¢ {len(df_risk[df_risk['automation_risk'] < 0.30]):,} ocupaciones seguras")

# 2. Sector m√°s afectado
top_sector = sector_analysis.iloc[0]
print(f"\n2. SECTOR M√ÅS AFECTADO")
print(f"   ‚Ä¢ {top_sector['sector']}")
print(f"   ‚Ä¢ Riesgo promedio: {top_sector['risk_mean']:.3f}")
print(f"   ‚Ä¢ Trabajadores: {top_sector['total_workers']:,}")

# 3. Correlaci√≥n educaci√≥n-riesgo
corr = df_risk[['education_level', 'automation_risk']].corr().iloc[0, 1]
print(f"\n3. EDUCACI√ìN vs RIESGO")
print(f"   ‚Ä¢ Correlaci√≥n: {corr:.3f}")
if corr < -0.3:
    print(f"   ‚Ä¢ ‚úì Mayor educaci√≥n ‚Üí Menor riesgo")
else:
    print(f"   ‚Ä¢ ‚ö† Relaci√≥n d√©bil")

# 4. Impacto econ√≥mico
print(f"\n4. IMPACTO ECON√ìMICO")
print(f"   ‚Ä¢ Trabajadores en riesgo: {impact['workers_high_risk']:,} ({impact['pct_workers_at_risk']:.1f}%)")
if impact['salary_at_risk_mxn']:
    print(f"   ‚Ä¢ Masa salarial en riesgo: ${impact['salary_at_risk_mxn']:,.2f} MXN")

# 5. Precisi√≥n del modelo
print(f"\n5. DESEMPE√ëO DEL MODELO")
print(f"   ‚Ä¢ Accuracy: {accuracy:.3f}")
print(f"   ‚Ä¢ Feature m√°s importante: {feature_importance_df.iloc[0]['feature']}")

### 10.2 Recomendaciones de Pol√≠tica P√∫blica

**Basadas en los hallazgos del an√°lisis:**

#### 1. **Sectores Prioritarios para Intervenci√≥n**

Los sectores con mayor riesgo requieren programas de reconversi√≥n laboral inmediatos.

#### 2. **Programas de Capacitaci√≥n**

Enfocar la capacitaci√≥n en:
- Pensamiento cr√≠tico y creativo
- Inteligencia emocional
- Habilidades sociales
- Resoluci√≥n de problemas complejos

#### 3. **Inversi√≥n en Educaci√≥n**

La correlaci√≥n entre educaci√≥n y riesgo sugiere que la educaci√≥n superior es un factor protector.

#### 4. **Monitoreo Continuo**

Establecer un sistema de monitoreo para actualizar proyecciones conforme avanza la adopci√≥n de IA.

#### 5. **Apoyo a Trabajadores**

Programas de apoyo econ√≥mico temporal para trabajadores en transici√≥n laboral.

### 10.3 Limitaciones del Estudio

1. **Datos simulados:** Este an√°lisis usa datos simulados. En producci√≥n se requieren datos reales de O*NET y ENOE.

2. **Alcance geogr√°fico:** Limitado a Jalisco. Resultados pueden variar en otras entidades.

3. **Proyecciones:** Basadas en tendencias actuales. Cambios disruptivos pueden alterar predicciones.

4. **Factores externos:** No considera pol√≠ticas gubernamentales futuras o cambios econ√≥micos globales.

### 10.4 Trabajo Futuro

- **Datos reales:** Integrar datos completos de O*NET y ENOE
- **An√°lisis temporal:** Incorporar series de tiempo hist√≥ricas
- **An√°lisis geogr√°fico:** Desglose por municipios de Jalisco
- **Modelos avanzados:** Probar Deep Learning y ensembles
- **Validaci√≥n externa:** Contrastar con estudios internacionales

---

## üìä Resumen Ejecutivo

### Resultados Principales

‚úÖ **{pct_high:.1f}%** de ocupaciones analizadas tienen alto riesgo de automatizaci√≥n

‚úÖ **{impact['workers_high_risk']:,}** trabajadores en Jalisco est√°n en alto riesgo

‚úÖ **{top_sector['sector']}** es el sector m√°s afectado

‚úÖ Modelo predictivo alcanza **{accuracy:.1f}%** de precisi√≥n

### Siguientes Pasos

1. Presentar resultados a stakeholders
2. Implementar con datos reales
3. Desarrollar dashboard interactivo
4. Publicar hallazgos acad√©micos

---

## üìû Contacto

**Carlos Pulido Rosas**  
üìß carlos.pulido.rosas@gmail.com  
üì± +52 33 1030 5580  
üéì CUCEA - Universidad de Guadalajara  
üîó [GitHub](https://github.com/Carpuro/ai-automation-risk-jalisco)

---

## üìö Referencias

1. Frey, C. B., & Osborne, M. A. (2017). *The future of employment: How susceptible are jobs to computerisation?* Technological Forecasting and Social Change, 114, 254-280.

2. McKinsey Global Institute (2023). *A Future That Works: Automation, Employment, and Productivity.*

3. O*NET Program (2024). *Occupational Information Network.* U.S. Department of Labor.

4. INEGI (2024). *Encuesta Nacional de Ocupaci√≥n y Empleo (ENOE).*

---

**Fin del An√°lisis** ‚úÖ

*Notebook generado: Noviembre 2025*  
*Versi√≥n: 1.0*