# 游늵 An치lisis Exploratorio del Mercado Laboral LatAm

Este notebook sirve como un punto de partida para explorar los datos recopilados por el scraper de vacantes. Utilizaremos `pandas` para la manipulaci칩n de datos y `plotly` para visualizaciones interactivas.

In [None]:
import pandas as pd
import plotly.express as px
import os
from dotenv import load_dotenv
import datetime

# Aseg칰rate de que est치s en la ra칤z del proyecto o ajusta la ruta
load_dotenv()

# Importar el cliente de Supabase (asumiendo que los paths est치n correctos)
try:
    from database.supabase_client import SupabaseClient
except ImportError:
    # Ajusta la ruta si es necesario para el contexto del notebook
    import sys
    sys.path.append(os.path.abspath(os.path.join(os.getcwd(), '..')))
    from database.supabase_client import SupabaseClient

print("Librer칤as cargadas exitosamente.")

## 1. Cargar Datos desde Supabase

Primero, estableceremos una conexi칩n a Supabase y cargaremos los datos de las vacantes (`jobs`) y las tendencias (`trends`).

In [None]:
supabase_client = SupabaseClient()

@st.cache_data(ttl=3600) # Se usa st.cache_data para Streamlit, aqu칤 lo simulamos o lo removemos
def load_all_data():
    print("Cargando datos de trabajos de Supabase...")
    jobs_response = supabase_client.get_jobs(limit=None)
    jobs_data = jobs_response.data if jobs_response and jobs_response.data else []
    df_jobs = pd.DataFrame(jobs_data)
    
    print("Cargando datos de tendencias de Supabase...")
    trends_response = supabase_client.get_trends(limit=None)
    trends_data = trends_response.data if trends_response and trends_response.data else []
    df_trends = pd.DataFrame(trends_data)

    # Convertir columnas de fecha
    if 'posted_date' in df_jobs.columns: df_jobs['posted_date'] = pd.to_datetime(df_jobs['posted_date'], errors='coerce')
    if 'scraped_at' in df_jobs.columns: df_jobs['scraped_at'] = pd.to_datetime(df_jobs['scraped_at'], errors='coerce')
    if 'date' in df_trends.columns: df_trends['date'] = pd.to_datetime(df_trends['date'], errors='coerce')
    
    # Limpiar posibles zonas horarias para consistencia
    for col in ['posted_date', 'scraped_at']:
        if col in df_jobs.columns and df_jobs[col].dt.tz is not None:
            df_jobs[col] = df_jobs[col].dt.tz_localize(None)
    if 'date' in df_trends.columns and df_trends['date'].dt.tz is not None:
        df_trends['date'] = df_trends['date'].dt.tz_localize(None)

    # Procesar habilidades anidadas si existen
    if 'skills' in df_jobs.columns and not df_jobs['skills'].empty:
        all_skills_flat = []
        for idx, row in df_jobs.iterrows():
            if row['skills']:
                for skill_entry in row['skills']:
                    all_skills_flat.append({
                        'job_id': row['id'],
                        'skill_name': skill_entry.get('skill_name'),
                        'skill_category': skill_entry.get('skill_category'),
                        'posted_date': row['posted_date'],
                        'country': row['country'],
                        'sector': row['sector'],
                    })
        df_skills = pd.DataFrame(all_skills_flat)
    else:
        df_skills = pd.DataFrame()

    print(f"Jobs cargados: {len(df_jobs)} registros")
    print(f"Skills cargados: {len(df_skills)} registros")
    print(f"Tendencias cargados: {len(df_trends)} registros")

    return df_jobs, df_skills, df_trends

df_jobs, df_skills, df_trends = load_all_data()

## 2. Inspecci칩n Inicial de Datos

In [None]:
print("### DataFrame de Vacantes (df_jobs) - Primeras 5 filas ###")
display(df_jobs.head())

print("\n### Informaci칩n de df_jobs ###")
df_jobs.info()

print("\n### DataFrame de Habilidades (df_skills) - Primeras 5 filas ###")
display(df_skills.head())

print("\n### Informaci칩n de df_skills ###")
df_skills.info()

print("\n### DataFrame de Tendencias (df_trends) - Primeras 5 filas ###")
display(df_trends.head())

print("\n### Informaci칩n de df_trends ###")
df_trends.info()

## 3. Visualizaciones Clave

Exploremos algunas visualizaciones para entender mejor el mercado laboral.

### 3.1. Vacantes por Pa칤s

In [None]:
if not df_jobs.empty and 'country' in df_jobs.columns:
    country_counts = df_jobs['country'].value_counts().reset_index()
    country_counts.columns = ['Pa칤s', 'N칰mero de Vacantes']
    fig = px.bar(country_counts.head(10), x='N칰mero de Vacantes', y='Pa칤s', orientation='h',
                 title='Top 10 Pa칤ses con M치s Vacantes',
                 color_continuous_scale=px.colors.sequential.Plasma)
    fig.update_layout(yaxis={'categoryorder':'total ascending'})
    fig.show()
else:
    print("No hay datos de pa칤s para visualizar.")

### 3.2. Vacantes por Sector

In [None]:
if not df_jobs.empty and 'sector' in df_jobs.columns:
    sector_counts = df_jobs['sector'].value_counts().reset_index()
    sector_counts.columns = ['Sector', 'N칰mero de Vacantes']
    fig = px.pie(sector_counts.head(5), values='N칰mero de Vacantes', names='Sector',
                 title='Distribuci칩n de Vacantes por Sector (Top 5)',
                 hole=0.3)
    fig.show()
else:
    print("No hay datos de sector para visualizar.")

### 3.3. Habilidades M치s Demandadas (Basado en datos crudos de `jobs`)

Aqu칤 visualizamos las habilidades m치s frecuentes directamente de las vacantes, para ver la demanda general.

In [None]:
if not df_skills.empty and 'skill_name' in df_skills.columns:
    demanded_skills = df_skills['skill_name'].value_counts().reset_index()
    demanded_skills.columns = ['Habilidad', 'Frecuencia']
    fig = px.bar(demanded_skills.head(15), x='Frecuencia', y='Habilidad', orientation='h',
                 title='Top 15 Habilidades M치s Mencionadas en Vacantes',
                 color_continuous_scale=px.colors.sequential.Blues)
    fig.update_layout(yaxis={'categoryorder':'total ascending'})
    fig.show()
else:
    print("No hay datos de habilidades para visualizar.")

### 3.4. Roles M치s Demandados (Basado en datos crudos de `jobs`)

Similar a las habilidades, podemos ver los roles que m치s aparecen en los t칤tulos de las vacantes.

In [None]:
if not df_jobs.empty and 'title' in df_jobs.columns:
    # Una simplificaci칩n b치sica de roles para este an치lisis
    def simplify_title_for_roles(title):
        title_lower = str(title).lower()
        if 'software engineer' in title_lower or 'ingeniero de software' in title_lower or 'desarrollador' in title_lower: return 'Software Engineer/Developer'
        if 'data scientist' in title_lower or 'cient칤fico de datos' in title_lower: return 'Data Scientist'
        if 'product manager' in title_lower or 'gerente de producto' in title_lower: return 'Product Manager'
        if 'devops' in title_lower: return 'DevOps Engineer'
        if 'frontend' in title_lower: return 'Frontend Developer'
        if 'backend' in title_lower: return 'Backend Developer'
        if 'full stack' in title_lower: return 'Full Stack Developer'
        return 'Other/General'

    df_jobs['simplified_role'] = df_jobs['title'].apply(simplify_title_for_roles)
    role_counts = df_jobs['simplified_role'].value_counts().reset_index()
    role_counts.columns = ['Rol', 'N칰mero de Vacantes']
    fig = px.bar(role_counts.head(10), x='N칰mero de Vacantes', y='Rol', orientation='h',
                 title='Top 10 Roles M치s Comunes',
                 color_continuous_scale=px.colors.sequential.Oranges)
    fig.update_layout(yaxis={'categoryorder':'total ascending'})
    fig.show()
else:
    print("No hay datos de t칤tulos de vacantes para analizar roles.")

### 3.5. Tendencias de Habilidades (Desde la tabla `trends`)

Aqu칤 usamos los datos pre-calculados de la tabla `trends` para ver las habilidades en crecimiento.

In [None]:
if not df_trends.empty:
    # Tomar las tendencias m치s recientes (del 칰ltimo d칤a de an치lisis)
    latest_analysis_date = df_trends['date'].max()
    latest_trends = df_trends[df_trends['date'] == latest_analysis_date]

    growing_skills_trend = latest_trends[latest_trends['metric_name'] == 'growing_skill'].sort_values('count', ascending=False)
    
    if not growing_skills_trend.empty:
        fig = px.bar(growing_skills_trend.head(15), x='count', y='metric_value', orientation='h',
                     title=f'Top 15 Habilidades en Crecimiento (al {latest_analysis_date.strftime("%Y-%m-%d")})',
                     labels={'count': 'Vacantes Actuales', 'metric_value': 'Habilidad (Tasa de Crecimiento)'},
                     color_continuous_scale=px.colors.sequential.Greens)
        fig.update_layout(yaxis={'categoryorder':'total ascending'})
        fig.show()
    else:
        print("No hay datos de habilidades en crecimiento en la tabla de tendencias.")
else:
    print("La tabla de tendencias est치 vac칤a. Ejecuta el an치lisis de tendencias con `python main.py --analyze-trends`.")

## 4. Conclusi칩n

Este notebook proporciona una visi칩n b치sica del mercado laboral LatAm basada en los datos scrapeados. Puedes extender este an치lisis para:
- Segmentar por pa칤s o sector.
- Comparar tendencias a lo largo de diferentes per칤odos.
- Realizar un an치lisis de texto m치s profundo en descripciones de vacantes.
- Integrar otras fuentes de datos.