# Obtencion de Insights sobre los datos que tenemos

In [22]:
from pymongo.mongo_client import MongoClient
import pandas as pd
import os
import plotly.express as px
import plotly.graph_objects as go

from dotenv import load_dotenv

## Conexion a la base de datos

In [23]:
# cargamos las variables de nuestro .env
load_dotenv()

uri = f"mongodb+srv://root:{os.getenv('DB_PASS')}@cluster0.pse9r.mongodb.net/?retryWrites=true&w=majority&appName=Cluster0"

cliente_db = MongoClient(uri)

# Send a ping to confirm a successful connection
try:
    cliente_db.admin.command('ping')
    print("Conexion realizada con exito!")

    db = cliente_db[os.getenv('DB_NAME')]
    coleccion = db[os.getenv('DB_COLECTION')]
except Exception as e:
    print(e)

Conexion realizada con exito!


#### debido a que los datos han sido generados sinteticamente a partir de datos reales, hay insights  fundamentales como que puesto está más solicitado que no se va a ver bien ya que se han generado casi el mismo número de datos para poder entrenar a los modelos

In [24]:
puestos_data = coleccion.distinct("cat_original")

In [25]:
def representar_habilidades_puesto(puesto: str, cantidad_ofertas = 10):
    # Pipeline de Aggregation para obtener el top 10 de Skills más usadas en Data Scientist
    pipeline = [
        { "$match": { "cat_original": puesto } },  # Filtrar por puesto
        { "$unwind": "$Skills" },  # Separar cada skill
        { "$group": { "_id": "$Skills", "count": { "$sum": 1 } } },  # Contar skills
        { "$sort": { "count": -1 } },  # Ordenar de mayor a menor
        { "$limit": cantidad_ofertas } # cantidad de ofertas mostradas
    ]

    # Ejecutar la consulta y convertir a DataFrame
    skills_contadas = list(coleccion.aggregate(pipeline))
    df_skills = pd.DataFrame(skills_contadas)

    # Renombrar columnas
    df_skills.columns = ["Skill", "Frecuencia"]

    # Crear gráfico de barras con Plotly
    fig = px.bar(
        df_skills,
        x="Skill",
        y="Frecuencia",
        title=f"Top 10 Skills en Ofertas de {puesto}",
        color="Frecuencia",
        color_continuous_scale=px.colors.sequential.Plotly3_r,  # las mejores 'Mint' o 'Plotly3_r'
        labels={"Skill": "Habilidad", "Frecuencia": "Número de Ocurrencias"},
        height=500
    )

    # Mostrar gráfico
    fig.show()

In [26]:
for puesto in puestos_data:
    representar_habilidades_puesto(puesto, 15)

In [27]:
pipeline = [
        { "$unwind": "$Skills" },
        { "$group": { "_id": "$Skills", "count": { "$sum": 1 } } },
        { "$sort": { "count": -1 } },
        { "$limit": 15 }
    ]

# Ejecutar la consulta y convertir a DataFrame
skills = list(coleccion.aggregate(pipeline))
df_skills = pd.DataFrame(skills)

# Renombrar columnas
df_skills.columns = ["Skill", "Frecuencia"]


# Extraer los valores
skills_names = [skill["_id"] for skill in skills]
skills_counts = [skill["count"] for skill in skills]

# Crear la figura en Plotly
fig = go.Figure()

fig.add_trace(go.Bar(
    x=skills_names,
    y=skills_counts,
    text=skills_counts,
    textposition='outside',
    marker=dict(color='rgba(52, 152, 219, 0.7)', line=dict(color='rgba(52, 152, 219, 1.0)', width=1))
))

# Configuración del diseño
fig.update_layout(
    title="Top 15 Skills más demandadas en ofertas laborales",
    xaxis_title="Skills",
    yaxis_title="Cantidad de menciones",
    template="plotly_white",
    xaxis=dict(tickangle=-45),
    yaxis=dict(showgrid=True, gridcolor='lightgrey'),
    margin=dict(l=50, r=50, t=80, b=150),
    height=600
)

# Mostrar el gráfico
fig.show()

In [28]:
def plot_location_distribution(data):
    """
    Función para representar la distribución de ofertas de empleo por ubicación.

    Parámetros:
    - data: lista de diccionarios con las ubicaciones y sus respectivas frecuencias.
    """

    # Convertir a DataFrame
    df = pd.DataFrame(data)
    df.columns = ["Ubicación", "Frecuencia"]

    # Ordenar por frecuencia descendente
    df = df.sort_values(by="Frecuencia", ascending=False)

    # Extraer los valores
    locations = df["Ubicación"].tolist()
    counts = df["Frecuencia"].tolist()

    # Crear la figura en Plotly
    fig = go.Figure()

    fig.add_trace(go.Bar(
        x=locations,
        y=counts,
        text=counts,
        textposition='outside',
        marker=dict(color='rgba(52, 152, 219, 0.7)', 
                    line=dict(color='rgba(52, 152, 219, 1.0)', width=1))
    ))

    # Configuración del diseño
    fig.update_layout(
        title="Distribución de Ofertas de Empleo por Ubicación",
        xaxis_title="Ubicación",
        yaxis_title="Cantidad de Ofertas",
        template="plotly_white",
        xaxis=dict(tickangle=-45),
        yaxis=dict(showgrid=True, gridcolor='lightgrey'),
        margin=dict(l=50, r=50, t=80, b=150),
        height=600
    )

    # Mostrar el gráfico
    fig.show()

pipeline = [
    { "$group": { "_id": "$Ubicacion", "count": { "$sum": 1 } } },
    { "$sort": { "count": -1 } }
]

results = list(coleccion.aggregate(pipeline))


plot_location_distribution(results)

In [30]:
def plot_salary_distribution(data):
    """
    Función para representar la distribución de salarios por categoría de empleo.

    Parámetros:
    - data: lista de diccionarios con la categoría y los valores de salario (mínimo, máximo y promedio).
    """

    # Convertir a DataFrame
    df = pd.DataFrame(data)
    df.columns = ["Categoría", "Salario Mínimo", "Salario Máximo", "Salario Promedio"]

    # Ordenar por salario promedio descendente
    df = df.sort_values(by="Salario Promedio", ascending=False)

    # Extraer los valores
    categorias = df["Categoría"].tolist()
    min_salarios = df["Salario Mínimo"].tolist()
    max_salarios = df["Salario Máximo"].tolist()
    avg_salarios = df["Salario Promedio"].tolist()

    # Crear la figura en Plotly
    fig = go.Figure()

    # Salario mínimo
    fig.add_trace(go.Bar(
        x=categorias,
        y=min_salarios,
        name="Salario Mínimo",
        marker=dict(color='rgba(255, 99, 132, 0.7)')
    ))

    # Salario máximo
    fig.add_trace(go.Bar(
        x=categorias,
        y=max_salarios,
        name="Salario Máximo",
        marker=dict(color='rgba(75, 192, 192, 0.7)')
    ))

    # Salario promedio
    fig.add_trace(go.Scatter(
        x=categorias,
        y=avg_salarios,
        mode='markers+lines',
        name="Salario Promedio",
        marker=dict(color='gold', size=8, line=dict(width=2, color='black'))
    ))

    # Configuración del diseño
    fig.update_layout(
        title="Distribución de Salarios por Categoría de Empleo",
        xaxis_title="Categoría",
        yaxis_title="Salario (€)",
        barmode='group',
        template="plotly_white",
        xaxis=dict(tickangle=-45),
        margin=dict(l=50, r=50, t=80, b=150),
        height=600
    )

    # Mostrar el gráfico
    fig.show()



pipeline = [
    { "$match": { "Salario": { "$exists": True, "$ne": None } } },
    { "$project": {
        "cat_original": 1,
        "salario_min": { "$convert": { "input": { "$arrayElemAt": ["$Salario", 0] }, "to": "double", "onError": None, "onNull": None } },
        "salario_max": { "$convert": { "input": { "$arrayElemAt": ["$Salario", 1] }, "to": "double", "onError": None, "onNull": None } }
    }},
    { "$group": {
        "_id": "$cat_original",
        "min_salario": { "$min": "$salario_min" },
        "max_salario": { "$max": "$salario_max" },
        "promedio_salario": { "$avg": "$salario_min" }
    }},
    { "$sort": { "promedio_salario": -1 } }
]

results = list(coleccion.aggregate(pipeline))

plot_salary_distribution(results)

In [33]:
def plot_category_distribution(data):
    """
    Función para representar la distribución de ofertas laborales según la categoría de empleo.

    Parámetros:
    - data: lista de diccionarios con las categorías y sus respectivas frecuencias.
    """

    # Convertir a DataFrame
    df = pd.DataFrame(data)
    df.columns = ["Categoría", "Frecuencia"]

    # Ordenar por frecuencia descendente
    df = df.sort_values(by="Frecuencia", ascending=False)

    # Extraer los valores
    categories = df["Categoría"].tolist()
    counts = df["Frecuencia"].tolist()

    # Crear la figura en Plotly
    fig = go.Figure()

    fig.add_trace(go.Bar(
        x=categories,
        y=counts,
        text=counts,
        textposition='outside',
        marker=dict(color='rgba(46, 134, 222, 0.7)', 
                    line=dict(color='rgba(41, 128, 185, 1.0)', width=1))
    ))

    # Configuración del diseño
    fig.update_layout(
        title="Distribución de Ofertas de Empleo por Categoría",
        xaxis_title="Categoría",
        yaxis_title="Cantidad de Ofertas",
        template="plotly_white",
        xaxis=dict(tickangle=-45),
        yaxis=dict(showgrid=True, gridcolor='lightgrey'),
        margin=dict(l=50, r=50, t=80, b=150),
        height=600
    )

    # Mostrar el gráfico
    fig.show()


pipeline = [
    { "$group": { "_id": "$Experiencia minima", "count": { "$sum": 1 } } },
    { "$sort": { "count": -1 } }
]


results = list(coleccion.aggregate(pipeline))

plot_category_distribution(results)

In [34]:
def plot_experience_vs_category(data):
    """
    Función para representar la distribución de ofertas laborales agrupadas por experiencia mínima
    y categoría de empleo.

    Parámetros:
    - data: lista de diccionarios con la experiencia mínima, la categoría y sus respectivas frecuencias.
    """

    # Convertir a DataFrame
    df = pd.DataFrame(data)
    df.columns = ["Experiencia Mínima", "Categoría", "Frecuencia"]

    # Obtener categorías únicas y niveles de experiencia únicos
    experience_levels = df["Experiencia Mínima"].unique()
    categories = df["Categoría"].unique()

    # Crear la figura en Plotly
    fig = go.Figure()

    # Crear una barra para cada categoría
    for category in categories:
        subset = df[df["Categoría"] == category]
        fig.add_trace(go.Bar(
            x=subset["Experiencia Mínima"],
            y=subset["Frecuencia"],
            name=category,
            text=subset["Frecuencia"],
            textposition='outside'
        ))

    # Configuración del diseño
    fig.update_layout(
        title="Distribución de Ofertas de Empleo por Experiencia y Categoría",
        xaxis_title="Experiencia Mínima",
        yaxis_title="Cantidad de Ofertas",
        barmode='group',  # Agrupar las barras
        template="plotly_white",
        xaxis=dict(tickangle=-45),
        yaxis=dict(showgrid=True, gridcolor='lightgrey'),
        margin=dict(l=50, r=50, t=80, b=150),
        height=600
    )

    # Mostrar el gráfico
    fig.show()




pipeline = [
    { "$group": { "_id": { "experiencia": "$Experiencia minima", "categoria": "$cat_original" }, "count": { "$sum": 1 } } },
    { "$sort": { "count": -1 } }
]
results = list(coleccion.aggregate(pipeline))


formatted_results = [
    {"Experiencia Mínima": d["_id"]["experiencia"], "Categoría": d["_id"]["categoria"], "Frecuencia": d["count"]}
    for d in results
]


plot_experience_vs_category(formatted_results)


In [35]:
def plot_job_offers_by_category(data):
    """
    Función para representar la cantidad de ofertas laborales por tipo de puesto (categoría).

    Parámetros:
    - data: lista de diccionarios con las categorías y la cantidad de ofertas laborales.
    """

    # Convertir a DataFrame
    df = pd.DataFrame(data)
    df.columns = ["Categoría", "Cantidad de Ofertas"]

    # Ordenar por cantidad de ofertas descendente
    df = df.sort_values(by="Cantidad de Ofertas", ascending=False)

    # Extraer los valores
    categories = df["Categoría"].tolist()
    counts = df["Cantidad de Ofertas"].tolist()

    # Crear la figura en Plotly
    fig = go.Figure()

    fig.add_trace(go.Bar(
        x=categories,
        y=counts,
        text=counts,
        textposition='outside',
        marker=dict(color='rgba(255, 159, 64, 0.7)', 
                    line=dict(color='rgba(255, 99, 32, 1.0)', width=1))
    ))

    # Configuración del diseño
    fig.update_layout(
        title="Cantidad de Ofertas Laborales por Tipo de Puesto",
        xaxis_title="Tipo de Puesto",
        yaxis_title="Cantidad de Ofertas",
        template="plotly_white",
        xaxis=dict(tickangle=-45),
        yaxis=dict(showgrid=True, gridcolor='lightgrey'),
        margin=dict(l=50, r=50, t=80, b=150),
        height=600
    )

    # Mostrar el gráfico
    fig.show()


pipeline = [
    { "$group": { "_id": "$cat_original", "count": { "$sum": 1 } } },
    { "$sort": { "count": -1 } }
]
results = list(coleccion.aggregate(pipeline))

plot_job_offers_by_category(results)

In [36]:
def plot_job_offers_over_time(data):
    """
    Función para representar la evolución de la cantidad de ofertas laborales por categoría a lo largo del tiempo.

    Parámetros:
    - data: lista de diccionarios con la categoría, mes y cantidad de ofertas.
    """

    # Convertir a DataFrame
    df = pd.DataFrame(data)
    df.columns = ["Categoría", "Mes", "Cantidad de Ofertas"]

    # Ordenar por mes
    df = df.sort_values(by="Mes")

    # Obtener categorías únicas
    categories = df["Categoría"].unique()

    # Crear la figura en Plotly
    fig = go.Figure()

    # Crear una línea para cada categoría
    for category in categories:
        subset = df[df["Categoría"] == category]
        fig.add_trace(go.Scatter(
            x=subset["Mes"],
            y=subset["Cantidad de Ofertas"],
            mode='lines+markers',
            name=category
        ))

    # Configuración del diseño
    fig.update_layout(
        title="Evolución de Ofertas Laborales por Mes y Categoría",
        xaxis_title="Mes",
        yaxis_title="Cantidad de Ofertas",
        template="plotly_white",
        xaxis=dict(tickangle=-45, type='category'),
        yaxis=dict(showgrid=True, gridcolor='lightgrey'),
        margin=dict(l=50, r=50, t=80, b=150),
        height=600
    )

    # Mostrar el gráfico
    fig.show()


pipeline = [
    { "$group": { "_id": { "categoria": "$cat_original", "mes": { "$substr": ["$fecha", 0, 7] } }, "count": { "$sum": 1 } } },
    { "$sort": { "_id.mes": 1 } }
]
results = list(coleccion.aggregate(pipeline))

formatted_results = [
    {"Categoría": d["_id"]["categoria"], "Mes": d["_id"]["mes"], "Cantidad de Ofertas": d["count"]}
    for d in results
]

plot_job_offers_over_time(formatted_results)