# Obtencion de Insights sobre los datos que tenemos

In [1]:
from pymongo.mongo_client import MongoClient
import pandas as pd
import os
import plotly.express as px
import plotly.graph_objects as go

from dotenv import load_dotenv

## Conexion a la base de datos

In [2]:
# cargamos las variables de nuestro .env
load_dotenv()

uri = f"mongodb+srv://root:{os.getenv('DB_PASS')}@cluster0.pse9r.mongodb.net/?retryWrites=true&w=majority&appName=Cluster0"

cliente_db = MongoClient(uri)

# Send a ping to confirm a successful connection
try:
    cliente_db.admin.command('ping')
    print("Conexion realizada con exito!")

    db = cliente_db[os.getenv('DB_NAME')]
    coleccion = db[os.getenv('DB_COLECTION')]
except Exception as e:
    print(e)

Conexion realizada con exito!


#### debido a que los datos han sido generados sinteticamente a partir de datos reales, hay insights  fundamentales como que puesto está más solicitado que no se va a ver bien ya que se han generado casi el mismo número de datos para poder entrenar a los modelos

In [3]:
puestos_data = coleccion.distinct("cat_original")

In [4]:
def representar_habilidades_puesto(puesto: str, cantidad_ofertas = 10):
    # Pipeline de Aggregation para obtener el top 10 de Skills más usadas en Data Scientist
    pipeline = [
        { "$match": { "cat_original": puesto } },  # Filtrar por puesto
        { "$unwind": "$Skills" },  # Separar cada skill
        { "$group": { "_id": "$Skills", "count": { "$sum": 1 } } },  # Contar skills
        { "$sort": { "count": -1 } },  # Ordenar de mayor a menor
        { "$limit": cantidad_ofertas } # cantidad de ofertas mostradas
    ]

    # Ejecutar la consulta y convertir a DataFrame
    skills_contadas = list(coleccion.aggregate(pipeline))
    df_skills = pd.DataFrame(skills_contadas)

    # Renombrar columnas
    df_skills.columns = ["Skill", "Frecuencia"]

    # Crear gráfico de barras con Plotly
    fig = px.bar(
        df_skills,
        x="Skill",
        y="Frecuencia",
        title=f"Top 10 Skills en Ofertas de {puesto}",
        color="Frecuencia",
        color_continuous_scale=px.colors.sequential.Plotly3_r,  # las mejores 'Mint' o 'Plotly3_r'
        labels={"Skill": "Habilidad", "Frecuencia": "Número de Ocurrencias"},
        height=500
    )

    # Mostrar gráfico
    fig.show()

In [5]:
for puesto in puestos_data:
    representar_habilidades_puesto(puesto, 15)

In [7]:
pipeline = [
        { "$unwind": "$Skills" },
        { "$group": { "_id": "$Skills", "count": { "$sum": 1 } } },
        { "$sort": { "count": -1 } },
        { "$limit": 15 }
    ]

# Ejecutar la consulta y convertir a DataFrame
skills = list(coleccion.aggregate(pipeline))
df_skills = pd.DataFrame(skills)

# Renombrar columnas
df_skills.columns = ["Skill", "Frecuencia"]


# Extraer los valores
skills_names = [skill["_id"] for skill in skills]
skills_counts = [skill["count"] for skill in skills]

# Crear la figura en Plotly
fig = go.Figure()

fig.add_trace(go.Bar(
    x=skills_names,
    y=skills_counts,
    text=skills_counts,
    textposition='outside',
    marker=dict(color='rgba(52, 152, 219, 0.7)', line=dict(color='rgba(52, 152, 219, 1.0)', width=1))
))

# Configuración del diseño
fig.update_layout(
    title="Top 15 Skills más demandadas en ofertas laborales",
    xaxis_title="Skills",
    yaxis_title="Cantidad de menciones",
    template="plotly_white",
    xaxis=dict(tickangle=-45),
    yaxis=dict(showgrid=True, gridcolor='lightgrey'),
    margin=dict(l=50, r=50, t=80, b=150),
    height=600
)

# Mostrar el gráfico
fig.show()