# 🚀 Analisis EDA de Empleos Big Tech en Jalisco

## Análisis de Tendencias de Contratación en Empresas de Tecnología

**Proyecto:** Análisis de Datos - 3er Parcial  
**Objetivo:** Analizar y limpiar el DataSet para poder ser procesado en un futuro, se eliminaron algunos valores reduntantes, de valores faltantes para poder tener solo los valores mas relevantes

### 📋 Contenido del DataSet
- *id*: Identificador único del empleo (de la API de Adzuna).
- *title*: Título del puesto de trabajo.
- *company*: Nombre de la empresa que publica la vacante.
- *location*: Ubicación principal del empleo (ciudad o región).
- *area*: Áreas geográficas adicionales asociadas al empleo.
- *salary_min*: Salario mínimo ofrecido (si está disponible).
- *salary_max*: Salario máximo ofrecido (si está disponible).
- *salary_is_predicted*: Indica si el salario es estimado/predicho por la API.
- *description*: Descripción completa del empleo.
- *created*: Fecha de publicación del empleo.
- *redirect_url*: URL para ver la oferta original.
- *category*: Categoría del empleo (ej. IT, Ingeniería, etc.).
- *contract_type*: Tipo de contrato (ej. permanente, temporal).
- *contract_time*: Jornada laboral (ej. tiempo completo, medio tiempo).
- *latitude*: Latitud geográfica del empleo.
- *longitude*: Longitud geográfica del empleo.
- *is_big_tech*: Si la empresa es considerada "Big Tech" (True/False).
- *mentioned_tech_keywords*: Palabras clave de tecnologías mencionadas en el texto.
- *tech_keywords_count*: Número de tecnologías detectadas en el texto.
- *scraped_at*: Fecha y hora en que se extrajo el empleo.
- *salary_avg*: Salario promedio calculado entre salary_min y salary_max.
- *is_senior*: Si el empleo es de nivel senior (True/False).
- *is_junior*: Si el empleo es de nivel junior (True/False).
- *is_mid*: Si el empleo es de nivel intermedio (True/False).
- *experience_level*: Nivel de experiencia detectado (Senior, Junior, Mid, No especificado).
- *is_remote*: Si el empleo es remoto (True/False).
- *is_hybrid*: Si el empleo es híbrido (True/False).
- *is_onsite*: Si el empleo es presencial (True/False).
- *mentions_python*: Si se menciona Python en el texto (True/False).
- *mentions_java*: Si se menciona Java en el texto (True/False).
- *mentions_javascript*: Si se menciona JavaScript o JS (True/False).
- *mentions_react*: Si se menciona React (True/False).
- *mentions_angular*: Si se menciona Angular (True/False).
- *mentions_node*: Si se menciona Node.js (True/False).
- *mentions_sql*: Si se menciona SQL, MySQL, PostgreSQL, Oracle (True/False).
- *mentions_cloud*: Si se menciona AWS, Azure, GCP o Cloud (True/False).
- *mentions_machine_learning*: Si se menciona Machine Learning, ML, AI, etc. (True/False).
- *mentions_docker*: Si se menciona Docker (True/False).
- *mentions_kubernetes*: Si se menciona Kubernetes (True/False).
- *mentions_agile*: Si se menciona Agile, Scrum o Kanban (True/False).
- *year*: Año de publicación.
- *month*: Mes de publicación (numérico).
- *day*: Día del mes de publicación.
- *day_of_week*: Día de la semana (0=lunes, 6=domingo).
- *week_of_year*: Semana del año.
- *quarter*: Trimestre del año.
- *day_name*: Nombre del día de la semana.
- *month_name*: Nombre del mes.
- *is_weekend*: Si la publicación fue en fin de semana (True/False).
- *is_month_start*: Si la publicación fue al inicio del mes (True/False).
- *is_month_end*: Si la publicación fue al final del mes (True/False).
- *company_encoded*: Codificación numérica de la empresa (para ML).
- *location_encoded*: Codificación numérica de la ubicación.
- *category_encoded*: Codificación numérica de la categoría.
- *contract_type_encoded*: Codificación numérica del tipo de contrato.
- *contract_time_encoded*: Codificación numérica de la jornada.
- *experience_level_encoded*: Codificación numérica del nivel de experiencia.


**Instalamos las librerias que vamos a utilizar**

In [None]:
!pip install folium

**Instanciamos las librerias necesarias para trabajar**

In [None]:
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
import numpy as np
import folium

**Importamos el DataSet en el que vamos a trabajar**

In [None]:
df = pd.read_csv("C:/Users/Josh/Documents/Ingenieria/Septimo semestre/Analisis de Datos/Proyecto/jalisco-bigtech-trends-analysis/data/processed/jalisco_bigtech_jobs_processed_20250603_151548.csv")
df.head(5)

### Analisis

**Mostramos informacion relevante acerca del DataSet**

In [None]:
df.info()

In [None]:
df.describe()

**Eliminamos las columnas que cuenten con un indice de nulos muy grandes**

In [None]:
df.drop(columns=["contract_type", "mentioned_tech_keywords", "contract_time"], inplace=True)

**Como podemos ver esta columna no nos demuestra ningun valor importante ya que todos los valores son de tipo 0, asi que sera eliminada**

In [None]:
df["salary_is_predicted"].unique()

In [None]:
df.drop(columns=["salary_is_predicted"], inplace=True)

**Es posible eliminar la redundacia de algunas columnas en una sola**

In [None]:
def define_experience(row): # Creamos un metodo el cual nos ayude a juntar los datos en una sola columna
    if row["is_senior"]:
        return "senior"
    elif row["is_mid"]:
        return "mid"
    else:
        return "junior"

df["experience"] = df.apply(define_experience, axis=1)

In [None]:
def define_job(row): #Creamos un metodo que nos devuelva los valores para juntarlos en una sola columna
    if row["is_remote"]:
        return "remote"
    elif row["is_hybrid"]:
        return "hybrid"
    else:
        return "onsite"

df["job_type"] = df.apply(define_job, axis=1)

In [None]:
df["date"] = df["year"].astype(str)+"-"+df["month"].astype(str)+"-"+df["day"].astype(str) #Creamos la columna "date" concatenando las tres columnas
df.drop(columns=["year", "month", "day"], inplace=True)
df["date"].head()

In [None]:
df.drop(columns=["is_senior", "is_mid", "is_junior", "is_remote", "is_hybrid", "is_onsite", "experience_level", "year", "month", "day"], inplace=True)

### Graficos

In [None]:
df_int = df.select_dtypes(include=["int64", "float64"])

plt.figure(figsize=(10, 8))
sns.heatmap(df_int.corr(), annot=True)
plt.show()

**Como podemos ver existen algunos valores los cuales tienen correlaciones exactas o muy excatas por lo que nos hace pensar que es posible presindir de algunos de ellos y quedarnos con uno solo**

In [None]:
mention_col = ["mentions_python","mentions_java","mentions_javascript","mentions_react","mentions_angular","mentions_node","mentions_sql","mentions_cloud","mentions_machine_learning","mentions_docker","mentions_kubernetes","mentions_agile"]
mentions_counts = df[mention_col].sum().reset_index()
mentions_counts.columns = ['Tecnología', 'Conteo']
mentions_counts['Tecnología'] = mentions_counts['Tecnología'].str.replace('mentions_', '')

plt.figure(figsize=(12, 6))
sns.barplot(x="Tecnología", y="Conteo", data=mentions_counts)
plt.xticks(rotation=45, ha='right')
plt.show()

**Como podemos ver existe una gran diferencia entre la demanda de diferentes tipos de tecnologias**

In [None]:
remote = df[df["job_type"] == "remote"]["job_type"].count()
hybrid = df[df["job_type"] == "hybrid"]["job_type"].count()
onsite = df[df["job_type"] == "onsite"]["job_type"].count()

df_job = pd.DataFrame({
    'Tipo de Trabajo': ['Remote', 'Hybrid', 'Onsite'],
    'Conteo': [remote, hybrid, onsite]
})

plt.figure(figsize=(12, 6))
sns.barplot(x="Tipo de Trabajo", y="Conteo", data=df_job)
plt.show()

**Podemos ver que hay una gran demanda en empleos de tipo "OnSite"**

In [None]:
mapa = folium.Map(location=[df['latitude'].mean(), df['longitude'].mean()],
                 zoom_start=5)

# Añadir marcadores
for idx, row in df.iterrows():
    folium.CircleMarker(
        location=[row['latitude'], row['longitude']],
        radius=10,
        color='blue',
        fill=True,
        fill_color='blue',
        popup=row['company'],
        tooltip=row['company']
    ).add_to(mapa)

# Guardar mapa interactivo
mapa.save('mapa_interactivo.html')

**Dentro del mapa podemos visualizar donde es que estan los trabajos**