## Información General
1. **¿Cuántas categorías de trabajos hay en el dataset?**
2. **¿Cuántos trabajos hay en total en el dataset?**
3. **¿Cuál es la categoría con más ofertas de trabajo?**
4. **¿Cuál es la categoría con menos ofertas de trabajo?**

In [28]:
import pandas as pd

# Cargar el archivo CSV en un DataFrame
df = pd.read_csv('../data/all_jobs_data.csv')

# Pregunta 1
unique_categories = sorted(df['category'].unique())


print("Categorías únicas:")
for category in unique_categories:
    print(category)
print(f"\n#1 Total de categorías únicas: {len(unique_categories)}")

# Pregunta 2
job_counts = df['category'].value_counts()

print("\nNúmero de ofertas por categoría:")
print(job_counts)
print(f"\n#2 Total de ofertas de trabajo: {job_counts.sum()}")

# Pregunta 3
most_jobs_category = job_counts.idxmax()
most_jobs_count = job_counts.max()
print(f"\n#3 La categoría con más ofertas de trabajo es '{most_jobs_category}' con {most_jobs_count} ofertas.")

# Pregunta 4
least_jobs_category = job_counts.idxmin()
least_jobs_count = job_counts.min()
print(f"#4 La categoría con menos ofertas de trabajo es '{least_jobs_category}' con {least_jobs_count} ofertas.")


Categorías únicas:
Content, Advertising & Media
Customer Support
Cybersecurity
Data Science / Analytics
Design / UX
Digital Marketing
Education & Coaching
Hardware / Electronics
Machine Learning & AI
Mobile Development
Operations / Admin
Other categories
People & HR
Product, Innovation & Agile
Programming
Sales
SysAdmin / DevOps / QA
Technical Support

#1 Total de categorías únicas: 18

Número de ofertas por categoría:
category
Programming                     362
SysAdmin / DevOps / QA          137
Sales                            62
Data Science / Analytics         60
Operations / Admin               51
Product, Innovation & Agile      50
Mobile Development               38
Design / UX                      35
Digital Marketing                35
Customer Support                 33
Cybersecurity                    20
Technical Support                12
Machine Learning & AI            12
Content, Advertising & Media     11
People & HR                      10
Other categories            

## Detalles por Trabajo max
5. **¿Cuáles son los títulos de todos los trabajos en la categoría de 'Programming'?**
6. **¿Qué porcentaje de trabajos requieren experiencia en 'Remote' o 'Hybrid' en comparación con los trabajos presenciales?**
7. **¿Cuáles son las tres habilidades más comúnmente solicitadas en la categoría de 'Data Science / Analytics'?**
8. **¿Cuál es el rango salarial más alto ofrecido y en qué trabajo se ofrece?**
9. **¿Cuáles son las empresas que publicaron más de una oferta de trabajo en el dataset?**

In [24]:
import pandas as pd

# Cargar el archivo CSV en un DataFrame
df = pd.read_csv('../data/all_jobs_data.csv')

# Pregunta 5: ¿Cuáles son los títulos de todos los trabajos en la categoría de 'Programming'?
programming_jobs = df[df['category'] == 'Programming']
programming_job_titles = programming_jobs['id'].tolist()
print("Títulos de trabajos en la categoría 'Programming':")
for title in programming_job_titles:
    print(title)



Títulos de trabajos en la categoría 'Programming':
programador-biometria-aplicada-santiago
tech-lead-arkho-santiago-70da
desarrollador-a-backend-springboot-empresas-sb-santiago-c586
desarrollador-a-ruby-on-rails-empresas-sb-santiago
arquitecto-java-bilingue-kibernum-bogota
solutions-engineer-openloop-remote
software-engineer-back-end-tenet-bank-ltd-remote
ruby-on-rails-developer-mawi-remote
desarrollador-backend-global-mobility-apex-s-a-remote
java-developer-con-sre-leniolabs_-remote
fullstack-developer-rankmi-remote-82fc
lider-tecnico-3it-remote-15a2
desarrollador-net-zerviz-remote-8657
chief-technology-officer-cto-tcit-santiago
lider-de-proyectos-ti-rails-react-tcit-santiago-3ae9
blockchain-expert-fulltimeforce-remote
technical-lead-betterfly-santiago-5e9a
full-stack-angular-java-lilab-ica-13a2
desarrollador-full-stack-inexoos-santiago
desarrollador-salesforce-3it-santiago
desarrollador-power-apps-java-y-python-sophos-solutions-remote
python-fastapi-developer-leniolabs_-remote
ingeni

In [25]:
import pandas as pd

# Cargar el archivo CSV en un DataFrame
df = pd.read_csv('../data/all_jobs_data.csv')

# Pregunta 6: ¿Qué porcentaje de trabajos requieren experiencia en 'Remote' o 'Hybrid' en comparación con los trabajos presenciales?
total_jobs = len(df)
remote_or_hybrid_jobs = df[df['remote_modality'].isin(['fully_remote', 'hybrid'])].shape[0]
percentage_remote_or_hybrid = (remote_or_hybrid_jobs / total_jobs) * 100
print(f"\nPorcentaje de trabajos 'Remote' o 'Hybrid': {percentage_remote_or_hybrid:.2f}%")



Porcentaje de trabajos 'Remote' o 'Hybrid': 65.57%


In [68]:
import pandas as pd
import re
from collections import Counter

# Cargar el archivo CSV en un DataFrame
df = pd.read_csv('../data/all_jobs_data.csv')

# Función para limpiar y extraer palabras de la columna skills
def extract_words(skills):
    # Eliminar etiquetas HTML y caracteres no alfanuméricos, luego dividir por espacios
    words = re.sub(r'<[^>]+>', '', skills)  # Eliminar etiquetas HTML
    words = re.sub(r'[^a-zA-Z0-9\s]', '', words)  # Eliminar caracteres no alfanuméricos
    return words.lower().split()

# Lista de palabras comunes a excluir
stop_words = set(['li', 'p', 'de', 'en', 'y', 'br', 'con' ,'ul','experiencia','o','la','strong','para','el','a','como'])

# Pregunta 7: ¿Cuáles son las tres palabras más comúnmente solicitadas en las descripciones de 'Data Science / Analytics'?
data_science_jobs = df[df['category'] == 'Data Science / Analytics']

# Filtrar solo filas donde 'skills' no es NaN y es una cadena de texto
data_science_jobs = data_science_jobs.dropna(subset=['skills'])
valid_skills = data_science_jobs['skills'].apply(lambda x: isinstance(x, str))

if not valid_skills.empty:
    all_words = data_science_jobs[valid_skills]['skills'].apply(extract_words)
    all_words = [word for sublist in all_words for word in sublist if word not in stop_words]  # Flatten the list and exclude stop words
    words_counter = Counter(all_words)
    top_three_words = words_counter.most_common(3)
    
    print("\nTres palabras más comúnmente mencionadas en las descripciones de 'Data Science / Analytics':")
    for word, count in top_three_words:
        print(f"{word}: {count}")
else:
    print("\nNo hay descripciones válidas para la categoría 'Data Science / Analytics'.")



Tres palabras más comúnmente mencionadas en las descripciones de 'Data Science / Analytics':
datos: 105
sql: 47
data: 38


In [26]:
import pandas as pd

# Cargar el archivo CSV en un DataFrame
df = pd.read_csv('../data/all_jobs_data.csv')

# Pregunta 8: ¿Cuál es el rango salarial más alto ofrecido y en qué trabajo se ofrece?
# Eliminar filas con valores nulos en 'max_salary'
df_salaries = df.dropna(subset=['max_salary'])
highest_salary_job = df_salaries.loc[df_salaries['max_salary'].idxmax()]
highest_salary = highest_salary_job['max_salary']
highest_salary_job_title = highest_salary_job['id']
print(f"\nEl rango salarial más alto es {highest_salary}, ofrecido en el trabajo '{highest_salary_job_title}'.")



El rango salarial más alto es 10000.0, ofrecido en el trabajo 'cto-guil-mobility-ventures-santiago'.


In [67]:
import pandas as pd

# Cargar el archivo CSV en un DataFrame
df = pd.read_csv('../data/all_jobs_data.csv')

# Pregunta 9: ¿Cuáles son las empresas que publicaron más de una oferta de trabajo en el dataset?
companies_with_multiple_jobs = df['company_name'].value_counts()
companies_with_multiple_jobs = companies_with_multiple_jobs[companies_with_multiple_jobs > 1]
print("\nEmpresas que publicaron más de una oferta de trabajo:")
for company, count in companies_with_multiple_jobs.items():
    print(f"{company}: {count}")


Empresas que publicaron más de una oferta de trabajo:
Kibernum: 113
Moventi: 56
Sophos Solutions: 34
Leniolabs_: 34
BC Tecnología: 26
BICE VIDA: 25
Agrosuper: 25
TCIT: 23
coderslab.io: 22
MATCH · Agencia-consultora: 22
Orbis Data: 18
Agilesoft SpA: 17
Ensitech: 17
Healthatom: 16
Alegra: 15
KTI Hunter: 13
Accenture: 12
GeoVictoria: 11
Softserve: 11
BNP Paribas Cardif: 11
BCP: 9
Nisum Latam: 9
ICONSTRUYE: 9
TutenLabs: 9
Forma - Moovmedia Group: 8
Interfell: 7
ZerviZ: 7
Stori: 7
Haystack News: 6
Apply Digital Latam: 6
S3 Chile: 6
Lemontech: 6
SONDA SA: 6
Genesys Tecncologias de Inform. SpA: 6
Defontana: 6
Enviame: 6
Devsu: 6
Global Mobility Apex, S.A.: 6
NeuralWorks: 6
2BRAINS: 5
Gatblac: 5
AgendaPro: 5
Webdox: 5
Lilo Marketplace: 5
DaCodes: 5
I2B Technologies: 5
Taag Genetics: 4
Banco de Crédito Bolivia: 4
3IT: 4
Entel: 4
Hackmetrix: 4
Buk: 4
TOCTOC: 4
Modyo: 4
ComunidadFeliz: 4
BSALE: 4
Talana: 4
Passport Shipping: 4
Empresas SB: 4
Lisit: 3
Driv.in: 3
LILAB: 3
ZeroFox: 3
FULLTIMEFORCE:

## Ubicación y Modalidad carlo
10. **¿Cuántos trabajos permiten modalidad remota?**
11. **¿Cuántos trabajos están ubicados en cada país?**
12. **¿Cuáles trabajos son específicos para la ciudad de Lima?**

In [None]:
import pandas as pd

# Cargar el archivo CSV en un DataFrame
df = pd.read_csv('../data/all_jobs_data.csv')

## Beneficios y Condiciones max
13. **¿Cuáles son los beneficios más comunes ofrecidos en los trabajos?**
14. **¿Qué porcentaje de trabajos ofrece más días de vacaciones que lo legal?**
15. **¿Cuántos trabajos ofrecen beneficios relacionados con la salud (como seguro de salud o dental)?**

In [71]:
import pandas as pd
from collections import Counter
import re

# Cargar el archivo CSV en un DataFrame
df = pd.read_csv('../data/all_jobs_data.csv')

# Función para extraer y limpiar los beneficios
def extract_benefits(perks):
    # Eliminar etiquetas HTML si existieran y dividir por comas
    return perks.lower().split(', ')

# Verificar si existe la columna 'perks'
if 'perks' in df.columns:
    all_perks = df['perks'].dropna().apply(extract_benefits)
    all_perks = [perk for sublist in all_perks for perk in sublist]  # Flatten the list
    perks_counter = Counter(all_perks)
    top_perks = perks_counter.most_common(5)  # Top 5 más comunes
    
    print("\nBeneficios más comúnmente ofrecidos en los trabajos:")
    for perk, count in top_perks:
        print(f"{perk}: {count}")
else:
    print("\nNo se encontró la columna 'perks' en el dataset.")



Beneficios más comúnmente ofrecidos en los trabajos:
computer_provided: 560
informal_dresscode: 447
flexible_hours: 355
health_coverage: 343
vacation_over_legal: 240


In [None]:
#no se comoo hacer la 

In [72]:
import pandas as pd
import re

# Cargar el archivo CSV en un DataFrame
df = pd.read_csv('../data/all_jobs_data.csv')

# Verificar si existe la columna 'perks'
if 'perks' in df.columns:
    # Convertir todas las entradas de la columna 'perks' a minúsculas
    df['perks'] = df['perks'].str.lower()
    
    # Definir palabras clave relacionadas con beneficios de salud
    health_keywords = ['health', 'dental', 'seguro de salud', 'seguro dental', 'cobertura médica', 'beneficios médicos']
    
    # Contar trabajos que ofrecen beneficios relacionados con la salud
    health_benefits_count = df['perks'].apply(lambda x: any(keyword in x for keyword in health_keywords) if pd.notna(x) else False).sum()
    
    print(f"\nNúmero de trabajos que ofrecen beneficios relacionados con la salud: {health_benefits_count}")
else:
    print("\nNo se encontró la columna 'perks' en el dataset.")



Número de trabajos que ofrecen beneficios relacionados con la salud: 367


## Requerimientos y Habilidades carlo
16. **¿Cuáles son los requisitos más comunes para los trabajos en 'SysAdmin / DevOps / QA'?**
17. **¿Cuáles trabajos requieren certificaciones específicas (como PL-300 para Power BI)?**
18. **¿Qué porcentaje de trabajos requiere un nivel avanzado de inglés?**


In [None]:
import pandas as pd

# Cargar el archivo CSV en un DataFrame
df = pd.read_csv('../data/all_jobs_data.csv')

## Análisis Temporal max
19. **¿Cuántos trabajos se publicaron en el último mes?**
20. **¿Cuál es el tiempo promedio de respuesta a las aplicaciones de trabajo?**
21. **¿Cuáles trabajos tienen la mayor cantidad de aplicaciones hasta la fecha?**

In [73]:
import pandas as pd
from datetime import datetime, timedelta

# Cargar el archivo CSV en un DataFrame
df = pd.read_csv('../data/all_jobs_data.csv')

# Convertir la columna 'published_at' a fechas
df['published_at'] = pd.to_datetime(df['published_at'], unit='s')

# Calcular la fecha de hace un mes
one_month_ago = datetime.now() - timedelta(days=30)

# Filtrar trabajos publicados en el último mes
recent_jobs = df[df['published_at'] >= one_month_ago]

print(f"\nNúmero de trabajos publicados en el último mes: {len(recent_jobs)}")



Número de trabajos publicados en el último mes: 445


In [75]:
import pandas as pd

# Cargar el archivo CSV en un DataFrame
df = pd.read_csv('../data/all_jobs_data.csv')

# Calcular el tiempo promedio de respuesta
df['response_time_min'] = pd.to_numeric(df['response_time_min'], errors='coerce')
df['response_time_max'] = pd.to_numeric(df['response_time_max'], errors='coerce')

# Promedio de tiempo de respuesta
average_response_time = (df['response_time_min'].mean() + df['response_time_max'].mean()) / 2

print(f"\nTiempo promedio de respuesta a las aplicaciones de trabajo: {average_response_time:.2f} días")



Tiempo promedio de respuesta a las aplicaciones de trabajo: 9.59 días


In [74]:
import pandas as pd

# Cargar el archivo CSV en un DataFrame
df = pd.read_csv('../data/all_jobs_data.csv')

# Ordenar los trabajos por la cantidad de aplicaciones y obtener los top 5
top_jobs = df[['id', 'applications_count']].sort_values(by='applications_count', ascending=False).head(5)

print("\nTrabajos con la mayor cantidad de aplicaciones hasta la fecha:")
print(top_jobs)



Trabajos con la mayor cantidad de aplicaciones hasta la fecha:
                                                    id  applications_count
416     analista-de-datos-forma-moovmedia-group-remote                3780
220                 desarrollador-fronted-zeroq-remote                2497
346           desarrollador-de-software-gatblac-remote                1392
217  back-end-software-engineer-jr-foris-ai-remote-...                1331
711     mailing-marketing-forma-moovmedia-group-remote                1175


## Detalles por Empresa carlo
22. **¿Cuántas empresas diferentes están representadas en el dataset?**
23. **¿Cuál es la empresa con más ofertas de trabajo publicadas?**
24. **¿Cuáles empresas ofrecen trabajo en modalidad híbrida?**

In [None]:
import pandas as pd

# Cargar el archivo CSV en un DataFrame
df = pd.read_csv('../data/all_jobs_data.csv')

## Especialización max
25. **¿Cuántos trabajos requieren experiencia previa específica en la industria (por ejemplo, agrícola, ciberseguridad)?**
26. **¿Qué porcentaje de trabajos de 'Sales' requieren experiencia en ventas técnicas?**
27. **¿Cuáles trabajos en 'Design / UX' requieren experiencia en herramientas específicas como Figma o Adobe Illustrator?**

In [78]:
import pandas as pd
import re

# Cargar el archivo CSV en un DataFrame
df = pd.read_csv('../data/all_jobs_data.csv')

# Definir palabras clave relacionadas con industrias específicas
industry_keywords = ['agrícola', 'ciberseguridad', 'finanzas', 'salud', 'educación', 'tecnología']

# Verificar si existe la columna 'experience'
if 'skills' in df.columns:
    # Convertir todas las entradas de la columna 'experience' a minúsculas
    df['skills'] = df['skills'].str.lower()
    
    # Contar trabajos que requieren experiencia específica en la industria
    industry_experience_count = df['skills'].apply(lambda x: any(keyword in x for keyword in industry_keywords) if pd.notna(x) else False).sum()
    
    print(f"\nNúmero de trabajos que requieren experiencia previa específica en la industria: {industry_experience_count}")
else:
    print("\nNo se encontró la columna 'experience' en el dataset.")



Número de trabajos que requieren experiencia previa específica en la industria: 37


In [85]:
import pandas as pd

# Cargar el archivo CSV en un DataFrame
df = pd.read_csv('../data/all_jobs_data.csv')

# Definir palabras clave relacionadas con ventas técnicas
technical_sales_keywords = ['ventas tecnicas', 'ventas de tecnología', 'sales engineer', 'technical sales']

# Filtrar trabajos en la categoría 'Sales'
sales_jobs = df[df['category'] == 'Sales']

# Verificar si existe la columna 'skills'
if 'skills' in sales_jobs.columns:
    # Convertir todas las entradas de la columna 'skills' a minúsculas
    sales_jobs.loc[:, 'skills'] = sales_jobs['skills'].str.lower()
    
    # Contar trabajos de 'Sales' que requieren experiencia en ventas técnicas
    technical_sales_experience_count = sales_jobs['skills'].apply(lambda x: any(keyword in x for keyword in technical_sales_keywords) if pd.notna(x) else False).sum()
    
    # Calcular el porcentaje
    percentage_technical_sales = (technical_sales_experience_count / len(sales_jobs)) * 100
    
    print(f"\nPorcentaje de trabajos de 'Sales' que requieren experiencia en ventas técnicas: {percentage_technical_sales:.2f}%")
else:
    print("\nNo se encontró la columna 'skills' en el dataset.")



Porcentaje de trabajos de 'Sales' que requieren experiencia en ventas técnicas: 61.29%


In [87]:
import pandas as pd

# Cargar el archivo CSV en un DataFrame
df = pd.read_csv('../data/all_jobs_data.csv')

# Definir palabras clave relacionadas con herramientas específicas
design_tools_keywords = ['figma', 'adobe illustrator', 'sketch', 'photoshop']

# Filtrar trabajos en la categoría 'Design / UX'
design_jobs = df[df['category'] == 'Design / UX']

# Verificar si existe la columna 'experience'
if 'skills' in design_jobs.columns:
    # Convertir todas las entradas de la columna 'experience' a minúsculas
    design_jobs['skills'] = design_jobs['skills'].str.lower()
    
    # Filtrar trabajos que requieren experiencia en herramientas específicas
    specific_tools_experience = design_jobs[design_jobs['skills'].apply(lambda x: any(keyword in x for keyword in design_tools_keywords) if pd.notna(x) else False)]
    
    print("\nTrabajos en 'Design / UX' que requieren experiencia en herramientas específicas como Figma o Adobe Illustrator:")
    print(specific_tools_experience[['id', 'skills']])
else:
    print("\nNo se encontró la columna 'experience' en el dataset.")



Trabajos en 'Design / UX' que requieren experiencia en herramientas específicas como Figma o Adobe Illustrator:
                                                    id  \
642                      disenador-ux-ui-magnet-remote   
643               product-designer-encuadrado-santiago   
645       ui-and-graphic-designer-neuralworks-santiago   
646                     ui-ux-designer-ensitech-remote   
647  disenador-design-system-match-agencia-consulto...   
651                   disenador-ui-ux-citolab-santiago   
652  director-de-arte-freelance-match-agencia-consu...   
654                product-designer-alegra-remote-79e5   
655                    ux-ui-designer-sr-cmpc-santiago   
656                  product-designer-lemontech-remote   
657                 ux-ui-designer-moventi-remote-3811   
658                  disenador-ux-ui-iconstruye-remote   
661                        ux-ui-designer-moventi-lima   
662                disenador-ux-ui-iconstruye-santiago   
664              

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  design_jobs['skills'] = design_jobs['skills'].str.lower()


## Análisis Comparativo carlo
28. **¿Cuáles categorías tienen los mayores y menores rangos salariales?**
29. **¿Qué habilidades o tecnologías son más solicitadas en trabajos remotos en comparación con los trabajos presenciales?**
30. **¿Cómo varían los beneficios ofrecidos entre las diferentes categorías de trabajo?**

In [None]:
import pandas as pd

# Cargar el archivo CSV en un DataFrame
df = pd.read_csv('../data/all_jobs_data.csv')