# üèÅ M√≥dulo 4 ‚Äì Preguntas de Negocio

**Objetivo del m√≥dulo**  
Aplicar todo lo aprendido (limpieza, EDA, visualizaci√≥n, agrupaciones) para **responder preguntas de negocio reales** con Python y Pandas.

**¬øPor qu√© es importante?**  
Un analista de datos no solo organiza tablas: transforma datos en **insights accionables** que gu√≠an decisiones de producto, marketing o estrategia. Saber plantear y contestar preguntas concretas demuestra el valor pr√°ctico de tus habilidades t√©cnicas.

---

En este notebook resolver√°s **20 preguntas** usando el dataset limpio `salarios_pais.csv`.  
Cada pregunta viene acompa√±ada de una celda *Markdown* (enunciado) y su celda de c√≥digo con la soluci√≥n.



---
## 0 ¬∑ Setup
Cargamos librer√≠as y configuramos Seaborn para que los gr√°ficos se vean con un estilo agradable.


In [None]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from pathlib import Path
from cursos.analisis_datos.utils.paths import DATA_PROCESSED_DIR
path_salarios_pais = DATA_PROCESSED_DIR / "salarios_pais.csv"
path_salarios_pais = str(path_salarios_pais)
print(f"Ruta del archivo salarios_pais: {path_salarios_pais}")
print(f"existe archivo salarios_pais: {Path(path_salarios_pais).exists()}")
df_salarios_pais = pd.read_csv(filepath_or_buffer=path_salarios_pais, sep=',', encoding='utf-8')
df_salarios_pais.head()

## 1Ô∏è‚É£ Pregunta  
**¬øCu√°l es la compensaci√≥n total promedio en el dataset?**

### ¬øPor qu√© importa?  
La media salarial brinda una referencia r√°pida para entender el nivel general de pago en la organizaci√≥n o sector. Permite comparar con benchmarks externos y detectar si la empresa est√° ofreciendo compensaciones competitivas.

### Pista  
La respuesta est√° a un solo m√©todo de distancia sobre la columna `compensacion_total`.

In [None]:
# Calcula la compensaci√≥n total promedio
promedio_total = df_salarios_pais ['compesacion_total'].mean()
print(f"La compesaci√≥n total promedio es: {promedio_total:.2f}")

## 2Ô∏è‚É£ Pregunta  
**¬øQui√©nes son los 5 empleados con la compensaci√≥n total m√°s alta?**

### ¬øPor qu√© importa?  
Identificar a los empleados mejor pagados ayuda a:  
- Detectar roles o perfiles cr√≠ticos con alto valor de mercado.  
- Verificar consistencia salarial interna y posibles brechas injustificadas.  
- Analizar si los niveles de compensaci√≥n se alinean con la estrategia de retenci√≥n de talento.

### Pista   
Ordena la columna `compensacion_total` de forma descendente y toma solo las primeras 5 filas.

In [None]:
# Top 5 empleados con mayor compensaci√≥n total
top5= df_salarios_pais.nlargest(5,'compesacion_total')
print(top5[['nombre','compesacion_total']])

## 3Ô∏è‚É£ Pregunta  
**¬øQu√© pa√≠s registra la compensaci√≥n total promedio m√°s alta?**

### ¬øPor qu√© importa?  
Conocer el pa√≠s donde los salarios son m√°s altos permite:  
- Evaluar mercados laborales competitivos y su impacto en costes de contrataci√≥n.  
- Dise√±ar pol√≠ticas de compensaci√≥n diferenciadas por regi√≥n.  
- Detectar posibles desalineamientos con el costo de vida o la estrategia global de la empresa.

### Pista  
Agrupa por `pais`, calcula el promedio de `compensacion_total` y ordena de mayor a menor.

In [None]:
# Pa√≠s con la compensaci√≥n promedio m√°s alta
promedio_por_pais = df_salarios_pais.groupby("pais")["compesacion_total"].mean().sort_values(ascending=False)
#mostrar resultados
print("Paises ordenados por compesaci√≥n total promedio (de mayor a menor):")
print(promedio_por_pais)
#mostrar el pais con la compesaci√≥n
pais_top= promedio_por_pais.idxmax()
valor_top = promedio_por_pais.max()
print(f"nEl pa√≠s de la compesaci√≥n total promedio m√°s alta es: {pais_top}(${valor_top: ,.2f})")

## 4Ô∏è‚É£ Pregunta  
**¬øC√≥mo se distribuye la compensaci√≥n total seg√∫n el nivel de senioridad?**  
*(Visualiza la comparaci√≥n con un boxplot).*

### ¬øPor qu√© importa?  
- Revela si existen diferencias salariales significativas entre Juniors y Seniors.  
- Permite detectar outliers (pagos extremadamente altos o bajos) por nivel.  
- Ayuda a planificar escalas de compensaci√≥n equitativas y competitivas.

### Pista  
Usa `sns.boxplot()` con `x='senioridad'` y `y='compensacion_total'`.

In [None]:
# Boxplot de compensaci√≥n total por nivel de senioridad
plt.figure (figsize=(10,8))
sns.boxplot(x='senioridad', y='compesacion_total',data=df_salarios_pais)
pallete='Set2'
hue= 'senioridad'
plt.title ("Distribuci√≥n de compensacion_total por nivel de senioridad")
plt.xticks(rotation=45)
plt.tight_layout()
plt.show()

## 5Ô∏è‚É£ Pregunta  
**¬øExiste correlaci√≥n entre los a√±os en la empresa y la compensaci√≥n total?**

### ¬øPor qu√© importa?  
- Permite evaluar si la antig√ºedad impacta directamente en el salario.  
- Ayuda a validar pol√≠ticas de incremento por permanencia.  
- Detectar una baja correlaci√≥n podr√≠a indicar que la compensaci√≥n est√° m√°s ligada a desempe√±o o rol que a tiempo en la organizaci√≥n.

### Pista  
Calcula el coeficiente de correlaci√≥n de Pearson entre `anos_en_la_empresa` y `compensacion_total`.

In [None]:
# Correlaci√≥n entre antig√ºedad y compensaci√≥n total
correlacion =df_salarios_pais ["anos_en_la_empresa"].corr(df_salarios_pais['compesacion_total'])
print (f'Correlacion entre la antiguedad y compesaci√≥n total:{correlacion:.2fme}')

## 6Ô∏è‚É£ Pregunta  
**¬øQu√© cargo presenta la mediana de compensaci√≥n total m√°s alta?**

### ¬øPor qu√© importa?  
- La mediana es robusta frente a outliers; refleja el salario ‚Äút√≠pico‚Äù para cada rol.  
- Ayuda a identificar posiciones clave con mayor valor de mercado o responsabilidad.  
- Informa decisiones de contrataci√≥n y alineaci√≥n salarial interna.

### Pista  
Agrupa por `cargo`, calcula la **mediana** de `compensacion_total`, ordena en orden descendente y observa el primer resultado.

In [None]:
# Cargo con la mediana de compensaci√≥n total m√°s alta
medianas_por_cargo = df_salarios_pais.groupby("cargo")["compesacion_total"].median()
print(medianas_por_cargo)

cargo_top= medianas_por_cargo.index[0]
mediana_top=medianas_por_cargo.iloc[0]
print(f"n El cargo con la mediana m√°s alta es: {cargo_top} con una compesaci√≥n de {mediana_top:.2f}")

## 7Ô∏è‚É£ Pregunta  
**¬øC√≥mo es la distribuci√≥n de los bonos anuales en d√≥lares?**  
*(Construye un histograma e incluye la curva KDE para visualizar la densidad).*

### ¬øPor qu√© importa?  
- Ayuda a ver si los bonos est√°n concentrados en un rango espec√≠fico o tienen una cola larga.  
- Detecta outliers que podr√≠an distorsionar el promedio.  
- Facilita comparar pol√≠ticas de incentivos entre departamentos o pa√≠ses.

### Pista  
Usa `sns.histplot()` sobre la columna `bono_anual_dolares`, pon `bins=30` y `kde=True`.

In [None]:
# Histograma y KDE de los bonos anuales en USD
plt.figure(figsize=(10,6))
sns.histplot(data=df_salarios_pais, x="bono_anual_dolares", bins=30, kde=True)
plt.tittle("Distribuci√≥n de bonos anuales en USD")
plt.xlabel("Bono Anual en D√≥lares")
plt.ylabel("Frecuencia /Densidad")
plt.tight_layout()
plt.show()

## 8Ô∏è‚É£ Pregunta  
**¬øQu√© proporci√≥n de empleados proviene de cada pa√≠s?**  
*(Visualiza el resultado en un barplot).*

### ¬øPor qu√© importa?  
- Mide la **representatividad geogr√°fica** de la fuerza laboral.  
- Ayuda a detectar concentraci√≥n en un pa√≠s y oportunidades de diversificaci√≥n.  
- Sirve como referencia para ajustar pol√≠ticas de compensaci√≥n y beneficio regional.

### Pista  
Calcula `value_counts(normalize=True)` sobre la columna `pais`, multipl√≠calo por 100 para obtener porcentajes y graf√≠calo con `plot(kind='bar')`.

In [None]:
# Proporci√≥n de empleados por pa√≠s (en %)
proporciones = df_salarios_pais["pais"].value_counts(normalize=True) *100
#el barplot
plt.figure(figsize=(10,6))
proporciones.plot(kind='bar',color='skyblue', edgecolor='black')
plt.title("Proporci√≥n de empleados por pa√≠s (%)")
plt.xlabel("Pais")
plt.ylabel("Porcentaje")
plt.xticks(rotation=45)
plt.tight_layout
plt.show()

## 9Ô∏è‚É£ Pregunta  
**¬øCu√°l es el bono anual m√°ximo registrado para cada cargo?**

### ¬øPor qu√© importa?  
- Revela el techo de incentivos para cada rol.  
- Permite verificar si ciertos cargos reciben bonos excepcionalmente altos (posibles outliers o pol√≠ticas de bonificaci√≥n agresivas).  
- Ayuda a dise√±ar esquemas de reconocimiento competitivos y equitativos.

### Pista  
Agrupa por `cargo`, aplica `max()` a `bono_anual_dolares` y ordena el resultado de mayor a menor.

In [None]:
# Bono anual m√°ximo por cargo
bonos_maximos = df_salarios_pais.groupby("cargo")["bono_anual_dolares"].max().sort_values(ascending=False)
#para visualizar
plt.figure(figsize=(12,6))
bonos_maximos.plot(kind="bar", color="mediumsgreen", edgecolor="black")
plt.title("Bono Anual M√°ximo por Cargo")
plt.xlabel("Cargo")
plt.ylabel("Bono Anual (USD)")
plt.xticks(rotation=45, ha='right')
plt.tight_layout
plt.show()

## üîü Pregunta  
**¬øCu√°les son los 3 pa√≠ses con m√°s empleados que ocupan el cargo de *Data Scientist*?**

### ¬øPor qu√© importa?  
- Indica d√≥nde se concentra el talento de ciencia de datos en la organizaci√≥n.  
- Ayuda a orientar iniciativas de reclutamiento, formaci√≥n y comunidades locales.  
- Puede revelar hubs de innovaci√≥n o brechas regionales en ese perfil tan demandado.

### Pista  
Filtra el DataFrame por `cargo == "Data Scientist"` y aplica `value_counts()` sobre la columna `pais`, luego utiliza `.head(3)`.

In [None]:
# Top 3 pa√≠ses con m√°s Data Scientists
data_scientist = df_salarios_pais[df_salarios_pais["Cargo"] =="Data Scientist"]
top_paises= data_scientist["pais"].value_counts().head(3)
#para visualizar
plt.figure(figsize=(8,5))
top_paises.plot(kind="bar", color="blue",edgecolor="black")
plt.tittle ("Topt 3 pa√≠ses con m√°s Data Scientist")
plt.xlabel("Pa√≠s")
plt.ylabel("Cantidad de empleados")
plt.xticks(rotation=45)
plt.tight_layout()
plt.show()

## 1Ô∏è‚É£1Ô∏è‚É£ Pregunta  
**¬øC√≥mo se relacionan entre s√≠ las variables num√©ricas del dataset?**  
*(Construye una matriz de correlaci√≥n y pres√©ntala en un heatmap).*

### ¬øPor qu√© importa?  
- Detecta **relaciones lineales fuertes** (positivas o negativas) entre variables.  
- Ayuda a identificar **multicolinealidad** antes de crear modelos predictivos.  
- Destaca patrones inesperados que merecen an√°lisis m√°s profundo.

### Pista  
Selecciona solo las columnas num√©ricas (`select_dtypes('number')`), calcula `corr()` y grafica con `sns.heatmap(annot=True, cmap='coolwarm')`.

In [None]:
# Matriz de correlaci√≥n num√©rica con heatmap
#Filtrar las columnas num√©ricas
df_numericas =df_salarios_pais.select_dtypes(include='number')

#Calcular matriz de correlaci√≥n
matriz_correlacion = df_numericas.corr()
#visualizar grafica heatmap
plt.figure(figsize=(10,8))
sns.heatmap(matriz_correlacion, annot=True, cmap='coolwarm', linewidths=0.5)
plt.tittle ("Matriz de Correlaci√≥n entre Variables Num√©ricas")
plt.tight_layout()
plt.show()

## 1Ô∏è‚É£2Ô∏è‚É£ Pregunta  
**¬øQu√© porcentaje de empleados del dataset tiene educaci√≥n universitaria?**

### ¬øPor qu√© importa?**  
- Mide el nivel de formaci√≥n acad√©mica dentro de la organizaci√≥n.  
- Sirve de referencia para programas de capacitaci√≥n, becas y desarrollo profesional.  
- Permite contrastar la brecha (si existe) entre compensaci√≥n y formaci√≥n.

### Pista
Usa `value_counts(normalize=True)` en la columna `educacion_universitaria`, luego multiplica por 100 para obtener el porcentaje.

In [None]:
# Porcentaje de empleados con y sin educaci√≥n universitaria
porcentaje_educacion = df_salarios_pais['educacion_universitaria'].value_counts(normalize=True) *100
#mostrar resultado
print(porcentaje_educacion)

## 1Ô∏è‚É£3Ô∏è‚É£ Pregunta  
**¬øCu√°l es la compensaci√≥n total promedio por pa√≠s y nivel de senioridad?**  
*(Presenta la respuesta en una tabla pivote).*

### ¬øPor qu√© importa?  
- Permite comparar si la diferencia salarial entre Juniors y Seniors es coherente en todos los pa√≠ses.  
- Identifica pa√≠ses donde los Seniors se pagan por encima o por debajo de la media global.  
- Ayuda a dise√±ar pol√≠ticas de compensaci√≥n regionales y ajustar los planes de carrera.

### Pista  
Crea una tabla pivote con `index='pais'`, `columns='senioridad'` y `values='compensacion_total'`, usando `aggfunc='mean'`.

In [None]:
# Tabla pivote: compensaci√≥n promedio por pa√≠s y senioridad
pivot_table = df_salarios_pais.pivot_table(
    index='pais',
    columns='senioridad',
    values='compensacion_total',
    aggfunc='mean'
)

print(pivot_table)

## 1Ô∏è‚É£4Ô∏è‚É£ Pregunta  
**¬øQu√© relaci√≥n existe entre el salario anual y el bono anual?**  
*(Visual√≠zalo en un scatterplot).*

### ¬øPor qu√© importa?  
- Permite ver si los bonos son proporcionales al salario base o se otorgan de forma independiente.  
- Ayuda a detectar empleados con bonos at√≠picamente altos respecto a su sueldo.  
- Informa sobre la pol√≠tica de incentivos y su coherencia interna.

### Pista  
Usa `sns.scatterplot()` con `x='sueldo_anual_dolares'` y `y='bono_anual_dolares'`.

In [None]:
# Dispersi√≥n salario anual vs bono anual
plt.figure(figsize=(10, 6))
sns.scatterplot(
    data=df_salarios_pais,
    x='sueldo_anual_dolares',
    y='bono_anual_dolares',
    hue='senioridad',  # opcional: colorea por nivel profesional
    palette='viridis'
)
plt.title("Relaci√≥n entre Sueldo y Bono Anual")
plt.xlabel("Sueldo Anual (USD)")
plt.ylabel("Bono Anual (USD)")
plt.tight_layout()
plt.show()

## 1Ô∏è‚É£5Ô∏è‚É£ Pregunta  
**¬øQu√© porcentaje de empleados lleva m√°s de 5 a√±os en la empresa?**

### ¬øPor qu√© importa?  
- Mide la **retenci√≥n de talento** y la estabilidad de la plantilla.  
- Un porcentaje alto indica lealtad y experiencia acumulada; uno bajo puede se√±alar rotaci√≥n elevada.  
- Informa iniciativas de engagement y programas de reconocimiento para empleados veteranos.

### Pista  
Aplica una condici√≥n `df['anos_en_la_empresa'] > 5`, usa `.mean()` para obtener la proporci√≥n y multipl√≠calo por 100.

In [None]:
# Porcentaje de empleados con m√°s de 5 a√±os en la empresa
porcentaje_mas_5_a√±os = (df_salarios_pais['anos_en_la_empresa'] > 5).mean() * 100
print(f"Porcentaje de empleados con m√°s de 5 a√±os en la empresa: {porcentaje_mas_5_a√±os:.2f}%")

## 1Ô∏è‚É£6Ô∏è‚É£ Pregunta  
**¬øQu√© pa√≠s presenta el bono anual promedio m√°s alto?**

### ¬øPor qu√© importa?  
- Indica d√≥nde la empresa invierte m√°s en incentivos variables.  
- Ayuda a evaluar la competitividad de los planes de bonificaci√≥n por regi√≥n.  
- Puede revelar disparidades que requieran revisi√≥n de pol√≠ticas de compensaci√≥n.

### Pista  
Agrupa por `pais`, calcula la media de `bono_anual_dolares` y ordena de mayor a menor.

In [None]:
# Pa√≠s con el bono anual promedio m√°s alto
#bono promedio
bono_promedio_por_pais = df_salarios_pais.groupby('pais')['bono_anual_dolares'].mean().sort_values(ascending=False)
# Muestra el pa√≠s con el bono m√°s alto/Pa√≠s con el bono anual promedio m√°s alto
pais_top_bono = bono_promedio_por_pais.idxmax()
bono_max = bono_promedio_por_pais.max()

print(f"El pa√≠s con el bono anual promedio m√°s alto es: {pais_top_bono} (${bono_max:,.2f} USD)")

## 1Ô∏è‚É£7Ô∏è‚É£ Pregunta  
**¬øC√≥mo var√≠a la distribuci√≥n de la compensaci√≥n total entre pa√≠ses?**  
*(Muestra un boxplot por pa√≠s para comparar rangos y outliers).*

### ¬øPor qu√© importa?  
- Visualiza diferencias salariales entre mercados.  
- Ayuda a identificar pa√≠ses con mayor dispersi√≥n o presencia de outliers altos/bajos.  
- Facilita decisiones sobre ajustes regionales y equidad interna.

### Pista  
Emplea `sns.boxplot()` con `x='pais'` y `y='compensacion_total'`; rota las etiquetas para que no se solapen.

In [None]:
# Boxplot de compensaci√≥n total por pa√≠s
plt.figure(figsize=(12, 6))
sns.boxplot(
    data=df_salarios_pais,
    x='pais',
    y='compensacion_total',
    palette='Set2'
)
plt.xticks(rotation=45)
plt.title("Distribuci√≥n de la Compensaci√≥n Total por Pa√≠s")
plt.xlabel("Pa√≠s")
plt.ylabel("Compensaci√≥n Total (USD)")
plt.tight_layout()
plt.show()

## 1Ô∏è‚É£8Ô∏è‚É£ Pregunta  
**¬øCu√°l es el promedio de a√±os en la empresa para cada cargo?**

### ¬øPor qu√© importa?  
- Indica qu√© roles retienen talento por m√°s tiempo.  
- Ayuda a identificar posiciones con alta rotaci√≥n que podr√≠an requerir planes de carrera o incentivos adicionales.  
- Ofrece informaci√≥n para comparar madurez y profundidad de experiencia entre √°reas.

### Pista  
Agrupa por `cargo`, aplica `mean()` sobre `anos_en_la_empresa` y ordena descendente para ver los cargos con mayor antig√ºedad media.

In [None]:
# Promedio de a√±os en la empresa por cargo
promedio_antiguedad_por_cargo = df_salarios_pais.groupby('cargo')['anos_en_la_empresa'].mean().sort_values(ascending=False)
print(promedio_antiguedad_por_cargo)

plt.figure(figsize=(10, 6))
sns.barplot(
    x=promedio_antiguedad_por_cargo.values,
    y=promedio_antiguedad_por_cargo.index,
    palette="coolwarm"
)
plt.title("Antig√ºedad Promedio por Cargo")
plt.xlabel("A√±os en la Empresa")
plt.ylabel("Cargo")
plt.tight_layout()
plt.show()

## 1Ô∏è‚É£9Ô∏è‚É£ Pregunta  
**¬øCu√°l es la mediana del ingreso per c√°pita entre los pa√≠ses presentes en el dataset?**

### ¬øPor qu√© importa?  
- Brinda un punto de referencia de **poder adquisitivo** promedio para las regiones donde opera la empresa.  
- Facilita comparar la compensaci√≥n interna con los niveles de ingreso del pa√≠s, aportando contexto sobre competitividad salarial local.  
- La mediana es robusta frente a valores extremos y refleja mejor el ingreso ‚Äút√≠pico‚Äù que el promedio en econom√≠as dispares.

### Pista  
Basta con aplicar `.median()` a la columna `ingreso_per_capita`.

In [None]:
# Mediana del ingreso per c√°pita de los pa√≠ses
mediana_ingreso = df_salarios_pais['ingreso_per_capita'].median()
print(f"Mediana del ingreso per c√°pita: {mediana_ingreso:.2f}")

## 2Ô∏è‚É£0Ô∏è‚É£ Pregunta  
**¬øC√≥mo se distribuyen los bonos anuales (USD) seg√∫n el nivel de senioridad?**  
*(Representa la comparaci√≥n con un violinplot).*

### ¬øPor qu√© importa?  
- Muestra no solo la mediana y el rango, sino la **densidad completa** de los bonos para Juniors y Seniors.  
- Facilita detectar si los rangos de bonos se solapan o si los Seniors reciben incentivos notablemente mayores.  
- Ayuda a evaluar la equidad y efectividad del esquema de bonificaci√≥n por experiencia.

### Pista  
Usa `sns.violinplot()` con `x='senioridad'` y `y='bono_anual_dolares'`.

In [None]:
# Violinplot de bonos anuales por senioridad
plt.figure(figsize=(10, 6))
sns.violinplot(
    data=df_salarios_pais,
    x='senioridad',
    y='bono_anual_dolares',
    palette='muted',
    inner='box'  
)
plt.title("Distribuci√≥n de Bonos Anuales por Senioridad")
plt.xlabel("Nivel de Senioridad")
plt.ylabel("Bono Anual (USD)")
plt.tight_layout()
plt.show()

## üéâ ¬°Felicidades!

Has completado el proyecto integral de **An√°lisis de Datos con Python**.  
Pasaste por todo el ciclo:

1. **Preparar el entorno**  
2. **Limpiar y transformar datos**  
3. **Explorar con visualizaciones**  
4. **Responder preguntas de negocio reales**

Cada notebook, gr√°fico y m√©trica que generaste demuestra tu capacidad para convertir datos en informaci√≥n valiosa. ¬°Sigue practicando, comparte tus hallazgos con la comunidad PyData Panam√° y recuerda que el siguiente insight puede cambiar una decisi√≥n clave!

üöÄ **Buen trabajo, Data Analyst**. 