# Los 404 - Data Review

In [5]:
import os
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from matplotlib.patches import Rectangle
import warnings
warnings.filterwarnings('ignore')

In [6]:
data_path = os.path.join('.','Data','tech_salaries.csv')
dataframe = pd.read_csv(data_path,index_col=0)
dataframe.info()

<class 'pandas.core.frame.DataFrame'>
Index: 65117 entries, 0 to 551
Data columns (total 11 columns):
 #   Column              Non-Null Count  Dtype 
---  ------              --------------  ----- 
 0   work_year           65117 non-null  int64 
 1   experience_level    65117 non-null  object
 2   employment_type     65117 non-null  object
 3   job_title           65117 non-null  object
 4   salary              65117 non-null  int64 
 5   salary_currency     65117 non-null  object
 6   salary_in_usd       65117 non-null  int64 
 7   employee_residence  65117 non-null  object
 8   remote_ratio        65117 non-null  int64 
 9   company_location    65117 non-null  object
 10  company_size        65117 non-null  object
dtypes: int64(4), object(7)
memory usage: 6.0+ MB


In [7]:
for column in dataframe.columns:
    unique_values = set(dataframe[column])
    print(f"- {column} ({len(unique_values)}):\n\t{unique_values}\n")

- work_year (6):
	{2020, 2021, 2022, 2023, 2024, 2025}

- experience_level (4):
	{'SE', 'EX', 'EN', 'MI'}

- employment_type (4):
	{'CT', 'PT', 'FL', 'FT'}

- job_title (429):
	{'Cyber Security Project Engineer', 'Principal Product Manager', 'PKI Engineer', 'Information Security Associate', 'Cloud Architect', 'QA Engineer', 'AI Security Engineer', 'Head of Cyber Security', 'IT Security Expert', 'Vulnerability Management Engineer', 'Digital Forensics Analyst', 'Internal Auditor', 'Cyber Threat Intelligence Specialist', 'Head of IT', 'SecOps Expert', 'Insider Threat Investigator', 'Security Operations Lead', 'Security Incident Response Engineer', 'Consulting Director', 'IT Risk Manager', 'System Engineer', 'Staff Security Engineer', 'Backend Engineer', 'Security Researcher', 'Incident Response Specialist', 'Security Solutions Architect', 'Cloud Cyber Security Analyst', 'Director Information Security', 'Security Operator', 'Software Developer', 'Detection Engineer', 'Data Architect', 'Off

- work_year (6): {2020, 2021, 2022, 2023, 2024, 2025}
- experience_level (4): {'SE', 'MI', 'EN', 'EX'}
- employment_type (4): {'FT', 'PT', 'FL', 'CT'}
- job_title (429): {'Threat Intelligence Analyst', 'Security Analyst', 'Privacy Engineer', 'Product Manager', 'Security Engineering Lead',...}
- salary (7043): {425990, 65550, 65555, 229400, 98330, 131100, 65564, 163875, 196650, 131118, 98353, 65587, 360500, 163900, 98367, 65600,..}
- salary_currency (26): {'JPY', 'TWD', 'ILS', 'IDR', 'NZD', 'CZK', 'BRL', 'PHP', 'AUD', 'SEK', 'USD', 'SGD', 'DKK',...}
- salary_in_usd (7926): {425990, 65550, 65555, 229400, 98330, 131100, 65566, 163875, 65572, 196650, 98346,...}
- employee_residence (95): {'CO', 'PT', 'CY', 'TN', 'BE', 'SK', 'MD', 'LB', 'FI', 'MT', 'SG', 'GT', 'EC',...}
- remote_ratio (3): {0, 50, 100}
- company_location (94): {'CO', 'PT', 'CY', 'BE', 'SK', 'MD', 'LB', 'FI', 'MT', 'SG', 'GT', 'EC',...}
- company_size (3): {'S', 'L', 'M'}

# Premisas y enfoques
A continuacion se presentan 4 diferentes enfoques a analizar con la data propocionada:

### 1. INTELIGENCIA DE MERCADO SALARIAL
#### _"¿Cuánto debo pagar para ser competitivo?"_

Análisis clave:

- Benchmarking salarial por rol, experiencia y ubicación geográfica
- Evolución de salarios 2020-2025 (tendencias post-pandemia)
- Comparativa salarial entre tamaños de empresa (S vs M vs L)
- Análisis de paridad purchasing power por país

**Valor esperado**: Definir rangos salariales competitivos, presupuestos de nómina realistas y estrategias de retención basadas en compensación.

#### Graficos esperados
* Para el benchmarking salarial por rol:
    - Heatmap de salary_in_usd promedio por job_title vs experience_level, con filtros por ubicación geográfica prioritaria
    - Box plots comparativos por roles clave (Data Scientist, ML Engineer, AI Engineer, etc.) segmentados por experience_level

* Para la evolución de salarios 2020-2025:
    - Gráficos de líneas temporales mostrando salary_in_usd promedio por work_year, segmentado por roles críticos para tu startup
    - Gráfico de barras apiladas showing salary growth rate year-over-year por experience_level

* Para comparativa por tamaño de empresa:
    - Gráfico de violín comparando distribuciones salariales entre company_size (S vs M vs L) para roles target
    - Scatter plot de salary_in_usd vs company_size con regresión lineal por job_title relevante

* Para análisis de paridad de poder adquisitivo:
    - Mapa de calor geográfico mostrando salary_in_usd vs costo de vida local por employee_residence
    - Gráfico de burbujas donde X=salary_in_usd, Y=purchasing power index, tamaño=número de empleados por país

### 2. ESTRATEGIA DE TALENTO Y MODALIDADES DE TRABAJO
#### _"¿Cómo estructuro mi equipo en el nuevo paradigma laboral?"_

Análisis clave:

* Distribución de remote_ratio por nivel de experiencia y rol
* Correlación entre modalidad de trabajo y rangos salariales
* Patrones de employment_type (FT vs CT vs FL) por especialización
* Mapeo de disponibilidad de talento por país (employee_residence vs company_location)

**Valor esperado**: Optimizar políticas de trabajo remoto, identificar pools de talento global y estructurar modelos de contratación híbridos.

#### Graficos esperados

* Para distribución de remote_ratio:
    - Stacked bar chart mostrando remote_ratio (0, 50, 100) por experience_level y roles de ML/AI
    - Treemap visualizando proporción de remote workers por job_title en roles técnicos

* Para correlación modalidad-salario:
    - Scatter plot con regresión de remote_ratio vs salary_in_usd, coloreado por experience_level
    - Box plot comparativo de salary_in_usd por remote_ratio categories

* Para patrones de employment_type:
    - Sankey diagram mostrando flujos entre employment_type → job_title → experience_level para roles de datos
    - Heatmap de employment_type vs job_title con valores de salary_in_usd promedio

* Para mapeo de talento global:
    - Mapa choropleth mostrando concentración de talento (employee_residence) vs demanda (company_location)
    - Network graph conectando employee_residence con company_location, grosor de líneas = frecuencia

### 3. ANÁLISIS COMPETITIVO Y POSICIONAMIENTO
##### _"¿Dónde me posiciono versus la competencia?"_

Análisis clave:

* Premium salarial que pagan empresas grandes vs pequeñas por rol equivalente
* Concentración geográfica de empresas tech por tamaño
* Roles emergentes y especializaciones mejor pagadas (job_title trends)
* Arbitraje geográfico - dónde contratar vs dónde establecer oficinas

**Valor esperado**: Identificar ventajas competitivas, nichos de mercado desatendidos y estrategias de diferenciación salarial.

#### Graficos Esperados

* Para premium salarial por tamaño de empresa:
    - Grouped bar chart comparando salary_in_usd promedio por company_size para roles equivalentes
    - Waterfall chart mostrando diferencial salarial desde empresa S → M → L

* Para concentración geográfica:
    - Bubble map donde ubicación geográfica muestra company_location, tamaño de burbuja = company_size, color = salary_in_usd promedio
    - Cluster analysis visualization agrupando países por patrones similares de company_size y salarios

* Para roles emergentes:
    - Word cloud ponderado de job_titles por growth rate en salary_in_usd 2020-2025
    - Slope graph mostrando evolución salarial de top 20 job_titles entre 2020 y 2025

* Para arbitraje geográfico:
    - Matrix plot comparando employee_residence vs company_location con color intensity = salary differential
    - Dual-axis chart mostrando cost of living vs average salary por país objetivo

### 4. OPORTUNIDADES OCULTAS Y INSIGHTS ESTRATÉGICOS
##### _"¿Qué no está viendo mi competencia?"_

Análisis clave:

* Roles con mayor crecimiento salarial year-over-year (posibles burbujas o escasez)
* Países con talento subvalorado (bajo salary_in_usd vs calidad)
* Gaps entre currency local vs USD (oportunidades de arbitraje)
* Patrones atípicos: roles senior en empresas pequeñas, tendencias contra-intuitivas

**Valor esperado**: Identificar mercados blue ocean, estrategias de timing para contrataciones y oportunidades de first-mover advantage.

### Graficos Esperados
* Para roles con mayor crecimiento salarial:
    - Slope chart destacando job_titles con mayor CAGR en salary_in_usd 2020-2025
    - Bubble chart animado (timeline) mostrando evolución de salary_in_usd por job_title a través de los años

* Para países con talento subvalorado:
    - Scatter plot donde X=skill level proxy, Y=salary_in_usd, identificando outliers por debajo de la tendencia
    - Radar chart comparando países en múltiples dimensiones: talento disponible, costo, timezone compatibility

* Para gaps de currency arbitrage:
    - Dual-axis line chart comparando salary en currency local vs salary_in_usd por país y año
    - Heatmap temporal mostrando currency exchange opportunities por país y work_year

* Para patrones atípicos:
    - Anomaly detection scatter plot identificando combinaciones inusuales de experience_level + company_size + salary_in_usd
    - Box plot con outliers destacados para identificar casos excepcionales de alto valor

# ==================== PROMPT ====================

''' Data Info

<class 'pandas.core.frame.DataFrame'>
Index: 65117 entries, 0 to 551
Data columns (total 11 columns):
 #   Column              Non-Null Count  Dtype 
---  ------              --------------  ----- 
 0   work_year           65117 non-null  int64 
 1   experience_level    65117 non-null  object
 2   employment_type     65117 non-null  object
 3   job_title           65117 non-null  object
 4   salary              65117 non-null  int64 
 5   salary_currency     65117 non-null  object
 6   salary_in_usd       65117 non-null  int64 
 7   employee_residence  65117 non-null  object
 8   remote_ratio        65117 non-null  int64 
 9   company_location    65117 non-null  object
 10  company_size        65117 non-null  object
dtypes: int64(4), object(7)
memory usage: 6.0+ MB

- work_year (6): {2020, 2021, 2022, 2023, 2024, 2025}
- experience_level (4): {'SE', 'MI', 'EN', 'EX'}
- employment_type (4): {'FT', 'PT', 'FL', 'CT'}
- job_title (429): {'Threat Intelligence Analyst', 'Security Analyst', 'Privacy Engineer', 'Product Manager', 'Security Engineering Lead',...}
- salary (7043): {425990, 65550, 65555, 229400, 98330, 131100, 65564, 163875, 196650, 131118, 98353, 65587, 360500, 163900, 98367, 65600,..}
- salary_currency (26): {'JPY', 'TWD', 'ILS', 'IDR', 'NZD', 'CZK', 'BRL', 'PHP', 'AUD', 'SEK', 'USD', 'SGD', 'DKK',...}
- salary_in_usd (7926): {425990, 65550, 65555, 229400, 98330, 131100, 65566, 163875, 65572, 196650, 98346,...}
- employee_residence (95): {'CO', 'PT', 'CY', 'TN', 'BE', 'SK', 'MD', 'LB', 'FI', 'MT', 'SG', 'GT', 'EC',...}
- remote_ratio (3): {0, 50, 100}
- company_location (94): {'CO', 'PT', 'CY', 'BE', 'SK', 'MD', 'LB', 'FI', 'MT', 'SG', 'GT', 'EC',...}
- company_size (3): {'S', 'L', 'M'}
'''

''' Premisas
A continuacion se presentan 4 diferentes enfoques a analizar con la data propocionada:

### 1. INTELIGENCIA DE MERCADO SALARIAL
#### _"¿Cuánto debo pagar para ser competitivo?"_

Análisis clave:

* 1.1 Benchmarking salarial por rol, experiencia y ubicación geográfica
* 1.2 Evolución de salarios 2020-2025 (tendencias post-pandemia)
* 1.3 Comparativa salarial entre tamaños de empresa (S vs M vs L)
* 1.4 Análisis de paridad purchasing power por país

**Valor esperado**: Definir rangos salariales competitivos, presupuestos de nómina realistas y estrategias de retención basadas en compensación.

#### Graficos esperados
* 1.1 Para el benchmarking salarial por rol:
    - Box plots comparativos por roles clave (Data Scientist, ML Engineer, AI Engineer, etc.) segmentados por experience_level

* 1.2 Para la evolución de salarios 2020-2025:
    - Gráficos de líneas temporales mostrando salary_in_usd promedio por work_year, segmentado por roles críticos para tu startup
    - Gráfico de barras apiladas showing salary growth rate year-over-year por experience_level

* 1.3 Para comparativa por tamaño de empresa:
    - Gráfico de violín comparando distribuciones salariales entre company_size (S vs M vs L) para roles target
    - Scatter plot de salary_in_usd vs company_size con regresión lineal por job_title relevante

* 1.4 Para análisis de paridad de poder adquisitivo:
    - Mapa de calor geográfico mostrando salary_in_usd vs costo de vida local por employee_residence
    - Gráfico de burbujas donde X=salary_in_usd, Y=purchasing power index, tamaño=número de empleados por país

### 2. ESTRATEGIA DE TALENTO Y MODALIDADES DE TRABAJO
#### _"¿Cómo estructuro mi equipo en el nuevo paradigma laboral?"_

Análisis clave:

* 2.1 Distribución de remote_ratio por nivel de experiencia y rol
* 2.2 Correlación entre modalidad de trabajo y rangos salariales
* 2.3 Patrones de employment_type (FT vs CT vs FL) por especialización
* 2.4 Mapeo de disponibilidad de talento por país (employee_residence vs company_location)

**Valor esperado**: Optimizar políticas de trabajo remoto, identificar pools de talento global y estructurar modelos de contratación híbridos.

#### Graficos esperados

* 2.1 Para distribución de remote_ratio:
    - Stacked bar chart mostrando remote_ratio (0, 50, 100) por experience_level y roles de ML/AI
    - Treemap visualizando proporción de remote workers por job_title en roles técnicos

* 2.2 Para correlación modalidad-salario:
    - Scatter plot con regresión de remote_ratio vs salary_in_usd, coloreado por experience_level
    - Box plot comparativo de salary_in_usd por remote_ratio categories

* 2.3 Para patrones de employment_type:
    - Sankey diagram mostrando flujos entre employment_type → job_title → experience_level para roles de datos
    - Heatmap de employment_type vs job_title con valores de salary_in_usd promedio

* 2.4 Para mapeo de talento global:
    - Mapa choropleth mostrando concentración de talento (employee_residence) vs demanda (company_location)
    - Network graph conectando employee_residence con company_location, grosor de líneas = frecuencia

### 3. ANÁLISIS COMPETITIVO Y POSICIONAMIENTO
##### _"¿Dónde me posiciono versus la competencia?"_

Análisis clave:

* 3.1 Premium salarial que pagan empresas grandes vs pequeñas por rol equivalente
* 3.2 Concentración geográfica de empresas tech por tamaño
* 3.3 Roles emergentes y especializaciones mejor pagadas (job_title trends)
* 3.4 Arbitraje geográfico - dónde contratar vs dónde establecer oficinas

**Valor esperado**: Identificar ventajas competitivas, nichos de mercado desatendidos y estrategias de diferenciación salarial.

#### Graficos Esperados

* 3.1 Para premium salarial por tamaño de empresa:
    - Grouped bar chart comparando salary_in_usd promedio por company_size para roles equivalentes
    - Waterfall chart mostrando diferencial salarial desde empresa S → M → L

* 3.2 Para concentración geográfica:
    - Bubble map donde ubicación geográfica muestra company_location, tamaño de burbuja = company_size, color = salary_in_usd promedio
    - Cluster analysis visualization agrupando países por patrones similares de company_size y salarios

* 3.3 Para roles emergentes:
    - Word cloud ponderado de job_titles por growth rate en salary_in_usd 2020-2025
    - Slope graph mostrando evolución salarial de top 20 job_titles entre 2020 y 2025

* 3.4 Para arbitraje geográfico:
    - Matrix plot comparando employee_residence vs company_location con color intensity = salary differential
    - Dual-axis chart mostrando cost of living vs average salary por país objetivo

### 4. OPORTUNIDADES OCULTAS Y INSIGHTS ESTRATÉGICOS
##### _"¿Qué no está viendo mi competencia?"_

Análisis clave:

* 4.1 Roles con mayor crecimiento salarial year-over-year (posibles burbujas o escasez)
* 4.2 Países con talento subvalorado (bajo salary_in_usd vs calidad)
* 4.3 Gaps entre currency local vs USD (oportunidades de arbitraje)
* 4.4 Patrones atípicos: roles senior en empresas pequeñas, tendencias contra-intuitivas

**Valor esperado**: Identificar mercados blue ocean, estrategias de timing para contrataciones y oportunidades de first-mover advantage.

### Graficos Esperados
* 4.1 Para roles con mayor crecimiento salarial:
    - Slope chart destacando job_titles con mayor CAGR en salary_in_usd 2020-2025
    - Bubble chart animado (timeline) mostrando evolución de salary_in_usd por job_title a través de los años

* 4.2 Para países con talento subvalorado:
    - Scatter plot donde X=skill level proxy, Y=salary_in_usd, identificando outliers por debajo de la tendencia
    - Radar chart comparando países en múltiples dimensiones: talento disponible, costo, timezone compatibility

* 4.3 Para gaps de currency arbitrage:
    - Dual-axis line chart comparando salary en currency local vs salary_in_usd por país y año
    - Heatmap temporal mostrando currency exchange opportunities por país y work_year

* 4.4 Para patrones atípicos:
    - Anomaly detection scatter plot identificando combinaciones inusuales de experience_level + company_size + salary_in_usd
    - Box plot con outliers destacados para identificar casos excepcionales de alto valor
'''

Quiero que me ayudes a realizar esta tarea teniendo un enfoque de CEO de una startup que se dedica al desarrollo de software enfocado en los datos (ML, GenAI, APA - Agentic Process Automation, RPA y BI).
Quiero que me des el paso a paso de como realizar los dashboards pero en Looker Studio. Ya subi mi CSV y se llama tech_salaries.
Tienes que tomar en cuenta que estoy usando la ultima version de Looker Studio que hay en la web, quiero que me des el paso a paso de como construir mi dashboard, es decir, que me digas si tengo que agregar cuadros de texto, cual es el texto, la fuente, el tamaño, el color, si es algun grafico, como se llama el grafico, que dimensiones, que metricas, que filtros, etc., Sé lo más especifico posible con las instrucciones. Todos los textos del dashboard tienen que ser en ingles, pero las instrucciones damelas en español.
Las opciones que tengo en looker studio para editar la configuracion de mi grafico son:
- Fuente de datos
- Dimensión
- Desglosar información (On-Off button)
- Metrica
- Controles deslizantes de métricas (On-Off button)
- Filtrar
- filtros de este grafico
- Dimension de Periodo
- Ordenar (Ascendente | Descendente)
- Graficos interactivos
- Multifiltro
- Cambiar orden
- Zoom