# Proyecto

Primero importamos las librerías que vamos a usar.

In [1]:
import numpy as np
import pandas as pd

A continuación cargamos los datos que vamos a utilizar

In [25]:
df = pd.read_csv(r"data/ds_salaries.csv")

In [6]:
df.head(2)

Unnamed: 0,work_year,experience_level,employment_type,job_title,salary,salary_currency,salary_in_usd,employee_residence,remote_ratio,company_location,company_size
0,2023,SE,FT,Principal Data Scientist,80000,EUR,85847,ES,100,ES,L
1,2023,MI,CT,ML Engineer,30000,USD,30000,US,100,US,S


In [14]:
# Dimensiones del DataFrame:
print(df.shape[0])
print(df.shape[1])

3755
11


In [10]:
# Las columnas de nuestros datos:
df.columns

Index(['work_year', 'experience_level', 'employment_type', 'job_title',
       'salary', 'salary_currency', 'salary_in_usd', 'employee_residence',
       'remote_ratio', 'company_location', 'company_size'],
      dtype='object')

In [15]:
# Tipos de datos:
df.dtypes

work_year              int64
experience_level      object
employment_type       object
job_title             object
salary                 int64
salary_currency       object
salary_in_usd          int64
employee_residence    object
remote_ratio           int64
company_location      object
company_size          object
dtype: object

## Preprocesamiento

In [17]:
# Revisar si hay datos nulos: (Los datos nulos son True, tomados como 1)
df.isnull().sum()

work_year             0
experience_level      0
employment_type       0
job_title             0
salary                0
salary_currency       0
salary_in_usd         0
employee_residence    0
remote_ratio          0
company_location      0
company_size          0
dtype: int64

In [20]:
# Saber si hay valores duplicados
df.duplicated().sum()

np.int64(1171)

In [29]:
# Contar los datos repetidos por coincidencia de índice
repetidos = df.index.duplicated(keep=False).sum()

print(f"Cantidad de datos repetidos por coincidencia de índice: {repetidos}")


Cantidad de datos repetidos por coincidencia de índice: 0


In [27]:
# Filtrar los datos que tienen índices duplicados
datos_duplicados = df[df.index.duplicated(keep=False)]

# Mostrar los datos duplicados
print(datos_duplicados)

Empty DataFrame
Columns: [work_year, experience_level, employment_type, job_title, salary, salary_currency, salary_in_usd, employee_residence, remote_ratio, company_location, company_size]
Index: []


In [33]:
# Verificar filas duplicadas basadas en los valores de todas las columnas (sin considerar el índice)
filas_duplicadas = df[df.duplicated(keep=False)]

# Mostrar las filas duplicadas
print(filas_duplicadas.count())
filas_duplicadas

work_year             1715
experience_level      1715
employment_type       1715
job_title             1715
salary                1715
salary_currency       1715
salary_in_usd         1715
employee_residence    1715
remote_ratio          1715
company_location      1715
company_size          1715
dtype: int64


Unnamed: 0,work_year,experience_level,employment_type,job_title,salary,salary_currency,salary_in_usd,employee_residence,remote_ratio,company_location,company_size
5,2023,SE,FT,Applied Scientist,222200,USD,222200,US,0,US,L
6,2023,SE,FT,Applied Scientist,136000,USD,136000,US,0,US,L
9,2023,SE,FT,Data Scientist,147100,USD,147100,US,0,US,M
10,2023,SE,FT,Data Scientist,90700,USD,90700,US,0,US,M
11,2023,SE,FT,Data Analyst,130000,USD,130000,US,100,US,M
...,...,...,...,...,...,...,...,...,...,...,...
3441,2022,SE,FT,Data Engineer,115000,USD,115000,US,100,US,M
3502,2021,MI,FT,Data Engineer,200000,USD,200000,US,100,US,L
3586,2021,MI,FT,Data Engineer,200000,USD,200000,US,100,US,L
3665,2021,MI,FT,Data Scientist,76760,EUR,90734,DE,50,DE,L


In [39]:
duplicados=pd.DataFrame(df.value_counts())
duplicados[duplicados['count']>1]

Unnamed: 0_level_0,Unnamed: 1_level_0,Unnamed: 2_level_0,Unnamed: 3_level_0,Unnamed: 4_level_0,Unnamed: 5_level_0,Unnamed: 6_level_0,Unnamed: 7_level_0,Unnamed: 8_level_0,Unnamed: 9_level_0,Unnamed: 10_level_0,count
work_year,experience_level,employment_type,job_title,salary,salary_currency,salary_in_usd,employee_residence,remote_ratio,company_location,company_size,Unnamed: 11_level_1
2022,SE,FT,Data Scientist,191475,USD,191475,US,100,US,M,21
2022,SE,FT,Data Scientist,141525,USD,141525,US,100,US,M,21
2023,SE,FT,Data Engineer,129000,USD,129000,US,0,US,M,13
2023,SE,FT,Data Engineer,252000,USD,252000,US,0,US,M,13
2022,SE,FT,Data Scientist,129300,USD,129300,US,0,US,M,12
...,...,...,...,...,...,...,...,...,...,...,...
2023,SE,FT,Research Scientist,169200,USD,169200,ES,0,ES,M,2
2022,SE,FT,Data Analyst,110925,USD,110925,US,100,US,M,2
2022,SE,FT,Data Engineer,195700,USD,195700,US,0,US,M,2
2022,SE,FT,Data Scientist,230000,USD,230000,US,100,US,M,2


In [41]:
df.drop_duplicates(inplace=True)

## Análisis explotarorio de datos EDA

In [42]:
df.head(1)

Unnamed: 0,work_year,experience_level,employment_type,job_title,salary,salary_currency,salary_in_usd,employee_residence,remote_ratio,company_location,company_size
0,2023,SE,FT,Principal Data Scientist,80000,EUR,85847,ES,100,ES,L


Hay que hacerse preguntas sobre los datos. País o compañía donde mejor se cobra? 

¿De qué país son la mayoría de compañías?

In [44]:
# Contar la frecuencia de cada país en la columna 'company_location'
frecuencia_paises = df['company_location'].value_counts()

# Mostrar el país con más compañías
pais_mayoria = frecuencia_paises.idxmax()

# Mostrar la frecuencia del país 'ES'
frecuencia_es = frecuencia_paises.get('ES', 0)  # Si no existe, devolverá 0

print(f"El país con la mayoría de compañías es: {pais_mayoria}")
print(f"Frecuencia de cada país:\n{frecuencia_paises}")
print(f"El número de compañías en España (ES) es: {frecuencia_es}")

El país con la mayoría de compañías es: US
Frecuencia de cada país:
company_location
US    1929
GB     155
CA      83
IN      57
DE      55
      ... 
CN       1
NZ       1
CL       1
MD       1
MT       1
Name: count, Length: 72, dtype: int64
El número de compañías en España (ES) es: 44


¿En qué puesto se gana más?

In [45]:
# Agrupar por 'job_title' y calcular el salario promedio en USD
salarios_por_puesto = df.groupby('job_title')['salary_in_usd'].mean()

# Encontrar el puesto con el salario promedio más alto
puesto_mayor_salario = salarios_por_puesto.idxmax()
salario_maximo = salarios_por_puesto.max()

print(f"El puesto con el salario más alto es: {puesto_mayor_salario}")
print(f"El salario promedio más alto es: {salario_maximo:.2f} USD")

El puesto con el salario más alto es: Data Science Tech Lead
El salario promedio más alto es: 375000.00 USD


In [46]:
# Encontrar el salario más alto en cifras
salario_mas_alto = df['salary_in_usd'].max()

# Calcular el salario promedio por tipo de trabajo
salario_promedio_por_puesto = df.groupby('job_title')['salary_in_usd'].mean()

# Mostrar resultados
print(f"El salario más alto es: {salario_mas_alto:.2f} USD")
print("\nSalario promedio por tipo de trabajo:")
print(salario_promedio_por_puesto)

El salario más alto es: 450000.00 USD

Salario promedio por tipo de trabajo:
job_title
3D Computer Vision Researcher     21352.250000
AI Developer                     136666.090909
AI Programmer                     55000.000000
AI Scientist                     110120.875000
Analytics Engineer               150151.747253
                                     ...      
Research Engineer                165909.393939
Research Scientist               153486.369231
Software Data Engineer            62510.000000
Staff Data Analyst                15000.000000
Staff Data Scientist             105000.000000
Name: salary_in_usd, Length: 93, dtype: float64


¿Cuánto se cobra de media por cada nivel de experiencia?

In [47]:
# Calcular el salario promedio por nivel de experiencia
salario_promedio_por_experiencia = df.groupby('experience_level')['salary_in_usd'].mean()

# Mostrar los resultados
print("Salario promedio por nivel de experiencia:")
print(salario_promedio_por_experiencia)

Salario promedio por nivel de experiencia:
experience_level
EN     72648.685185
EX    191078.208333
MI    101828.783133
SE    153897.435650
Name: salary_in_usd, dtype: float64


¿En qué país se gana más?

In [48]:
# Calcular el salario promedio por país (company_location)
salario_promedio_por_pais = df.groupby('company_location')['salary_in_usd'].mean()

# Encontrar el país con el salario promedio más alto
pais_mayor_salario = salario_promedio_por_pais.idxmax()
salario_maximo_promedio = salario_promedio_por_pais.max()

# Mostrar los resultados
print(f"El país con el salario promedio más alto es: {pais_mayor_salario}")
print(f"El salario promedio más alto es: {salario_maximo_promedio:.2f} USD")

El país con el salario promedio más alto es: IL
El salario promedio más alto es: 271446.50 USD


¿Qué país tiene más compañías grandes?

In [50]:
# Filtrar las compañías grandes (company_size = 'L')
compañias_grandes = df[df['company_size'] == 'L']

# Contar cuántas compañías grandes hay por país (company_location)
conteo_grandes_por_pais = compañias_grandes['company_location'].value_counts()

# Mostrar el país con más compañías grandes
pais_mas_grandes = conteo_grandes_por_pais.idxmax()
numero_companias_grandes = conteo_grandes_por_pais.max()

print(f"El país con más compañías grandes (L) es: {pais_mas_grandes}")
print(f"Cantidad de compañías grandes en ese país: {numero_companias_grandes}")

El país con más compañías grandes (L) es: US
Cantidad de compañías grandes en ese país: 220
