# Salarios Data Analyst en USA

&nbsp;

In [1]:
import pandas as pd
import numpy as np

### ¿Cómo se distribuyen los salarios de Data Analyst?

In [2]:
# tomado de https://www.kaggle.com/datasets/hummaamqaasim/jobs-in-data/data

df = pd.read_csv('Data_Analyst_USA_Salary.csv')
df

Unnamed: 0,work_year,job_title,job_category,salary_in_usd,experience_level,work_setting,company_location,company_size
0,2023,Data Analyst,Data Analysis,95000,Entry-level,In-person,United States,M
1,2023,Data Analyst,Data Analysis,75000,Entry-level,In-person,United States,M
2,2023,Data Analyst,Data Analysis,155000,Mid-level,In-person,United States,M
3,2023,Data Analyst,Data Analysis,110000,Mid-level,In-person,United States,M
4,2023,Data Analyst,Data Analysis,176000,Senior,In-person,United States,M
...,...,...,...,...,...,...,...,...
1230,2020,Lead Data Analyst,Data Analysis,87000,Mid-level,Remote,United States,L
1231,2020,Data Analyst,Data Analysis,85000,Mid-level,Remote,United States,L
1232,2020,BI Data Analyst,Data Analysis,98000,Mid-level,In-person,United States,M
1233,2021,Data Analyst,Data Analysis,75000,Mid-level,In-person,United States,L


In [3]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1235 entries, 0 to 1234
Data columns (total 8 columns):
 #   Column            Non-Null Count  Dtype 
---  ------            --------------  ----- 
 0   work_year         1235 non-null   int64 
 1   job_title         1235 non-null   object
 2   job_category      1235 non-null   object
 3   salary_in_usd     1235 non-null   int64 
 4   experience_level  1235 non-null   object
 5   work_setting      1235 non-null   object
 6   company_location  1235 non-null   object
 7   company_size      1235 non-null   object
dtypes: int64(2), object(6)
memory usage: 77.3+ KB


In [None]:
#Tenemos un total de 1235 filas y 8 columnas
#Nuestros datos no presentan datos nulos

In [8]:
df.describe()

Unnamed: 0,work_year,salary_in_usd
count,1235.0,1235.0
mean,2022.764372,114176.11417
std,0.490123,39594.954162
min,2020.0,36000.0
25%,2023.0,85000.0
50%,2023.0,110000.0
75%,2023.0,138900.0
max,2023.0,385000.0


In [9]:
#Nuestros datos comienzan en el año 2020 hasta 2023
#El salario promedio es de 114176.11
#El salario mínimo es de 36000 y el máximo 385000

In [10]:
#Columnas de nuestros datos
df.columns

Index(['work_year', 'job_title', 'job_category', 'salary_in_usd',
       'experience_level', 'work_setting', 'company_location', 'company_size'],
      dtype='object')

In [21]:
#Vamos a agrupar nuestros datos por año y calcular la media para nuestras variables numéricas,
#obteniendo el salario medio por año

df.groupby(['work_year']).mean(numeric_only = True)

Unnamed: 0_level_0,salary_in_usd
work_year,Unnamed: 1_level_1
2020,94714.285714
2021,101562.5
2022,115707.134454
2023,114149.079055


In [13]:
#El salario medio para Data Analyst en USA ha aumentado cada año hasta 2022 y en 2023 ha disminuido un poco

In [20]:
#Volvemos a agrupar los datos por año,
#calculamos el salario medio y vamos a contar el numero de registros que se han utilizado para hacer la media,
#para ver si esta media es o no significativa

df.groupby(['work_year']).agg({'salary_in_usd': 'mean' , 'work_setting': 'count'})

Unnamed: 0_level_0,salary_in_usd,work_setting
work_year,Unnamed: 1_level_1,Unnamed: 2_level_1
2020,94714.285714,7
2021,101562.5,16
2022,115707.134454,238
2023,114149.079055,974


In [16]:
#Para el año 2020 y 2021 contamos con muy pocos registros, por lo que las medias en estos años no serían signinficativas

In [24]:
#Vamos a agrupas por tipo de trabajo (híbrido, remoto o presencial)
#calculamos el salario medio y su desviacion estándar, y contamos el número de registros por tipo de trabajo

df.groupby(['work_setting']).agg({'salary_in_usd': ('mean', 'std'), 'work_setting': 'count'})

Unnamed: 0_level_0,salary_in_usd,salary_in_usd,work_setting
Unnamed: 0_level_1,mean,std,count
work_setting,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2
Hybrid,70562.5,25949.728185,8
In-person,116310.910581,41269.360604,671
Remote,112227.302158,37208.895239,556


In [23]:
#No tenemos suficientes observaciones para el tipo de trabajo híbrido
#El salario medio es mayor en el trabajo presencial, aunque su desviación estándar es algo mayor, 
#es decir, la variabilidad de los salarios es mayor 

In [22]:
#Vamos a agrupar nuestros datos tanto por año como por tipo de trabajo
#Calculamos el salario medio y contamos los registros

df.groupby(['work_year','work_setting']).agg({'salary_in_usd': 'mean', 'work_setting': 'count'})

Unnamed: 0_level_0,Unnamed: 1_level_0,salary_in_usd,work_setting
work_year,work_setting,Unnamed: 2_level_1,Unnamed: 3_level_1
2020,In-person,96500.0,2
2020,Remote,94000.0,5
2021,Hybrid,55000.0,1
2021,In-person,68500.0,2
2021,Remote,110230.769231,13
2022,Hybrid,62000.0,4
2022,In-person,121164.243478,115
2022,Remote,112238.739496,119
2023,Hybrid,87166.666667,3
2023,In-person,115544.806159,552


In [25]:
#Tenemos pocas obervaciones para el año 2020, 2021 y para el trabajo híbrido, como hemos visto anteriormente
#Tenemos el mayor numero de registros para trabajos precenciales en el año 2023,
#puede indicar una tendencia de los trabajos a volver a la precencialidad 
#Tanto en el año 2022 como en el 2023, el sueldo medio es más alto en el trabajo presencial 

In [26]:
#Vamos a introducir una nueva columna en nuestros datos 'salary_cuts'
#que categorize los salarios según sean 'low', 'middle' o 'high' mediante la función cut

df['salary_cuts'] = pd.cut(df.salary_in_usd, 3, labels=['low', 'middle', 'high'])

In [27]:
df

Unnamed: 0,work_year,job_title,job_category,salary_in_usd,experience_level,work_setting,company_location,company_size,salary_cuts
0,2023,Data Analyst,Data Analysis,95000,Entry-level,In-person,United States,M,low
1,2023,Data Analyst,Data Analysis,75000,Entry-level,In-person,United States,M,low
2,2023,Data Analyst,Data Analysis,155000,Mid-level,In-person,United States,M,middle
3,2023,Data Analyst,Data Analysis,110000,Mid-level,In-person,United States,M,low
4,2023,Data Analyst,Data Analysis,176000,Senior,In-person,United States,M,middle
...,...,...,...,...,...,...,...,...,...
1230,2020,Lead Data Analyst,Data Analysis,87000,Mid-level,Remote,United States,L,low
1231,2020,Data Analyst,Data Analysis,85000,Mid-level,Remote,United States,L,low
1232,2020,BI Data Analyst,Data Analysis,98000,Mid-level,In-person,United States,M,low
1233,2021,Data Analyst,Data Analysis,75000,Mid-level,In-person,United States,L,low


In [28]:
#Ahora con esta nueva columna vamos a agrupar por tipo de salario y año, y observar como se comportan os salarios

df.groupby(['work_year', 'salary_cuts']).salary_in_usd.describe()

Unnamed: 0_level_0,Unnamed: 1_level_0,count,mean,std,min,25%,50%,75%,max
work_year,salary_cuts,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1
2020,low,7.0,94714.285714,19652.941135,72000.0,86000.0,91000.0,96500.0,135000.0
2021,low,13.0,83461.538462,24387.891069,50000.0,62000.0,80000.0,93000.0,135000.0
2021,middle,3.0,180000.0,17320.508076,170000.0,170000.0,170000.0,185000.0,200000.0
2022,low,204.0,105680.823529,26462.152871,46000.0,90320.0,109000.0,124047.5,150075.0
2022,middle,34.0,175865.0,19611.937034,154560.0,165425.0,169000.0,175712.5,236600.0
2023,low,818.0,101196.579462,27134.014567,36000.0,80000.0,100000.0,121700.0,150000.0
2023,middle,153.0,179460.137255,22644.364113,152380.0,163800.0,175000.0,192000.0,250000.0
2023,high,3.0,315000.0,60621.778265,280000.0,280000.0,280000.0,332500.0,385000.0


In [29]:
#Pocas obervaciones para 2020 y 2021

#2022 tenemos sueldos 'low' y 'middle' según nuestra categorización, con un mayor número de registros en 'low'

#El sueldo medio en 2022 para 'low' es 1058680 y para 'middle' 175865

#En el 2023 los salarios más bajos tienen un promedio de 101196.58 y los más altos de 315000.00

#En el 2023 el sueldo más bajo es 36000 y el más alto 385000

#Aunque para sueldos 'high' solo tenemos 3 observaciones y además presentan la mayor variabilidad

#El sueldo medio en el 2023 para 'middle' es 179460



# Conclusiones:


**Tenemos un total de 1235 filas y 8 columnas, no hay precencia de datos nulos**

**Tenemos datos del año 2020 al 2023**

**El salario mínimo es de 36000 y el máximo 385000**

**El salario promedio es de 114176.11**

**Tenemos pocas observaciones para el año 2020 y 2021, y para el tipo de trabajo híbrido**

**En el año 2022 tenemos sueldos 'low' y 'middle' según nuestra categorización, con un mayor número de registros en 'low'. El sueldo medio en 2022 para 'low' es 1058680 y para 'middle' 175865**

**En el 2023 los salarios más bajos tienen un promedio de 101196.58 y los más altos de 315000.00. El sueldo más bajo es 36000 y el más alto 385000. Aunque para sueldos 'high' solo tenemos 3 observaciones y además presentan la mayor variabilidad.
El sueldo medio en el 2023 para 'middle' es 179460.**


