In [1]:
import pandas as pd
import numpy as np

# Bokeh es la biblioteca que usaremos para las gráficas
from bokeh.plotting import figure, show
from bokeh.io import output_notebook
from bokeh.models import ColumnDataSource, HoverTool, NumeralTickFormatter, DataTable, TableColumn, NumberFormatter
from bokeh.palettes import Dark2, YlGn9

# output_notebook() activa el despliegue de gráficas en un notebook.
output_notebook()

In [2]:
df = pd.read_csv("answers.csv", index_col=0)
# El salario de las personas de Mx se guarda en la columna salarymx y está en pesos.
# En la mayoría de los casos solo vamos a tomar en cuenta los datos de personas en Mx con salario en pesos.
df = df[(df['country'] == 'México')]
df.count()

ip_address         2402
created            2402
recaptcha_score      19
salarymx           2402
salaryusd          2402
                   ... 
ben_healthminor     606
ben_lifeins         939
ben_cafeteria       409
ben_cellphone       328
ben_vouchers        803
Length: 158, dtype: int64

## Experiencia

In [3]:
df['exp_bin'] = pd.cut(df['experience'],bins=[-0.1,2,4,6,8,10,14,20,40])

exp = df.groupby('exp_bin')['salarymx'].agg(['count', 'median','mean', 'std'])
exp['std'] = round(exp['std']).astype(int)
# Groupby deja exp_bin como un índice, lo necesitamos como una columna normal así que damos reset_index.
exp = exp.reset_index()
exp.head(10)

Unnamed: 0,exp_bin,count,median,mean,std
0,"(-0.1, 2.0]",351,15000,18070.897436,15500
1,"(2.0, 4.0]",315,26000,30120.304762,19300
2,"(4.0, 6.0]",300,35000,38359.263333,24546
3,"(6.0, 8.0]",272,39000,42736.786765,23060
4,"(8.0, 10.0]",285,40800,48513.852632,31897
5,"(10.0, 14.0]",299,45000,52238.822742,29779
6,"(14.0, 20.0]",326,48000,53585.766871,33543
7,"(20.0, 40.0]",254,45000,53871.629921,34076


In [4]:

# Los valores en exp_bin son intervalos pero para la gráfica necesitamos que sean strings/categoricas.
exp_labels = ['0-2', '3-4', '5-6', '7-8', '9-10', '11-14', '15-20', '20+']
exp['exp_bin'] = exp_labels

# Tomo la paleta YlGn9 que tiene 9 colores y uso los primeros 8. No uso YlGn8 porque el último tono es muy claro.
exp['color'] = YlGn9[0:8]

src = ColumnDataSource(exp)
p = figure(x_range=exp_labels, plot_height=400, plot_width=700)
p.vbar(source=src, x='exp_bin', top='median', width=0.95, color='color')
p.title.text = 'Salario medio de acuerdo a a la experiencia'
p.xaxis.axis_label = 'Experiencia (años)'
p.yaxis.axis_label = 'Salario bruto mensual (MXN)'
p.yaxis.formatter = NumeralTickFormatter(format='$0 a')

hover = HoverTool()
hover.tooltips=[
    ('Experiencia', '@exp_bin años'),
    ('Observaciones', '@count'),
    ('Salario medio', '@median{$0,0}'),
]
p.add_tools(hover)

show(p)

## Comparación por género

In [5]:
# Agrupamos por experiencia y género. Llenamos con 0 los grupos sin valores.
gender = df.groupby(['exp_bin', 'gender'])['salarymx'].agg(['median','count']).fillna(0)
gender.head(25)

Unnamed: 0_level_0,Unnamed: 1_level_0,median,count
exp_bin,gender,Unnamed: 2_level_1,Unnamed: 3_level_1
"(-0.1, 2.0]",hombre,15000.0,264.0
"(-0.1, 2.0]",mujer,15000.0,85.0
"(-0.1, 2.0]",nb,10500.5,2.0
"(2.0, 4.0]",hombre,28000.0,235.0
"(2.0, 4.0]",mujer,22500.0,77.0
"(2.0, 4.0]",nb,60000.0,3.0
"(4.0, 6.0]",hombre,37000.0,236.0
"(4.0, 6.0]",mujer,23500.0,64.0
"(4.0, 6.0]",nb,0.0,0.0
"(6.0, 8.0]",hombre,41000.0,223.0


In [6]:
# El dataframe que arroja el groupby no se presta a graficar, así que lo reacomodamos en uno nuevo.
# El número de observaciones de género no binario es muy bajo y no arroja datos robustos así que lo omitiré.
data = {
    'exp': exp_labels,
    'hombre_salary' : list(gender.xs('hombre',level=1)['median']),
    'hombre_count' : list(gender.xs('hombre',level=1)['count']),
    'mujer_salary' : list(gender.xs('mujer',level=1)['median']),
    'mujer_count' : list(gender.xs('mujer',level=1)['count'])
}
genderdf = pd.DataFrame(data)
genderdf.head(10)

Unnamed: 0,exp,hombre_salary,hombre_count,mujer_salary,mujer_count
0,0-2,15000.0,264.0,15000.0,85.0
1,3-4,28000.0,235.0,22500.0,77.0
2,5-6,37000.0,236.0,23500.0,64.0
3,7-8,41000.0,223.0,35000.0,48.0
4,9-10,45000.0,222.0,35000.0,63.0
5,11-14,50000.0,234.0,36000.0,63.0
6,15-20,50000.0,278.0,41000.0,48.0
7,20+,48000.0,210.0,37750.0,44.0


In [7]:
# Teniendo esta estructura más amigable procedamos a generar lineas con sus tooltips.
src = ColumnDataSource(genderdf)
p = figure(x_range=exp_labels, plot_height=400)

renderer = p.line(x='exp',y='hombre_salary', source=src, color ='#1f77b4', line_width=2, legend_label='hombre')
p.add_tools(HoverTool(
            renderers=[renderer],
            tooltips=[
                ('Género', 'Hombre'),
                ('Experiencia', '@exp años'),
                ('Observaciones', '@hombre_count'),
                ('Salario', '@hombre_salary{$0,0}')
            ]
        ))

renderer = p.line(x='exp',y='mujer_salary', source=src, color ='#e617e6', line_width=2, legend_label='mujer')
p.add_tools(HoverTool(
            renderers=[renderer],
            tooltips=[
                ('Género', 'Mujer'),
                ('Experiencia', '@exp años'),
                ('Observaciones', '@mujer_count'),
                ('Salario', '@mujer_salary{$0,0}')
            ]
        ))


p.title.text = 'Comparativo por género'
p.xaxis.axis_label = 'Experiencia (años)'
p.yaxis.axis_label = 'Salario bruto mensual (MXN)'
p.yaxis.formatter = NumeralTickFormatter(format='$0 a')
p.legend.location = "bottom_right"

show(p)


In [8]:
gx = pd.crosstab(index=df['city'], columns=df['gender'])
gx = gx[(gx['hombre'])>9]
gx

gender,hombre,mujer,nb
city,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Aguascalientes,31,6,0
CDMX,736,216,3
Cancún,22,5,0
Chihuahua,20,5,0
Colima,37,10,0
Cuernavaca,15,2,0
Culiacán,18,0,0
Estado de México,26,8,0
Guadalajara,212,55,3
Hermosillo,69,11,0


## Inglés

In [9]:
ingles = df.groupby("english_label")["salarymx"].agg(['count', 'median', 'mean', 'std']).sort_values(by=['median'], ascending=False)
ingles.head(20)

Unnamed: 0_level_0,count,median,mean,std
english_label,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
Nativo o bilingue (ILR 5),88,58000,67191.704545,45859.167973
Avanzado: Puedo conversar y escribir sin problemas sobre cualquier tema (ILR 4),502,50500,58910.219124,36313.649121
Profesional: Puedo interactuar profesionalmente con colegas y clientes (ILR 3),750,40000,43433.312,24828.150472
Limitado: Me doy a entender pero con errores de gramática (ILR 2),725,27500,31038.217931,21613.553963
Elemental: Sé lo básico para sobrevivir (ILR 1),321,24000,27069.28972,17360.437209
Ninguno (ILR 0),16,15900,19277.625,13239.433653


In [10]:
ingles = df.groupby(['english_num','exp_bin'])['salarymx'].agg(['median', 'count']).fillna(0)
data = {
    'exp': exp_labels,
    'Elemental': list(ingles.xs(1)['median']),
    'Limitado' : list(ingles.xs(2)['median']),
    'Profesional' : list(ingles.xs(3)['median']),
    'Avanzado' : list(ingles.xs(4)['median']),
    'Nativo' : list(ingles.xs(5)['median'])    
}

inglesdf = pd.DataFrame(data)

src = ColumnDataSource(inglesdf)

p = figure(x_range=exp_labels, plot_height=400, plot_width=600)

for col_name, color in zip(list(inglesdf.columns), Dark2[6]):
    if col_name == 'exp':
        continue

    p.add_tools(HoverTool(
        renderers= [p.line('exp', col_name, source=src, color=color, legend_label=col_name, line_width=2)],
        tooltips=[
            ('Ingles', col_name),
            ('Salario', '@'+col_name+'{$0,0}')
        ]
    ))

p.title.text = 'Salario de acuerdo al nivel de inglés'
p.xaxis.axis_label = 'Experiencia (años)'
p.yaxis.axis_label = 'Salario'
p.yaxis.formatter = NumeralTickFormatter(format='$0 a')
p.legend.location = "top_left"

    
show(p)


## Agrupación por ciudad y país

In [11]:
# Solo tomamos en cuenta a las personas con perfil de empleado (no freelancers, directivos ni emprendedores)
# Incluimos la experiencia como variable observada para obtener el promedio de experiencia por ciudad
cities = df[(df["profile"] == "godin")].groupby("city")['salarymx', 'experience'].agg(['count', 'median', 'mean', 'std'])
cities = cities.reset_index()

# El group by de múltiples columnas observadas con múltiples funciones agregadas nos genera que los nombre son tuplas
# así que hacemos este map para renombrar las columnas.
cities.columns = cities.columns.map('_'.join)

cities = cities[(cities["salarymx_count"]> 10)]
cities = cities[(cities["salarymx_median"]> 0)]
cities = cities.sort_values(by=['salarymx_median'], ascending=False)
src = ColumnDataSource(cities)
columns = [
        TableColumn(field="city_", title="Ciudad"),
        TableColumn(field="salarymx_count", title="n"),
        TableColumn(field="salarymx_median", title="Mediana", formatter=NumberFormatter(format='$0,0')),
        TableColumn(field="salarymx_mean", title="Media", formatter=NumberFormatter(format='$0,0')),
        TableColumn(field="salarymx_std", title="Des std", formatter=NumberFormatter(format='$0,0')),
        TableColumn(field="experience_mean", title="Experiencia promedio", formatter=NumberFormatter(format='0')),
    ]
table = DataTable(source=src,columns=columns,index_position=None, width=400)
show(table)

Hagamos el breakdown por país. Para ello nos basamos en la columna salaryusd.

In [12]:
# Volvemos a leer del csv para incluir datos de otros países
df2 = pd.read_csv("answers.csv", index_col=0)
df2['salaryusd'] = np.where((df2.salaryusd == 0),round(df2.salarymx/19,0).astype(int), df2.salaryusd)
countries = df2.groupby("country")["salaryusd"].agg(['count', 'median', 'mean', 'std'])
countries = countries.reset_index()
countries = countries.sort_values(by=['median'], ascending=False)
countries.head(30)

Unnamed: 0,country,count,median,mean,std
11,Estados Unidos,46,10316.5,11400.434783,4634.058939
4,Canada,2,9250.0,9250.0,3889.087297
0,Alemania,2,6075.0,6075.0,813.172798
23,Suecia,1,5788.0,5788.0,
17,Panamá,1,5000.0,5000.0,
20,Puerto Rico,1,4000.0,4000.0,
12,Francia,2,3450.0,3450.0,1202.081528
5,Chile,5,3030.0,3066.0,715.737382
3,Brasil,1,3000.0,3000.0,
21,Reino Unido,1,3000.0,3000.0,


## Lenguajes

El dilema con los lenguajes es que cada participante puede escoger varios lenguajes (máximo 3) que utiliza. Así que no podemos tener una única variable categórica para lenguaje, sino que tenemos una variable booleana (Y/N) por cada una de las opciones de lenguaje. Si tuvieramos una única variable, simplemente podríamos hacer un groupby y listo, pero al no tenerla, tenemos que "armar" nuestro dataframe.

Vamos a generar una lista donde cada elemento es a su vez una lista con la info de cada lenguaje (nombre del lenguaje, número de observaciones y salario medio). A partir de esa lista de listas generamos un dataframe y continuamos como de costumbre.

In [13]:
# Inicializamos nuestra lista maestra
lang_list = []
# Leemos la lista de lenguajes a partir de un catálogo.
import csv
with open("lang_options.csv") as csvfile:
    reader = csv.DictReader(csvfile)
    for row in reader:
        lang_key = "lang_"+row['key']
        # Creamos una lista con el nombre del lenguaje, su num. de observaciones y salario medio, y agregamos dicha lista a nuestra lista maestra.
        lang_list.append([row['name'], df[(df[lang_key]=="Y")]["salarymx"].count(), df[(df[lang_key]=="Y")]["salarymx"].median(), df[(df[lang_key]=="Y")]["salarymx"].mean(), df[(df[lang_key]=="Y")]["salarymx"].std(), df[(df[lang_key]=="Y")]["experience"].mean()])

# Una vez que tenemos la lista maestra completa, creamos un dataframe indicando el nombre de las columnas.
langdf = pd.DataFrame(lang_list, columns = ['lenguaje', 'n', 'mediana','media', 'std', 'exp'])
# Agregamos una columna de popularidad que se calcule en base a un valor amortiguado del número de observaciones.        
langdf['popularidad'] = round(np.sqrt(langdf['n']/2)*2)
langdf.sort_values(by=['mediana'], ascending=False).head(40)

Unnamed: 0,lenguaje,n,mediana,media,std,exp,popularidad
20,Rust,6,67000.0,69500.0,48710.368506,12.166667,3.0
8,Go,37,45000.0,58803.0,39368.627672,9.189189,9.0
19,Ruby,105,44000.0,50258.647619,33871.864908,7.209524,14.0
6,Elixir,26,43500.0,50275.307692,34119.548568,8.0,7.0
9,Groovy,21,43000.0,59277.52381,47605.976187,9.333333,6.0
14,Perl,11,43000.0,42572.727273,14969.575205,12.0,5.0
0,Bash,105,42000.0,48239.819048,26910.526302,9.32381,14.0
18,R,10,40000.0,42750.0,19378.180742,8.4,4.0
7,Ensamblador,1,40000.0,40000.0,,8.0,1.0
17,Python,211,37000.0,43586.146919,29870.05246,8.43128,21.0


In [27]:
from bokeh.models import LabelSet
from bokeh.models import Range1d

src = ColumnDataSource(langdf)
p = figure()
# Ponemos los circulos invisibles pero con tamaño para que sirvan los tooltips en hover.
p.circle(source=src, y='popularidad', x='mediana', line_color=None, fill_color=None, size=20)
p.yaxis.axis_label = 'Popularidad'

# La escala de popularidad tiene unidades arbitrarias así que prefiero evitar que se despliegue.
p.yaxis.major_label_text_font_size = '0pt'

p.xaxis.axis_label = 'Salario bruto mensual (MXN)'
p.xaxis.formatter = NumeralTickFormatter(format='$0 a')    
p.x_range = Range1d(10000, 70000)

labels = LabelSet(source=src, x='mediana', y='popularidad', text='lenguaje', level='glyph',
              x_offset=-10, y_offset=-5, render_mode='canvas', text_font_size="9pt", text_color='#1f77b4')
p.add_layout(labels)

hover = HoverTool()
hover.tooltips=[
    ('Lenguaje', '@lenguaje'),
    ('Observaciones', '@count'),
    ('Salario medio', '@salario{$0,0}'),
]

p.add_tools(hover)

show(p)

## Front end

In [15]:
# Inicializamos nuestra lista maestra
item_list = []
# Leemos la lista de opciones a partir de un catálogo.
import csv
with open("front_options.csv") as csvfile:
    reader = csv.DictReader(csvfile)
    for row in reader:
        item_key = "front_"+row['key']
        # Por cada elemento en la lista agregamos un renglon con el nombre de la categoria y estadisticas agregadas.
        item_list.append([row['name'], df[(df[item_key]=="Y")]["salarymx"].count(), df[(df[item_key]=="Y")]["salarymx"].median(), df[(df[item_key]=="Y")]["salarymx"].mean(), df[(df[item_key]=="Y")]["salarymx"].std(), df[(df[item_key]=="Y")]["experience"].mean()])

# Una vez que tenemos la lista maestra completa, creamos un dataframe indicando el nombre de las columnas.
itemdf = pd.DataFrame(item_list, columns = ['Tecnologia front', 'n', 'mediana','media', 'std', 'exp'])
# Agregamos una columna de popularidad que se calcule en base a un valor amortiguado del número de observaciones.        
itemdf.sort_values(by=['mediana'], ascending=False).head(30)

Unnamed: 0,Tecnologia front,n,mediana,media,std,exp
4,React,326,35350.0,42899.622699,29758.847516,6.51227
7,Xamarin,35,35000.0,39229.2,23309.012547,10.371429
8,Electron,16,34710.0,49982.5,37109.622741,7.75
0,Angular,343,30000.0,34817.338192,23317.151742,7.379009
6,Vue,145,29000.0,36476.006897,29075.743034,6.841379
9,Flutter,32,25500.0,28828.125,22246.771921,5.9375
3,NativeScript,47,24000.0,28110.638298,17819.886718,6.446809
1,Cordova / PhoneGap,26,22500.0,32447.769231,25082.689517,7.461538
2,Ionic,48,22250.0,27564.895833,18383.998992,6.5
5,Unity,16,21500.0,28656.25,28701.172305,7.5625


## Certificaciones

In [16]:
# Inicializamos nuestra lista maestra
item_list = []
# Leemos la lista de opciones a partir de un catálogo.
import csv
with open("cert_options.csv") as csvfile:
    reader = csv.DictReader(csvfile)
    for row in reader:
        item_key = "cert_"+row['key']
        # Por cada elemento en la lista agregamos un renglon con el nombre de la categoria y estadisticas agregadas.
        item_list.append([row['name'], df[(df[item_key]=="Y")]["salarymx"].count(), df[(df[item_key]=="Y")]["salarymx"].median(), df[(df[item_key]=="Y")]["salarymx"].mean(), df[(df[item_key]=="Y")]["salarymx"].std(), df[(df[item_key]=="Y")]["experience"].mean()])

# Una vez que tenemos la lista maestra completa, creamos un dataframe indicando el nombre de las columnas.
itemdf = pd.DataFrame(item_list, columns = ['Certificacion', 'n', 'mediana','media', 'std', 'exp'])
# Agregamos una columna de popularidad que se calcule en base a un valor amortiguado del número de observaciones.        
itemdf.sort_values(by=['mediana'], ascending=False).head(30)

Unnamed: 0,Certificacion,n,mediana,media,std,exp
6,"Enterprise Architect (SEI, IASA, Togaf, Zachman)",21,72000.0,81047.619048,39258.726661,17.0
2,AWS Solution Architect,34,70000.0,75602.941176,42815.633546,12.823529
22,Six Sigma,53,50000.0,52024.528302,29022.225606,15.320755
20,SAP (cualquier módulo),39,50000.0,56388.358974,38914.171019,16.076923
19,PMP,94,50000.0,57894.212766,32082.302775,18.712766
9,Google Cloud Architect,14,49000.0,49039.857143,28937.193426,10.928571
12,ITIL Practitioner,81,48000.0,54618.493827,32007.934464,17.777778
3,Business Analyst (CCBA o CBAP),18,47500.0,55833.333333,41781.293309,16.055556
13,ITIL Intermediate,64,46500.0,53585.78125,36128.824433,18.53125
17,Microsoft Expert,52,45500.0,52808.807692,36342.624068,15.192308


## Infraestructura

In [17]:
# Inicializamos nuestra lista maestra
item_list = []
# Leemos la lista de opciones a partir de un catálogo.
import csv
with open("infra_options.csv") as csvfile:
    reader = csv.DictReader(csvfile)
    for row in reader:
        item_key = "infra_"+row['key']
        # Por cada elemento en la lista agregamos un renglon con el nombre de la categoria y estadisticas agregadas.
        item_list.append([row['name'], df[(df[item_key]=="Y")]["salarymx"].count(), df[(df[item_key]=="Y")]["salarymx"].median(), df[(df[item_key]=="Y")]["salarymx"].mean(), df[(df[item_key]=="Y")]["salarymx"].std(), df[(df[item_key]=="Y")]["experience"].mean()])

# Una vez que tenemos la lista maestra completa, creamos un dataframe indicando el nombre de las columnas.
itemdf = pd.DataFrame(item_list, columns = ['Infra', 'n', 'mediana','media', 'std', 'exp'])
# Agregamos una columna de popularidad que se calcule en base a un valor amortiguado del número de observaciones.        
itemdf.sort_values(by=['mediana'], ascending=False).head(30)

Unnamed: 0,Infra,n,mediana,media,std,exp
7,OpenShift,11,65000.0,57637.181818,24150.192698,9.090909
4,Puppet,5,60000.0,61900.0,27396.167615,8.4
5,Terraform,35,60000.0,65917.942857,35562.132502,8.657143
2,Kubernetes,60,55000.0,60364.0,32829.917104,9.333333
0,Docker,111,46000.0,52996.261261,32271.840006,9.252252
1,Ansible,44,45250.0,59109.568182,39202.842224,9.477273
3,Chef,4,45000.0,40225.0,25501.682951,13.25
6,OpenStack,6,42000.0,59661.666667,46932.641271,15.666667
8,VMware vCloud / vCenter,39,34000.0,36061.205128,19422.780806,11.25641


## Actividad

In [18]:
# Inicializamos nuestra lista maestra
master_list = []
# Leemos la lista de lenguajes a partir de un catálogo.
import csv
with open("activity_options.csv") as csvfile:
    reader = csv.DictReader(csvfile)
    for row in reader:
        key = "act_"+row['key']
        master_list.append([row['name'], df[(df[key]=="Y")]["salarymx"].count(), df[(df[key]=="Y")]["salarymx"].median(), df[(df[key]=="Y")]["salarymx"].mean(), df[(df[key]=="Y")]["salarymx"].std()])

# Una vez que tenemos la lista maestra completa, creamos un dataframe indicando el nombre de las columnas.
act_df = pd.DataFrame(master_list, columns = ['actividad', 'n', 'mediana', 'mean', 'std'])
act_df.sort_values(by=['mediana'], ascending=False).head(30)

Unnamed: 0,actividad,n,mediana,mean,std
10,Dirección / Estrategia,210,60000.0,68028.914286,40792.292204
17,Preventa / Tech sales,66,50000.0,56159.106061,32588.217132
21,Venta y desarrollo de negocios,56,48000.0,51966.071429,36382.84949
9,Consultoría de negocio,142,46750.0,50577.816901,33817.793317
2,Arquitectura y diseño de sistemas,575,45000.0,52033.526957,34330.707181
6,"Gestión de infraestructura (SysOps, DevOps)",182,44500.0,50550.879121,31030.197806
16,Project management / Coordinación,417,43000.0,49180.860911,29988.599794
5,Ciencia de datos,88,40000.0,47409.181818,30992.52191
8,Coaching y mejora de procesos,139,40000.0,46651.42446,28477.990266
4,Capacitación y evangelización,102,40000.0,47282.843137,34811.201771


## Estudios

In [19]:
educacion = df.groupby("education")["salarymx"].agg(['count', 'median', 'mean', 'std']).sort_values(by=['median'], ascending=False)
educacion['mean'] = round(educacion['mean']).astype(int)
educacion

Unnamed: 0_level_0,count,median,mean,std
education,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
maestria,391,45000,52706,34633.119418
posgrado,78,45000,49760,30303.998021
phd,37,43000,48939,27787.803979
prepa,51,40000,46339,36001.893143
tecnica,39,34000,38744,26507.285939
universidad,1235,34000,38399,25150.921816
pasante,567,30000,38564,32393.896334
secundaria,4,20250,24625,22961.157424


## ¿Dónde aprendiste a programar?

In [20]:
edutype = df.groupby("edutype")["salarymx"].agg(['count', 'median', 'mean', 'std']).sort_values(by=['median'], ascending=False)
edutype

Unnamed: 0_level_0,count,median,mean,std
edutype,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
autodidacta,406,40000,49020.029557,36950.450943
escuela,1458,35000,40892.899177,28203.706754
trabajo,333,35000,38970.726727,24975.990225
online,164,25500,35961.859756,29991.702819
bootcamp,41,24800,28346.341463,12621.986721


Vemos que cursos online y bootcamps aparecen con los salarios más bajos. Pero eso puede ser engañoso, porque son opciones relativamente recientes y por lo tanto la gente que aprendió de esta manera no tiene tanta experiencia (que junto con el nivel de inglés es el factor que más influye en el salario). Así que ahora tomemos en cuenta solamente a los que tienen 5 años o menos de experiencia.

In [21]:
edutype = df[(df['experience']<=5)].groupby("edutype")["salarymx"].agg(['count', 'median', 'mean', 'std']).sort_values(by=['median'], ascending=False)
edutype

Unnamed: 0_level_0,count,median,mean,std
edutype,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
autodidacta,113,25000,30971.353982,24468.748406
escuela,485,22000,25693.212371,18508.456976
bootcamp,30,21000,25493.333333,11768.219428
online,93,21000,27643.72043,26866.840438
trabajo,100,20500,24051.28,16940.198984


Podemos ver que las cosas se emparejan mucho más. Incluso podemos decir que donde aprendiste a programar no es un factor significativo para tu salario. En otras palbras, lo que importa es lo que sabes, no como lo aprendiste.

Aprovechando que estamos en esto, vamos a ver si está cambiando la donde aprenden a programar las personas. Para ello, haremos un cruce de donde aprendieron vs años de experiencia.

In [22]:
exp_bin = df.groupby(['edutype','exp_bin'])['salarymx'].agg(['median', 'count']).fillna(0)
edutype_pct = exp_bin.groupby(level=1)['count'].apply(lambda x: x / float(x.sum()))
edutype_pct.head(20)

edutype      exp_bin     
autodidacta  (-0.1, 2.0]     0.125356
             (2.0, 4.0]      0.152381
             (4.0, 6.0]      0.176667
             (6.0, 8.0]      0.191176
             (8.0, 10.0]     0.192982
             (10.0, 14.0]    0.157191
             (14.0, 20.0]    0.205521
             (20.0, 40.0]    0.157480
bootcamp     (-0.1, 2.0]     0.062678
             (2.0, 4.0]      0.015873
             (4.0, 6.0]      0.010000
             (6.0, 8.0]      0.003676
             (8.0, 10.0]     0.003509
             (10.0, 14.0]    0.020067
             (14.0, 20.0]    0.006135
             (20.0, 40.0]    0.003937
escuela      (-0.1, 2.0]     0.572650
             (2.0, 4.0]      0.622222
             (4.0, 6.0]      0.586667
             (6.0, 8.0]      0.599265
Name: count, dtype: float64

In [23]:
data = {
    'exp': exp_labels,
    'escuela' : list(edutype_pct.xs('escuela')),
    'autodidacta': list(edutype_pct.xs('autodidacta')),
    'trabajo' : list(edutype_pct.xs('trabajo')),
    'online' : list(edutype_pct.xs('online')),
    'bootcamp' : list(edutype_pct.xs('bootcamp'))
}

edudf = pd.DataFrame(data)
edudf.sort_index(ascending=False, inplace=True)
edudf.head(20)

Unnamed: 0,exp,escuela,autodidacta,trabajo,online,bootcamp
7,20+,0.665354,0.15748,0.145669,0.027559,0.003937
6,15-20,0.601227,0.205521,0.150307,0.03681,0.006135
5,11-14,0.635452,0.157191,0.157191,0.0301,0.020067
4,9-10,0.585965,0.192982,0.150877,0.066667,0.003509
3,7-8,0.599265,0.191176,0.150735,0.055147,0.003676
2,5-6,0.586667,0.176667,0.14,0.086667,0.01
1,3-4,0.622222,0.152381,0.111111,0.098413,0.015873
0,0-2,0.57265,0.125356,0.111111,0.128205,0.062678


In [24]:


src = ColumnDataSource(edudf)
col_names = src.column_names

p = figure(x_range=exp_labels[::-1], plot_height=400, plot_width=600)

for col_name, color in zip(list(edudf.columns), Dark2[6]):
    if col_name == 'exp':
        continue

    p.add_tools(HoverTool(
        renderers= [p.line('exp', col_name, source=src, color=color, legend_label=col_name)],
        tooltips=[
            ('Formación', f'{col_name}'),
            ('Pct', '@'+col_name+'{0%}')
        ]
    ))

p.title.text = 'Evolución de donde aprendemos a programar'
p.xaxis.axis_label = 'Experiencia (años)'
p.yaxis.axis_label = 'Porcentaje'
p.yaxis.formatter = NumeralTickFormatter(format='0%')    
p.legend.location = (400,120)
    
show(p)


Llama la atención el crecimiento de los cursos online.

## Cliente local vs internacional

In [25]:
table = df.groupby("remote")["salarymx"].agg(['count', 'median', 'mean', 'std']).sort_values(by=['median'], ascending=False)
table.head(20)

Unnamed: 0_level_0,count,median,mean,std
remote,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
Y,745,48000,53198.338255,31230.084212
N,1657,30000,36166.815932,27309.439601


In [26]:
table = df.groupby("orgtype")["salarymx"].agg(['count', 'median', 'mean', 'std']).sort_values(by=['median'], ascending=False)
table.head(20)

Unnamed: 0_level_0,count,median,mean,std
orgtype,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
startup,206,40500,54021.082524,42148.93511
itservices,1160,37500,42074.528448,26798.915442
corp,480,35000,40199.277083,28352.905708
isv,282,35000,43174.801418,32608.376956
freelance,49,25000,40755.102041,41677.597206
gobierno,113,25000,29594.238938,17902.110139
uni,112,22000,25127.535714,16368.716391
