In [1]:
import pandas as pd
import numpy as np

# Bokeh es la biblioteca que usaremos para las gráficas
from bokeh.plotting import figure, show
from bokeh.io import output_notebook
from bokeh.models import ColumnDataSource, HoverTool, NumeralTickFormatter, DataTable, TableColumn, NumberFormatter
from bokeh.palettes import Dark2, YlGn9

# output_notebook() activa el despliegue de gráficas en un notebook.
output_notebook()

In [2]:
df = pd.read_csv("answers.csv", index_col=0)
# El salario de las personas de Mx se guarda en la columna salarymx y está en pesos.
# En la mayoría de los casos solo vamos a tomar en cuenta los datos de personas en Mx con salario en pesos.
df = df[(df['country'] == 'México')]
df.count()

created            1697
recaptcha_score      16
salarymx           1697
salaryusd          1697
extramx            1697
                   ... 
ben_healthminor     413
ben_lifeins         691
ben_cafeteria       279
ben_cellphone       213
ben_vouchers        559
Length: 157, dtype: int64

## Experiencia

In [3]:
df['exp_bin'] = pd.cut(df['experience'],bins=[-0.1,2,4,6,8,10,14,20,40])

exp = df.groupby('exp_bin')['salarymx'].agg(['count', 'median', 'std'])
exp['std'] = round(exp['std']).astype(int)
# Groupby deja exp_bin como un índice, lo necesitamos como una columna normal así que damos reset_index.
exp = exp.reset_index()
exp.head(10)

Unnamed: 0,exp_bin,count,median,std
0,"(-0.1, 2.0]",236,14000,14380
1,"(2.0, 4.0]",226,25000,19855
2,"(4.0, 6.0]",212,35000,24826
3,"(6.0, 8.0]",192,39975,23351
4,"(8.0, 10.0]",205,43000,33570
5,"(10.0, 14.0]",217,45000,31678
6,"(14.0, 20.0]",228,48000,31661
7,"(20.0, 40.0]",181,45000,36014


In [4]:

# Los valores en exp_bin son intervalos pero para la gráfica necesitamos que sean strings/categoricas.
exp_labels = ['0-2', '3-4', '5-6', '7-8', '9-10', '11-14', '15-20', '20+']
exp['exp_bin'] = exp_labels

# Tomo la paleta YlGn9 que tiene 9 colores y uso los primeros 8. No uso YlGn8 porque el último tono es muy claro.
exp['color'] = YlGn9[0:8]

src = ColumnDataSource(exp)
p = figure(x_range=exp_labels, plot_height=400)
p.vbar(source=src, x='exp_bin', top='median', width=0.95, color='color')
p.title.text = 'Salario medio de acuerdo a a la experiencia'
p.xaxis.axis_label = 'Experiencia (años)'
p.yaxis.axis_label = 'Salario bruto mensual (MXN)'
p.yaxis.formatter = NumeralTickFormatter(format='$0 a')

hover = HoverTool()
hover.tooltips=[
    ('Experiencia', '@exp_bin años'),
    ('Observaciones', '@count'),
    ('Salario medio', '@median{$0,0}'),
]
p.add_tools(hover)

show(p)

## Comparación por género

In [5]:
# Agrupamos por experiencia y género. Llenamos con 0 los grupos sin valores.
gender = df.groupby(['exp_bin', 'gender'])['salarymx'].agg(['median','count']).fillna(0)
gender.head(25)

Unnamed: 0_level_0,Unnamed: 1_level_0,median,count
exp_bin,gender,Unnamed: 2_level_1,Unnamed: 3_level_1
"(-0.1, 2.0]",hombre,14000.0,183.0
"(-0.1, 2.0]",mujer,13250.0,50.0
"(-0.1, 2.0]",nb,9999.0,3.0
"(2.0, 4.0]",hombre,26250.0,182.0
"(2.0, 4.0]",mujer,20000.0,40.0
"(2.0, 4.0]",nb,37500.0,4.0
"(4.0, 6.0]",hombre,36000.0,179.0
"(4.0, 6.0]",mujer,25000.0,33.0
"(4.0, 6.0]",nb,0.0,0.0
"(6.0, 8.0]",hombre,40250.0,170.0


In [6]:
# El dataframe que arroja el groupby no se presta a graficar, así que lo reacomodamos en uno nuevo.
# El número de observaciones de género no binario es muy bajo y no arroja datos robustos así que lo omitiré.
data = {
    'exp': exp_labels,
    'hombre_salary' : list(gender.xs('hombre',level=1)['median']),
    'hombre_count' : list(gender.xs('hombre',level=1)['count']),
    'mujer_salary' : list(gender.xs('mujer',level=1)['median']),
    'mujer_count' : list(gender.xs('mujer',level=1)['count'])
}
genderdf = pd.DataFrame(data)
genderdf.head(10)

Unnamed: 0,exp,hombre_salary,hombre_count,mujer_salary,mujer_count
0,0-2,14000.0,183.0,13250.0,50.0
1,3-4,26250.0,182.0,20000.0,40.0
2,5-6,36000.0,179.0,25000.0,33.0
3,7-8,40250.0,170.0,35000.0,21.0
4,9-10,45000.0,168.0,35000.0,36.0
5,11-14,50000.0,184.0,32000.0,31.0
6,15-20,50000.0,205.0,41000.0,22.0
7,20+,45000.0,154.0,40000.0,26.0


In [7]:
# Teniendo esta estructura más amigable procedamos a generar lineas con sus tooltips.
src = ColumnDataSource(genderdf)
p = figure(x_range=exp_labels, plot_height=400)

renderer = p.line(x='exp',y='hombre_salary', source=src, color ='#1f77b4', line_width=2, legend_label='hombre')
p.add_tools(HoverTool(
            renderers=[renderer],
            tooltips=[
                ('Género', 'Hombre'),
                ('Experiencia', '@exp años'),
                ('Observaciones', '@hombre_count'),
                ('Salario', '@hombre_salary{$0,0}')
            ]
        ))

renderer = p.line(x='exp',y='mujer_salary', source=src, color ='#e617e6', line_width=2, legend_label='mujer')
p.add_tools(HoverTool(
            renderers=[renderer],
            tooltips=[
                ('Género', 'Mujer'),
                ('Experiencia', '@exp años'),
                ('Observaciones', '@mujer_count'),
                ('Salario', '@mujer_salary{$0,0}')
            ]
        ))


p.title.text = 'Comparativo por género'
p.xaxis.axis_label = 'Experiencia (años)'
p.yaxis.axis_label = 'Salario bruto mensual (MXN)'
p.yaxis.formatter = NumeralTickFormatter(format='$0 a')
p.legend.location = "bottom_right"

show(p)


## Inglés

In [21]:
ingles = df.groupby("english_label")["salarymx"].agg(['count', 'median', 'std']).sort_values(by=['median'], ascending=False)
ingles

Unnamed: 0_level_0,count,median,std
english_label,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Avanzado: Puedo conversar y escribir sin problemas sobre cualquier tema (ILR 4),351,55000,36643.240159
Nativo o bilingue (ILR 5),71,55000,42813.701301
Profesional: Puedo interactuar profesionalmente con colegas y clientes (ILR 3),535,40000,26284.718158
Limitado: Me doy a entender pero con errores de gramática (ILR 2),510,28000,21276.247939
Elemental: Sé lo básico para sobrevivir (ILR 1),217,25000,17818.360117
Ninguno (ILR 0),13,15000,12884.439303


In [13]:
ingles = df.groupby(['english_num','exp_bin'])['salarymx'].agg(['median', 'count']).fillna(0)
data = {
    'exp': exp_labels,
    'Elemental': list(ingles.xs(1)['median']),
    'Limitado' : list(ingles.xs(2)['median']),
    'Profesional' : list(ingles.xs(3)['median']),
    'Avanzado' : list(ingles.xs(4)['median']),
    'Nativo' : list(ingles.xs(5)['median'])    
}

inglesdf = pd.DataFrame(data)

src = ColumnDataSource(inglesdf)

p = figure(x_range=exp_labels, plot_height=400, plot_width=600)

for col_name, color in zip(list(inglesdf.columns), Dark2[6]):
    if col_name == 'exp':
        continue

    p.add_tools(HoverTool(
        renderers= [p.line('exp', col_name, source=src, color=color, legend_label=col_name, line_width=2)],
        tooltips=[
            ('Ingles', col_name),
            ('Salario', '@'+col_name+'{$0,0}')
        ]
    ))

p.title.text = 'Salario de acuerdo al nivel de inglés'
p.xaxis.axis_label = 'Experiencia (años)'
p.yaxis.axis_label = 'Salario'
p.yaxis.formatter = NumeralTickFormatter(format='$0 a')
p.legend.location = "top_left"

    
show(p)


## Agrupación por ciudad y país

In [22]:
cities = df.groupby("city")["salarymx"].agg(['count', 'median'])
cities = cities.reset_index()
cities = cities[(cities["count"]> 10)]
cities = cities[(cities["median"]> 0)]
cities = cities.sort_values(by=['median'], ascending=False)
cities.head()
src = ColumnDataSource(cities)
columns = [
        TableColumn(field="city", title="Ciudad"),
        TableColumn(field="count", title="n", width=20),
        TableColumn(field="median", title="Salario", formatter=NumberFormatter(format='$0,0'))
    ]
table = DataTable(source=src,columns=columns,index_position=None)
show(table)

Hagamos el breakdown por país. Para ello nos basamos en la columna salaryusd.

In [9]:
# Volvemos a leer del csv para incluir datos de otros países
df2 = pd.read_csv("answers.csv", index_col=0)
df2['salaryusd'] = np.where((df2.salaryusd == 0),round(df2.salarymx/19,0).astype(int), df2.salaryusd)
countries = df2.groupby("country")["salaryusd"].agg(['count', 'median'])
countries = countries.reset_index()
countries = countries[(countries["country"]!= "Otro")]
countries = countries.sort_values(by=['median'], ascending=False)
countries.head(20)

Unnamed: 0,country,count,median
7,Estados Unidos,40,10416.5
1,Canada,2,9250.0
6,España,7,3400.0
2,Chile,5,3030.0
4,Costa Rica,2,2500.0
11,Perú,6,2171.5
9,México,1697,1842.0
5,Ecuador,10,1800.0
8,Guatemala,2,1650.0
3,Colombia,24,1336.5


## Lenguajes

El dilema con los lenguajes es que cada participante puede escoger varios lenguajes (máximo 3) que utiliza. Así que no podemos tener una única variable categórica para lenguaje, sino que tenemos una variable booleana (Y/N) por cada una de las opciones de lenguaje. Si tuvieramos una única variable, simplemente podríamos hacer un groupby y listo, pero al no tenerla, tenemos que "armar" nuestro dataframe.

Vamos a generar una lista donde cada elemento es a su vez una lista con la info de cada lenguaje (nombre del lenguaje, número de observaciones y salario medio). A partir de esa lista de listas generamos un dataframe y continuamos como de costumbre.

In [10]:
# Inicializamos nuestra lista maestra
lang_list = []
# Leemos la lista de lenguajes a partir de un catálogo.
import csv
with open("lang_options.csv") as csvfile:
    reader = csv.DictReader(csvfile)
    for row in reader:
        lang_key = "lang_"+row['key']
        # Creamos una lista con el nombre del lenguaje, su num. de observaciones y salario medio, y agregamos dicha lista a nuestra lista maestra.
        lang_list.append([row['name'], df[(df[lang_key]=="Y")]["salarymx"].count(), df[(df[lang_key]=="Y")]["salarymx"].median()])

# Una vez que tenemos la lista maestra completa, creamos un dataframe indicando el nombre de las columnas.
lang_df = pd.DataFrame(lang_list, columns = ['lenguaje', 'count', 'salario'])
# Agregamos una columna de popularidad que se calcule en base a un valor amortiguado del número de observaciones.        
lang_df['popularidad'] = round(np.sqrt(lang_df['count']/2)*2)
lang_df.sort_values(by=['salario'], ascending=False).head(30)

  result = method(y)


Unnamed: 0,lenguaje,count,salario,popularidad
9,Groovy,15,62000.0,5.0
8,Go,31,52200.0,8.0
20,Rust,6,51500.0,3.0
19,Ruby,77,45000.0,12.0
14,Perl,11,43000.0,5.0
0,Bash,75,40000.0,12.0
18,R,8,40000.0,4.0
17,Python,148,38500.0,17.0
6,Elixir,28,37500.0,7.0
12,Kotlin,30,35000.0,8.0


In [11]:
from bokeh.models import LabelSet
from bokeh.models import Range1d

src = ColumnDataSource(lang_df)
p = figure()
# Ponemos los circulos invisibles pero con tamaño para que sirvan los tooltips en hover.
p.circle(source=src, y='popularidad', x='salario', line_color=None, fill_color=None, size=20)
p.yaxis.axis_label = 'Popularidad'

# La escala de popularidad tiene unidades arbitrarias así que prefiero evitar que se despliegue.
p.yaxis.major_label_text_font_size = '0pt'

p.xaxis.axis_label = 'Salario bruto mensual (MXN)'
p.xaxis.formatter = NumeralTickFormatter(format='$0 a')    
p.x_range = Range1d(10000, 70000)

labels = LabelSet(source=src, x='salario', y='popularidad', text='lenguaje', level='glyph',
              x_offset=-10, y_offset=-5, render_mode='canvas', text_font_size="9pt", text_color='#1f77b4')
p.add_layout(labels)

hover = HoverTool()
hover.tooltips=[
    ('Lenguaje', '@lenguaje'),
    ('Observaciones', '@count'),
    ('Salario medio', '@salario{$0,0}'),
]

p.add_tools(hover)

show(p)

## Actividad

In [14]:
# Inicializamos nuestra lista maestra
master_list = []
# Leemos la lista de lenguajes a partir de un catálogo.
import csv
with open("activity_options.csv") as csvfile:
    reader = csv.DictReader(csvfile)
    for row in reader:
        key = "act_"+row['key']
        master_list.append([row['name'], df[(df[key]=="Y")]["salarymx"].count(), df[(df[key]=="Y")]["salarymx"].median()])

# Una vez que tenemos la lista maestra completa, creamos un dataframe indicando el nombre de las columnas.
act_df = pd.DataFrame(master_list, columns = ['actividad', 'count', 'salario'])
act_df.sort_values(by=['salario'], ascending=False).head(30)

Unnamed: 0,actividad,count,salario
10,Dirección / Estrategia,153,60000.0
9,Consultoría de negocio,101,50000.0
17,Preventa / Tech sales,51,50000.0
21,Venta y desarrollo de negocios,39,50000.0
6,"Gestión de infraestructura (SysOps, DevOps)",133,45000.0
2,Arquitectura y diseño de sistemas,436,45000.0
16,Project management / Coordinación,298,43000.0
7,Ingeniería de datos,72,41500.0
8,Coaching y mejora de procesos,89,41000.0
4,Capacitación y evangelización,71,40000.0


## Estudios

In [15]:
educacion = df.groupby("education")["salarymx"].agg(['count', 'median', 'mean']).sort_values(by=['median'], ascending=False)
educacion['mean'] = round(educacion['mean']).astype(int)
educacion

Unnamed: 0_level_0,count,median,mean
education,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
maestria,265,48000,54913
posgrado,53,45000,51587
phd,24,41000,50156
prepa,32,40000,50291
universidad,879,35000,39311
pasante,418,30000,39238
tecnica,21,22000,34467
secundaria,5,15000,23800


## ¿Dónde aprendiste a programar?

In [16]:
edutype = df.groupby("edutype")["salarymx"].agg(['count', 'median', 'mean']).sort_values(by=['median'], ascending=False)
edutype

Unnamed: 0_level_0,count,median,mean
edutype,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
autodidacta,298,40000,49240.338926
escuela,1029,36000,42287.795918
trabajo,228,35000,39556.938596
online,119,25000,34064.529412
bootcamp,23,22000,27695.652174


Vemos que cursos online y bootcamps aparecen con los salarios más bajos. Pero eso puede ser engañoso, porque son opciones relativamente recientes y por lo tanto la gente que aprendió de esta manera no tiene tanta experiencia (que junto con el nivel de inglés es el factor que más influye en el salario). Así que ahora tomemos en cuenta solamente a los que tienen 5 años o menos de experiencia.

In [17]:
edutype = df[(df['experience']<=5)].groupby("edutype")["salarymx"].agg(['count', 'median', 'mean']).sort_values(by=['median'], ascending=False)
edutype

Unnamed: 0_level_0,count,median,mean
edutype,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
autodidacta,81,25000,33710.740741
escuela,324,21000,25862.854938
online,72,21000,25833.333333
trabajo,73,20000,25241.479452
bootcamp,18,19500,26000.0


Podemos ver que las cosas se emparejan mucho más. Incluso podemos decir que donde aprendiste a programar no es un factor significativo para tu salario. En otras palbras, lo que importa es lo que sabes, no como lo aprendiste.

Aprovechando que estamos en esto, vamos a ver si está cambiando la donde aprenden a programar las personas. Para ello, haremos un cruce de donde aprendieron vs años de experiencia.

In [18]:
exp_bin = df.groupby(['edutype','exp_bin'])['salarymx'].agg(['median', 'count']).fillna(0)
edutype_pct = exp_bin.groupby(level=1)['count'].apply(lambda x: x / float(x.sum()))
edutype_pct.head(20)

edutype      exp_bin     
autodidacta  (-0.1, 2.0]     0.122881
             (2.0, 4.0]      0.154867
             (4.0, 6.0]      0.169811
             (6.0, 8.0]      0.182292
             (8.0, 10.0]     0.209756
             (10.0, 14.0]    0.170507
             (14.0, 20.0]    0.210526
             (20.0, 40.0]    0.193370
bootcamp     (-0.1, 2.0]     0.050847
             (2.0, 4.0]      0.017699
             (4.0, 6.0]      0.009434
             (6.0, 8.0]      0.005208
             (8.0, 10.0]     0.000000
             (10.0, 14.0]    0.018433
             (14.0, 20.0]    0.000000
             (20.0, 40.0]    0.000000
escuela      (-0.1, 2.0]     0.555085
             (2.0, 4.0]      0.601770
             (4.0, 6.0]      0.594340
             (6.0, 8.0]      0.614583
Name: count, dtype: float64

In [19]:
data = {
    'exp': exp_labels,
    'escuela' : list(edutype_pct.xs('escuela')),
    'autodidacta': list(edutype_pct.xs('autodidacta')),
    'trabajo' : list(edutype_pct.xs('trabajo')),
    'online' : list(edutype_pct.xs('online')),
    'bootcamp' : list(edutype_pct.xs('bootcamp'))
}

edudf = pd.DataFrame(data)
edudf.sort_index(ascending=False, inplace=True)
edudf.head(20)

Unnamed: 0,exp,escuela,autodidacta,trabajo,online,bootcamp
7,20+,0.646409,0.19337,0.138122,0.022099,0.0
6,15-20,0.618421,0.210526,0.144737,0.026316,0.0
5,11-14,0.640553,0.170507,0.147465,0.023041,0.018433
4,9-10,0.590244,0.209756,0.131707,0.068293,0.0
3,7-8,0.614583,0.182292,0.140625,0.057292,0.005208
2,5-6,0.59434,0.169811,0.127358,0.099057,0.009434
1,3-4,0.60177,0.154867,0.137168,0.088496,0.017699
0,0-2,0.555085,0.122881,0.110169,0.161017,0.050847


In [20]:


src = ColumnDataSource(edudf)
col_names = src.column_names

p = figure(x_range=exp_labels[::-1], plot_height=400, plot_width=600)

for col_name, color in zip(list(edudf.columns), Dark2[6]):
    if col_name == 'exp':
        continue

    p.add_tools(HoverTool(
        renderers= [p.line('exp', col_name, source=src, color=color, legend_label=col_name)],
        tooltips=[
            ('Formación', f'{col_name}'),
            ('Pct', '@'+col_name+'{0%}')
        ]
    ))

p.title.text = 'Evolución de donde aprendemos a programar'
p.xaxis.axis_label = 'Experiencia (años)'
p.yaxis.axis_label = 'Porcentaje'
p.yaxis.formatter = NumeralTickFormatter(format='0%')    
p.legend.location = (400,120)
    
show(p)


Llama la atención el crecimiento de los cursos online.