In [1]:
import pandas as pd
import numpy as np

In [2]:
df = pd.read_csv("answers.csv", index_col=0)
# El salario de las personas de Mx se guarda en la columna salarymx y está en pesos.
# En la mayoría de los casos solo vamos a tomar en cuenta los datos de personas en Mx con salario en pesos.
df = df[(df['country'] == 'México')]
df.count()

created            1697
recaptcha_score      16
salarymx           1697
salaryusd          1697
extramx            1697
                   ... 
ben_healthminor     413
ben_lifeins         691
ben_cafeteria       279
ben_cellphone       213
ben_vouchers        559
Length: 157, dtype: int64

In [3]:
# Agrupamos en base a años de experiencia.
exp = df.groupby("experience")["salarymx"].agg(['median', 'count'])
# Solamente tomamos en cuenta los grupos en los que tenemos por lo menos 5 observaciones
exp = exp[(exp['count'] > 4)]
exp.head()

Unnamed: 0_level_0,median,count
experience,Unnamed: 1_level_1,Unnamed: 2_level_1
0,12950,16
1,10000,107
2,17000,113
3,25000,107
4,28000,119


In [4]:
# Importamos lo que necesitamos para generar graficas con Bokeh
from bokeh.plotting import figure, show
from bokeh.io import output_notebook
from bokeh.models import ColumnDataSource, HoverTool, NumeralTickFormatter

output_notebook()

In [5]:
# Si usamos directamente el num de observaciones para el tamaño del círculo nos da valores muy altos
# así que calculamos un valor amortiguado y lo asignamos a una nueva columna 'size'.
exp['size'] = round(np.sqrt(exp['count']/2))*3
exp.head()

Unnamed: 0_level_0,median,count,size
experience,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
0,12950,16,9.0
1,10000,107,21.0
2,17000,113,24.0
3,25000,107,21.0
4,28000,119,24.0


In [6]:
source = ColumnDataSource(exp)
p = figure(plot_height=400, plot_width=600)
p.circle(x='experience', y='median', source=source, size='size')
p.title.text = 'Salario medio de acuerdo a a la experiencia'
p.xaxis.axis_label = 'Experiencia (años)'
p.yaxis.axis_label = 'Salario bruto mensual (MXN)'
p.yaxis.formatter = NumeralTickFormatter(format='$0 a')

hover = HoverTool()
hover.tooltips=[
    ('Experiencia', '@experience años'),
    ('Observaciones', '@count'),
    ('Salario medio', '@median{$0,0}'),
]

p.add_tools(hover)

show(p)

## Comparación por género

In [7]:
# Agrupamos por experiencia y género
gender = df[(df['experience'] > 0)].groupby(["experience", "gender"])["salarymx"].agg(['median','count'])
# Descartamos grupos con menos de 5 observaciones.
gender = gender[(gender['count'] > 4)]
# Groupby deja experience y gender como un multiindex, en lugar de como columnas.
# Así que le damos un reset_index para que los convierta a columnas normales. 
gender = gender.reset_index()
gender.head()

Unnamed: 0,experience,gender,median,count
0,1,hombre,10000,79
1,1,mujer,13400,26
2,2,hombre,18000,92
3,2,mujer,13850,20
4,3,hombre,25000,82


In [8]:
# Ahora que gender ya es una columna normal, podemos usarla como referencia para crear una columna de color.
gender['color'] = np.where((gender.gender == 'hombre'), '#1f77b4', '#e617e6')
# También le agregamos el size amortiguado
gender['size'] = round(np.sqrt(gender['count']/2))*3

src = ColumnDataSource(gender)

p = figure(plot_height = 400, plot_width = 600)
p.circle(x='experience', y='median', source=src, size='size', color='color', legend_group='gender')

p.title.text = 'Comparativo por experiencia y género'
p.xaxis.axis_label = 'Experiencia (años)'
p.yaxis.axis_label = 'Salario bruto mensual (MXN)'
p.yaxis.formatter = NumeralTickFormatter(format='$0 a')
p.legend.location = "bottom_right"

hover = HoverTool()
hover.tooltips=[
    ('Género', '@gender'),    
    ('Experiencia', '@experience años'),
    ('Observaciones', '@count'),
    ('Salario medio', '@median{$0,0}'),
]

p.add_tools(hover)

show(p)


## Agrupación por ciudad y país

In [9]:
cities = df.groupby("city")["salarymx"].agg(['count', 'median'])
cities = cities.reset_index()
cities = cities[(cities["count"]> 10)]
cities = cities[(cities["median"]> 0)]
cities = cities.sort_values(by=['median'], ascending=False)
cities.head(25)

Unnamed: 0,city,count,median
22,Chihuahua,15,53058.0
129,Tijuana,11,45000.0
49,Guadalajara,183,45000.0
155,cdmx,20,44500.0
35,Cuernavaca,16,44500.0
79,Monterrey,111,43000.0
14,Cancún,13,43000.0
7,CDMX,595,40000.0
53,Hermosillo,48,39000.0
16,Cdmx,48,37477.5


Hagamos el breakdown por país. Para ello nos basamos en la columna salaryusd.

In [10]:
# Volvemos a leer del csv para incluir datos de otros países
df2 = pd.read_csv("answers.csv", index_col=0)
df2['salaryusd'] = np.where((df2.salaryusd == 0),round(df2.salarymx/19,0).astype(int), df2.salaryusd)
countries = df2.groupby("country")["salaryusd"].agg(['count', 'median'])
countries = countries.reset_index()
countries = countries[(countries["country"]!= "Otro")]
countries = countries.sort_values(by=['median'], ascending=False)
countries.head(20)

Unnamed: 0,country,count,median
7,Estados Unidos,40,10416.5
1,Canada,2,9250.0
6,España,7,3400.0
2,Chile,5,3030.0
4,Costa Rica,2,2500.0
11,Perú,6,2171.5
9,México,1697,1842.0
5,Ecuador,10,1800.0
8,Guatemala,2,1650.0
3,Colombia,24,1336.5


## Lenguajes

El dilema con los lenguajes es que cada participante puede escoger varios lenguajes (máximo 3) que utiliza. Así que no podemos tener una única variable categórica para lenguaje, sino que tenemos una variable booleana (Y/N) por cada una de las opciones de lenguaje. Si tuvieramos una única variable, simplemente podríamos hacer un groupby y listo, pero al no tenerla, tenemos que "armar" nuestro dataframe.

Vamos a generar una lista donde cada elemento es a su vez una lista con la info de cada lenguaje (nombre del lenguaje, número de observaciones y salario medio). A partir de esa lista de listas generamos un dataframe y continuamos como de costumbre.

In [11]:
# Inicializamos nuestra lista maestra
lang_list = []
# Leemos la lista de lenguajes a partir de un catálogo.
import csv
with open("lang_options.csv") as csvfile:
    reader = csv.DictReader(csvfile)
    for row in reader:
        lang_key = "lang_"+row['key']
        # Creamos una lista con el nombre del lenguaje, su num. de observaciones y salario medio, y agregamos dicha lista a nuestra lista maestra.
        lang_list.append([row['name'], df[(df[lang_key]=="Y")]["salarymx"].count(), df[(df[lang_key]=="Y")]["salarymx"].median()])

# Una vez que tenemos la lista maestra completa, creamos un dataframe indicando el nombre de las columnas.
lang_df = pd.DataFrame(lang_list, columns = ['lenguaje', 'count', 'salario'])
# Agregamos una columna de popularidad que se calcule en base a un valor amortiguado del número de observaciones.        
lang_df['popularidad'] = round(np.sqrt(lang_df['count']/2)*2)
lang_df.sort_values(by=['salario'], ascending=False).head(30)

  result = method(y)


Unnamed: 0,lenguaje,count,salario,popularidad
9,Groovy,15,62000.0,5.0
8,Go,31,52200.0,8.0
20,Rust,6,51500.0,3.0
19,Ruby,77,45000.0,12.0
14,Perl,11,43000.0,5.0
0,Bash,75,40000.0,12.0
18,R,8,40000.0,4.0
17,Python,148,38500.0,17.0
6,Elixir,28,37500.0,7.0
12,Kotlin,30,35000.0,8.0


In [12]:
from bokeh.models import LabelSet
from bokeh.models import Range1d

src = ColumnDataSource(lang_df)
p = figure()
# Ponemos los circulos invisibles pero con tamaño para que sirvan los tooltips en hover.
p.circle(source=src, y='popularidad', x='salario', line_color=None, fill_color=None, size=20)
p.yaxis.axis_label = 'Popularidad'

# La escala de popularidad tiene unidades arbitrarias así que prefiero evitar que se despliegue.
p.yaxis.major_label_text_font_size = '0pt'

p.xaxis.axis_label = 'Salario bruto mensual (MXN)'
p.xaxis.formatter = NumeralTickFormatter(format='$0 a')    
p.x_range = Range1d(10000, 70000)

labels = LabelSet(source=src, x='salario', y='popularidad', text='lenguaje', level='glyph',
              x_offset=-10, y_offset=-5, render_mode='canvas', text_font_size="9pt", text_color='#1f77b4')
p.add_layout(labels)

hover = HoverTool()
hover.tooltips=[
    ('Lenguaje', '@lenguaje'),
    ('Observaciones', '@count'),
    ('Salario medio', '@salario{$0,0}'),
]

p.add_tools(hover)

show(p)

## Inglés

In [13]:
ingles = df.groupby("english_label")["salarymx"].agg(['count', 'median']).sort_values(by=['median'], ascending=False)
ingles

Unnamed: 0_level_0,count,median
english_label,Unnamed: 1_level_1,Unnamed: 2_level_1
Avanzado: Puedo conversar y escribir sin problemas sobre cualquier tema (ILR 4),351,55000
Nativo o bilingue (ILR 5),71,55000
Profesional: Puedo interactuar profesionalmente con colegas y clientes (ILR 3),535,40000
Limitado: Me doy a entender pero con errores de gramática (ILR 2),510,28000
Elemental: Sé lo básico para sobrevivir (ILR 1),217,25000
Ninguno (ILR 0),13,15000


## Actividad

In [14]:
# Inicializamos nuestra lista maestra
master_list = []
# Leemos la lista de lenguajes a partir de un catálogo.
import csv
with open("activity_options.csv") as csvfile:
    reader = csv.DictReader(csvfile)
    for row in reader:
        key = "act_"+row['key']
        master_list.append([row['name'], df[(df[key]=="Y")]["salarymx"].count(), df[(df[key]=="Y")]["salarymx"].median()])

# Una vez que tenemos la lista maestra completa, creamos un dataframe indicando el nombre de las columnas.
act_df = pd.DataFrame(master_list, columns = ['actividad', 'count', 'salario'])
act_df.sort_values(by=['salario'], ascending=False).head(30)

Unnamed: 0,actividad,count,salario
10,Dirección / Estrategia,153,60000.0
9,Consultoría de negocio,101,50000.0
17,Preventa / Tech sales,51,50000.0
21,Venta y desarrollo de negocios,39,50000.0
6,"Gestión de infraestructura (SysOps, DevOps)",133,45000.0
2,Arquitectura y diseño de sistemas,436,45000.0
16,Project management / Coordinación,298,43000.0
7,Ingeniería de datos,72,41500.0
8,Coaching y mejora de procesos,89,41000.0
4,Capacitación y evangelización,71,40000.0
