
#**Diplomatura en Ciencia de Datos, Aprendizaje Automático y sus Aplicaciones**

**Edición 2025**

---
# Aplicaciones en Python

La idea de esta notebook es poder introducir algunos conceptos básicos de estadistica descriptiva y sus aplicaciones en Python. Intentaremos familiarizarnos con algunos
conceptos (librerias, paquetes y funciones) que nos facilitaran el camino hacia la manipulacion y procesamiento de los datos.

## Herramientas de trabajo
En esta oportunidad vamos a utilizar el lenguaje de programación Python junto con Google Colab para realizar nuestro primer analisis de la encuesta de sueldos. Recorda que Colab es un servicio cloud basado en los Notebooks de Jupyter, por lo tanto no es necesario descargar nada. A su vez, nos iniciaremos en un primer uso de herramientas de software libre, es decir no necesitas una licencia para porder utilizarlas.

<center>
<img src="https://i.imgur.com/Cq52LcH.png" height="150" />
</center>



## Pero primero: ¡Hola mundo!
Si es tu primer experiencia con Python, usá la celda de acá abajo para probar tu primer línea de código. Para imprimirlo en pantalla escribimos print("Hola mundo!")

In [1]:
print("hola mundo! bienvenidos a la Diplo!!") # Probá acá

hola mundo! bienvenidos a la Diplo!!


## ¿Que es "EDA"?

En sus siglas en inglés hace referencia al **Análisis Exploratorio de Datos**. Este es el primer paso que debemos realizar como Data Scientists y consta de una primera revisión del estado de los datos y los consecuentes pasos necesarios para una correcta transformación.

La ciencia de datos es una disciplina que te permite convertir datos crudos en entendimiento, comprensión y conocimiento.

<center>
<img src="https://i.imgur.com/jclXnDS.png" height="230" />
</center>


En este sentido, el primer objetivo radica en preguntarnos **¿De qué se trata este dataset?**

## Importación de librerías

El concepto correcto en español es "biblioteca". Una biblioteca es básicamente un componente de software que nos brinda acceso a distintas funcionalidades.
Existen librerías con funciones para leer un archivo excel o csv y trabajar los datos como tablas (librería Pandas, por ejemplo), otras con funciones para graficar nuestros datos (como Seaborn), para trabajar con cálculo numérico (como Numpy).
Cualquiera sea el lenguaje con el que se decida programar, será útil conocer mediante la página oficial del lenguaje cuáles son las librerías disponibles, que nos facilitarán, en éste caso, el análisis de datos.

In [2]:
import matplotlib
import matplotlib.pyplot as plt
import numpy as np
import pandas as pd
import seaborn as sns

sns.set(rc={'figure.figsize':(10,6)})

# Leer dataset Encuesta Sysarmy en formato csv

En esta primera notebook, aprendemos cómo cargar un conjunto de datos utilizando pandas y cómo ver su contenido.

Durante la materia, se trabajará con la Encuesta Sysarmy del año 2023 versión 2. Se trata de una encuesta personal y voluntaria que busca relevar información sobre salarios y condiciones de trabajo de programadores, que se realiza anualmente.

Se analizarán sólo los datos provenientes de Argentina


[Link a los datos](https://sysarmy.com/blog/posts/resultados-de-la-encuesta-de-sueldos-2025-1/)

## ¿Cómo leer datos desde un archivo utilizando pandas?


In [3]:
import io
import pandas as pd

pd.set_option('display.max_rows', 4) # cambiar el número de filas que se mostrarán usando display.max_rows.

### Subiendo el archivo al entorno de Colaboratory

Colaboratory no tiene acceso a nuestro sistema de archivos local (¡menos mal!). Por ello, para poder leer un archivo, primero debemos subirlo a la nube. Eso se logra con:

In [4]:
from google.colab import files
uploaded = files.upload()

Saving 2025.1 - Sysarmy - Encuesta de remuneración salarial Argentina - Sysarmy - sueldos - 2025.01CLEAN.csv to 2025.1 - Sysarmy - Encuesta de remuneración salarial Argentina - Sysarmy - sueldos - 2025.01CLEAN.csv


En la salida de la celda anterior, verán el texto

```
Saving 2025.1 - Sysarmy - Encuesta de remuneración salarial Argentina - Sysarmy - sueldos - 2025.01CLEAN.csv to XXX
```
El texto XXX será la clave del archivo, que se utiliza para identificarlo entre todos los archivos subidos. Tener en cuenta que esta clave no necesariamente es el nombre del archivo.


In [6]:
file_key = '2025.1 - Sysarmy - Encuesta de remuneración salarial Argentina - Sysarmy - sueldos - 2025.01CLEAN.csv'  # Replace for corresponding key
df = pd.read_csv(io.StringIO(uploaded[file_key].decode('utf-8')))

Con esta operación, hemos creado un DataFrame de pandas en base al archivo de respuestas. Un DataFrame no es más que una tabla sobre la cual podemos aplicar un montón de operaciones similares a las de Excel o a las SQL. En esta notebook no pretendemos hacer un tutorial de pandas, el Internet está lleno de ellos, pero sí iremos explicando cómo implementar determinadas operaciones necesarias para el análisis de este conjunto de datos.

Veamos qué valor tiene la variable `df`.

In [7]:
df[:10]

Unnamed: 0,Para analizar los resultados podés bajar el .csv (Archivo > Descargar) \n \nRecordá calificar a la empresa donde estás trabajando en www.openqube.io\n\nEsta obra está bajo una Licencia Creative Commons Atribución-NoComercial-CompartirIgual 4.0 Internacional.,Unnamed: 1,Unnamed: 2,Unnamed: 3,Unnamed: 4,Unnamed: 5,Unnamed: 6,Unnamed: 7,Unnamed: 8,Unnamed: 9,...,Unnamed: 41,Unnamed: 42,Unnamed: 43,Unnamed: 44,Unnamed: 45,Unnamed: 46,Unnamed: 47,Unnamed: 48,Unnamed: 49,Unnamed: 50
0,,,,,,,,,,,...,,,,,,,,,,
1,,,,,,,,,,,...,,,,,,,,,,
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
8,,donde_estas_trabajando,dedicacion,tipo_de_contrato,ultimo_salario_mensual_o_retiro_bruto_en_pesos...,ultimo_salario_mensual_o_retiro_neto_en_pesos_...,pagos_en_dolares,si_tu_sueldo_esta_dolarizado_cual_fue_el_ultim...,recibis_algun_tipo_de_bono,a_que_esta_atado_el_bono,...,salir_o_seguir_contestando_sobre_las_guardias,tenes_guardias,cuanto_cobras_por_guardia,aclara_el_numero_que_ingresaste_en_el_campo_an...,tengo_edad,genero,habias_respondido_nuestra_encuesta_en_edicione...,sueldo_dolarizado,seniority,_sal
9,0.0,Ciudad Autónoma de Buenos Aires,Part-Time,Staff (planta permanente),6500000,5800000,Cobro parte del salario en dólares,,De uno a tres sueldos,Performance de la compañía,...,,,,,45,Hombre Cis,Sí,TRUE,Senior,6500000


## Selección de filas

¡No es lo que esperamos! Si vemos el conjunto de datos, efectivamente tiene celdas en blanco en la parte superior, y el nombre de las columnas aparece en la fila 7. Con Pandas podemos manejar estas situaciones pasando argumentos específicos a la función `pd.read_csv`

In [12]:
df_fixed = pd.read_csv(
    io.StringIO(uploaded[file_key].decode('utf-8')),
    skiprows=range(8), header=1)

In [13]:
df_fixed[:3]

Unnamed: 0.1,Unnamed: 0,donde_estas_trabajando,dedicacion,tipo_de_contrato,ultimo_salario_mensual_o_retiro_bruto_en_pesos_argentinos,ultimo_salario_mensual_o_retiro_neto_en_pesos_argentinos,pagos_en_dolares,si_tu_sueldo_esta_dolarizado_cual_fue_el_ultimo_valor_del_dolar_que_tomaron,recibis_algun_tipo_de_bono,a_que_esta_atado_el_bono,...,salir_o_seguir_contestando_sobre_las_guardias,tenes_guardias,cuanto_cobras_por_guardia,aclara_el_numero_que_ingresaste_en_el_campo_anterior,tengo_edad,genero,habias_respondido_nuestra_encuesta_en_ediciones_anteriores,sueldo_dolarizado,seniority,_sal
0,0,Ciudad Autónoma de Buenos Aires,Part-Time,Staff (planta permanente),6500000.0,5800000.0,Cobro parte del salario en dólares,,De uno a tres sueldos,Performance de la compañía,...,,,,,45,Hombre Cis,Sí,True,Senior,6500000.0
1,1,Ciudad Autónoma de Buenos Aires,Full-Time,Contractor,12700000.0,10200000.0,Cobro todo el salario en dólares,,Un sueldo,Performance de la compañía,...,Terminar encuesta,No,0.0,Bruto,32,Mujer Cis,Sí,True,Senior,12700000.0
2,2,Córdoba,Full-Time,Staff (planta permanente),3952805.0,3137662.0,Cobro parte del salario en dólares,985.0,No,No recibo bono,...,,,,,29,Hombre Cis,Sí,True,Semi-Senior,3952805.0


## Renombrar columnas

Para trabajar más cómodamente, renombraremos las columnas de DataFrame. Tengan cuidado de que el orden de los nombres nuevos se corresponda con el contenido de cada columna.


In [14]:
df_fixed.columns

Index(['Unnamed: 0', 'donde_estas_trabajando', 'dedicacion',
       'tipo_de_contrato',
       'ultimo_salario_mensual_o_retiro_bruto_en_pesos_argentinos',
       'ultimo_salario_mensual_o_retiro_neto_en_pesos_argentinos',
       'pagos_en_dolares',
       'si_tu_sueldo_esta_dolarizado_cual_fue_el_ultimo_valor_del_dolar_que_tomaron',
       'recibis_algun_tipo_de_bono', 'a_que_esta_atado_el_bono',
       'tuviste_actualizaciones_de_tus_ingresos_laborales_durante_2024',
       'de_que_fue_el_ajuste_total_acumulado',
       'en_que_mes_fue_el_ultimo_ajuste',
       'como_consideras_que_estan_tus_ingresos_laborales_comparados_con_el_semestre_anterior',
       'contas_con_beneficios_adicionales',
       'que_tan_conforme_estas_con_tus_ingresos_laborales',
       'estas_buscando_trabajo', 'pluriempleo', 'trabajo_de',
       'anos_de_experiencia', 'antiguedad_en_la_empresa_actual',
       'anos_en_el_puesto_actual', 'cuantas_personas_tenes_a_cargo',
       'plataformas_que_utilizas_en_tu_pue

In [18]:
new_columns = {
    'profile': {
      'genero': 'gender', #
      'tengo_edad': 'age', #
      'anos_de_experiencia': 'years_experience', #
      'maximo_nivel_de_estudios': 'studies_level', #
      'estado': 'studies_level_state', #
      'carrera': 'career', #
      'institucion_educativa': 'university' #
  },
  'work' : {
      'donde_estas_trabajando': 'province', #
      'antiguedad_en_la_empresa_actual': 'years_in_company', #
      'anos_en_el_puesto_actual': 'years_in_current_position', #
      'cuantas_personas_tenes_a_cargo': 'people_in_charge_of', #
      'tenes_guardias': 'on_call_duty', #
      'modalidad_de_trabajo':'work_modality', #
      'tipo_de_contrato':'contract_type', #
      'dedicacion': 'dedication' #
  },
  'tools': {
      'plataformas_que_utilizas_en_tu_puesto_actual': 'platform', #
      'lenguajes_de_programacion_o_tecnologias_que_utilices_en_tu_puesto_actual': 'programming_languages', #
      'frameworksherramientas_y_librerias_que_utilices_en_tu_puesto_actual': 'frameworks', #
      'bases_de_datos': 'data_bases', #
      'qa_testing': 'qa_testing', #
      '¿Qué SO usás en tu laptop/PC para trabajar?': 'work_pc_os',
      'que_tanto_estas_usando_copilotchatgpt_u_otras_herramientas_de_ia_para_tu_trabajo':'copilotchatgpt' #
  },
  'salary': {
      'cuanto_cobras_por_guardia': 'on_call_duty_charge', #
      'ultimo_salario_mensual_o_retiro_bruto_en_pesos_argentinos': 'monthly_BRUTO', #
      'ultimo_salario_mensual_o_retiro_neto_en_pesos_argentinos': 'monthly_NETO', #
      'pagos_en_dolares': 'in_usd', #
      'si_tu_sueldo_esta_dolarizado_cual_fue_el_ultimo_valor_del_dolar_que_tomaron':'last_dollar_value', #
      'que_tan_conforme_estas_con_tus_ingresos_laborales': 'satisfaction', #
      'como_consideras_que_estan_tus_ingresos_laborales_comparados_con_el_semestre_anterior': 'comparison_last_semester', #
      'recibis_algun_tipo_de_bono': 'has_bonus', #
      'a_que_esta_atado_el_bono': 'bonus_tied_to', #
      'tuviste_actualizaciones_de_tus_ingresos_laborales_durante_2024': 'inflation_adjustment', #
      'de_que_fue_el_ajuste_total_acumulado': 'percentage_inflation_adjustment', #
      'en_que_mes_fue_el_ultimo_ajuste': 'month_last_inflation_adjustment', #
      'contas_con_beneficios_adicionales':'benefit' #
  },
  'company' : {
      'cantidad_de_personas_en_tu_organizacion': 'employee_number', #
      'trabajo_de': 'main_activity', #
      'la_recomendas_como_un_buen_lugar_para_trabajar': 'recommended', #
      'si_trabajas_bajo_un_esquema_hibrido_cuantos_dias_a_la_semana_vas_a_la_oficina':'days_in_the_office' #
  }
}


In [19]:
def replace_columns(df, new_columns):
  new_col_names = {
    original_name: category + '_' + new_name
    for category, cols in new_columns.items()
    for original_name, new_name in cols.items()
  }
  return df.rename(columns=new_col_names)

In [20]:
df_renamed = replace_columns(df_fixed, new_columns)
df_renamed[:6]

Unnamed: 0.1,Unnamed: 0,work_province,work_dedication,work_contract_type,salary_monthly_BRUTO,salary_monthly_NETO,salary_in_usd,salary_last_dollar_value,salary_has_bonus,salary_bonus_tied_to,...,salir_o_seguir_contestando_sobre_las_guardias,work_on_call_duty,salary_on_call_duty_charge,aclara_el_numero_que_ingresaste_en_el_campo_anterior,profile_age,profile_gender,habias_respondido_nuestra_encuesta_en_ediciones_anteriores,sueldo_dolarizado,seniority,_sal
0,0,Ciudad Autónoma de Buenos Aires,Part-Time,Staff (planta permanente),6500000.0,5800000.0,Cobro parte del salario en dólares,,De uno a tres sueldos,Performance de la compañía,...,,,,,45,Hombre Cis,Sí,True,Senior,6500000.0
1,1,Ciudad Autónoma de Buenos Aires,Full-Time,Contractor,12700000.0,10200000.0,Cobro todo el salario en dólares,,Un sueldo,Performance de la compañía,...,Terminar encuesta,No,0.0,Bruto,32,Mujer Cis,Sí,True,Senior,12700000.0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
4,4,Córdoba,Full-Time,Tercerizado (trabajo a través de consultora o ...,1325301.0,,Cobro parte del salario en dólares,,No,No recibo bono,...,Terminar encuesta,,,,22,Hombre Cis,Sí,True,Senior,1325301.0
5,5,Ciudad Autónoma de Buenos Aires,Full-Time,Staff (planta permanente),2670205.0,2167989.0,Cobro parte del salario en dólares,986,No,No recibo bono,...,Terminar encuesta,No,0.0,Porcentaje de mi sueldo bruto,48,Hombre Cis,Sí,True,Senior,2670205.0


### Leer archivo desde URL

Como realizar estas operaciones es un poco tedioso y requiere intervención manual, hemos subido el dataset a un servidor local de FaMAF para poder accederlos directamente a través de consultas HTTP (por ejemplo, desde un navegador).

Otra forma de disponibilizar un conjunto de datos pequeño es creando un archivo en un repositorio de github o un gist.

Primero, es necesario descargar el archivo ya procesado. El procedimiento es similar a leer el archivo.
1. Se guarda el DataFrame en un archivo en el servidor remoto.
2. Se descarga ese archivo.

In [21]:
df_renamed.to_csv("sysarmy_survey_2025_processed.csv", index=False)

In [22]:
from google.colab import files
files.download("sysarmy_survey_2025_processed.csv")

<IPython.core.display.Javascript object>

<IPython.core.display.Javascript object>

Subiremos este archivo con el dataset procesado a un servidor de la universidad.

Pandas permite leer archivos `.csv` desde una URL, sin necesidad de descargarlos en el sistema de archivos local. La siguiente celda funcionará tanto en Colaboratory como en Jupyter, y será el método por defecto de acceder a los datos en las notebooks siguientes.

In [35]:
url = 'https://raw.githubusercontent.com/DiploDatos/AnalisisyVisualizacion/refs/heads/master/sysarmy_survey_2025_processed.csv'
df2 = pd.read_csv(url)

In [36]:
df2[:6]

Unnamed: 0.1,Unnamed: 0,work_province,work_dedication,work_contract_type,salary_monthly_BRUTO,salary_monthly_NETO,salary_in_usd,salary_last_dollar_value,salary_has_bonus,salary_bonus_tied_to,...,salir_o_seguir_contestando_sobre_las_guardias,work_on_call_duty,salary_on_call_duty_charge,aclara_el_numero_que_ingresaste_en_el_campo_anterior,profile_age,profile_gender,habias_respondido_nuestra_encuesta_en_ediciones_anteriores,sueldo_dolarizado,seniority,_sal
0,0,Ciudad Autónoma de Buenos Aires,Part-Time,Staff (planta permanente),6500000.0,5800000.0,Cobro parte del salario en dólares,,De uno a tres sueldos,Performance de la compañía,...,,,,,45,Hombre Cis,Sí,True,Senior,6500000.0
1,1,Ciudad Autónoma de Buenos Aires,Full-Time,Contractor,12700000.0,10200000.0,Cobro todo el salario en dólares,,Un sueldo,Performance de la compañía,...,Terminar encuesta,No,0.0,Bruto,32,Mujer Cis,Sí,True,Senior,12700000.0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
4,4,Córdoba,Full-Time,Tercerizado (trabajo a través de consultora o ...,1325301.0,,Cobro parte del salario en dólares,,No,No recibo bono,...,Terminar encuesta,,,,22,Hombre Cis,Sí,True,Senior,1325301.0
5,5,Ciudad Autónoma de Buenos Aires,Full-Time,Staff (planta permanente),2670205.0,2167989.0,Cobro parte del salario en dólares,986,No,No recibo bono,...,Terminar encuesta,No,0.0,Porcentaje de mi sueldo bruto,48,Hombre Cis,Sí,True,Senior,2670205.0


In [37]:
print(df2.columns)

Index(['Unnamed: 0', 'work_province', 'work_dedication', 'work_contract_type',
       'salary_monthly_BRUTO', 'salary_monthly_NETO', 'salary_in_usd',
       'salary_last_dollar_value', 'salary_has_bonus', 'salary_bonus_tied_to',
       'salary_inflation_adjustment', 'salary_percentage_inflation_adjustment',
       'salary_month_last_inflation_adjustment',
       'salary_comparison_last_semester', 'salary_benefit',
       'salary_satisfaction', 'estas_buscando_trabajo', 'pluriempleo',
       'company_main_activity', 'profile_years_experience',
       'work_years_in_company', 'work_years_in_current_position',
       'work_people_in_charge_of', 'tools_platform',
       'tools_programming_languages', 'tools_frameworks', 'tools_data_bases',
       'tools_qa_testing', 'company_employee_number', 'work_work_modality',
       'company_days_in_the_office',
       'en_los_ultimos_6_mesesse_aplico_alguna_politica_de_ajustes_salariales',
       'opcionalen_que_empresaorganizacion_estas_trabajando',

Hay algunas preguntas sin codificar. Como ejercicio, encuentren las columnas no codificadas, agreguenlas a los factores diseñados anteriormente con algun código que las identifique, por ejemplo '¿Qué tanto estás usando Copilot, ChatGPT u otras herramientas de IA para tu trabajo?' codificada como 'tools_IA'
