<a href="https://colab.research.google.com/github/DiploDatos/AnalisisyVisualizacion/blob/master/00_Leer_dataset.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>


**Diplomatura en Ciencia de Datos, Aprendizaje Automático y sus Aplicaciones**

**Edición 2021**

---

# Leer dataset Encuesta Sysarmy en formato csv

En esta primera notebook, aprendemos cómo cargar un conjunto de datos utilizando pandas y cómo ver su contenido.

Durante la materia, se trabajará con la Encuesta Sysarmy del año 2020 versión 2. Se trata de una encuesta personal y voluntaria que busca relevar información sobre salarios y condiciones de trabajo de programadores, que se realiza anualmente.

Se analizarán sólo los datos provenientes de Argentina


[Link a los datos](https://sysarmy.com/blog/posts/resultados-de-la-encuesta-de-sueldos-2020-2/)


## ¿Cómo leer datos desde un archivo utilizando pandas?


In [None]:
import io
import pandas as pd

pd.set_option('display.max_rows', 4)

### Subiendo el archivo al entorno de Colaboratory

Colaboratory no tiene acceso a nuestro sistema de archivos local (¡menos mal!). Por ello, para poder leer un archivo, primero debemos subirlo a la nube. Eso se logra con:

In [None]:
from google.colab import files
uploaded = files.upload()

Saving 2020.2 - sysarmy - Encuesta de remuneración salarial Argentina - Argentina.csv to 2020.2 - sysarmy - Encuesta de remuneración salarial Argentina - Argentina.csv


En la salida de la celda anterior, verán el texto

```
Saving 2020.2 - sysarmy - Encuesta de remuneración salarial Argentina - Argentina.csv to XXX
```
El texto XXX será la clave del archivo, que se utiliza para identificarlo entre todos los archivos subidos. Tener en cuenta que esta clave no necesariamente es el nombre del archivo.


In [None]:
file_key = '2020.2 - sysarmy - Encuesta de remuneración salarial Argentina - Argentina.csv'  # Replace for correspoing key
df = pd.read_csv(io.StringIO(uploaded[file_key].decode('utf-8')))

Con esta operación, hemos creado un DataFrame de pandas en base al archivo de respuestas. Un DataFrame no es más que una tabla sobre la cual podemos aplicar un montón de operaciones similares a las de Excel o a las SQL. En esta notebook no pretendemos hacer un tutorial de pandas, el Internet está lleno de ellos, pero sí iremos explicando cómo implementar determinadas operaciones necesarias para el análisis de este conjunto de datos.

Veamos qué valoir tiene la variable `df`.

In [None]:
df[:10]

Unnamed: 0,Para analizar los resultados podés hacer una copia (Archivo > Crear una copia) o bajar el .csv (Archivo > Descargar como),Unnamed: 1,Unnamed: 2,Unnamed: 3,Unnamed: 4,Unnamed: 5,Unnamed: 6,Unnamed: 7,Unnamed: 8,Unnamed: 9,Unnamed: 10,Unnamed: 11,Unnamed: 12,Unnamed: 13,Unnamed: 14,Unnamed: 15,Unnamed: 16,Unnamed: 17,Unnamed: 18,Unnamed: 19,Unnamed: 20,Unnamed: 21,Unnamed: 22,Unnamed: 23,Unnamed: 24,Unnamed: 25,Unnamed: 26,Unnamed: 27,Unnamed: 28,Unnamed: 29,Unnamed: 30,Unnamed: 31,Unnamed: 32,Unnamed: 33,Unnamed: 34,Unnamed: 35,Unnamed: 36,Unnamed: 37,Unnamed: 38,Unnamed: 39,Unnamed: 40,Unnamed: 41,Unnamed: 42,Unnamed: 43,Unnamed: 44,Unnamed: 45,Unnamed: 46,Unnamed: 47
0,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,
1,Recordá calificar a la empresa donde estás tra...,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
8,Me identifico,Tengo,Estoy trabajando en,Dónde estás trabajando,Años de experiencia,Años en la empresa actual,Años en el puesto actual,¿Gente a cargo?,Nivel de estudios alcanzado,Estado,Carrera,Universidad,Realizaste cursos de especialización,¿Contribuís a proyectos open source?,¿Programás como hobbie?,Trabajo de,Plataformas,Lenguajes de programación,"Frameworks, herramientas y librerías",Bases de datos,QA / Testing,IDEs,¿Qué SO usás en tu laptop/PC para trabajar?,¿Y en tu celular?,¿Tenés guardias?,Cuánto cobrás por guardia,"¿Porcentaje, bruto o neto?",Tipo de contrato,Salario mensual BRUTO (en tu moneda local),Salario mensual NETO (en tu moneda local),,¿Qué tan conforme estás con tu sueldo?,Cómo creés que está tu sueldo con respecto al ...,Recibís algún tipo de bono,A qué está atado el bono,¿Tuviste ajustes por inflación en lo que va de...,¿De qué % fue el ajuste total?,¿En qué mes fue el último ajuste?,¿Sufriste o presenciaste situaciones de violen...,Orientación sexual,¿Tenés algún tipo de discapacidad?,¿Sentís que esto te dificultó el conseguir tra...,Cantidad de empleados,Actividad principal,¿La recomendás como un buen lugar para trabajar?,¿Cómo calificás las políticas de diversidad e ...,Beneficios extra,¿Cuáles considerás que son las mejores empresa...
9,Mujer,26,Argentina,Ciudad Autónoma de Buenos Aires,3,3,3,0,Universitario,En curso,Ingeniería en Sistemas de Información,UTN - Universidad Tecnológica Nacional,"Sí, los pagó un empleador",No,Sí,Consultant,Ninguna,Ninguno,Ninguno,Ninguna,Ninguna,Ninguno,GNU/Linux,Android,No,0,Bruto,Full-Time,53000,43000,,1,1,No,No recibo bono,No,0,0,En mi trabajo actual,Homosexual,,,501-1000,Servicios / Consultoría de Software / Digital,7,2,"Capacitaciones y/o cursos, Comidas pagas / sub...",


## Selección de filas

¡No es lo que esperamos! Si vemos el conjunto de datos, efectivamente tiene celdas en blanco en la parte superior, y el nombre de las columnas aparece en la fila 9. Con Pandas podemos manejar estas situaciones pasando argumentos específicos a la función `pd.read_csv`

In [None]:
df_fixed = pd.read_csv(
    io.StringIO(uploaded[file_key].decode('utf-8')),
    skiprows=range(8), header=1)

In [None]:
df_fixed[:3]

Unnamed: 0,Me identifico,Tengo,Estoy trabajando en,Dónde estás trabajando,Años de experiencia,Años en la empresa actual,Años en el puesto actual,¿Gente a cargo?,Nivel de estudios alcanzado,Estado,Carrera,Universidad,Realizaste cursos de especialización,¿Contribuís a proyectos open source?,¿Programás como hobbie?,Trabajo de,Plataformas,Lenguajes de programación,"Frameworks, herramientas y librerías",Bases de datos,QA / Testing,IDEs,¿Qué SO usás en tu laptop/PC para trabajar?,¿Y en tu celular?,¿Tenés guardias?,Cuánto cobrás por guardia,"¿Porcentaje, bruto o neto?",Tipo de contrato,Salario mensual BRUTO (en tu moneda local),Salario mensual NETO (en tu moneda local),Unnamed: 30,¿Qué tan conforme estás con tu sueldo?,Cómo creés que está tu sueldo con respecto al último semestre,Recibís algún tipo de bono,A qué está atado el bono,¿Tuviste ajustes por inflación en lo que va de 2020?,¿De qué % fue el ajuste total?,¿En qué mes fue el último ajuste?,¿Sufriste o presenciaste situaciones de violencia laboral?,Orientación sexual,¿Tenés algún tipo de discapacidad?,¿Sentís que esto te dificultó el conseguir trabajo?,Cantidad de empleados,Actividad principal,¿La recomendás como un buen lugar para trabajar?,¿Cómo calificás las políticas de diversidad e inclusión?,Beneficios extra,"¿Cuáles considerás que son las mejores empresas de IT para trabajar en este momento, en tu ciudad?"
0,Mujer,26,Argentina,Ciudad Autónoma de Buenos Aires,3.0,3.0,3.0,0,Universitario,En curso,Ingeniería en Sistemas de Información,UTN - Universidad Tecnológica Nacional,"Sí, los pagó un empleador",No,Sí,Consultant,Ninguna,Ninguno,Ninguno,Ninguna,Ninguna,Ninguno,GNU/Linux,Android,No,0.0,Bruto,Full-Time,53000.0,43000.0,,1,1,No,No recibo bono,No,0.0,0,En mi trabajo actual,Homosexual,,,501-1000,Servicios / Consultoría de Software / Digital,7,2,"Capacitaciones y/o cursos, Comidas pagas / sub...",
1,Hombre,29,Argentina,Corrientes,5.0,2.0,2.0,4,Universitario,En curso,Ingeniería en Sistemas de Información,UTN - Universidad Tecnológica Nacional,"Sí, de forma particular, Sí, los pagó un emple...",No,Sí,Developer,"Docker, Google Cloud Platform/App Engine","HTML, Javascript, Python","Django, jQuery","Informix, MySQL, PostgreSQL",Ninguna,"IPython / Jupyter, Sublime Text, Visual Studio...",GNU/Linux,Android,No,0.0,Bruto,Full-Time,79000.0,63000.0,,2,2,Menos de un sueldo,Performance de la compañía,Uno,10.0,1,Jamás,Heterosexual,Visual,No,201-500,Otras industrias,8,9,"Horarios flexibles, Stock options / RSUs, Viát...",
2,Mujer,22,Argentina,Ciudad Autónoma de Buenos Aires,2.0,0.0,0.0,0,Secundario,Completado,,,"Sí, de forma particular, Sí, los pagó un emple...",No,Sí,Infosec,"Linux, VMWare",Ninguno,Ninguno,Ninguna,Ninguna,Ninguno,Windows,iOS,No,0.0,Porcentaje de mi sueldo,Full-Time,160000.0,127000.0,,3,3,Un sueldo,Performance individual,No,0.0,0,En un trabajo anterior,Bisexual o queer,,No,2001-5000,Otras industrias,6,9,"Clases de gimnasia online, Comidas pagas / sub...",


## Renombrar columnas

Para trabajar más cómodamente, renombraremos las columnas de DataFrame. Tengan cuidado de que el orden de los nombres nuevos se corresponda con el contenido de cada columna.


In [None]:
df_fixed.columns

Index(['Me identifico', 'Tengo', 'Estoy trabajando en',
       'Dónde estás trabajando', 'Años de experiencia',
       'Años en la empresa actual', 'Años en el puesto actual',
       '¿Gente a cargo?', 'Nivel de estudios alcanzado', 'Estado', 'Carrera',
       'Universidad', 'Realizaste cursos de especialización',
       '¿Contribuís a proyectos open source?', '¿Programás como hobbie?',
       'Trabajo de', 'Plataformas', 'Lenguajes de programación',
       'Frameworks, herramientas y librerías', 'Bases de datos',
       'QA / Testing', 'IDEs', '¿Qué SO usás en tu laptop/PC para trabajar?',
       '¿Y en tu celular?', '¿Tenés guardias?', 'Cuánto cobrás por guardia',
       '¿Porcentaje, bruto o neto?', 'Tipo de contrato',
       'Salario mensual BRUTO (en tu moneda local)',
       'Salario mensual NETO (en tu moneda local)', 'Unnamed: 30',
       '¿Qué tan conforme estás con tu sueldo?',
       'Cómo creés que está tu sueldo con respecto al último semestre',
       'Recibís algún tipo 

In [None]:
new_columns = {
    'profile': {
      'Me identifico': 'gender', 'Tengo': 'age', 'Años de experiencia': 'years_experience',
      'Nivel de estudios alcanzado': 'studies_level',
      'Estado': 'studies_level_state', 'Carrera': 'career', 'Universidad': 'university',
      'Realizaste cursos de especialización': 'specialization_courses',
      '¿Contribuís a proyectos open source?': 'open_source_contributions',
      '¿Programás como hobbie?': 'programming_as_hobby',
      'Orientación sexual': 'sexual_orientation',
      '¿Tenés algún tipo de discapacidad?': 'has_disabilities',
      '¿Sentís que esto te dificultó el conseguir trabajo?': 'has_disabilities_hiring_difficulties',
      '¿A qué eventos de tecnología asististe en el último año?': 'tech_events_last_year'
  },
  'work' : {
      'Estoy trabajando en': 'country',
      'Dónde estás trabajando': 'province', 'Años en la empresa actual': 'years_in_company',
      'Años en el puesto actual': 'years_in_current_position', '¿Gente a cargo?': 'people_in_charge_of',
      'Trabajo de': 'role', '¿Tenés guardias?': 'on_call_duty',
      '¿Porcentaje, bruto o neto?': 'on_call_duty_charge_type', 'Tipo de contrato': 'contract_type',
      '¿Sufriste o presenciaste situaciones de violencia laboral?': 'has_violence_situations',
  },
  'tools': {
      'Plataformas': 'platform', 'Lenguajes de programación': 'programming_languages',
      'Frameworks, herramientas y librerías': 'frameworks', 'Bases de datos': 'data_bases',
      'QA / Testing': 'qa_testing', 'IDEs': 'IDEs',
      '¿Qué SO usás en tu laptop/PC para trabajar?': 'work_pc_os', '¿Y en tu celular?': 'cellphone_os'
  },
  'salary': {
      'Cuánto cobrás por guardia': 'on_call_duty_charge',
      'Salario mensual BRUTO (en tu moneda local)': 'monthly_BRUTO',
      'Salario mensual NETO (en tu moneda local)': 'monthly_NETO',
      'Unnamed: 30': 'in_usd', '¿Qué tan conforme estás con tu sueldo?': 'satisfaction',
      'Cómo creés que está tu sueldo con respecto al último semestre': 'comparison_last_semester',
      'Recibís algún tipo de bono': 'has_bonus', 'A qué está atado el bono': 'bonus_tied_to',
      '¿Tuviste ajustes por inflación en lo que va de 2020?': 'inflation_adjustment_2020',
      '¿De qué % fue el ajuste total?': 'percentage_inflation_adjustment_2020',
      '¿En qué mes fue el último ajuste?': 'month_last_inflation_adjustment',
  },
  'company' : {
      'Cantidad de empleados': 'employee_number', 'Actividad principal': 'main_activity',
      '¿La recomendás como un buen lugar para trabajar?': 'recommended',
      '¿Cómo calificás las políticas de diversidad e inclusión?': 'diversity_policies',
      '¿A cuántos kilómetros de tu casa queda la oficina?': 'office_distance_km',
      'Beneficios extra': 'extra_benefits',
      '¿Cuáles considerás que son las mejores empresas de IT para trabajar en este momento, en tu ciudad?': 'best_companies_city',
  }
}


In [None]:
def replace_columns(df, new_columns):
  new_col_names = {
    original_name: category + '_' + new_name
    for category, cols in new_columns.items()
    for original_name, new_name in cols.items()
  }
  return df.rename(columns=new_col_names)

In [None]:
df_renamed = replace_columns(df_fixed, new_columns)
df_renamed[:2]

Unnamed: 0,profile_gender,profile_age,work_country,work_province,profile_years_experience,work_years_in_company,work_years_in_current_position,work_people_in_charge_of,profile_studies_level,profile_studies_level_state,profile_career,profile_university,profile_specialization_courses,profile_open_source_contributions,profile_programming_as_hobby,work_role,tools_platform,tools_programming_languages,tools_frameworks,tools_data_bases,tools_qa_testing,tools_IDEs,tools_work_pc_os,tools_cellphone_os,work_on_call_duty,salary_on_call_duty_charge,work_on_call_duty_charge_type,work_contract_type,salary_monthly_BRUTO,salary_monthly_NETO,salary_in_usd,salary_satisfaction,salary_comparison_last_semester,salary_has_bonus,salary_bonus_tied_to,salary_inflation_adjustment_2020,salary_percentage_inflation_adjustment_2020,salary_month_last_inflation_adjustment,work_has_violence_situations,profile_sexual_orientation,profile_has_disabilities,profile_has_disabilities_hiring_difficulties,company_employee_number,company_main_activity,company_recommended,company_diversity_policies,company_extra_benefits,company_best_companies_city
0,Mujer,26,Argentina,Ciudad Autónoma de Buenos Aires,3.0,3.0,3.0,0,Universitario,En curso,Ingeniería en Sistemas de Información,UTN - Universidad Tecnológica Nacional,"Sí, los pagó un empleador",No,Sí,Consultant,Ninguna,Ninguno,Ninguno,Ninguna,Ninguna,Ninguno,GNU/Linux,Android,No,0.0,Bruto,Full-Time,53000.0,43000.0,,1,1,No,No recibo bono,No,0.0,0,En mi trabajo actual,Homosexual,,,501-1000,Servicios / Consultoría de Software / Digital,7,2,"Capacitaciones y/o cursos, Comidas pagas / sub...",
1,Hombre,29,Argentina,Corrientes,5.0,2.0,2.0,4,Universitario,En curso,Ingeniería en Sistemas de Información,UTN - Universidad Tecnológica Nacional,"Sí, de forma particular, Sí, los pagó un emple...",No,Sí,Developer,"Docker, Google Cloud Platform/App Engine","HTML, Javascript, Python","Django, jQuery","Informix, MySQL, PostgreSQL",Ninguna,"IPython / Jupyter, Sublime Text, Visual Studio...",GNU/Linux,Android,No,0.0,Bruto,Full-Time,79000.0,63000.0,,2,2,Menos de un sueldo,Performance de la compañía,Uno,10.0,1,Jamás,Heterosexual,Visual,No,201-500,Otras industrias,8,9,"Horarios flexibles, Stock options / RSUs, Viát...",


### Leer archivo desde URL

Como realizar estas operaciones es un poco tedioso y requiere intervención manual, hemos subido el dataset a un servidor local de FaMAF para poder accederlos directamente a través de consultas HTTP (por ejemplo, desde un navegador).

Otra forma de disponibilizar un conjunto de datos pequeño es creando un archivo en un repositorio de github o un gist.

Primero, es necesario descarhar el archivo ya procesado. El procedimiento es similar a leer el archivo.
1. Se guarda el DataFrame en un archivo en el servidor remoto.
2. Se descarga ese archivo.

In [None]:
df_renamed.to_csv("sysarmy_survey_2020_processed.csv", index=False)

In [None]:
from google.colab import files
files.download("sysarmy_survey_2020_processed.csv")

<IPython.core.display.Javascript object>

<IPython.core.display.Javascript object>

Subiremos este archivo con el dataset procesado a un servidor de la universidad. 

Pandas permite leer archivos `.csv` desde una URL, sin necesidad de descargarlos en el sistema de archivos local. La siguiente celda funcionará tanto en Colaboratory como en Jupyter, y será el método por defecto de acceder a los datos en las notebooks siguientes.

In [None]:
url = 'https://cs.famaf.unc.edu.ar/~mteruel/datasets/diplodatos/sysarmy_survey_2020_processed.csv'
df2 = pd.read_csv(url)

In [None]:
df2[:3]

Unnamed: 0,profile_gender,profile_age,work_country,work_province,profile_years_experience,work_years_in_company,work_years_in_current_position,work_people_in_charge_of,profile_studies_level,profile_studies_level_state,profile_career,profile_university,profile_specialization_courses,profile_open_source_contributions,profile_programming_as_hobby,work_role,tools_platform,tools_programming_languages,tools_frameworks,tools_data_bases,tools_qa_testing,tools_IDEs,tools_work_pc_os,tools_cellphone_os,work_on_call_duty,salary_on_call_duty_charge,work_on_call_duty_charge_type,work_contract_type,salary_monthly_BRUTO,salary_monthly_NETO,salary_in_usd,salary_satisfaction,salary_comparison_last_semester,salary_has_bonus,salary_bonus_tied_to,salary_inflation_adjustment_2020,salary_percentage_inflation_adjustment_2020,salary_month_last_inflation_adjustment,work_has_violence_situations,profile_sexual_orientation,profile_has_disabilities,profile_has_disabilities_hiring_difficulties,company_employee_number,company_main_activity,company_recommended,company_diversity_policies,company_extra_benefits,company_best_companies_city
0,Mujer,26,Argentina,Ciudad Autónoma de Buenos Aires,3.0,3.0,3.0,0,Universitario,En curso,Ingeniería en Sistemas de Información,UTN - Universidad Tecnológica Nacional,"Sí, los pagó un empleador",No,Sí,Consultant,Ninguna,Ninguno,Ninguno,Ninguna,Ninguna,Ninguno,GNU/Linux,Android,No,0.0,Bruto,Full-Time,53000.0,43000.0,,1,1,No,No recibo bono,No,0.0,0,En mi trabajo actual,Homosexual,,,501-1000,Servicios / Consultoría de Software / Digital,7,2,"Capacitaciones y/o cursos, Comidas pagas / sub...",
1,Hombre,29,Argentina,Corrientes,5.0,2.0,2.0,4,Universitario,En curso,Ingeniería en Sistemas de Información,UTN - Universidad Tecnológica Nacional,"Sí, de forma particular, Sí, los pagó un emple...",No,Sí,Developer,"Docker, Google Cloud Platform/App Engine","HTML, Javascript, Python","Django, jQuery","Informix, MySQL, PostgreSQL",Ninguna,"IPython / Jupyter, Sublime Text, Visual Studio...",GNU/Linux,Android,No,0.0,Bruto,Full-Time,79000.0,63000.0,,2,2,Menos de un sueldo,Performance de la compañía,Uno,10.0,1,Jamás,Heterosexual,Visual,No,201-500,Otras industrias,8,9,"Horarios flexibles, Stock options / RSUs, Viát...",
2,Mujer,22,Argentina,Ciudad Autónoma de Buenos Aires,2.0,0.0,0.0,0,Secundario,Completado,,,"Sí, de forma particular, Sí, los pagó un emple...",No,Sí,Infosec,"Linux, VMWare",Ninguno,Ninguno,Ninguna,Ninguna,Ninguno,Windows,iOS,No,0.0,Porcentaje de mi sueldo,Full-Time,160000.0,127000.0,,3,3,Un sueldo,Performance individual,No,0.0,0,En un trabajo anterior,Bisexual o queer,,No,2001-5000,Otras industrias,6,9,"Clases de gimnasia online, Comidas pagas / sub...",
