# Inicio en Python<a class="tocSkip">
## Inteligencia Artificial - Machine Learning<a class="tocSkip">
### Ingenieria Electrónica <a class="tocSkip">
### Universidad Popular del Cesar <a class="tocSkip">
### Prof.: Jose Ramón Iglesias Gamarra - [https://github.com/joseramoniglesias/](https://github.com/joseramoniglesias/) <a class="tocSkip">
  **joseiglesias@unicesar.edu.co**



---
# Aplicaciones en Python

La idea de esta notebook es poder introducir algunos conceptos básicos de estadistica descriptiva y sus aplicaciones en Python. Intentaremos familiarizarnos con algunos 
conceptos (librerias, paquetes y funciones) que nos facilitaran el camino hacia la manipulacion y procesamiento de los datos. 

## Herramientas de trabajo 
En esta oportunidad vamos a utilizar el lenguaje de programación Python para realizar nuestro primer analisis de la encuesta de sueldos.

## Pero primero: ¡Hola mundo!
Si es tu primer experiencia con Python, usá la celda de acá abajo para probar tu primer línea de código. Para imprimirlo en pantalla escribimos print("Hola mundo!")

In [None]:
print("hola mundo! bienvenidos a la Diplo!!") # Probá acá

hola mundo! bienvenidos a la Diplo!!


## ¿Que es "EDA"? 

En sus siglas en inglés hace referencia al **Análisis Exploratorio de Datos**. Este es el primer paso que debemos realizar como Data Scientists y consta de una primera revisión del estado de los datos y los consecuentes pasos necesarios para una correcta transformación.

La ciencia de datos es una disciplina que te permite convertir datos crudos en entendimiento, comprensión y conocimiento.

En este sentido, el primer objetivo radica en preguntarnos **¿De qué se trata este dataset?**

## Importación de librerías

El concepto correcto en español es "biblioteca". Una biblioteca es básicamente un componente de software que nos brinda acceso a distintas funcionalidades.
Existen librerías con funciones para leer un archivo excel o csv y trabajar los datos como tablas (librería Pandas, por ejemplo), otras con funciones para graficar nuestros datos (como Seaborn), para trabajar con cálculo numérico (como Numpy).
Cualquiera sea el lenguaje con el que se decida programar, será útil conocer mediante la página oficial del lenguaje cuáles son las librerías disponibles, que nos facilitarán, en éste caso, el análisis de datos.

In [None]:
import matplotlib
import matplotlib.pyplot as plt
import numpy as np
import pandas as pd
import seaborn as sns

sns.set(rc={'figure.figsize':(10,6)})

# Leer dataset Encuesta Sysarmy en formato csv

En esta primera notebook, aprendemos cómo cargar un conjunto de datos utilizando pandas y cómo ver su contenido.

Durante la materia, se trabajará con la Encuesta Sysarmy del año 2022 versión 1. Se trata de una encuesta personal y voluntaria que busca relevar información sobre salarios y condiciones de trabajo de programadores, que se realiza anualmente.

Se analizarán sólo los datos provenientes de Argentina o Colombia


[Link a los datos](https://sysarmy.com/blog/posts/resultados-de-la-encuesta-de-sueldos-2022-1/)

## ¿Cómo leer datos desde un archivo utilizando pandas?


In [None]:
import io
import pandas as pd

pd.set_option('display.max_rows', 4)

### Subiendo el archivo al entorno de Colaboratory

Colaboratory no tiene acceso a nuestro sistema de archivos local (¡menos mal!). Por ello, para poder leer un archivo, primero debemos subirlo a la nube. Eso se logra con:

In [None]:
from google.colab import files
uploaded = files.upload()

Saving 2022.1 - sysarmy - Encuesta de remuneración salarial Argentina - Argentina.csv to 2022.1 - sysarmy - Encuesta de remuneración salarial Argentina - Argentina.csv


En la salida de la celda anterior, verán el texto

```
Saving 2020.2 - sysarmy - Encuesta de remuneración salarial Argentina - Argentina.csv to XXX
```
El texto XXX será la clave del archivo, que se utiliza para identificarlo entre todos los archivos subidos. Tener en cuenta que esta clave no necesariamente es el nombre del archivo.


In [None]:
file_key = '2022.1 - sysarmy - Encuesta de remuneración salarial Argentina - Argentina.csv'  # Replace for correspoing key
df = pd.read_csv(io.StringIO(uploaded[file_key].decode('utf-8')))

In [None]:
df = pd.read_csv('2022.1 - sysarmy - Encuesta de remuneración salarial Argentina - Argentina.csv')

Con esta operación, hemos creado un DataFrame de pandas con base al archivo de respuestas. Un DataFrame no es más que una tabla sobre la cual podemos aplicar un montón de operaciones similares a las de Excel o a las SQL. En esta notebook no pretendemos hacer un tutorial de pandas, el Internet está lleno de ellos, pero sí iremos explicando cómo implementar determinadas operaciones necesarias para el análisis de este conjunto de datos.

Veamos qué valoir tiene la variable `df`.

In [None]:
df[:10]

Unnamed: 0,Para analizar los resultados podés bajar el .csv (Archivo > Descargar como),Unnamed: 1,Unnamed: 2,Unnamed: 3,Unnamed: 4,Unnamed: 5,Unnamed: 6,Unnamed: 7,Unnamed: 8,Unnamed: 9,...,Unnamed: 46,Unnamed: 47,Unnamed: 48,Unnamed: 49,Unnamed: 50,Unnamed: 51,Unnamed: 52,Unnamed: 53,Unnamed: 54,Unnamed: 55
0,,,,,,,,,,,...,,,,,,,,,,
1,Recordá calificar a la empresa donde estás tra...,,,,,,,,,,...,,,,,,,,,,
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
8,,,,,,,,,,,...,,,,,,,,,,
9,Dónde estás trabajando,Tipo de contrato,Salario mensual o retiro BRUTO (en tu moneda l...,Salario mensual o retiro NETO (en tu moneda lo...,Pagos en dólares,¿Cuál fue el último valor de dólar que tomaron?,¿Qué tan conforme estás con tu sueldo?,Cómo creés que está tu sueldo con respecto al ...,Recibís algún tipo de bono,A qué está atado el bono,...,¿Considerás que tenés oportunidades de crecimi...,¿Tenés algún tipo de discapacidad?,¿Sentís que alguna vez los prejuicios cultural...,"En el último año, en tu trabajo ¿recibiste o e...",¿Salir o seguir contestando?,¿Cuántas veces a la semana vas a trabajar a la...,¿Qué tanto sentís que te está apoyando tu empr...,¿Instauraron algún beneficio nuevo?,Tengo (edad),Me identifico (género)


## Selección de filas

¡No es lo que esperamos! Si vemos el conjunto de datos, efectivamente tiene celdas en blanco en la parte superior, y el nombre de las columnas aparece en la fila 9. Con Pandas podemos manejar estas situaciones pasando argumentos específicos a la función `pd.read_csv`

In [None]:
df_fixed = pd.read_csv(
    io.StringIO(uploaded[file_key].decode('utf-8')),
    skiprows=range(9), header=1)

In [None]:
df_fixed[:3]

Unnamed: 0,Dónde estás trabajando,Tipo de contrato,Salario mensual o retiro BRUTO (en tu moneda local),Salario mensual o retiro NETO (en tu moneda local),Pagos en dólares,¿Cuál fue el último valor de dólar que tomaron?,¿Qué tan conforme estás con tu sueldo?,Cómo creés que está tu sueldo con respecto al último semestre,Recibís algún tipo de bono,A qué está atado el bono,...,¿Considerás que tenés oportunidades de crecimiento siendo quien sos dentro de tu organización?,¿Tenés algún tipo de discapacidad?,"¿Sentís que alguna vez los prejuicios culturales/sociales sobre tu orientación, género, etnia o discapacidad pudieron obstaculizar el que consigas un trabajo?","En el último año, en tu trabajo ¿recibiste o escuchaste comentarios que considerás inapropiados, subidos de tono y/o discriminatorios?",¿Salir o seguir contestando?.3,¿Cuántas veces a la semana vas a trabajar a la oficina?,¿Qué tanto sentís que te está apoyando tu empresa/organización durante la pandemia?,¿Instauraron algún beneficio nuevo?,Tengo (edad),Me identifico (género)
0,Catamarca,Tercerizado (trabajo a través de consultora o ...,207000,150000.0,,,2,1,No,No recibo bono,...,,,,,,,,,34,Varón Cis
1,Catamarca,Full-Time,130000,99000.0,,,3,4,Un sueldo,Performance de la compañía,...,,,,,,,,,35,Varón Cis
2,Catamarca,Full-Time,185000,145000.0,Mi sueldo está dolarizado (pero cobro en moned...,100.0,2,2,De uno a tres sueldos,Performance grupal,...,,,,,,,,,26,Varón Trans


## Renombrar columnas

Para trabajar más cómodamente, renombraremos las columnas de DataFrame. Tengan cuidado de que el orden de los nombres nuevos se corresponda con el contenido de cada columna.


In [None]:
df_fixed.columns

Index(['Dónde estás trabajando', 'Tipo de contrato',
       'Salario mensual o retiro BRUTO (en tu moneda local)',
       'Salario mensual o retiro NETO (en tu moneda local)',
       'Pagos en dólares', '¿Cuál fue el último valor de dólar que tomaron?',
       '¿Qué tan conforme estás con tu sueldo?',
       'Cómo creés que está tu sueldo con respecto al último semestre',
       'Recibís algún tipo de bono', 'A qué está atado el bono',
       '¿Tuviste ajustes por inflación durante 2021?',
       '¿De qué % fue el ajuste total?', '¿En qué mes fue el último ajuste?',
       'Trabajo de', 'Años de experiencia', 'Años en la empresa actual',
       'Años en el puesto actual', '¿Gente a cargo?', 'Plataformas',
       'Lenguajes de programación o tecnologías.',
       'Frameworks, herramientas y librerías', 'Bases de datos',
       'QA / Testing', 'IDEs', 'Cantidad de personas en tu organización',
       'Trabajo para una empresa que no tiene oficina en mi ciudad',
       'Actividad principa

In [None]:
new_columns = {
    'profile': {
      'Me identifico (género)': 'gender', 'Tengo (edad)': 'age', 'Años de experiencia': 'years_experience',
      'Nivel de estudios alcanzado': 'studies_level',
      'Estado': 'studies_level_state', 'Carrera': 'career', 'Universidad': 'university',
      'Realizaste cursos de especialización': 'specialization_courses',
      '¿Contribuís a proyectos open source?': 'open_source_contributions',
      '¿Programás como hobbie?': 'programming_as_hobby',
      'Orientación sexual': 'sexual_orientation',
      '¿Tenés algún tipo de discapacidad?': 'has_disabilities',
      '¿Sentís que alguna vez los prejuicios culturales/sociales sobre tu orientación, género, etnia o discapacidad pudieron obstaculizar el que consigas un trabajo?': 'has_disabilities_hiring_difficulties',
  },
  'work' : {
      'Estoy trabajando en': 'country',
      'Dónde estás trabajando': 'province', 'Años en la empresa actual': 'years_in_company',
      'Años en el puesto actual': 'years_in_current_position', '¿Gente a cargo?': 'people_in_charge_of',
      'Trabajo de': 'role', '¿Tenés guardias?': 'on_call_duty',
      '¿Porcentaje, bruto o neto?': 'on_call_duty_charge_type', 'Tipo de contrato': 'contract_type',
      'Sufriste o presenciaste situaciones de violencia y/o acoso por motivo de': 'has_violence_situations',
      '¿Considerás que tenés oportunidades de crecimiento siendo quien sos dentro de tu organización?':'listen_more_men',
      '¿Sentís que podés ser vos en tu trabajo?': 'yourself_in_your_work',
      'En el último año, en tu trabajo ¿recibiste o escuchaste comentarios que considerás inapropiados, subidos de tono y/o discriminatorios?':'lastyear_discrimination',
  },
  'tools': {
      'Plataformas': 'platform', 'Lenguajes de programación': 'programming_languages',
      'Frameworks, herramientas y librerías': 'frameworks', 'Bases de datos': 'data_bases',
      'QA / Testing': 'qa_testing', 'IDEs': 'IDEs',
      '¿Qué SO usás en tu laptop/PC para trabajar?': 'work_pc_os', '¿Y en tu celular?': 'cellphone_os'
  },
  'salary': {
      'Cuánto cobrás por guardia': 'on_call_duty_charge',
      'Salario mensual o retiro BRUTO (en tu moneda local)': 'monthly_BRUTO',
      'Salario mensual o retiro NETO (en tu moneda local)': 'monthly_NETO',
      'Pagos en dólares': 'in_usd', '¿Cuál fue el último valor de dólar que tomaron?':'last_dollar_value','¿Qué tan conforme estás con tu sueldo?': 'satisfaction',
      'Cómo creés que está tu sueldo con respecto al último semestre': 'comparison_last_semester',
      'Recibís algún tipo de bono': 'has_bonus', 'A qué está atado el bono': 'bonus_tied_to',
      '¿Tuviste ajustes por inflación durante 2021?': 'inflation_adjustment_2021',
      '¿De qué % fue el ajuste total?': 'percentage_inflation_adjustment_2021',
      '¿En qué mes fue el último ajuste?': 'month_last_inflation_adjustment',
  },
  'company' : {
      'Cantidad de empleados': 'employee_number', 'Actividad principal': 'main_activity',
      '¿La recomendás como un buen lugar para trabajar?': 'recommended',
      '¿Cuál es el compromiso que tiene tu empresa con la diversidad, la equidad y la inclusión?': 'diversity_policies',
      'Beneficios extra': 'extra_benefits', '¿Instauraron algún beneficio nuevo?': 'new_benefits',
      '¿Qué tanto sentís que te está apoyando tu empresa/organización durante la pandemia?': 'pandemic_support',
      '¿Cuántas veces a la semana vas a trabajar a la oficina?':'days_in_the_office',
  }
}


In [None]:
def replace_columns(df, new_columns):
  new_col_names = {
    original_name: category + '_' + new_name
    for category, cols in new_columns.items()
    for original_name, new_name in cols.items()
  }
  return df.rename(columns=new_col_names)

In [None]:
df_renamed = replace_columns(df_fixed, new_columns)
df_renamed[:2]

Unnamed: 0,work_province,work_contract_type,salary_monthly_BRUTO,salary_monthly_NETO,salary_in_usd,salary_last_dollar_value,salary_satisfaction,salary_comparison_last_semester,salary_has_bonus,salary_bonus_tied_to,...,work_listen_more_men,profile_has_disabilities,profile_has_disabilities_hiring_difficulties,work_lastyear_discrimination,¿Salir o seguir contestando?.3,company_days_in_the_office,company_pandemic_support,company_new_benefits,profile_age,profile_gender
0,Catamarca,Tercerizado (trabajo a través de consultora o ...,207000,150000.0,,,2,1,No,No recibo bono,...,,,,,,,,,34,Varón Cis
1,Catamarca,Full-Time,130000,99000.0,,,3,4,Un sueldo,Performance de la compañía,...,,,,,,,,,35,Varón Cis


### Leer archivo desde URL

Como realizar estas operaciones es un poco tedioso y requiere intervención manual, hemos subido el dataset a un servidor local de FaMAF para poder accederlos directamente a través de consultas HTTP (por ejemplo, desde un navegador).

Otra forma de disponibilizar un conjunto de datos pequeño es creando un archivo en un repositorio de github o un gist.

Primero, es necesario descargar el archivo ya procesado. El procedimiento es similar a leer el archivo.
1. Se guarda el DataFrame en un archivo en el servidor remoto.
2. Se descarga ese archivo.

In [None]:
df_renamed.to_csv("sysarmy_survey_2022_processed.csv", index=False)

In [None]:
from google.colab import files
files.download("sysarmy_survey_2022_processed.csv")

<IPython.core.display.Javascript object>

<IPython.core.display.Javascript object>

Subiremos este archivo con el dataset procesado a un servidor de la universidad. 

Pandas permite leer archivos `.csv` desde una URL, sin necesidad de descargarlos en el sistema de archivos local. La siguiente celda funcionará tanto en Colaboratory como en Jupyter, y será el método por defecto de acceder a los datos en las notebooks siguientes.

In [None]:
url = 'https://cs.famaf.unc.edu.ar/~mteruel/datasets/diplodatos/sysarmy_survey_2020_processed.csv'
df2 = pd.read_csv(url)

In [None]:
df2[:3]

Unnamed: 0,profile_gender,profile_age,work_country,work_province,profile_years_experience,work_years_in_company,work_years_in_current_position,work_people_in_charge_of,profile_studies_level,profile_studies_level_state,...,work_has_violence_situations,profile_sexual_orientation,profile_has_disabilities,profile_has_disabilities_hiring_difficulties,company_employee_number,company_main_activity,company_recommended,company_diversity_policies,company_extra_benefits,company_best_companies_city
0,Mujer,26,Argentina,Ciudad Autónoma de Buenos Aires,3.0,3.0,3.0,0,Universitario,En curso,...,En mi trabajo actual,Homosexual,,,501-1000,Servicios / Consultoría de Software / Digital,7,2,"Capacitaciones y/o cursos, Comidas pagas / sub...",
1,Hombre,29,Argentina,Corrientes,5.0,2.0,2.0,4,Universitario,En curso,...,Jamás,Heterosexual,Visual,No,201-500,Otras industrias,8,9,"Horarios flexibles, Stock options / RSUs, Viát...",
2,Mujer,22,Argentina,Ciudad Autónoma de Buenos Aires,2.0,0.0,0.0,0,Secundario,Completado,...,En un trabajo anterior,Bisexual o queer,,No,2001-5000,Otras industrias,6,9,"Clases de gimnasia online, Comidas pagas / sub...",


**Copyright**

The notebooks are provided as [Open Educational Resource](https://de.wikipedia.org/wiki/Open_Educational_Resources). Feel free to use the notebooks for your own educational purposes. The text is licensed under [Creative Commons Attribution 4.0](https://creativecommons.org/licenses/by/4.0/), the code of the IPython examples under the [MIT license](https://opensource.org/licenses/MIT).