
## DISTRIBUCIONES<a class="tocSkip">
## EL460 ELECTIVA I - CIENCIA DE DATOS II <a class="tocSkip">
### Ingenieria Electrónica <a class="tocSkip">
### Universidad Popular del Cesar <a class="tocSkip">
### Prof.: Jose Ramón Iglesias Gamarra - [https://github.com/joseramoniglesias/](https://github.com/joseramoniglesias/) <a class="tocSkip">
**joseiglesias@unicesar.edu.co**

---
# Aplicaciones en Python

La idea de esta notebook es poder introducir algunos conceptos básicos de estadistica descriptiva y sus aplicaciones en Python. Intentaremos familiarizarnos con algunos 
conceptos (librerias, paquetes y funciones) que nos facilitaran el camino hacia la manipulacion y procesamiento de los datos. 

## Herramientas de trabajo 
En esta oportunidad vamos a utilizar el lenguaje de programación Python junto con DataSpell para realizar nuestro primer analisis de la encuesta de sueldos. Hay que recordar que todas las librerías instaladas en Anaconda funcionan en DataSpell y también funcionan los Notebooks de Jupyter, por lo tanto es necesario cargar todas las librerías a utilizar en Anaconda o desde DataSpell.



## ¿Que es "EDA"? 

En sus siglas en inglés hace referencia al **Análisis Exploratorio de Datos**. Este es el primer paso que debemos realizar como Data Scientists y consta de una primera revisión del estado de los datos y los consecuentes pasos necesarios para una correcta transformación.

La ciencia de datos es una disciplina que te permite convertir datos crudos en entendimiento, comprensión y conocimiento.

<center>
<img src="https://i.imgur.com/jclXnDS.png" height="200" />
</center>


En este sentido, el primer objetivo radica en preguntarnos **¿De qué se trata este dataset?**

## Importación de librerías

El concepto correcto en español es "biblioteca". Una biblioteca es básicamente un componente de software que nos brinda acceso a distintas funcionalidades.
Existen librerías con funciones para leer un archivo excel o csv y trabajar los datos como tablas (librería Pandas, por ejemplo), otras con funciones para graficar nuestros datos (como Seaborn), para trabajar con cálculo numérico (como Numpy).
Cualquiera sea el lenguaje con el que se decida programar, será útil conocer mediante la página oficial del lenguaje cuáles son las librerías disponibles, que nos facilitarán, en éste caso, el análisis de datos.

In [7]:
import matplotlib
import matplotlib.pyplot as plt
import numpy as np
import pandas as pd
import seaborn as sns

sns.set(rc={'figure.figsize':(10,6)})

# Leer dataset Encuesta Sysarmy en formato csv

En esta primera notebook, aprendemos cómo cargar un conjunto de datos utilizando pandas y cómo ver su contenido.

Durante la materia, se trabajará con la Encuesta Sysarmy del año 2022 versión 1. Se trata de una encuesta personal y voluntaria que busca relevar información sobre salarios y condiciones de trabajo de programadores, que se realiza anualmente.

Se analizarán sólo los datos provenientes de Argentina


## ¿Cómo leer datos desde un archivo utilizando pandas?


In [8]:
import io
import pandas as pd

pd.set_option('display.max_rows', 4)

### Leyendo el archivo

In [10]:
df = pd.read_csv("2020_2_Encuesta_de_remuneracion_salarial_Argentina.csv")


ParserError: Error tokenizing data. C error: Expected 1 fields in line 107, saw 48


Con esta operación, hemos creado un DataFrame de pandas en base al archivo de respuestas. Un DataFrame no es más que una tabla sobre la cual podemos aplicar un montón de operaciones similares a las de Excel o a las SQL. En esta notebook no pretendemos hacer un tutorial de pandas, el Internet está lleno de ellos, pero sí iremos explicando cómo implementar determinadas operaciones necesarias para el análisis de este conjunto de datos.

Veamos qué valoir tiene la variable `df`.

In [4]:
df[:10]

NameError: name 'df' is not defined

## Selección de filas

¡No es lo que esperamos! Si vemos el conjunto de datos, efectivamente tiene celdas en blanco en la parte superior, y el nombre de las columnas aparece en la fila 9. Con Pandas podemos manejar estas situaciones pasando argumentos específicos a la función `pd.read_csv`

In [11]:
df_fixed = pd.read_csv(
    "2022.1 - sysarmy - Encuesta de remuneración salarial Argentina - Argentina.csv",
    skiprows=range(9), header=1)

In [12]:
df_fixed[:3]

Unnamed: 0,Dónde estás trabajando,Tipo de contrato,Salario mensual o retiro BRUTO (en tu moneda local),Salario mensual o retiro NETO (en tu moneda local),Pagos en dólares,¿Cuál fue el último valor de dólar que tomaron?,¿Qué tan conforme estás con tu sueldo?,Cómo creés que está tu sueldo con respecto al último semestre,Recibís algún tipo de bono,A qué está atado el bono,...,¿Considerás que tenés oportunidades de crecimiento siendo quien sos dentro de tu organización?,¿Tenés algún tipo de discapacidad?,"¿Sentís que alguna vez los prejuicios culturales/sociales sobre tu orientación, género, etnia o discapacidad pudieron obstaculizar el que consigas un trabajo?","En el último año, en tu trabajo ¿recibiste o escuchaste comentarios que considerás inapropiados, subidos de tono y/o discriminatorios?",¿Salir o seguir contestando?.3,¿Cuántas veces a la semana vas a trabajar a la oficina?,¿Qué tanto sentís que te está apoyando tu empresa/organización durante la pandemia?,¿Instauraron algún beneficio nuevo?,Tengo (edad),Me identifico (género)
0,Catamarca,Tercerizado (trabajo a través de consultora o ...,207000,150000.0,,,2,1,No,No recibo bono,...,,,,,,,,,34,Varón Cis
1,Catamarca,Full-Time,130000,99000.0,,,3,4,Un sueldo,Performance de la compañía,...,,,,,,,,,35,Varón Cis
2,Catamarca,Full-Time,185000,145000.0,Mi sueldo está dolarizado (pero cobro en moned...,100.0,2,2,De uno a tres sueldos,Performance grupal,...,,,,,,,,,26,Varón Trans


## Renombrar columnas

Para trabajar más cómodamente, renombraremos las columnas de DataFrame. Tengan cuidado de que el orden de los nombres nuevos se corresponda con el contenido de cada columna.


In [13]:
df_fixed.columns

Index(['Dónde estás trabajando', 'Tipo de contrato',
       'Salario mensual o retiro BRUTO (en tu moneda local)',
       'Salario mensual o retiro NETO (en tu moneda local)',
       'Pagos en dólares', '¿Cuál fue el último valor de dólar que tomaron?',
       '¿Qué tan conforme estás con tu sueldo?',
       'Cómo creés que está tu sueldo con respecto al último semestre',
       'Recibís algún tipo de bono', 'A qué está atado el bono',
       '¿Tuviste ajustes por inflación durante 2021?',
       '¿De qué % fue el ajuste total?', '¿En qué mes fue el último ajuste?',
       'Trabajo de', 'Años de experiencia', 'Años en la empresa actual',
       'Años en el puesto actual', '¿Gente a cargo?', 'Plataformas',
       'Lenguajes de programación o tecnologías.',
       'Frameworks, herramientas y librerías', 'Bases de datos',
       'QA / Testing', 'IDEs', 'Cantidad de personas en tu organización',
       'Trabajo para una empresa que no tiene oficina en mi ciudad',
       'Actividad principa

In [14]:
new_columns = {
    'profile': {
      'Me identifico (género)': 'gender', 'Tengo (edad)': 'age', 'Años de experiencia': 'years_experience',
      'Nivel de estudios alcanzado': 'studies_level',
      'Estado': 'studies_level_state', 'Carrera': 'career', 'Universidad': 'university',
      'Realizaste cursos de especialización': 'specialization_courses',
      '¿Contribuís a proyectos open source?': 'open_source_contributions',
      '¿Programás como hobbie?': 'programming_as_hobby',
      'Orientación sexual': 'sexual_orientation',
      '¿Tenés algún tipo de discapacidad?': 'has_disabilities',
      '¿Sentís que alguna vez los prejuicios culturales/sociales sobre tu orientación, género, etnia o discapacidad pudieron obstaculizar el que consigas un trabajo?': 'has_disabilities_hiring_difficulties',
  },
  'work' : {
      'Estoy trabajando en': 'country',
      'Dónde estás trabajando': 'province', 'Años en la empresa actual': 'years_in_company',
      'Años en el puesto actual': 'years_in_current_position', '¿Gente a cargo?': 'people_in_charge_of',
      'Trabajo de': 'role', '¿Tenés guardias?': 'on_call_duty',
      '¿Porcentaje, bruto o neto?': 'on_call_duty_charge_type', 'Tipo de contrato': 'contract_type',
      'Sufriste o presenciaste situaciones de violencia y/o acoso por motivo de': 'has_violence_situations',
      '¿Considerás que tenés oportunidades de crecimiento siendo quien sos dentro de tu organización?':'listen_more_men',
      '¿Sentís que podés ser vos en tu trabajo?': 'yourself_in_your_work',
      'En el último año, en tu trabajo ¿recibiste o escuchaste comentarios que considerás inapropiados, subidos de tono y/o discriminatorios?':'lastyear_discrimination',
  },
  'tools': {
      'Plataformas': 'platform', 'Lenguajes de programación': 'programming_languages',
      'Frameworks, herramientas y librerías': 'frameworks', 'Bases de datos': 'data_bases',
      'QA / Testing': 'qa_testing', 'IDEs': 'IDEs',
      '¿Qué SO usás en tu laptop/PC para trabajar?': 'work_pc_os', '¿Y en tu celular?': 'cellphone_os'
  },
  'salary': {
      'Cuánto cobrás por guardia': 'on_call_duty_charge',
      'Salario mensual o retiro BRUTO (en tu moneda local)': 'monthly_BRUTO',
      'Salario mensual o retiro NETO (en tu moneda local)': 'monthly_NETO',
      'Pagos en dólares': 'in_usd', '¿Cuál fue el último valor de dólar que tomaron?':'last_dollar_value','¿Qué tan conforme estás con tu sueldo?': 'satisfaction',
      'Cómo creés que está tu sueldo con respecto al último semestre': 'comparison_last_semester',
      'Recibís algún tipo de bono': 'has_bonus', 'A qué está atado el bono': 'bonus_tied_to',
      '¿Tuviste ajustes por inflación durante 2021?': 'inflation_adjustment_2021',
      '¿De qué % fue el ajuste total?': 'percentage_inflation_adjustment_2021',
      '¿En qué mes fue el último ajuste?': 'month_last_inflation_adjustment',
  },
  'company' : {
      'Cantidad de empleados': 'employee_number', 'Actividad principal': 'main_activity',
      '¿La recomendás como un buen lugar para trabajar?': 'recommended',
      '¿Cuál es el compromiso que tiene tu empresa con la diversidad, la equidad y la inclusión?': 'diversity_policies',
      'Beneficios extra': 'extra_benefits', '¿Instauraron algún beneficio nuevo?': 'new_benefits',
      '¿Qué tanto sentís que te está apoyando tu empresa/organización durante la pandemia?': 'pandemic_support',
      '¿Cuántas veces a la semana vas a trabajar a la oficina?':'days_in_the_office',
  }
}


In [15]:
def replace_columns(df, new_columns):
  new_col_names = {
    original_name: category + '_' + new_name
    for category, cols in new_columns.items()
    for original_name, new_name in cols.items()
  }
  return df.rename(columns=new_col_names)

In [16]:
df_renamed = replace_columns(df_fixed, new_columns)
df_renamed[:2]

Unnamed: 0,work_province,work_contract_type,salary_monthly_BRUTO,salary_monthly_NETO,salary_in_usd,salary_last_dollar_value,salary_satisfaction,salary_comparison_last_semester,salary_has_bonus,salary_bonus_tied_to,...,work_listen_more_men,profile_has_disabilities,profile_has_disabilities_hiring_difficulties,work_lastyear_discrimination,¿Salir o seguir contestando?.3,company_days_in_the_office,company_pandemic_support,company_new_benefits,profile_age,profile_gender
0,Catamarca,Tercerizado (trabajo a través de consultora o ...,207000,150000.0,,,2,1,No,No recibo bono,...,,,,,,,,,34,Varón Cis
1,Catamarca,Full-Time,130000,99000.0,,,3,4,Un sueldo,Performance de la compañía,...,,,,,,,,,35,Varón Cis


In [None]:
### Leer archivo desde URL

Para poder accederlos directamente a través de consultas HTTP (por ejemplo, desde un navegador).
he preparado el conjunto de datos creando un archivo en mi repositorio de github.

In [18]:
df_renamed.to_csv("survey_2022_processed.csv", index=False)

Pandas permite leer archivos `.csv` desde una URL, sin necesidad de descargarlos en el sistema de archivos local. La siguiente celda funcionará tanto en Colaboratory como en Jupyter, y será el método por defecto de acceder a los datos en las notebooks siguientes.

In [29]:
url = 'https://raw.githubusercontent.com/joseramoniglesias/EL460_Ciencia_de_datos_2/main/Ejercicios/2020_2_Encuesta_de_remuneracion_salarial_Argentina.csv'
df2 = pd.read_csv(url)

In [30]:
df2[:3]

Unnamed: 0,Para analizar los resultados podés hacer una copia (Archivo > Crear una copia) o bajar el .csv (Archivo > Descargar como),Unnamed: 1,Unnamed: 2,Unnamed: 3,Unnamed: 4,Unnamed: 5,Unnamed: 6,Unnamed: 7,Unnamed: 8,Unnamed: 9,...,Unnamed: 38,Unnamed: 39,Unnamed: 40,Unnamed: 41,Unnamed: 42,Unnamed: 43,Unnamed: 44,Unnamed: 45,Unnamed: 46,Unnamed: 47
0,,,,,,,,,,,...,,,,,,,,,,
1,Recordá calificar a la empresa donde estás tra...,,,,,,,,,,...,,,,,,,,,,
2,,,,,,,,,,,...,,,,,,,,,,
