<a href="https://colab.research.google.com/github/NoeliaFerrero/openqube-sueldos/blob/main/Clase_1_Analisis_Exploratorio.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>


# **MeTCaMPDatos**


**Edición 2021**

<img src="https://i.imgur.com/HnKHks1.png" height="150" />


# Nueva sección

## Aventurándonos en el mundo de los **datos**
La idea de este notebook es poder introducir algunos conceptos básicos de estadistica descriptiva y sus aplicaciones en Python. Intentaremos familiarizarnos con algunos 
conceptos (librerias, paquetes y funciones) que nos facilitaran el camino hacia la manipulacion y procesamiento de los datos. 

## Objetivos
- Introducir funciones necesarias para una exploracion inicial del dataset
- Brindar nociones basicas de diferentes medidas de estadistica descriptiva aplicadas 
- Pensar preguntas o problemas y variables de interés 
- Descubrir un primer insight que aporte valor al analisis



## Herramientas de trabajo 
En esta oportunidad vamos a utilizar el lenguaje de programación Python junto con Google Colab para realizar nuestro primer analisis de la encuesta de sueldos. Recorda que Colab es un servicio cloud basado en los Notebooks de Jupyter, por lo tanto no es necesario descargar nada. A su vez, nos iniciaremos en un primer uso de herramientas de software libre, es decir no necesitas una licencia para porder utilizarlas. 

<center>
<img src="https://i.imgur.com/Cq52LcH.png" height="150" />
</center>




## Pero primero: ¡Hola mundo!
Si es tu primer experiencia con Python, usá la celda de acá abajo para probar tu primer línea de código. Para imprimirlo en pantalla escribimos print("Hola mundo!")


In [None]:
# Probá acá

Un ejemplo de lo que podés hacer con Python. Probá cambiando los números y apretando play.



In [None]:
a = 3
b = 4
print(a+b)


7



## Explorando algunos datos
Vamos a trabajar con un set de datos obtenido de **SysArmy** que se denomina **"Encuesta de Sueldos"** y se puede consultar en: [este sitio](https://sysarmy.com/blog/posts/resultados-de-la-encuesta-de-sueldos-2021-1/).

<center>
<img src="https://i.imgur.com/ivxTHhG.png" height="150" />
</center>

Sysarmy es una organización internacional perteneciente a la comunidad de sistemas que nuclea a profesionales del área para favorecer el contacto y el intercambio de conocimiento de manera informal. Anualmente desarrollan una encuesta de sueldos con el objetivo de obtener información sobre la situación laboral actual en tecnología, evaluan el máximo nivel educativo alcanzado de los encuestados y brindan información sobre diferentes empresas. 


## Que es el EDA? 

En sus siglas en inglés hace referencia al **Análisis Exploratorio de Datos**. Este es el primer paso que debemos realizar como Data Scientists y consta de una primera revisión del estado de los datos y los consecuentes pasos necesarios para una correcta transformación.

La ciencia de datos es una disciplina que te permite convertir datos crudos en entendimiento, comprensión y conocimiento.

<center>
<img src="https://i.imgur.com/jclXnDS.png" height="150" />
</center>


En este sentdo, el primer objetivo radica en preguntarnos **¿De que se trata este dataset?**

## Importación de librerías

In [None]:
import numpy as np #importo numpy
import pandas as pd #importo pandas

## Lectura del dataset

In [None]:
url = 'https://raw.githubusercontent.com/MeT2021/MeTCamp-Data-Science/main/sysarmy_2020.csv'
df = pd.read_csv(url,error_bad_lines=False)

NameError: ignored

Vamos a utilizar `head()` para ver las primeras filas del dataset y `tail()` para ver las últimas.

In [None]:
df.head(5)

In [None]:
df.tail(5)

Tenemos ahora un objeto (que es una tabla, algo parecido a una hoja de Excel) que se llama `df`.

---
1. ¿Qué tipos de datos parece tener esta tabla?
2. ¿Cuáles son las variables? ¿Cuáles las unidades de análisis?
---


In [None]:
## Unidad de analisis

Con `shape`podemos conocer las dimensiones del dataset y con `columns`observamos las columnas

In [None]:
print('Cantidad de Filas y columnas:', df.shape)

Cantidad de Filas y columnas: (6095, 48)


In [None]:
print('Nombre columnas:', df.columns)

Nombre columnas: Index(['Me identifico', 'Tengo', 'Estoy trabajando en',
       'Dónde estás trabajando', 'Años de experiencia',
       'Años en la empresa actual', 'Años en el puesto actual',
       '¿Gente a cargo?', 'Nivel de estudios alcanzado', 'Estado', 'Carrera',
       'Universidad', 'Realizaste cursos de especialización',
       '¿Contribuís a proyectos open source?', '¿Programás como hobbie?',
       'Trabajo de', 'Plataformas', 'Lenguajes de programación',
       'Frameworks, herramientas y librerías', 'Bases de datos',
       'QA / Testing', 'IDEs', '¿Qué SO usás en tu laptop/PC para trabajar?',
       '¿Y en tu celular?', '¿Tenés guardias?', 'Cuánto cobrás por guardia',
       '¿Porcentaje, bruto o neto?', 'Tipo de contrato',
       'Salario mensual BRUTO (en tu moneda local)',
       'Salario mensual NETO (en tu moneda local)', 'Unnamed: 30',
       '¿Qué tan conforme estás con tu sueldo?',
       'Cómo creés que está tu sueldo con respecto al último semestre',
       'Re

## Renombrar columnas

Para trabajar más cómodamente, renombraremos las columnas del DataFrame. Tengan cuidado de que el orden de los nombres nuevos se corresponda con el contenido de cada columna. Los nombres de las columnas tienen que ser autoexplicativos y transparentes para cualquier persona que lo lea.

In [None]:
df.columns

In [None]:
nuevas_columnas = {
  'perfil': {
      'Me identifico': 'genero',
      'Tengo': 'edad',
      'Años de experiencia':
      'anos_experiencia',
      'Nivel de estudios alcanzado': 'nivel_estudios',
      'Estado': 'estado_estudios',
      'Carrera': 'carrera',
      'Universidad': 'universidad',
      'Realizaste cursos de especialización': 'cursos_especializacion',
      '¿Contribuís a proyectos open source?': 'contribuciones_open_source',
      '¿Programás como hobbie?': 'programa_como_hobbie',
      'Orientación sexual': 'orientacion_sexual',
      '¿Tenés algún tipo de discapacidad?': 'discapacidad',
      '¿Sentís que esto te dificultó el conseguir trabajo?': 'dificultad_ser_contratada_discapacidad',
      '¿A qué eventos de tecnología asististe en el último año?': 'eventos_tecnologia_ultimo_anio'
  },
  'trabajo' : {
      'Estoy trabajando en': 'pais',
      'Dónde estás trabajando': 'provincia',
      'Años en la empresa actual': 'anios_empresa_actual',
      'Años en el puesto actual': 'anios_puesto_actual',
      '¿Gente a cargo?': 'personas_a_cargo',
      'Trabajo de': 'rol',
      '¿Tenés guardias?': 'guardias ',
      '¿Porcentaje, bruto o neto?': 'guardias_tipo_pago ',
      'Tipo de contrato': 'tipo_contrato',
      '¿Sufriste o presenciaste situaciones de violencia laboral?': 'violencia_laboral',
  },
  'herramientas': {
      'Plataformas': 'plataforma', 
      'Lenguajes de programación': 'languagjs_programacion',
      'Frameworks, herramientas y librerías': 'frameworks', 
      'Bases de datos': 'data_bases',
      'QA / Testing': 'qa_testing',
      'IDEs': 'IDEs',
      '¿Qué SO usás en tu laptop/PC para trabajar?': 'sistema_operativo_pc',
      '¿Y en tu celular?': 'sistema_operativo_cel'
  },
  'salario': {
      'Cuánto cobrás por guardia': 'guardias_pago',
      'Salario mensual BRUTO (en tu moneda local)': 'mensual_BRUTO',
      'Salario mensual NETO (en tu moneda local)': 'mensual_NETO',
      'Unnamed: 30': 'salario_dolares',
      '¿Qué tan conforme estás con tu sueldo?': 'conformidad_sueldo',
      'Cómo creés que está tu sueldo con respecto al último semestre': 'comparacion_sueldo_semestre_anterior ',
      'Recibís algún tipo de bono': 'bonos',
      'A qué está atado el bono': 'bono_atado_a ',
      '¿Tuviste ajustes por inflación en lo que va de 2020?': 'ajustes_inflacion_2020 ',
      '¿De qué % fue el ajuste total?': 'porcentaje_inflacion_ajuste_2020',
      '¿En qué mes fue el último ajuste?': 'mes_ultimo_ajuste_inflacion ',
  },
  'compania' : {
      'Cantidad de empleados': 'cantidad_empleadxs',
      'Actividad principal': 'actividad_princiapl',
      '¿La recomendás como un buen lugar para trabajar?': 'recomendacion_lugar_trabajo',
      '¿Cómo calificás las políticas de diversidad e inclusión?': 'politicas_inclusion',
      '¿A cuántos kilómetros de tu casa queda la oficina?': 'distancia_oficina_km',
      'Beneficios extra': 'beneficios_extra',
      '¿Cuáles considerás que son las mejores empresas de IT para trabajar en este momento, en tu ciudad?': 'mejor_compania_ciudad',
  }
}


In [None]:
def replace_columns(df, nuevas_columnas):
  nuevo_nombre_columnas = {
    nombre_original: category + '_' + nuevo_nombre # Para agregar en el nombre el prefijo de la categoría, por ejemplo 'perfil', 'trabajo'.
    for category, cols in nuevas_columnas.items()
    for nombre_original, nuevo_nombre in cols.items()
  }
  return df.rename(columns=nuevo_nombre_columnas)

In [None]:
df_renamed = replace_columns(df, nuevas_columnas)
df_renamed.head()

Podemos ver más en detalle las **características del dataset** de la siguente forma:

In [None]:
df_renamed.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 6095 entries, 0 to 6094
Data columns (total 48 columns):
 #   Column                                         Non-Null Count  Dtype  
---  ------                                         --------------  -----  
 0   perfil_genero                                  6095 non-null   object 
 1   perfil_edad                                    6095 non-null   int64  
 2   trabajo_pais                                   6095 non-null   object 
 3   trabajo_provincia                              6095 non-null   object 
 4   perfil_anos_experiencia                        6095 non-null   float64
 5   trabajo_anios_empresa_actual                   6095 non-null   float64
 6   trabajo_anios_puesto_actual                    6095 non-null   float64
 7   trabajo_personas_a_cargo                       6095 non-null   int64  
 8   perfil_nivel_estudios                          6095 non-null   object 
 9   perfil_estado_estudios                         6095 

¿Cuántos **varones**, **mujeres** y **otros** respondieron la encuesta? Lo vemos usando `value_counts()` 

¿De que tipo de variable se trata?




In [None]:
df_renamed["perfil_genero"].value_counts()

Hombre    5122
Mujer      942
Otros       31
Name: perfil_genero, dtype: int64

In [None]:
# Resolvé aca 

¿Te animás a calcular cuántas personas encuestadas tienen **estudios completos**, en **curso** o **incompletos**?

¿Te parece que el tipo de variable es diferente a la anterior?



In [None]:
# perfil_nivel_estudios

Ahora vamos a sacar algunos estadísticos de los campos numéricos del dataset. ¿Qué podemos empezar a observar sobre el **Sueldo Bruto**?

In [None]:
df_renamed.describe() #Utilizamos describe para calcular los estadísticos

Unnamed: 0,perfil_edad,perfil_anos_experiencia,trabajo_anios_empresa_actual,trabajo_anios_puesto_actual,trabajo_personas_a_cargo,salario_guardias_pago,salario_mensual_BRUTO,salario_mensual_NETO,salario_conformidad_sueldo,salario_comparacion_sueldo_semestre_anterior,salario_porcentaje_inflacion_ajuste_2020,salario_mes_ultimo_ajuste_inflacion,compania_recomendacion_lugar_trabajo,compania_politicas_inclusion
count,6095.0,6095.0,6095.0,6095.0,6095.0,6095.0,6095.0,5883.0,6095.0,6095.0,6095.0,6095.0,6095.0,6095.0
mean,41.181952,8.930861,3.311944,2.88977,2.211649,664.042084,124058.5,94907.95,2.619524,2.363577,10.444511,2.785562,7.340115,7.621001
std,665.721175,7.161094,4.367742,3.423228,32.983395,10540.523461,122912.4,96862.26,0.858621,0.945713,12.860433,2.837195,2.024057,2.324034
min,18.0,0.0,0.0,0.0,0.0,0.0,1.0,1.0,1.0,1.0,0.0,0.0,1.0,1.0
25%,27.0,3.0,0.0,1.0,0.0,0.0,61595.0,51480.0,2.0,2.0,0.0,0.0,6.0,6.0
50%,31.0,7.0,2.0,2.0,0.0,0.0,96000.0,78000.0,3.0,2.0,7.0,2.0,8.0,8.0
75%,37.0,13.0,4.0,4.0,0.0,0.0,145000.0,106000.0,3.0,3.0,18.0,6.0,9.0,10.0
max,52000.0,115.0,43.0,34.0,2500.0,650000.0,2180000.0,2080000.0,4.0,4.0,100.0,8.0,10.0,10.0


In [None]:
df_renamed['salario_mensual_BRUTO'].mean()

124058.54962132902

In [None]:
df_renamed['salario_mensual_BRUTO'].median()

96000.0

## Análisis de salarios
Una de las variables más interesantes del dataset es el **Salario Mensual Bruto** de las personas encuestadas. A su vez, contamos con la variable Género que podría aportarnos información sobre la existencia de brechas de ingresos entre mujeres, varones y diversidades. 


Planteamos una primer hipótesis: a mayor nivel de estudio, mejor sueldo tienen las personas encuestadas. 
Para calcularlo, vamos a quedarnos solamente con las columnas que nos interesan: género, nivel de estudios y salario bruto.

In [None]:
df_3 = df_renamed[["perfil_genero", "perfil_nivel_estudios", "salario_mensual_BRUTO"]] #Seleccionamos las columnas que vamos a utilizar

In [None]:
print(df_3) #Imprimimos nuestro nuevo dataset


     perfil_genero perfil_nivel_estudios  salario_mensual_BRUTO
0            Mujer         Universitario                53000.0
1           Hombre         Universitario                79000.0
2            Mujer            Secundario               160000.0
3           Hombre              Posgrado               130000.0
4           Hombre         Universitario               140000.0
...            ...                   ...                    ...
6090        Hombre             Terciario                99000.0
6091        Hombre         Universitario                85000.0
6092        Hombre             Terciario                47250.0
6093        Hombre             Terciario                86000.0
6094        Hombre             Terciario                85000.0

[6095 rows x 3 columns]


Vamos a calcular el sueldo promedio según el nivel de estudio. Para eso, vamos a agrupar por categorías:  

In [None]:
df_3.groupby(by="perfil_nivel_estudios").mean()


Unnamed: 0_level_0,salario_mensual_BRUTO
perfil_nivel_estudios,Unnamed: 1_level_1
Doctorado,141973.703
Posdoctorado,637035.75
Posgrado,167045.428246
Primario,109000.0
Secundario,103639.224196
Terciario,102537.506139
Universitario,128010.618984


¿Qué pasó con nuestra hipótesis? ¿Podemos confirmarla o refutarla? ¿Qué otros datos agregarían para profundizar en este análisis?

In [None]:
# Responder acá

##Ejercicio 1
Ahora vamos a plantear una segunda hipótesis: los varones ganan más en promedio que las mujeres y diversidades. ¿Lo calculamos?

In [None]:
# Responder acá


¿Qué pasó con la segunda hipótesis?

In [None]:
# Responder acá

##Ejercicio 2: ¿Te animás a más?
Si te quedaste con ganas de profundizar el análisis, te dejamos este espacio para que lo hagas. ¿Qué otras variables tendrías en cuenta para mejorar el análisis? ¿Además del promedio, qué otro estadístico podría ayudarnos a comprender mejor esta diferencia salarial?

In [None]:
# Responder acá