In [1]:
#código de inicio
import pandas as pd
import numpy as np

# <img style="float: left; padding-right: 20px; width: 100px" src="https://upload.wikimedia.org/wikipedia/commons/thumb/8/84/Escudo_de_la_Pontificia_Universidad_Cat%C3%B3lica_de_Chile.svg/1920px-Escudo_de_la_Pontificia_Universidad_Cat%C3%B3lica_de_Chile.svg.png"> MCD3020 - Introducción a Ciencia de Datos
**Pontificia Universidad Católica de Chile**<br>
**Magíster en Ciencia de Datos**<br>
**2022**<br>

----

# Tarea 2: Limpieza y combinación de datos.

***
## Instrucciones Generales:
- Esta Tarea debe ser desarrollada completamente en lenguaje de programación Python, en este mismo Notebook.
- El Notebook debe estar  ordenado, seguir buenas prácticas de escritura y programación, e incluir comentarios o celdas de markdown suficientes para explicar claramente todos lo códigos computacionales.
- El Notebook ya contiene algunas celdas marcadas con el comentario `#código de inicio`. Estas celdas han sido incluidas como ayuda para el desarrollo de la Tarea, y pueden ser ejecutadas tal como están.
- Las celdas marcadas como `#completar código` tienen un código parcial que debe ser completado para poder ser ejecutado. Ud debe agregar todas las líneas o bloques de código necesarios para desarrollar correctamente cada punto de la tarea. También puede eliminar estas celdas y partir el código desde cero si le resulta más conveniente.

***
## Introducción.

Hace ya casi 10 años, el trabajo de científico de datos fue catalogado por Harvard Bussiness Review como "el trabajo más atractivo del siglo XXI" [(Davenport & Patil 2012)](https://hbr.org/2012/10/data-scientist-the-sexiest-job-of-the-21st-century). Desde entonces, se ha comprobado un aumento constante de la demanda por profesionales expertos datos, y se espera que tanto la creación de puestos trabajos como los salarios sigan al alza en los próximos años. Los siguienes artículos de prensa y difusión ilustran esta situación:

https://www.smithhanley.com/2022/01/04/data-science-in-2022/
https://www.bbva.com/es/big-data-la-demanda-de-talento-experto-sigue-creciendo/

Los estudios citados hacen referencia a mercados laborales en Europa y Estados Unidos. Suponga que ud.está a cargo del desarrollo de un estudio del mercado laboral de científicos de datos en latinoamérica, para lo cual necesita construir, procesar y analizar una base de datos con las ofertas de trabajo publicadas en distintos países de la región.

En la **Tarea 1**, ud. avanzó en la primera etapa de construcción de la base de datos, utilizando web scraping para extraer los datos de ofertas de empleo en *data science* publicados en la red Linkedin, para una ciudad o país. Este proceso fue repetido y ampliado para todos los países de sudamérica, dando origen a un conjunto de bases de datos que serán su insumos para la siguiente etapa del proceso de ciencia de datos.  

Para considerar en el análisis el contexto económico y tecnológico de cada país, entre los datos se incluirán también otras variables como el *Índice global de innovación* (https://www.globalinnovationindex.org/Home), disponible online para distintos países del mundo.

En esta **Tarea 2**, ud. deberá integrar, limpiar y procesar las bases de datos obtenidas de distintas fuentes, de manera de obtener un conjunto de datos apto para distintos tipos de análisis.




## Datos de Entrada.

Los datos ofertas laborales de *data science* publicadas en Linkedin para los países de sudamérica están disponibles para lectura o descarga en los siguientes links:

* https://raw.githubusercontent.com/paguirre-uc/mds3020_2022/main/tarea2/jobsLinkedin_Argentina_t2.csv
* https://raw.githubusercontent.com/paguirre-uc/mds3020_2022/main/tarea2/jobsLinkedin_Bolivia_t2.csv
* https://raw.githubusercontent.com/paguirre-uc/mds3020_2022/main/tarea2/jobsLinkedin_Brasil_t2.csv
* https://raw.githubusercontent.com/paguirre-uc/mds3020_2022/main/tarea2/jobsLinkedin_Chile_t2.csv
* https://raw.githubusercontent.com/paguirre-uc/mds3020_2022/main/tarea2/jobsLinkedin_Colombia_t2.csv
* https://raw.githubusercontent.com/paguirre-uc/mds3020_2022/main/tarea2/jobsLinkedin_Guyana_t2.csv
* https://raw.githubusercontent.com/paguirre-uc/mds3020_2022/main/tarea2/jobsLinkedin_Ecuador_t2.csv
* https://raw.githubusercontent.com/paguirre-uc/mds3020_2022/main/tarea2/jobsLinkedin_Paraguay_t2.csv
* https://raw.githubusercontent.com/paguirre-uc/mds3020_2022/main/tarea2/jobsLinkedin_Peru_t2.csv
* https://raw.githubusercontent.com/paguirre-uc/mds3020_2022/main/tarea2/jobsLinkedin_Suriname_t2.csv
* https://raw.githubusercontent.com/paguirre-uc/mds3020_2022/main/tarea2/jobsLinkedin_Uruguay_t2.csv
* https://raw.githubusercontent.com/paguirre-uc/mds3020_2022/main/tarea2/jobsLinkedin_Venezuela_t2.csv

Además, se han descargado desde la página https://www.globalinnovationindex.org/analysis-indicator/ los datos de Índice de Innovación Global para el año 2022, disponibles en el siguiente archivo:

https://raw.githubusercontent.com/paguirre-uc/mds3020_2022/main/tarea2/indiceInnovacionPaises.csv

### 1. Lea todos los conjuntos de datos entregados, y concatenelos para generar un único dataframe con todas las ofertas laborales de Data Scientist publicadas en Linkedin para los países de sudamérica.

*Funciones útiles*: `pandas.concat()`

In [4]:
#completar codigo

locations = ['Chile','Argentina','Peru','Colombia','Ecuador','Brasil','Venezuela','Uruguay','Paraguay','Bolivia','Suriname','Guyana']

alldf=[]

for loc in locations:
    url='https://raw.githubusercontent.com/paguirre-uc/mds3020_2022/main/tarea2/jobsLinkedin_%s_t2.csv'%loc
    df_tmp = pd.read_csv(url)
    
    alldf.append(df_tmp)
    
    
alldf=pd.concat(alldf, axis=0)

In [5]:
alldf

Unnamed: 0.1,Unnamed: 0,Country,Location,Title,Company,Url,Postulaciones,Jornada,Antiguedad
0,0,Chile,"Santiago, Santiago Metropolitan Region, Chile",Data Scientist,BICE VIDA,https://cl.linkedin.com/jobs/view/data-scienti...,,\n Jornada completa\n,\n No corresponde\n
1,1,Chile,"Santiago, Santiago Metropolitan Region, Chile",Data Scientist,BNamericas,https://cl.linkedin.com/jobs/view/data-scienti...,\n 42 solicitudes\n,\n Jornada completa\n,\n Sin experiencia\n
2,2,Chile,"Santiago, Santiago Metropolitan Region, Chile",Data Scientist.,Fuerza Laboral,https://cl.linkedin.com/jobs/view/data-scienti...,,\n Jornada completa\n,\n Sin experiencia\n
3,3,Chile,"Rancagua, O'Higgins Region, Chile",Data Scientist,Agrosuper,https://cl.linkedin.com/jobs/view/data-scienti...,,\n Jornada completa\n,\n Intermedio\n
4,4,Chile,"Santiago, Santiago Metropolitan Region, Chile",Data Scientist,MAS Analytics,https://cl.linkedin.com/jobs/view/data-scienti...,,\n Jornada completa\n,\n No corresponde\n
...,...,...,...,...,...,...,...,...,...
121,256,Guyana,Guyana,Sr. Platform Engineer,Aha!,https://gy.linkedin.com/jobs/view/sr-platform-...,,,
122,275,Guyana,"Georgetown, Demerara-Mahaica, Guyana",Operations Intelligence Performance Optimizati...,SBM Offshore,https://gy.linkedin.com/jobs/view/operations-i...,,\n Full-time\n,\n Entry level\n
123,310,Guyana,"Mahaica, Demerara-Mahaica, Guyana",Sr. Platform Engineer,Aha!,https://gy.linkedin.com/jobs/view/sr-platform-...,,\n Full-time\n,\n Mid-Senior level\n
124,322,Guyana,Guyana,Ruby on Rails Engineer,Aha!,https://gy.linkedin.com/jobs/view/ruby-on-rail...,,\n Full-time\n,\n Entry level\n


### 2. ¿Existe alguna columna innecesaria o inútil en su dataframe? Justifique, y en caso necesario, elimine la(s) columna(s) de sobra.

**Respuesta**:
Una columna innecesaria es Unnamed: 0 pues no nos proporciona mayor información. Es un correlativo relativo a cada dataframe individual

In [7]:
alldf = alldf.drop('Unnamed: 0', axis=1)
alldf

Unnamed: 0,Country,Location,Title,Company,Url,Postulaciones,Jornada,Antiguedad
0,Chile,"Santiago, Santiago Metropolitan Region, Chile",Data Scientist,BICE VIDA,https://cl.linkedin.com/jobs/view/data-scienti...,,\n Jornada completa\n,\n No corresponde\n
1,Chile,"Santiago, Santiago Metropolitan Region, Chile",Data Scientist,BNamericas,https://cl.linkedin.com/jobs/view/data-scienti...,\n 42 solicitudes\n,\n Jornada completa\n,\n Sin experiencia\n
2,Chile,"Santiago, Santiago Metropolitan Region, Chile",Data Scientist.,Fuerza Laboral,https://cl.linkedin.com/jobs/view/data-scienti...,,\n Jornada completa\n,\n Sin experiencia\n
3,Chile,"Rancagua, O'Higgins Region, Chile",Data Scientist,Agrosuper,https://cl.linkedin.com/jobs/view/data-scienti...,,\n Jornada completa\n,\n Intermedio\n
4,Chile,"Santiago, Santiago Metropolitan Region, Chile",Data Scientist,MAS Analytics,https://cl.linkedin.com/jobs/view/data-scienti...,,\n Jornada completa\n,\n No corresponde\n
...,...,...,...,...,...,...,...,...
121,Guyana,Guyana,Sr. Platform Engineer,Aha!,https://gy.linkedin.com/jobs/view/sr-platform-...,,,
122,Guyana,"Georgetown, Demerara-Mahaica, Guyana",Operations Intelligence Performance Optimizati...,SBM Offshore,https://gy.linkedin.com/jobs/view/operations-i...,,\n Full-time\n,\n Entry level\n
123,Guyana,"Mahaica, Demerara-Mahaica, Guyana",Sr. Platform Engineer,Aha!,https://gy.linkedin.com/jobs/view/sr-platform-...,,\n Full-time\n,\n Mid-Senior level\n
124,Guyana,Guyana,Ruby on Rails Engineer,Aha!,https://gy.linkedin.com/jobs/view/ruby-on-rail...,,\n Full-time\n,\n Entry level\n


### 3. Tratamiento de datos duplicados.
**a)** ¿Existen datos duplicados en su dataframe? En caso afirmativo, ¿cuántos son, y se trata de duplicados totales o parciales? Justifique.

**b)** En caso de existir duplicados, defina qué medida de corrección le parece apropiada (eliminar, corregir, combinar registros, etc), y aplíquela.

*Funciones útiles*: `pandas.duplicated()`,`pandas.drop_duplicates()`


**Respuesta**:
a) Existen un total de 46 filas duplicadas en el dataframe, tomando en cuenta todas las columnas. Son duplicados totales
b) Podemos eliminar duplicados en base a la columna de URL pues una posición debe de estar asociada a un solo URL. Otra opción es eliminar duplicados en base a todas las columnas, pero considero que es más ineficiente.

In [11]:
len(alldf.loc[alldf.duplicated(keep=False), :])

46

In [12]:
alldf.loc[alldf.duplicated(keep=False), :]

Unnamed: 0,Country,Location,Title,Company,Url,Postulaciones,Jornada,Antiguedad
67,Chile,"Santiago, Santiago Metropolitan Region, Chile",Data Scientist,PMA Design,https://cl.linkedin.com/jobs/view/data-scienti...,,,
75,Chile,"Santiago, Santiago Metropolitan Region, Chile",Data Scientist,PMA Design,https://cl.linkedin.com/jobs/view/data-scienti...,,,
7,Colombia,"Colombia, Huila, Colombia",Data Science Spark - Colombia,CINTE Colombia,https://co.linkedin.com/jobs/view/data-science...,,\n Jornada completa\n,\n Sin experiencia\n
36,Colombia,"Bogota, D.C., Capital District, Colombia",Data Scientist,Chubb,https://co.linkedin.com/jobs/view/data-scienti...,,,
72,Colombia,"Bogota, D.C., Capital District, Colombia",Data Scientist,Chubb,https://co.linkedin.com/jobs/view/data-scienti...,,,
73,Colombia,"Colombia, Huila, Colombia",Data Science Spark - Colombia,CINTE Colombia,https://co.linkedin.com/jobs/view/data-science...,,\n Jornada completa\n,\n Sin experiencia\n
41,Ecuador,"Italia, Los Ríos, Ecuador",DevOps Engineer Junior (m/f),Michael Page,https://ec.linkedin.com/jobs/view/devops-engin...,,,
61,Ecuador,"Cuenca, Azuay, Ecuador",Senior Python Developer,Launch Potato,https://ec.linkedin.com/jobs/view/senior-pytho...,,\n Jornada completa\n,\n Intermedio\n
99,Ecuador,"Italia, Los Ríos, Ecuador",DevOps Engineer Junior (m/f),Michael Page,https://ec.linkedin.com/jobs/view/devops-engin...,,,
100,Ecuador,"Cuenca, Azuay, Ecuador",Senior Python Developer,Launch Potato,https://ec.linkedin.com/jobs/view/senior-pytho...,,\n Jornada completa\n,\n Intermedio\n


In [13]:
alldf = alldf.drop_duplicates(subset=['Url'],keep='first')
alldf

Unnamed: 0,Country,Location,Title,Company,Url,Postulaciones,Jornada,Antiguedad
0,Chile,"Santiago, Santiago Metropolitan Region, Chile",Data Scientist,BICE VIDA,https://cl.linkedin.com/jobs/view/data-scienti...,,\n Jornada completa\n,\n No corresponde\n
1,Chile,"Santiago, Santiago Metropolitan Region, Chile",Data Scientist,BNamericas,https://cl.linkedin.com/jobs/view/data-scienti...,\n 42 solicitudes\n,\n Jornada completa\n,\n Sin experiencia\n
2,Chile,"Santiago, Santiago Metropolitan Region, Chile",Data Scientist.,Fuerza Laboral,https://cl.linkedin.com/jobs/view/data-scienti...,,\n Jornada completa\n,\n Sin experiencia\n
3,Chile,"Rancagua, O'Higgins Region, Chile",Data Scientist,Agrosuper,https://cl.linkedin.com/jobs/view/data-scienti...,,\n Jornada completa\n,\n Intermedio\n
4,Chile,"Santiago, Santiago Metropolitan Region, Chile",Data Scientist,MAS Analytics,https://cl.linkedin.com/jobs/view/data-scienti...,,\n Jornada completa\n,\n No corresponde\n
...,...,...,...,...,...,...,...,...
115,Guyana,"Mahaica, Demerara-Mahaica, Guyana",Lead Ruby on Rails Engineer,Aha!,https://gy.linkedin.com/jobs/view/lead-ruby-on...,,,
116,Guyana,Guyana,Sr. Security Engineer (Ruby on Rails experienc...,Aha!,https://gy.linkedin.com/jobs/view/sr-security-...,,,
117,Guyana,Guyana,Sr. Ruby on Rails Engineer,Aha!,https://gy.linkedin.com/jobs/view/sr-ruby-on-r...,,\n Full-time\n,\n Mid-Senior level\n
118,Guyana,"Mahaica, Demerara-Mahaica, Guyana",Sr. Ruby on Rails Engineer,Aha!,https://gy.linkedin.com/jobs/view/sr-ruby-on-r...,,,


### 4. Convierta la columna *Postulaciones* a un dato de tipo numérico.

**a)** Chequee los valores únicos de la columna *Postulaciones*.<br>
**b)** Realice las correcciones y operaciones de limpieza necesarias para convertir a tipo de dato numérico.<br>
**c)** Convierta la columna a datos de tipo `float`.<br>


*Funciones útiles*: `pandas.unique()`,`pandas.str.replace()`,`pandas.str.strip()`,`pandas.astype()`

In [14]:
#completar código
alldf['Postulaciones'].unique()

array([nan, '\n          42 solicitudes\n        ',
       '\n          38 solicitudes\n        ',
       '\n          135 solicitudes\n        ',
       '\n          40 solicitudes\n        ',
       '\n          104 solicitudes\n        ',
       '\n          91 solicitudes\n        ',
       '\n          80 solicitudes\n        ',
       '\n          106 solicitudes\n        ',
       '\n          174 solicitudes\n        ',
       '\n          53 solicitudes\n        ',
       '\n          32 solicitudes\n        ',
       '\n          85 solicitudes\n        ',
       '\n          43 solicitudes\n        ',
       '\n          44 solicitudes\n        ',
       '\n          47 solicitudes\n        ',
       '\n          33 solicitudes\n        ',
       '\n          55 solicitudes\n        ',
       '\n          58 solicitudes\n        ',
       '\n          29 solicitudes\n        ',
       '\n          153 solicitudes\n        ',
       '\n          95 solicitudes\n        ',
   

In [20]:
alldf

Unnamed: 0,Country,Location,Title,Company,Url,Postulaciones,Jornada,Antiguedad
0,Chile,"Santiago, Santiago Metropolitan Region, Chile",Data Scientist,BICE VIDA,https://cl.linkedin.com/jobs/view/data-scienti...,,\n Jornada completa\n,\n No corresponde\n
1,Chile,"Santiago, Santiago Metropolitan Region, Chile",Data Scientist,BNamericas,https://cl.linkedin.com/jobs/view/data-scienti...,\n 42 solicitudes\n,\n Jornada completa\n,\n Sin experiencia\n
2,Chile,"Santiago, Santiago Metropolitan Region, Chile",Data Scientist.,Fuerza Laboral,https://cl.linkedin.com/jobs/view/data-scienti...,,\n Jornada completa\n,\n Sin experiencia\n
3,Chile,"Rancagua, O'Higgins Region, Chile",Data Scientist,Agrosuper,https://cl.linkedin.com/jobs/view/data-scienti...,,\n Jornada completa\n,\n Intermedio\n
4,Chile,"Santiago, Santiago Metropolitan Region, Chile",Data Scientist,MAS Analytics,https://cl.linkedin.com/jobs/view/data-scienti...,,\n Jornada completa\n,\n No corresponde\n
...,...,...,...,...,...,...,...,...
115,Guyana,"Mahaica, Demerara-Mahaica, Guyana",Lead Ruby on Rails Engineer,Aha!,https://gy.linkedin.com/jobs/view/lead-ruby-on...,,,
116,Guyana,Guyana,Sr. Security Engineer (Ruby on Rails experienc...,Aha!,https://gy.linkedin.com/jobs/view/sr-security-...,,,
117,Guyana,Guyana,Sr. Ruby on Rails Engineer,Aha!,https://gy.linkedin.com/jobs/view/sr-ruby-on-r...,,\n Full-time\n,\n Mid-Senior level\n
118,Guyana,"Mahaica, Demerara-Mahaica, Guyana",Sr. Ruby on Rails Engineer,Aha!,https://gy.linkedin.com/jobs/view/sr-ruby-on-r...,,,


In [30]:
alldf['Postulaciones'] = alldf['Postulaciones'].apply(lambda x: str(x).replace('\n', '').replace('solicitudes', '').replace('candidaturas', '').replace('applicants', '').strip()).astype(np.float64)

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  alldf['Postulaciones'] = alldf['Postulaciones'].apply(lambda x: str(x).replace('\n', '').replace('solicitudes', '').replace('candidaturas', '').replace('applicants', '').strip()).astype(np.float64)


In [32]:
alldf

Unnamed: 0,Country,Location,Title,Company,Url,Postulaciones,Jornada,Antiguedad
0,Chile,"Santiago, Santiago Metropolitan Region, Chile",Data Scientist,BICE VIDA,https://cl.linkedin.com/jobs/view/data-scienti...,,\n Jornada completa\n,\n No corresponde\n
1,Chile,"Santiago, Santiago Metropolitan Region, Chile",Data Scientist,BNamericas,https://cl.linkedin.com/jobs/view/data-scienti...,42.0,\n Jornada completa\n,\n Sin experiencia\n
2,Chile,"Santiago, Santiago Metropolitan Region, Chile",Data Scientist.,Fuerza Laboral,https://cl.linkedin.com/jobs/view/data-scienti...,,\n Jornada completa\n,\n Sin experiencia\n
3,Chile,"Rancagua, O'Higgins Region, Chile",Data Scientist,Agrosuper,https://cl.linkedin.com/jobs/view/data-scienti...,,\n Jornada completa\n,\n Intermedio\n
4,Chile,"Santiago, Santiago Metropolitan Region, Chile",Data Scientist,MAS Analytics,https://cl.linkedin.com/jobs/view/data-scienti...,,\n Jornada completa\n,\n No corresponde\n
...,...,...,...,...,...,...,...,...
115,Guyana,"Mahaica, Demerara-Mahaica, Guyana",Lead Ruby on Rails Engineer,Aha!,https://gy.linkedin.com/jobs/view/lead-ruby-on...,,,
116,Guyana,Guyana,Sr. Security Engineer (Ruby on Rails experienc...,Aha!,https://gy.linkedin.com/jobs/view/sr-security-...,,,
117,Guyana,Guyana,Sr. Ruby on Rails Engineer,Aha!,https://gy.linkedin.com/jobs/view/sr-ruby-on-r...,,\n Full-time\n,\n Mid-Senior level\n
118,Guyana,"Mahaica, Demerara-Mahaica, Guyana",Sr. Ruby on Rails Engineer,Aha!,https://gy.linkedin.com/jobs/view/sr-ruby-on-r...,,,


### 5. Convierta las columnas *Jornada* y *Antiguedad* a datos de tipo categórico.

**a)** Elimine los espacios en blanco sobrantes y caracteres de salto de línea ('\n') en ambas columnas.<br>
**b)** Chequee las categorías únicas de la columna *Jornada*. ¿Cuántas son? <br>
**c)** Para la columna *Antiguedad*, reduzca el número de categorías a sólo cuatro:`['N/A','Poca/ninguna','Intermedia','Senior/ejecutivo','Director']` (`N/A: no aplica`). <br>Para ello, defina un diccionario de equivalencias que le parezca adecuado.

**d)** Convierta ambas columnas a datos de tipo `category`.<br>

*Funciones útiles*: `pandas.unique()`,`pandas.str.strip()`,`pandas.map()`,`pandas.astype()`

**Respuesta**
b) son hay 5 jornadas. Hay 6 si contamos los registros con nulos.

In [37]:
alldf['Jornada'] = alldf['Jornada'].apply(lambda x: str(x).replace('\n', '').strip())
alldf['Antiguedad'] = alldf['Antiguedad'].apply(lambda x: str(x).replace('\n', '').strip())

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  alldf['Jornada'] = alldf['Jornada'].apply(lambda x: str(x).replace('\n', '').strip())
A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  alldf['Antiguedad'] = alldf['Antiguedad'].apply(lambda x: str(x).replace('\n', '').strip())


In [36]:
alldf['Jornada'].unique()

array(['Jornada completa', 'nan', 'Full-time', 'Tempo integral',
       'Contract', 'Contrato por obra'], dtype=object)

In [38]:
alldf['Antiguedad'].unique()

array(['No corresponde', 'Sin experiencia', 'Intermedio', 'nan',
       'Algo de responsabilidad', 'Ejecutivo', 'Entry level',
       'Jornada completa', 'Director', 'Associate', 'Not Applicable',
       'Mid-Senior level', 'Assistente', 'Não aplicável', 'Pleno-sênior',
       'Júnior', 'Media jornada', 'Full-time'], dtype=object)

In [41]:
sustituciones = {
    'No corresponde': 'N/A',
    'Sin experiencia': 'Poca/ninguna',
    'nan': 'N/A',
    'Algo de responsabilidad': 'Poca/ninguna',
    'Ejecutivo': 'Senior/ejecutivo',
    'Entry level': 'Poca/ninguna',
    'Jornada completa': 'Poca/ninguna', 
    'Director': 'Director',
    'Associate': 'Intermedia',
    'Not Applicable': 'N/A',
    'Mid-Senior level': 'Intermedia',
    'Assistente': 'Poca/ninguna',
    'Não aplicável': 'N/A',
    'Pleno-sênior': 'Senior/ejecutivo',
    'Júnior': 'Poca/ninguna',
    'Media jornada': 'Poca/ninguna',
    'Full-time': 'Poca/ninguna'
}

alldf['Antiguedad'] = alldf['Antiguedad'].replace(sustituciones)
alldf['Antiguedad'].unique()

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  alldf['Antiguedad'] = alldf['Antiguedad'].replace(sustituciones)


array(['N/A', 'Poca/ninguna', 'Intermedio', 'Senior/ejecutivo',
       'Director', 'Intermedia'], dtype=object)

In [42]:
alldf['Jornada'] = alldf['Jornada'].astype('category')
alldf['Antiguedad'] = alldf['Antiguedad'].astype('category')

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  alldf['Jornada'] = alldf['Jornada'].astype('category')
A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  alldf['Antiguedad'] = alldf['Antiguedad'].astype('category')


In [44]:
alldf.info()

<class 'pandas.core.frame.DataFrame'>
Index: 1000 entries, 0 to 119
Data columns (total 8 columns):
 #   Column         Non-Null Count  Dtype   
---  ------         --------------  -----   
 0   Country        1000 non-null   object  
 1   Location       1000 non-null   object  
 2   Title          1000 non-null   object  
 3   Company        1000 non-null   object  
 4   Url            1000 non-null   object  
 5   Postulaciones  182 non-null    float64 
 6   Jornada        1000 non-null   category
 7   Antiguedad     1000 non-null   category
dtypes: category(2), float64(1), object(5)
memory usage: 57.1+ KB


In [53]:
alldf.head()

Unnamed: 0,Country,Location,Title,Company,Url,Postulaciones,Jornada,Antiguedad
0,Chile,"Santiago, Santiago Metropolitan Region, Chile",Data Scientist,BICE VIDA,https://cl.linkedin.com/jobs/view/data-scienti...,,Jornada completa,
1,Chile,"Santiago, Santiago Metropolitan Region, Chile",Data Scientist,BNamericas,https://cl.linkedin.com/jobs/view/data-scienti...,42.0,Jornada completa,Poca/ninguna
2,Chile,"Santiago, Santiago Metropolitan Region, Chile",Data Scientist.,Fuerza Laboral,https://cl.linkedin.com/jobs/view/data-scienti...,,Jornada completa,Poca/ninguna
3,Chile,"Rancagua, O'Higgins Region, Chile",Data Scientist,Agrosuper,https://cl.linkedin.com/jobs/view/data-scienti...,,Jornada completa,Intermedio
4,Chile,"Santiago, Santiago Metropolitan Region, Chile",Data Scientist,MAS Analytics,https://cl.linkedin.com/jobs/view/data-scienti...,,Jornada completa,


### 6. Lea el conjunto de datos de Índice de Innovación por país y renombre la columna *Economy* a *Country*.


In [46]:
indice_innovacion = pd.read_csv('https://raw.githubusercontent.com/paguirre-uc/mds3020_2022/main/tarea2/indiceInnovacionPaises.csv')
indice_innovacion = indice_innovacion.rename(columns={'Economy': 'Country'})

In [52]:
indice_innovacion.head()

Unnamed: 0,Country,Score
0,Switzerland,64.6
1,United States of America,61.8
2,Sweden,61.6
3,United Kingdom,59.7
4,Netherlands,58.0


### 7. Combinación de conjuntos de datos.
**a)** Del dataframe de Índice de Innovación por País, seleccione sólo las columnas *Country* y *Score*. <br>
**b)** Combine estos datos con el dataframe de ofertas laborales, de manera de agregarle a éste una columna *Score* con el índice de innovación del país dónde se publicó el anuncio: <br>

|Country | Location|Title | Company | Url | Postulaciones | Jornada |Antiguedad |Score |
|---|---|---|---|---|---|---|---|---|

Este dataframe debe tener el mismo número de registros que el dataframe de ofertas laborales.

**b)** Determine si en este dataframe final, existen registros para los cuales la columna *Score* es un dato faltante o nulo. ¿A qué se deben estos datos nulos, si es que existen?

*Funciones útiles*: `pandas.merge()`

**Respuesta**: Si, hay 485 registros nulos. Existen registros nulos en los casos en los que los países están escritos de manera diferente en las bases. También pueden existir nulos porque algunos países de la base de datos de ofertas laborales no se encuentran en la base de datos de innovación.

En este caso, Score presenta nulos porque lgunos países de la base de datos de ofertas laborales no se encuentran en la base de datos de innovación, específicamente Brasil, Venezuela, Bolivia, Suriname, Guyana

In [64]:
indice_innovacion = indice_innovacion[['Country', 'Score']]
indice_innovacion_aux = indice_innovacion[['Country', 'Score']].copy() # lo hago para identificar los paises escritos diferente
indice_innovacion_aux['Country_auxs'] = indice_innovacion_aux['Country']
indice_innovacion.duplicated().sum()

np.int64(0)

In [65]:
ofertas_laborales_completo = pd.merge(
    left=alldf,
    right=indice_innovacion,
    left_on = 'Country',
    right_on = 'Country',
    how='left'
)


ofertas_laborales_completo_aux = pd.merge(
    left=alldf,
    right=indice_innovacion_aux,
    left_on = 'Country',
    right_on = 'Country',
    how='left'
)
assert len(ofertas_laborales_completo==len(alldf))

In [56]:
ofertas_laborales_completo['Score'].isna().sum()

np.int64(485)

In [69]:
ofertas_laborales_completo_aux.loc[ofertas_laborales_completo_aux['Score'].isna()]['Country'].unique()

array(['Brasil', 'Venezuela', 'Bolivia', 'Suriname', 'Guyana'],
      dtype=object)

In [68]:
ofertas_laborales_completo

Unnamed: 0,Country,Location,Title,Company,Url,Postulaciones,Jornada,Antiguedad,Score
0,Chile,"Santiago, Santiago Metropolitan Region, Chile",Data Scientist,BICE VIDA,https://cl.linkedin.com/jobs/view/data-scienti...,,Jornada completa,,34.0
1,Chile,"Santiago, Santiago Metropolitan Region, Chile",Data Scientist,BNamericas,https://cl.linkedin.com/jobs/view/data-scienti...,42.0,Jornada completa,Poca/ninguna,34.0
2,Chile,"Santiago, Santiago Metropolitan Region, Chile",Data Scientist.,Fuerza Laboral,https://cl.linkedin.com/jobs/view/data-scienti...,,Jornada completa,Poca/ninguna,34.0
3,Chile,"Rancagua, O'Higgins Region, Chile",Data Scientist,Agrosuper,https://cl.linkedin.com/jobs/view/data-scienti...,,Jornada completa,Intermedio,34.0
4,Chile,"Santiago, Santiago Metropolitan Region, Chile",Data Scientist,MAS Analytics,https://cl.linkedin.com/jobs/view/data-scienti...,,Jornada completa,,34.0
...,...,...,...,...,...,...,...,...,...
995,Guyana,"Mahaica, Demerara-Mahaica, Guyana",Lead Ruby on Rails Engineer,Aha!,https://gy.linkedin.com/jobs/view/lead-ruby-on...,,,,
996,Guyana,Guyana,Sr. Security Engineer (Ruby on Rails experienc...,Aha!,https://gy.linkedin.com/jobs/view/sr-security-...,,,,
997,Guyana,Guyana,Sr. Ruby on Rails Engineer,Aha!,https://gy.linkedin.com/jobs/view/sr-ruby-on-r...,,Full-time,Intermedia,
998,Guyana,"Mahaica, Demerara-Mahaica, Guyana",Sr. Ruby on Rails Engineer,Aha!,https://gy.linkedin.com/jobs/view/sr-ruby-on-r...,,,,
