In [38]:
#código de inicio
import pandas as pd
import numpy as np

# <img style="float: left; padding-right: 20px; width: 100px" src="https://upload.wikimedia.org/wikipedia/commons/thumb/8/84/Escudo_de_la_Pontificia_Universidad_Cat%C3%B3lica_de_Chile.svg/1920px-Escudo_de_la_Pontificia_Universidad_Cat%C3%B3lica_de_Chile.svg.png"> MCD3020 - Introducción a Ciencia de Datos
**Pontificia Universidad Católica de Chile**<br>
**Magíster en Ciencia de Datos**<br>
**2022**<br>

----

# Tarea 2: Limpieza y combinación de datos.

***
## Instrucciones Generales:
- Esta Tarea debe ser desarrollada completamente en lenguaje de programación Python, en este mismo Notebook.
- El Notebook debe estar  ordenado, seguir buenas prácticas de escritura y programación, e incluir comentarios o celdas de markdown suficientes para explicar claramente todos lo códigos computacionales.
- El Notebook ya contiene algunas celdas marcadas con el comentario `#código de inicio`. Estas celdas han sido incluidas como ayuda para el desarrollo de la Tarea, y pueden ser ejecutadas tal como están.
- Las celdas marcadas como `#completar código` tienen un código parcial que debe ser completado para poder ser ejecutado. Ud debe agregar todas las líneas o bloques de código necesarios para desarrollar correctamente cada punto de la tarea. También puede eliminar estas celdas y partir el código desde cero si le resulta más conveniente.

***
## Introducción.

Hace ya casi 10 años, el trabajo de científico de datos fue catalogado por Harvard Bussiness Review como "el trabajo más atractivo del siglo XXI" [(Davenport & Patil 2012)](https://hbr.org/2012/10/data-scientist-the-sexiest-job-of-the-21st-century). Desde entonces, se ha comprobado un aumento constante de la demanda por profesionales expertos datos, y se espera que tanto la creación de puestos trabajos como los salarios sigan al alza en los próximos años. Los siguienes artículos de prensa y difusión ilustran esta situación:

https://www.smithhanley.com/2022/01/04/data-science-in-2022/
https://www.bbva.com/es/big-data-la-demanda-de-talento-experto-sigue-creciendo/

Los estudios citados hacen referencia a mercados laborales en Europa y Estados Unidos. Suponga que ud.está a cargo del desarrollo de un estudio del mercado laboral de científicos de datos en latinoamérica, para lo cual necesita construir, procesar y analizar una base de datos con las ofertas de trabajo publicadas en distintos países de la región.

En la **Tarea 1**, ud. avanzó en la primera etapa de construcción de la base de datos, utilizando web scraping para extraer los datos de ofertas de empleo en *data science* publicados en la red Linkedin, para una ciudad o país. Este proceso fue repetido y ampliado para todos los países de sudamérica, dando origen a un conjunto de bases de datos que serán su insumos para la siguiente etapa del proceso de ciencia de datos.  

Para considerar en el análisis el contexto económico y tecnológico de cada país, entre los datos se incluirán también otras variables como el *Índice global de innovación* (https://www.globalinnovationindex.org/Home), disponible online para distintos países del mundo.

En esta **Tarea 2**, ud. deberá integrar, limpiar y procesar las bases de datos obtenidas de distintas fuentes, de manera de obtener un conjunto de datos apto para distintos tipos de análisis.




## Datos de Entrada.

Los datos ofertas laborales de *data science* publicadas en Linkedin para los países de sudamérica están disponibles para lectura o descarga en los siguientes links:

* https://raw.githubusercontent.com/paguirre-uc/mds3020_2022/main/tarea2/jobsLinkedin_Argentina_t2.csv
* https://raw.githubusercontent.com/paguirre-uc/mds3020_2022/main/tarea2/jobsLinkedin_Bolivia_t2.csv
* https://raw.githubusercontent.com/paguirre-uc/mds3020_2022/main/tarea2/jobsLinkedin_Brasil_t2.csv
* https://raw.githubusercontent.com/paguirre-uc/mds3020_2022/main/tarea2/jobsLinkedin_Chile_t2.csv
* https://raw.githubusercontent.com/paguirre-uc/mds3020_2022/main/tarea2/jobsLinkedin_Colombia_t2.csv
* https://raw.githubusercontent.com/paguirre-uc/mds3020_2022/main/tarea2/jobsLinkedin_Guyana_t2.csv
* https://raw.githubusercontent.com/paguirre-uc/mds3020_2022/main/tarea2/jobsLinkedin_Ecuador_t2.csv
* https://raw.githubusercontent.com/paguirre-uc/mds3020_2022/main/tarea2/jobsLinkedin_Paraguay_t2.csv
* https://raw.githubusercontent.com/paguirre-uc/mds3020_2022/main/tarea2/jobsLinkedin_Peru_t2.csv
* https://raw.githubusercontent.com/paguirre-uc/mds3020_2022/main/tarea2/jobsLinkedin_Suriname_t2.csv
* https://raw.githubusercontent.com/paguirre-uc/mds3020_2022/main/tarea2/jobsLinkedin_Uruguay_t2.csv
* https://raw.githubusercontent.com/paguirre-uc/mds3020_2022/main/tarea2/jobsLinkedin_Venezuela_t2.csv

Además, se han descargado desde la página https://www.globalinnovationindex.org/analysis-indicator/ los datos de Índice de Innovación Global para el año 2022, disponibles en el siguiente archivo:

https://raw.githubusercontent.com/paguirre-uc/mds3020_2022/main/tarea2/indiceInnovacionPaises.csv

### 1. Lea todos los conjuntos de datos entregados, y concatenelos para generar un único dataframe con todas las ofertas laborales de Data Scientist publicadas en Linkedin para los países de sudamérica.

*Funciones útiles*: `pandas.concat()`

In [40]:
#completar codigo

locations = ['Chile','Argentina','Peru','Colombia','Ecuador','Brasil','Venezuela','Uruguay','Paraguay','Bolivia','Suriname','Guyana']

alldf=[]

for loc in locations:
    url = f'https://raw.githubusercontent.com/paguirre-uc/mds3020_2022/main/tarea2/jobsLinkedin_{loc}_t2.csv'
    df = pd.read_csv(url, sep=',')
    alldf.append(df)
    
    
alldf = pd.concat(alldf)
alldf

Unnamed: 0.1,Unnamed: 0,Country,Location,Title,Company,Url,Postulaciones,Jornada,Antiguedad
0,0,Chile,"Santiago, Santiago Metropolitan Region, Chile",Data Scientist,BICE VIDA,https://cl.linkedin.com/jobs/view/data-scienti...,,\n Jornada completa\n,\n No corresponde\n
1,1,Chile,"Santiago, Santiago Metropolitan Region, Chile",Data Scientist,BNamericas,https://cl.linkedin.com/jobs/view/data-scienti...,\n 42 solicitudes\n,\n Jornada completa\n,\n Sin experiencia\n
2,2,Chile,"Santiago, Santiago Metropolitan Region, Chile",Data Scientist.,Fuerza Laboral,https://cl.linkedin.com/jobs/view/data-scienti...,,\n Jornada completa\n,\n Sin experiencia\n
3,3,Chile,"Rancagua, O'Higgins Region, Chile",Data Scientist,Agrosuper,https://cl.linkedin.com/jobs/view/data-scienti...,,\n Jornada completa\n,\n Intermedio\n
4,4,Chile,"Santiago, Santiago Metropolitan Region, Chile",Data Scientist,MAS Analytics,https://cl.linkedin.com/jobs/view/data-scienti...,,\n Jornada completa\n,\n No corresponde\n
...,...,...,...,...,...,...,...,...,...
121,256,Guyana,Guyana,Sr. Platform Engineer,Aha!,https://gy.linkedin.com/jobs/view/sr-platform-...,,,
122,275,Guyana,"Georgetown, Demerara-Mahaica, Guyana",Operations Intelligence Performance Optimizati...,SBM Offshore,https://gy.linkedin.com/jobs/view/operations-i...,,\n Full-time\n,\n Entry level\n
123,310,Guyana,"Mahaica, Demerara-Mahaica, Guyana",Sr. Platform Engineer,Aha!,https://gy.linkedin.com/jobs/view/sr-platform-...,,\n Full-time\n,\n Mid-Senior level\n
124,322,Guyana,Guyana,Ruby on Rails Engineer,Aha!,https://gy.linkedin.com/jobs/view/ruby-on-rail...,,\n Full-time\n,\n Entry level\n


### 2. ¿Existe alguna columna innecesaria o inútil en su dataframe? Justifique, y en caso necesario, elimine la(s) columna(s) de sobra.

Revisamos las columnas y su información

In [41]:
alldf.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 1023 entries, 0 to 125
Data columns (total 9 columns):
 #   Column         Non-Null Count  Dtype 
---  ------         --------------  ----- 
 0   Unnamed: 0     1023 non-null   object
 1   Country        1023 non-null   object
 2   Location       1023 non-null   object
 3   Title          1023 non-null   object
 4   Company        1023 non-null   object
 5   Url            1023 non-null   object
 6   Postulaciones  183 non-null    object
 7   Jornada        693 non-null    object
 8   Antiguedad     713 non-null    object
dtypes: object(9)
memory usage: 79.9+ KB


Podemos ver que la columna *Unnamed: 0* no aporta valor, dado que se autogeneró al existir una coma como primer caracter del csv. La borramos.

In [42]:
alldf.drop('Unnamed: 0', axis=1, inplace=True)
alldf

Unnamed: 0,Country,Location,Title,Company,Url,Postulaciones,Jornada,Antiguedad
0,Chile,"Santiago, Santiago Metropolitan Region, Chile",Data Scientist,BICE VIDA,https://cl.linkedin.com/jobs/view/data-scienti...,,\n Jornada completa\n,\n No corresponde\n
1,Chile,"Santiago, Santiago Metropolitan Region, Chile",Data Scientist,BNamericas,https://cl.linkedin.com/jobs/view/data-scienti...,\n 42 solicitudes\n,\n Jornada completa\n,\n Sin experiencia\n
2,Chile,"Santiago, Santiago Metropolitan Region, Chile",Data Scientist.,Fuerza Laboral,https://cl.linkedin.com/jobs/view/data-scienti...,,\n Jornada completa\n,\n Sin experiencia\n
3,Chile,"Rancagua, O'Higgins Region, Chile",Data Scientist,Agrosuper,https://cl.linkedin.com/jobs/view/data-scienti...,,\n Jornada completa\n,\n Intermedio\n
4,Chile,"Santiago, Santiago Metropolitan Region, Chile",Data Scientist,MAS Analytics,https://cl.linkedin.com/jobs/view/data-scienti...,,\n Jornada completa\n,\n No corresponde\n
...,...,...,...,...,...,...,...,...
121,Guyana,Guyana,Sr. Platform Engineer,Aha!,https://gy.linkedin.com/jobs/view/sr-platform-...,,,
122,Guyana,"Georgetown, Demerara-Mahaica, Guyana",Operations Intelligence Performance Optimizati...,SBM Offshore,https://gy.linkedin.com/jobs/view/operations-i...,,\n Full-time\n,\n Entry level\n
123,Guyana,"Mahaica, Demerara-Mahaica, Guyana",Sr. Platform Engineer,Aha!,https://gy.linkedin.com/jobs/view/sr-platform-...,,\n Full-time\n,\n Mid-Senior level\n
124,Guyana,Guyana,Ruby on Rails Engineer,Aha!,https://gy.linkedin.com/jobs/view/ruby-on-rail...,,\n Full-time\n,\n Entry level\n


En segundo lugar, vemos que la columna `Postulaciones` tiene aproximadamente un 85% de datos nulos. De todas maneras, se puede procesar esa columna para que los datos nulos sean 0, dado que es la cantidad de postulaciones que existen en curso. A priori no la eliminaría, sino que llenaría los nulos con 0.

En tercer lugar, las columnas `Jornada` y `Antiguedad` no deben ser borradas, pese a tener una cantidad significativa de nulos (la mitad aproximadamente), no es lo suficientemente poco para borrarlas, considerando una convención del 5%. Lo ideal sería tratar de recolectar esos datos faltantes con precisión.

Finalmente, reseteamos los indices de nuestro dataset.

In [43]:
alldf.reset_index(inplace=True, drop=True)
alldf

Unnamed: 0,Country,Location,Title,Company,Url,Postulaciones,Jornada,Antiguedad
0,Chile,"Santiago, Santiago Metropolitan Region, Chile",Data Scientist,BICE VIDA,https://cl.linkedin.com/jobs/view/data-scienti...,,\n Jornada completa\n,\n No corresponde\n
1,Chile,"Santiago, Santiago Metropolitan Region, Chile",Data Scientist,BNamericas,https://cl.linkedin.com/jobs/view/data-scienti...,\n 42 solicitudes\n,\n Jornada completa\n,\n Sin experiencia\n
2,Chile,"Santiago, Santiago Metropolitan Region, Chile",Data Scientist.,Fuerza Laboral,https://cl.linkedin.com/jobs/view/data-scienti...,,\n Jornada completa\n,\n Sin experiencia\n
3,Chile,"Rancagua, O'Higgins Region, Chile",Data Scientist,Agrosuper,https://cl.linkedin.com/jobs/view/data-scienti...,,\n Jornada completa\n,\n Intermedio\n
4,Chile,"Santiago, Santiago Metropolitan Region, Chile",Data Scientist,MAS Analytics,https://cl.linkedin.com/jobs/view/data-scienti...,,\n Jornada completa\n,\n No corresponde\n
...,...,...,...,...,...,...,...,...
1018,Guyana,Guyana,Sr. Platform Engineer,Aha!,https://gy.linkedin.com/jobs/view/sr-platform-...,,,
1019,Guyana,"Georgetown, Demerara-Mahaica, Guyana",Operations Intelligence Performance Optimizati...,SBM Offshore,https://gy.linkedin.com/jobs/view/operations-i...,,\n Full-time\n,\n Entry level\n
1020,Guyana,"Mahaica, Demerara-Mahaica, Guyana",Sr. Platform Engineer,Aha!,https://gy.linkedin.com/jobs/view/sr-platform-...,,\n Full-time\n,\n Mid-Senior level\n
1021,Guyana,Guyana,Ruby on Rails Engineer,Aha!,https://gy.linkedin.com/jobs/view/ruby-on-rail...,,\n Full-time\n,\n Entry level\n


### 3. Tratamiento de datos duplicados.
**a)** ¿Existen datos duplicados en su dataframe? En caso afirmativo, ¿cuántos son, y se trata de duplicados totales o parciales? Justifique.

**b)** En caso de existir duplicados, defina qué medida de corrección le parece apropiada (eliminar, corregir, combinar registros, etc), y aplíquela.

*Funciones útiles*: `pandas.duplicated()`,`pandas.drop_duplicates()`


### a) Hay datos duplicados? cuantos son y son duplicados parciales o totales?

Revisamos según las diferentes columnas que tenemos en nuestro dataframe. Primero calcularemos los duplicados totales. Para esto utilizamos el método `pandas.duplicated()` y no le pasamos el parámetro `subset`, comparando para una fila el valor de todas sus columnas. 

In [44]:
total_duplicated_rows = sum([1 if i else 0 for i in alldf.duplicated()])
print(f'Duplicados totales: {total_duplicated_rows}')

Duplicados totales: 23


Ahora calculamos duplicados parciales. Para esto, utilizaremos como llave primaria el título del trabajo, la compañía y el país, ya que consideramos que si una fila tiene estos datos similares, entonces estamos hablando del mismo empleo. Luego, esas columnas las agregaremos en el parámetro `subset` y repetimos el cálculo, pero ahora de duplicados parciales.

In [45]:
parcial_duplicated_rows = sum([1 if i else 0 for i in alldf.duplicated(subset=['Country', 'Title', 'Company'])])
print(f'Duplicados parciales: {total_duplicated_rows}')

Duplicados parciales: 23


Vemos que la cantidad de duplicados es la misma, por lo que podemos confirmar entonces que dicha combinación de columnas es única y que los datos duplicados totales son similares a los parciales, en que se repiten todas las columnas.

Finalmente, para confirmar, mostramos un dataframe de todos los duplicados, viendo así que son duplicados totales.

In [46]:
duplicateds = alldf[alldf.duplicated(keep=False)]
duplicateds

Unnamed: 0,Country,Location,Title,Company,Url,Postulaciones,Jornada,Antiguedad
67,Chile,"Santiago, Santiago Metropolitan Region, Chile",Data Scientist,PMA Design,https://cl.linkedin.com/jobs/view/data-scienti...,,,
75,Chile,"Santiago, Santiago Metropolitan Region, Chile",Data Scientist,PMA Design,https://cl.linkedin.com/jobs/view/data-scienti...,,,
158,Colombia,"Colombia, Huila, Colombia",Data Science Spark - Colombia,CINTE Colombia,https://co.linkedin.com/jobs/view/data-science...,,\n Jornada completa\n,\n Sin experiencia\n
187,Colombia,"Bogota, D.C., Capital District, Colombia",Data Scientist,Chubb,https://co.linkedin.com/jobs/view/data-scienti...,,,
223,Colombia,"Bogota, D.C., Capital District, Colombia",Data Scientist,Chubb,https://co.linkedin.com/jobs/view/data-scienti...,,,
224,Colombia,"Colombia, Huila, Colombia",Data Science Spark - Colombia,CINTE Colombia,https://co.linkedin.com/jobs/view/data-science...,,\n Jornada completa\n,\n Sin experiencia\n
266,Ecuador,"Italia, Los Ríos, Ecuador",DevOps Engineer Junior (m/f),Michael Page,https://ec.linkedin.com/jobs/view/devops-engin...,,,
286,Ecuador,"Cuenca, Azuay, Ecuador",Senior Python Developer,Launch Potato,https://ec.linkedin.com/jobs/view/senior-pytho...,,\n Jornada completa\n,\n Intermedio\n
324,Ecuador,"Italia, Los Ríos, Ecuador",DevOps Engineer Junior (m/f),Michael Page,https://ec.linkedin.com/jobs/view/devops-engin...,,,
325,Ecuador,"Cuenca, Azuay, Ecuador",Senior Python Developer,Launch Potato,https://ec.linkedin.com/jobs/view/senior-pytho...,,\n Jornada completa\n,\n Intermedio\n


# b) Medida de corrección

Dado que el dato cuando se repite se repite totalmente, no nos aporta valor, por lo que podemos quedarnos con el primer registro. para lo anterior utilizamos el método `pandas.drop_duplicates()` con el parámetro `keep='first'`

In [47]:
alldf.drop_duplicates(keep='first', inplace=True)
alldf

Unnamed: 0,Country,Location,Title,Company,Url,Postulaciones,Jornada,Antiguedad
0,Chile,"Santiago, Santiago Metropolitan Region, Chile",Data Scientist,BICE VIDA,https://cl.linkedin.com/jobs/view/data-scienti...,,\n Jornada completa\n,\n No corresponde\n
1,Chile,"Santiago, Santiago Metropolitan Region, Chile",Data Scientist,BNamericas,https://cl.linkedin.com/jobs/view/data-scienti...,\n 42 solicitudes\n,\n Jornada completa\n,\n Sin experiencia\n
2,Chile,"Santiago, Santiago Metropolitan Region, Chile",Data Scientist.,Fuerza Laboral,https://cl.linkedin.com/jobs/view/data-scienti...,,\n Jornada completa\n,\n Sin experiencia\n
3,Chile,"Rancagua, O'Higgins Region, Chile",Data Scientist,Agrosuper,https://cl.linkedin.com/jobs/view/data-scienti...,,\n Jornada completa\n,\n Intermedio\n
4,Chile,"Santiago, Santiago Metropolitan Region, Chile",Data Scientist,MAS Analytics,https://cl.linkedin.com/jobs/view/data-scienti...,,\n Jornada completa\n,\n No corresponde\n
...,...,...,...,...,...,...,...,...
1012,Guyana,"Mahaica, Demerara-Mahaica, Guyana",Lead Ruby on Rails Engineer,Aha!,https://gy.linkedin.com/jobs/view/lead-ruby-on...,,,
1013,Guyana,Guyana,Sr. Security Engineer (Ruby on Rails experienc...,Aha!,https://gy.linkedin.com/jobs/view/sr-security-...,,,
1014,Guyana,Guyana,Sr. Ruby on Rails Engineer,Aha!,https://gy.linkedin.com/jobs/view/sr-ruby-on-r...,,\n Full-time\n,\n Mid-Senior level\n
1015,Guyana,"Mahaica, Demerara-Mahaica, Guyana",Sr. Ruby on Rails Engineer,Aha!,https://gy.linkedin.com/jobs/view/sr-ruby-on-r...,,,


### 4. Convierta la columna *Postulaciones* a un dato de tipo numérico.

**a)** Chequee los valores únicos de la columna *Postulaciones*.<br>
**b)** Realice las correcciones y operaciones de limpieza necesarias para convertir a tipo de dato numérico.<br>
**c)** Convierta la columna a datos de tipo `float`.<br>


*Funciones útiles*: `pandas.unique()`,`pandas.str.replace()`,`pandas.str.strip()`,`pandas.astype()`

In [48]:
#completar código
alldf['Postulaciones'].unique()

array([nan, '\n          42 solicitudes\n        ',
       '\n          38 solicitudes\n        ',
       '\n          135 solicitudes\n        ',
       '\n          40 solicitudes\n        ',
       '\n          104 solicitudes\n        ',
       '\n          91 solicitudes\n        ',
       '\n          80 solicitudes\n        ',
       '\n          106 solicitudes\n        ',
       '\n          174 solicitudes\n        ',
       '\n          53 solicitudes\n        ',
       '\n          32 solicitudes\n        ',
       '\n          85 solicitudes\n        ',
       '\n          43 solicitudes\n        ',
       '\n          44 solicitudes\n        ',
       '\n          47 solicitudes\n        ',
       '\n          33 solicitudes\n        ',
       '\n          55 solicitudes\n        ',
       '\n          58 solicitudes\n        ',
       '\n          29 solicitudes\n        ',
       '\n          153 solicitudes\n        ',
       '\n          95 solicitudes\n        ',
   

Vemos que hay muchos espacios en blanco y saltos de líneas. Primero partimos corrigiendo esto:

In [49]:
alldf['Postulaciones'] = alldf['Postulaciones'].str.strip()
alldf['Postulaciones'].unique()

array([nan, '42 solicitudes', '38 solicitudes', '135 solicitudes',
       '40 solicitudes', '104 solicitudes', '91 solicitudes',
       '80 solicitudes', '106 solicitudes', '174 solicitudes',
       '53 solicitudes', '32 solicitudes', '85 solicitudes',
       '43 solicitudes', '44 solicitudes', '47 solicitudes',
       '33 solicitudes', '55 solicitudes', '58 solicitudes',
       '29 solicitudes', '153 solicitudes', '95 solicitudes',
       '54 applicants', '41 solicitudes', '83 solicitudes',
       '111 applicants', '150 solicitudes', '30 solicitudes',
       '124 solicitudes', '72 solicitudes', '92 solicitudes',
       '35 solicitudes', '36 solicitudes', '27 solicitudes',
       '81 solicitudes', '76 solicitudes', '112 solicitudes',
       '57 solicitudes', '39 solicitudes', '60 solicitudes',
       '59 applicants', '94 applicants', '60 applicants',
       '191 applicants', '129 applicants', '151 applicants',
       '178 applicants', '180 applicants', '77 applicants',
       '194 appl

Ahora, reemplazamos los string ` solicitudes`, ` applicants`, ` candidaturas` por el string nulo.

In [50]:
alldf['Postulaciones'] = alldf['Postulaciones'].str.replace(' solicitudes', '')
alldf['Postulaciones'] = alldf['Postulaciones'].str.replace(' applicants', '')
alldf['Postulaciones'] = alldf['Postulaciones'].str.replace(' candidaturas', '')
alldf['Postulaciones'].unique()

array([nan, '42', '38', '135', '40', '104', '91', '80', '106', '174',
       '53', '32', '85', '43', '44', '47', '33', '55', '58', '29', '153',
       '95', '54', '41', '83', '111', '150', '30', '124', '72', '92',
       '35', '36', '27', '81', '76', '112', '57', '39', '60', '59', '94',
       '191', '129', '151', '178', '180', '77', '194', '187', '165',
       '116', '119', '62', '115', '110', '185', '64', '25', '65', '49',
       '51', '28', '26', '156', '52', '67', '56', '152', '82', '155',
       '37', '71', '79', '34'], dtype=object)

Transformamos las filas con valores nulos a 0.

In [51]:
alldf['Postulaciones'] = alldf['Postulaciones'].fillna(0)
alldf['Postulaciones'].unique()

array([0, '42', '38', '135', '40', '104', '91', '80', '106', '174', '53',
       '32', '85', '43', '44', '47', '33', '55', '58', '29', '153', '95',
       '54', '41', '83', '111', '150', '30', '124', '72', '92', '35',
       '36', '27', '81', '76', '112', '57', '39', '60', '59', '94', '191',
       '129', '151', '178', '180', '77', '194', '187', '165', '116',
       '119', '62', '115', '110', '185', '64', '25', '65', '49', '51',
       '28', '26', '156', '52', '67', '56', '152', '82', '155', '37',
       '71', '79', '34'], dtype=object)

Finalmente casteamos los datos a float.

In [52]:
alldf['Postulaciones'] = alldf['Postulaciones'].astype(np.float64)
alldf['Postulaciones'].unique()

array([  0.,  42.,  38., 135.,  40., 104.,  91.,  80., 106., 174.,  53.,
        32.,  85.,  43.,  44.,  47.,  33.,  55.,  58.,  29., 153.,  95.,
        54.,  41.,  83., 111., 150.,  30., 124.,  72.,  92.,  35.,  36.,
        27.,  81.,  76., 112.,  57.,  39.,  60.,  59.,  94., 191., 129.,
       151., 178., 180.,  77., 194., 187., 165., 116., 119.,  62., 115.,
       110., 185.,  64.,  25.,  65.,  49.,  51.,  28.,  26., 156.,  52.,
        67.,  56., 152.,  82., 155.,  37.,  71.,  79.,  34.])

### 5. Convierta las columnas *Jornada* y *Antiguedad* a datos de tipo categórico.

**a)** Elimine los espacios en blanco sobrantes y caracteres de salto de línea ('\n') en ambas columnas.<br>
**b)** Chequee las categorías únicas de la columna *Jornada*. ¿Cuántas son? <br>
**c)** Para la columna *Antiguedad*, reduzca el número de categorías a sólo cuatro:`['N/A','Poca/ninguna','Intermedia','Senior/ejecutivo','Director']` (`N/A: no aplica`). <br>Para ello, defina un diccionario de equivalencias que le parezca adecuado.

**d)** Convierta ambas columnas a datos de tipo `category`.<br>

*Funciones útiles*: `pandas.unique()`,`pandas.str.strip()`,`pandas.map()`,`pandas.astype()`

Borramos espacios en blanco y saltos de línea

In [53]:
alldf['Jornada'] = alldf['Jornada'].str.strip()
alldf['Antiguedad'] = alldf['Antiguedad'].str.strip()

Categorías únicas de *Jornada*

In [54]:
total_jornadas = len(alldf['Jornada'].unique())
print(f'Total de categorías unicas: {total_jornadas}')
alldf['Jornada'].unique()

Total de categorías unicas: 6


array(['Jornada completa', nan, 'Full-time', 'Tempo integral', 'Contract',
       'Contrato por obra'], dtype=object)

Vemos las categorías de *Antiguedad*:

In [55]:
alldf['Antiguedad'].unique()

array(['No corresponde', 'Sin experiencia', 'Intermedio', nan,
       'Algo de responsabilidad', 'Ejecutivo', 'Entry level',
       'Jornada completa', 'Director', 'Associate', 'Not Applicable',
       'Mid-Senior level', 'Assistente', 'Não aplicável', 'Pleno-sênior',
       'Júnior', 'Media jornada', 'Full-time'], dtype=object)

Construimos el diccionario para mapear a cualquiera de las cinco categorías: `['N/A','Poca/ninguna','Intermedia','Senior/ejecutivo','Director']` y lo aplicamos en la columna de antiguedad.

In [56]:
field_mapper = {
    'No corresponde': 'N/A',
    'Sin experiencia': 'Poca/ninguna',
    'Intermedio': 'Intermedia',
    'Algo de responsabilidad': 'Intermedia',
    'Ejecutivo': 'Senior/ejecutivo',
    'Entry level': 'Poca/ninguna',
    'Jornada completa': 'N/A',
    'Director': 'Director',
    'Associate': 'Intermedia',
    'Not Applicable': 'N/A',
    'Mid-Senior level': 'Intermedia',
    'Assistente': 'Intermedia',
    'Não aplicável': 'N/A',
    'Pleno-sênior': 'Senior/ejecutivo',
    'Júnior': 'Poca/ninguna',
    'Media jornada': 'N/A',
    'Full-time': 'N/A'
    }

alldf['Antiguedad'] = alldf['Antiguedad'].map(field_mapper)
alldf['Antiguedad'].unique()

array(['N/A', 'Poca/ninguna', 'Intermedia', nan, 'Senior/ejecutivo',
       'Director'], dtype=object)

Consideramos que si el dato es NaN, es el nivel más júnior, por lo que llenamos los NaN con la categoría *Poca/ninguna*

In [57]:
alldf['Antiguedad'] = alldf['Antiguedad'].fillna('Poca/ninguna')
alldf['Antiguedad'].unique()

array(['N/A', 'Poca/ninguna', 'Intermedia', 'Senior/ejecutivo',
       'Director'], dtype=object)

Finalmente, convertimos las columnas a categoría *Category*.

In [58]:
alldf['Jornada'] = alldf['Jornada'].astype('category')
alldf['Antiguedad'] = alldf['Antiguedad'].astype('category')
alldf.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 1000 entries, 0 to 1016
Data columns (total 8 columns):
 #   Column         Non-Null Count  Dtype   
---  ------         --------------  -----   
 0   Country        1000 non-null   object  
 1   Location       1000 non-null   object  
 2   Title          1000 non-null   object  
 3   Company        1000 non-null   object  
 4   Url            1000 non-null   object  
 5   Postulaciones  1000 non-null   float64 
 6   Jornada        681 non-null    category
 7   Antiguedad     1000 non-null   category
dtypes: category(2), float64(1), object(5)
memory usage: 57.1+ KB


In [59]:
alldf.head()

Unnamed: 0,Country,Location,Title,Company,Url,Postulaciones,Jornada,Antiguedad
0,Chile,"Santiago, Santiago Metropolitan Region, Chile",Data Scientist,BICE VIDA,https://cl.linkedin.com/jobs/view/data-scienti...,0.0,Jornada completa,
1,Chile,"Santiago, Santiago Metropolitan Region, Chile",Data Scientist,BNamericas,https://cl.linkedin.com/jobs/view/data-scienti...,42.0,Jornada completa,Poca/ninguna
2,Chile,"Santiago, Santiago Metropolitan Region, Chile",Data Scientist.,Fuerza Laboral,https://cl.linkedin.com/jobs/view/data-scienti...,0.0,Jornada completa,Poca/ninguna
3,Chile,"Rancagua, O'Higgins Region, Chile",Data Scientist,Agrosuper,https://cl.linkedin.com/jobs/view/data-scienti...,0.0,Jornada completa,Intermedia
4,Chile,"Santiago, Santiago Metropolitan Region, Chile",Data Scientist,MAS Analytics,https://cl.linkedin.com/jobs/view/data-scienti...,0.0,Jornada completa,


### 6. Lea el conjunto de datos de Índice de Innovación por país y renombre la columna *Economy* a *Country*.


In [67]:
innovation_csv = 'https://raw.githubusercontent.com/paguirre-uc/mds3020_2022/main/tarea2/indiceInnovacionPaises.csv'
innovationdf = pd.read_csv(innovation_csv, sep=',')
innovationdf

Unnamed: 0,rank,Economy,Income Group(Strength/Weakness),Strength / Weakness,Score
0,1,Switzerland,Strength,Strength,64.6
1,2,United States of America,Strength,Strength,61.8
2,3,Sweden,Strength,Strength,61.6
3,4,United Kingdom,Strength,Strength,59.7
4,5,Netherlands,,Strength,58.0
...,...,...,...,...,...
127,128,Yemen,,,13.8
128,129,Mauritania,Weakness,,12.4
129,130,Burundi,Weakness,,12.3
130,131,Iraq,Weakness,Weakness,11.9


In [68]:
innovationdf.rename(columns={'Economy': 'Country'}, inplace=True)
innovationdf.head()

Unnamed: 0,rank,Country,Income Group(Strength/Weakness),Strength / Weakness,Score
0,1,Switzerland,Strength,Strength,64.6
1,2,United States of America,Strength,Strength,61.8
2,3,Sweden,Strength,Strength,61.6
3,4,United Kingdom,Strength,Strength,59.7
4,5,Netherlands,,Strength,58.0


### 7. Combinación de conjuntos de datos.
**a)** Del dataframe de Índice de Innovación por País, seleccione sólo las columnas *Country* y *Score*. <br>
**b)** Combine estos datos con el dataframe de ofertas laborales, de manera de agregarle a éste una columna *Score* con el índice de innovación del país dónde se publicó el anuncio: <br>

|Country | Location|Title | Company | Url | Postulaciones | Jornada |Antiguedad |Score |
|---|---|---|---|---|---|---|---|---|

Este dataframe debe tener el mismo número de registros que el dataframe de ofertas laborales.

**b)** Determine si en este dataframe final, existen registros para los cuales la columna *Score* es un dato faltante o nulo. ¿A qué se deben estos datos nulos, si es que existen?

*Funciones útiles*: `pandas.merge()`

Seleccionamos solo las columnas *Country* y *Score*.

In [69]:
innovationdf = innovationdf[['Country', 'Score']]
innovationdf

Unnamed: 0,Country,Score
0,Switzerland,64.6
1,United States of America,61.8
2,Sweden,61.6
3,United Kingdom,59.7
4,Netherlands,58.0
...,...,...
127,Yemen,13.8
128,Mauritania,12.4
129,Burundi,12.3
130,Iraq,11.9


Podemos ver que los nombres de los países están en inglés, lo que podría generar un problema al momento de hacer el cruce con el dataset de oportunidades laborales. En dicho caso, vemos el caso de Brasil, que en el dataset de innovación aparece como 'Brazil'. Hacemos este cambio.

In [70]:
innovationdf[innovationdf['Country'] == 'Brazil']

Unnamed: 0,Country,Score
53,Brazil,32.5


In [71]:
innovationdf['Country'] = innovationdf['Country'].map({'Brazil': 'Brasil'}).fillna(innovationdf['Country'])
innovationdf[innovationdf['Country'] == 'Brasil']

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  innovationdf['Country'] = innovationdf['Country'].map({'Brazil': 'Brasil'}).fillna(innovationdf['Country'])


Unnamed: 0,Country,Score
53,Brasil,32.5


In [72]:
innovationdf

Unnamed: 0,Country,Score
0,Switzerland,64.6
1,United States of America,61.8
2,Sweden,61.6
3,United Kingdom,59.7
4,Netherlands,58.0
...,...,...
127,Yemen,13.8
128,Mauritania,12.4
129,Burundi,12.3
130,Iraq,11.9


Combinamos ambos dataset utilizando la columna *Country* como condición de igualdad del JOIN. Hacemos un LEFT JOIN en el que el dataset de la izquierda será el de ofertas laborales, manteniendo al menos su cardinalidad.

In [73]:
alldf

Unnamed: 0,Country,Location,Title,Company,Url,Postulaciones,Jornada,Antiguedad
0,Chile,"Santiago, Santiago Metropolitan Region, Chile",Data Scientist,BICE VIDA,https://cl.linkedin.com/jobs/view/data-scienti...,0.0,Jornada completa,
1,Chile,"Santiago, Santiago Metropolitan Region, Chile",Data Scientist,BNamericas,https://cl.linkedin.com/jobs/view/data-scienti...,42.0,Jornada completa,Poca/ninguna
2,Chile,"Santiago, Santiago Metropolitan Region, Chile",Data Scientist.,Fuerza Laboral,https://cl.linkedin.com/jobs/view/data-scienti...,0.0,Jornada completa,Poca/ninguna
3,Chile,"Rancagua, O'Higgins Region, Chile",Data Scientist,Agrosuper,https://cl.linkedin.com/jobs/view/data-scienti...,0.0,Jornada completa,Intermedia
4,Chile,"Santiago, Santiago Metropolitan Region, Chile",Data Scientist,MAS Analytics,https://cl.linkedin.com/jobs/view/data-scienti...,0.0,Jornada completa,
...,...,...,...,...,...,...,...,...
1012,Guyana,"Mahaica, Demerara-Mahaica, Guyana",Lead Ruby on Rails Engineer,Aha!,https://gy.linkedin.com/jobs/view/lead-ruby-on...,0.0,,Poca/ninguna
1013,Guyana,Guyana,Sr. Security Engineer (Ruby on Rails experienc...,Aha!,https://gy.linkedin.com/jobs/view/sr-security-...,0.0,,Poca/ninguna
1014,Guyana,Guyana,Sr. Ruby on Rails Engineer,Aha!,https://gy.linkedin.com/jobs/view/sr-ruby-on-r...,0.0,Full-time,Intermedia
1015,Guyana,"Mahaica, Demerara-Mahaica, Guyana",Sr. Ruby on Rails Engineer,Aha!,https://gy.linkedin.com/jobs/view/sr-ruby-on-r...,0.0,,Poca/ninguna


In [74]:
df = alldf.merge(innovationdf, how='left', on=['Country'])
df

Unnamed: 0,Country,Location,Title,Company,Url,Postulaciones,Jornada,Antiguedad,Score
0,Chile,"Santiago, Santiago Metropolitan Region, Chile",Data Scientist,BICE VIDA,https://cl.linkedin.com/jobs/view/data-scienti...,0.0,Jornada completa,,34.0
1,Chile,"Santiago, Santiago Metropolitan Region, Chile",Data Scientist,BNamericas,https://cl.linkedin.com/jobs/view/data-scienti...,42.0,Jornada completa,Poca/ninguna,34.0
2,Chile,"Santiago, Santiago Metropolitan Region, Chile",Data Scientist.,Fuerza Laboral,https://cl.linkedin.com/jobs/view/data-scienti...,0.0,Jornada completa,Poca/ninguna,34.0
3,Chile,"Rancagua, O'Higgins Region, Chile",Data Scientist,Agrosuper,https://cl.linkedin.com/jobs/view/data-scienti...,0.0,Jornada completa,Intermedia,34.0
4,Chile,"Santiago, Santiago Metropolitan Region, Chile",Data Scientist,MAS Analytics,https://cl.linkedin.com/jobs/view/data-scienti...,0.0,Jornada completa,,34.0
...,...,...,...,...,...,...,...,...,...
995,Guyana,"Mahaica, Demerara-Mahaica, Guyana",Lead Ruby on Rails Engineer,Aha!,https://gy.linkedin.com/jobs/view/lead-ruby-on...,0.0,,Poca/ninguna,
996,Guyana,Guyana,Sr. Security Engineer (Ruby on Rails experienc...,Aha!,https://gy.linkedin.com/jobs/view/sr-security-...,0.0,,Poca/ninguna,
997,Guyana,Guyana,Sr. Ruby on Rails Engineer,Aha!,https://gy.linkedin.com/jobs/view/sr-ruby-on-r...,0.0,Full-time,Intermedia,
998,Guyana,"Mahaica, Demerara-Mahaica, Guyana",Sr. Ruby on Rails Engineer,Aha!,https://gy.linkedin.com/jobs/view/sr-ruby-on-r...,0.0,,Poca/ninguna,


Vemos la columna *Score*, chequeando si hay nulos.

In [75]:
df.groupby('Score', dropna=False).agg('count')

Unnamed: 0_level_0,Country,Location,Title,Company,Url,Postulaciones,Jornada,Antiguedad
Score,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
20.3,99,99,99,99,99,99,78,99
22.6,94,94,94,94,94,94,47,94
28.6,75,75,75,75,75,75,49,75
29.2,172,172,172,172,172,172,121,172
32.5,100,100,100,100,100,100,88,100
34.0,75,75,75,75,75,75,61,75
,385,385,385,385,385,385,237,385


Vemos que hay un total de 385 datos con valor nulo de Score

In [77]:
df.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 1000 entries, 0 to 999
Data columns (total 9 columns):
 #   Column         Non-Null Count  Dtype   
---  ------         --------------  -----   
 0   Country        1000 non-null   object  
 1   Location       1000 non-null   object  
 2   Title          1000 non-null   object  
 3   Company        1000 non-null   object  
 4   Url            1000 non-null   object  
 5   Postulaciones  1000 non-null   float64 
 6   Jornada        681 non-null    category
 7   Antiguedad     1000 non-null   category
 8   Score          615 non-null    float64 
dtypes: category(2), float64(2), object(5)
memory usage: 64.9+ KB


Lo anterior tiene bastante lógica: si comparamos la cantidad de países de la base de datos de innovacion, obtenemos que son 132.

In [78]:
len(innovationdf['Country'].unique())

132

Mientras, en la base de datos de ofertas laborales, tenemos un total de 11 países.

In [79]:
len(alldf['Country'].unique())

11

Dado lo anterior y que requeríamos que el dataset de oportunidades laborales tenga la misma cantidad de datos utilizamos un LEFT JOIN, en el que si un país no era encontrado en dicho dataset, las columnas de Score se seteaban como nulas. Dado lo anterior, es que existen ciertos países del dataset de oportunidades laborales que no se encontraban en el de innovación, por lo que en tales casos, el score se seteó como nulo. Lo vemos gráficamente para concluir.

In [80]:
job_countries = df[df['Score'].isnull()]['Country'].unique().tolist()
job_countries

['Venezuela', 'Bolivia', 'Suriname', 'Guyana']

In [81]:
all_countries_innov = innovationdf['Country'].unique().tolist()
all_countries_innov

['Switzerland',
 'United States of America',
 'Sweden',
 'United Kingdom',
 'Netherlands',
 'Republic of Korea',
 'Singapore',
 'Germany',
 'Finland',
 'Denmark',
 'China',
 'France',
 'Japan',
 'Hong Kong',
 'Canada',
 'Israel',
 'Austria',
 'Estonia',
 'Luxembourg',
 'Iceland',
 'Malta',
 'Norway',
 'Ireland',
 'New Zealand',
 'Australia',
 'Belgium',
 'Cyprus',
 'Italy',
 'Spain',
 'Czech Republic',
 'United Arab Emirates',
 'Portugal',
 'Slovenia',
 'Hungary',
 'Bulgaria',
 'Malaysia',
 'T\x81rkiye',
 'Poland',
 'Lithuania',
 'India',
 'Latvia',
 'Croatia',
 'Thailand',
 'Greece',
 'Mauritius',
 'Slovakia',
 'Russian Federation',
 'Viet Nam',
 'Romania',
 'Chile',
 'Saudi Arabia',
 'Qatar',
 'Iran (Islamic Republic of)',
 'Brasil',
 'Serbia',
 'Republic of Moldova',
 'Ukraine',
 'Mexico',
 'Philippines',
 'Montenegro',
 'South Africa',
 'Kuwait',
 'Colombia',
 'Uruguay',
 'Peru',
 'North Macedonia',
 'Morocco',
 'Costa Rica',
 'Argentina',
 'Bosnia and Herzegovina',
 'Mongolia',
 '

Chequeamos que el subconjunto de países no se encuentra en el listado de países con el score de innovación.

In [82]:
set(job_countries).intersection(set(all_countries_innov))

set()