#### Imports

In [183]:
import pandas as pd
import numpy as np

#### Read linkedin csv

In [184]:
linkedin = pd.read_csv('../data/linkedin.csv')
linkedin.sample(3)

Unnamed: 0,job_id,job_title,company_name,company_state,salary_range,remote_ratio,employment_type,experience_level,company_size
167,3769037441,Content Insights & Optimization Manager,Autodesk,"· Oregón, Estados Unidos",,En remoto,Jornada completa,,Más de 10.001 empleados · Desarrollo de software
96,3762679131,Data Analyst,Elder Research,"· Virginia Beach, VA",,Presencial,Jornada completa,Sin experiencia,De 51 a 200 empleados · Servicios y consultorí...
146,3767904243,Staff Data Engineer,Order.co,"· Nueva York, NY",210.000 $/año - 220.000 $/año,,Jornada completa,Intermedio,De 51 a 200 empleados · Desarrollo de software


#### Cleaning 'company_state' column

In [185]:
states = ['AL', 'AK', 'AZ', 'AR', 'CA', 'NC', 'SC', 'CO', 'CT', 'ND', 'SD', 'DE', 'FL', 'GA', 'HI', 'ID', 'IL', 'IN', 'IA', 'KS', 'KY', 'LA',
          'ME', 'MD', 'MA', 'MI', 'MN', 'MS', 'MO', 'MT', 'NE', 'NV', 'NJ', 'NY', 'NH', 'NM', 'OH', 'OK', 'OR', 'PA', 'RI', 'TN', 'TX', 'UT',
          'UT', 'VT', 'VA', 'WV', 'WA', 'WI', 'WY']
linkedin['company_state'] = linkedin['company_state'].apply(lambda row: 'Estados Unidos' if row == '· Estados Unidos' else row)
linkedin['company_state'].value_counts()

company_state
Estados Unidos                             33
· Nueva York, NY                           11
· Seattle, WA                               8
· Washington, DC                            7
· Cincinnati, OH                            6
                                           ..
· Newport News, VA                          1
· Morris Plains, NJ                         1
· Washington DC-Baltimore y alrededores     1
· Chesterfield, VA                          1
· Santa Ana, CA                             1
Name: count, Length: 151, dtype: int64

In [186]:
def fclean_company_state(df, states):
    for i in states:
        linkedin['company_state'] = linkedin['company_state'].apply(lambda row: i if i in str(row) else row)
    return df

linkedin = fclean_company_state(linkedin, states)

In [187]:
def sclean_company_state(df, states):
    for key, value in states.items():
        linkedin['company_state'] = linkedin['company_state'].apply(lambda row: value if key in str(row) else row)
    return df

left_states = {
    'Virginia': 'VA',
    'Minnesota': 'MN',
    'Washington': 'WA',
    'San Francisco': 'CA',
    'Nebraska': 'NE',
    'California': 'CA',
    'Texas': 'TX',
    'Nueva York': 'NY',
    'Michigan': 'MI',
    'Luisiana': 'LA',
    'Florida': 'FL',
    'Maryland': 'MD',
    'Nevada': 'NV',
    'Oregón': 'OR',
    'Oklahoma': 'OK',
    'Georgia': 'GA',
    'Carolina del Sur': 'SC',
    'Delaware': 'DE',
    'Ohio': 'OH',
    'Arkansas': 'AR',
    'Iowa': 'IA',
    'Carolina del Norte': 'NC',
    'Indiana': 'IN',
    'Nashville': 'TN',
    'Massachusetts': 'MA',
    'Tennessee': 'TN',
    'Enid': 'OK'
}
linkedin = sclean_company_state(linkedin, left_states)

#### Cleaning 'company_state' column

In [188]:
linkedin.sample(5)

Unnamed: 0,job_id,job_title,company_name,company_state,salary_range,remote_ratio,employment_type,experience_level,company_size
193,3771831960,RESEARCH ANALYST,Duke University,NC,,Presencial,Jornada completa,Intermedio,Más de 10.001 empleados · Enseñanza superior
237,3773892164,Data Analyst,Harris County,TX,,Presencial,Jornada completa,Sin experiencia,Más de 10.001 empleados · Administración pública
86,3761816477,Data Analyst,Sedgwick,OR,,En remoto,Jornada completa,Sin experiencia,Más de 10.001 empleados · Seguros
261,3774685566,Data Engineer,SnapX.ai,CA,,Presencial,Contrato por obra,Sin experiencia,Entre 1 y 10 empleados · Servicios de recursos...
181,3770799777,Data Engineer (Hybrid) - Python/Java/Kibana/El...,Captivation,MD,125.000 $/año - 250.000 $/año,,Presencial,Jornada completa,De 11 a 50 empleados · Desarrollo de software


In [189]:
linkedin['remote_ratio'].value_counts()

remote_ratio
Presencial                                                                              107
En remoto                                                                               106
Híbrido                                                                                  38
Jornada completa                                                                          6
162.000 $/año - 247.500 $/año                                                             4
116.002 $/año - 168.000 $/año                                                             3
65.800 $/año - 165.600 $/año                                                              2
145.000 $/año - 355.000 $/año                                                             1
180.000 $/año - 275.000 $/año                                                             1
Contrato por obra                                                                         1
En remotoCoincide con tus preferencias de empleo. La modalidad labo

Aquí podemos ver que hay valores en la columna que pertenecen a la columna salary_range, por lo tanto tienen que moverse a la columna correspondiente.

In [190]:
linkedin['salary_range'] = linkedin['remote_ratio'].apply(lambda row: str(row) if '$' in str(row) else np.nan)
linkedin['remote_ratio'] = linkedin['remote_ratio'].apply(lambda row: np.nan if '$' in str(row) else str(row))
linkedin['remote_ratio'].value_counts()

remote_ratio
Presencial                                                                              107
En remoto                                                                               106
Híbrido                                                                                  38
nan                                                                                      25
Jornada completa                                                                          6
Contrato por obra                                                                         1
En remotoCoincide con tus preferencias de empleo. La modalidad laboral es En remoto.      1
Name: count, dtype: int64

También tenemos valores que pertencen a la columna employment_type, tienen que moverse a la columna correspondiente, pero primero comprobaremos que no sean nulos los valores que hay en la columna employment_type.

In [191]:
linkedin[(linkedin['remote_ratio'] == 'Jornada completa') | (linkedin['remote_ratio'] == 'Contrato por obra')]

Unnamed: 0,job_id,job_title,company_name,company_state,salary_range,remote_ratio,employment_type,experience_level,company_size
25,3731939310,Data Scientist,Yext,NY,,Jornada completa,Sin experiencia,,"De 1.001 a 5.000 empleados · Tecnología, infor..."
39,3747569772,Data Engineer,Massachusetts Institute of Technology,MA,,Jornada completa,Sin experiencia,,De 5.001 a 10.000 empleados · Enseñanza superior
50,3752319824,Data Engineer,Metric5,MO,,Jornada completa,Sin experiencia,,De 51 a 200 empleados · Servicios y consultorí...
100,3762746288,Senior Data Engineer,Agile Global Solutions LLC,VA,,Contrato por obra,Intermedio,,Entre 1 y 10 empleados · Servicios y consultor...
142,3767189280,Data Engineer,"GEI Consultants, Inc.",NY,,Jornada completa,Sin experiencia,,De 1.001 a 5.000 empleados · Ingeniería civil
164,3768901276,Data Engineer,Deseret First Credit Union,UT,,Jornada completa,Sin experiencia,,De 51 a 200 empleados · Banca
278,3775610628,Data Engineer,Accenture,FL,,Jornada completa,Intermedio,,Más de 10.001 empleados · Consultoría y servic...


In [192]:
linkedin[(linkedin['experience_level'] == 'Jornada completa') | (linkedin['experience_level'] == 'Prácticas')]

Unnamed: 0,job_id,job_title,company_name,company_state,salary_range,remote_ratio,employment_type,experience_level,company_size
15,3694034911,Senior Deep Learning (AI) Engineer,"Volkswagen of America, Inc",CA,,,Híbrido,Jornada completa,De 1.001 a 5.000 empleados · Fabricación de ve...
30,3743166796,Machine Learning Engineer,Cisco,CA,,,En remoto,Jornada completa,Más de 10.001 empleados · Desarrollo de software
33,3744009051,RF Computational Engineer 3,Lam Research,CA,,,Presencial,Jornada completa,Más de 10.001 empleados · Fabricación de semic...
56,3755065806,Data Engineer Intern,Hewlett Packard Enterprise,CA,,,Presencial,Jornada completa,Más de 10.001 empleados · Servicios y consulto...
90,3761843741,AI Research Engineer,Future House,CA,,,Presencial,Jornada completa,Entre 1 y 10 empleados
91,3762242381,Data Scientist,Probar Premium gratis,IL,,,Presencial,Jornada completa,Ve una comparación con los otros 287 solicitan...
107,3764327708,Machine Learning Engineer,Presage Technologies,VA,,,En remoto,Jornada completa,De 11 a 50 empleados
114,3765294448,Summer Intern - R&D/Artificial Intelligence,"Bluebeam, Inc.",CA,,Presencial,Prácticas,Prácticas,De 201 a 500 empleados · Desarrollo de software
129,3766280936,Business Analyst Intern - Remote | WFH,Get It Recruit - Finance,CA,,En remoto,Prácticas,Prácticas,Entre 1 y 10 empleados · Servicios de recursos...
130,3766655529,Data Architecture Intern,International Rescue Committee,NY,,Híbrido,Media jornada,Prácticas,Más de 10.001 empleados · Organizaciones sin á...


Como hay valores que parece que corresponden a la experiencia vamos a mover estos valores a su columna correspondiente pero estandarizando primero los valores válidos de la columna remote_ratio.

In [193]:
def clean_remote_ratio(df, dict_):
    for key, val in dict_.items():
        df['remote_ratio'] = df['remote_ratio'].apply(lambda row: key if key in str(row) else str(row))
    return df

remote_dict = {
    'Presencial': 0,
    'Híbrido': 50,
    'En remoto': 100
}
linkedin = clean_remote_ratio(linkedin, remote_dict)
linkedin['remote_ratio'].value_counts()

remote_ratio
Presencial           107
En remoto            107
Híbrido               38
nan                   36
Jornada completa       6
Contrato por obra      1
Name: count, dtype: int64

In [194]:
def get_experience_level(row):
    if row['employment_type'] == 'Sin experiencia' or row['employment_type'] == 'Intermedio':
        return row['employment_type']
    else:
        return row['experience_level']
    
def update_employment_type(row):
    if row != 'Presencial' and row != 'Híbrido' and row != 'En remoto':
        return row
    else:
        return linkedin.loc[linkedin['remote_ratio'] == row, 'employment_type'].values[0]

linkedin['experience_level'] = linkedin.apply(get_experience_level, axis=1)
linkedin['employment_type'] = linkedin['remote_ratio'].apply(update_employment_type)
linkedin['remote_ratio'] = linkedin['remote_ratio'].apply(lambda row: np.nan if row == 'Jornada completa' or row == 'Contrato por obra' else row)

También parece que hay valores en la columa experience_level que pertenecen a la columna employment_type, por lo que habrá que mover estos valores.

In [195]:
def move_employment_type(row):
    if row['employment_type'] == 'Jornada completa' or row['employment_type'] == 'Prácticas':
        return row['employment_type']
    else:
        return row['experience_level']

linkedin['employment_type'] = linkedin.apply(move_employment_type, axis=1)

The next line should not return any row, that is because the cleaning is working fine.

In [196]:
linkedin[(linkedin['remote_ratio'] == 'Jornada completa') | (linkedin['remote_ratio'] == 'Contrato por obra')]

Unnamed: 0,job_id,job_title,company_name,company_state,salary_range,remote_ratio,employment_type,experience_level,company_size


In [197]:
linkedin['remote_ratio'].value_counts()

remote_ratio
Presencial    107
En remoto     107
Híbrido        38
nan            36
Name: count, dtype: int64

#### Cleaning 'experience_level' column

In [198]:
linkedin.sample(5)
linkedin['experience_level'].value_counts()

experience_level
Sin experiencia            104
Intermedio                  84
Algo de responsabilidad     39
Jornada completa            12
Prácticas                    9
Director                     3
Ejecutivo                    1
Media jornada                1
Name: count, dtype: int64

In [199]:
linkedin[(linkedin['experience_level'] == 'Jornada completa') | (linkedin['experience_level'] == 'Prácticas')]

Unnamed: 0,job_id,job_title,company_name,company_state,salary_range,remote_ratio,employment_type,experience_level,company_size
15,3694034911,Senior Deep Learning (AI) Engineer,"Volkswagen of America, Inc",CA,,,Jornada completa,Jornada completa,De 1.001 a 5.000 empleados · Fabricación de ve...
30,3743166796,Machine Learning Engineer,Cisco,CA,,,Jornada completa,Jornada completa,Más de 10.001 empleados · Desarrollo de software
33,3744009051,RF Computational Engineer 3,Lam Research,CA,,,Jornada completa,Jornada completa,Más de 10.001 empleados · Fabricación de semic...
56,3755065806,Data Engineer Intern,Hewlett Packard Enterprise,CA,,,Jornada completa,Jornada completa,Más de 10.001 empleados · Servicios y consulto...
90,3761843741,AI Research Engineer,Future House,CA,,,Jornada completa,Jornada completa,Entre 1 y 10 empleados
91,3762242381,Data Scientist,Probar Premium gratis,IL,,,Jornada completa,Jornada completa,Ve una comparación con los otros 287 solicitan...
107,3764327708,Machine Learning Engineer,Presage Technologies,VA,,,Jornada completa,Jornada completa,De 11 a 50 empleados
114,3765294448,Summer Intern - R&D/Artificial Intelligence,"Bluebeam, Inc.",CA,,Presencial,Jornada completa,Prácticas,De 201 a 500 empleados · Desarrollo de software
129,3766280936,Business Analyst Intern - Remote | WFH,Get It Recruit - Finance,CA,,En remoto,Jornada completa,Prácticas,Entre 1 y 10 empleados · Servicios de recursos...
130,3766655529,Data Architecture Intern,International Rescue Committee,NY,,Híbrido,Jornada completa,Prácticas,Más de 10.001 empleados · Organizaciones sin á...
