In [3]:
import pandas as pd

In [4]:
df = pd.read_csv("../input/oferta_laboral_ecuador.csv")

In [5]:
# Revisando nulos
df.isnull().sum()

cargo               0
modo                0
fechaPublicado      0
fechaFin            0
plazas              0
experiencia         0
capacitacion        0
jornadas            0
remuneracion        0
nivelInstruccion    0
areaEstudios        0
ciudad              0
parroquia           0
sector              0
dtype: int64

In [6]:
df.dtypes

cargo               object
modo                object
fechaPublicado      object
fechaFin            object
plazas               int64
experiencia         object
capacitacion        object
jornadas            object
remuneracion        object
nivelInstruccion    object
areaEstudios        object
ciudad              object
parroquia           object
sector              object
dtype: object

In [7]:
df.cargo.unique()

array(['desarrollador java jee',
       'guardias de seguridad con experiencia 1 año', 'vendedor', ...,
       'dibujante sepa autocad , servicio cliente',
       'ingeniero agronomo para puerto inca', 'estratega digital'],
      dtype=object)

In [8]:
df.cargo.value_counts()

cargo
asistente contable                                        1854
albañil                                                   1820
auxiliar contable                                         1475
asesor comercial                                          1434
guardia de seguridad                                      1400
                                                          ... 
psicología educativa                                         1
cocinero o estudiante de cocina                              1
abogado externo-coactivas                                    1
analista de planificación, seguimiento y control de la       1
estratega digital                                            1
Name: count, Length: 62951, dtype: int64

In [9]:
df.cargo

0                                    desarrollador java jee
1               guardias de seguridad con experiencia 1 año
2                                                  vendedor
3                                                 topografo
4                                        asistente contable
                                ...                        
210807                                    estratega digital
210808                                    chófer de trailer
210809      analista de redes, seguridades y comunicaciones
210810                 analista de ingenieria de sistemas 3
210811    analista de proyectos de tecnologia y de infor...
Name: cargo, Length: 210812, dtype: object

In [10]:
df = df.loc[~df.cargo.str.contains(r'^\d+$', na=False)]
# Eliminamos los cargos donde hay seriales en su nombre

In [11]:
df.fechaPublicado = pd.to_datetime(df.fechaPublicado)
df.fechaPublicado

0        2013-02-22
1        2013-02-23
2        2013-02-23
3        2013-02-23
4        2013-02-25
            ...    
210807   2020-09-03
210808   2020-09-03
210809   2020-09-03
210810   2020-09-03
210811   2020-09-03
Name: fechaPublicado, Length: 210796, dtype: datetime64[ns]

In [12]:
df.fechaFin = pd.to_datetime(df.fechaFin)
df.fechaFin

0        2013-03-24
1        2013-02-28
2        2013-02-26
3        2013-02-28
4        2013-03-27
            ...    
210807   2020-10-03
210808   2020-09-10
210809   2020-10-03
210810   2020-10-03
210811   2020-10-03
Name: fechaFin, Length: 210796, dtype: datetime64[ns]

In [13]:
df.plazas

0          1
1         20
2          2
3          1
4          1
          ..
210807     1
210808     1
210809     1
210810     1
210811     1
Name: plazas, Length: 210796, dtype: int64

In [14]:
df.experiencia.unique()

array(['sin experiencia', '7-12 meses', '1-3 años', '4-6 años',
       'practica en empresa', '1-6 meses', '7-10 años', 'más de 10 años'],
      dtype=object)

In [15]:
df.experiencia = df.experiencia.astype("category")
df.experiencia

0         sin experiencia
1              7-12 meses
2                1-3 años
3                1-3 años
4                1-3 años
               ...       
210807           1-3 años
210808           1-3 años
210809           4-6 años
210810           4-6 años
210811           4-6 años
Name: experiencia, Length: 210796, dtype: category
Categories (8, object): ['1-3 años', '1-6 meses', '4-6 años', '7-10 años', '7-12 meses', 'más de 10 años', 'practica en empresa', 'sin experiencia']

In [16]:
df.capacitacion.unique()

array(['0-50 horas'], dtype=object)

In [17]:
df.capacitacion = df.capacitacion.astype("category")
df.capacitacion

0         0-50 horas
1         0-50 horas
2         0-50 horas
3         0-50 horas
4         0-50 horas
             ...    
210807    0-50 horas
210808    0-50 horas
210809    0-50 horas
210810    0-50 horas
210811    0-50 horas
Name: capacitacion, Length: 210796, dtype: category
Categories (1, object): ['0-50 horas']

In [18]:
df.jornadas.unique()

array(['jornada ordinaria (8 horas)', 'opción a estudios', 'medio tiempo'],
      dtype=object)

In [19]:
df.jornadas = df.jornadas.astype("category")
df.jornadas

0         jornada ordinaria (8 horas)
1         jornada ordinaria (8 horas)
2         jornada ordinaria (8 horas)
3         jornada ordinaria (8 horas)
4         jornada ordinaria (8 horas)
                     ...             
210807    jornada ordinaria (8 horas)
210808    jornada ordinaria (8 horas)
210809    jornada ordinaria (8 horas)
210810    jornada ordinaria (8 horas)
210811    jornada ordinaria (8 horas)
Name: jornadas, Length: 210796, dtype: category
Categories (3, object): ['jornada ordinaria (8 horas)', 'medio tiempo', 'opción a estudios']

In [20]:
df.remuneracion.unique()

array(['$501-$750', '$400-$500', '$1001-$1500', '$751-$1000',
       '$1501-$2000', '$2001-$2500', '$2501-$3000', 'más de $ 5001',
       '$3001-$4000', '$4001-$5000'], dtype=object)

In [21]:
def salario_promedio(rango):
    if rango == 'más de $ 5001':
        # Puedes ajustar este valor según lo que consideres apropiado
        return 6000
    else:
        minimo, maximo = rango.replace('$', '').split('-')
        return (int(minimo) + int(maximo)) / 2

# Aplicar la función a la columna salario
df['remuneracion'] = df['remuneracion'].apply(salario_promedio)

In [22]:
df.remuneracion

0          625.5
1          450.0
2          450.0
3          625.5
4          450.0
           ...  
210807     875.5
210808     875.5
210809    1750.5
210810    1750.5
210811    1750.5
Name: remuneracion, Length: 210796, dtype: float64

In [23]:
df.nivelInstruccion.unique()

array(['tercer nivel', 'bachiller', 'tecnológico superior',
       'educación básica /básica superior', 'secundaria sin finalizar',
       'técnico superior', 'sin instruccion',
       'primaria /básica elemental /básica media',
       'cuarto nivel-maestria', 'cuarto nivel-especialidad',
       'cuarto nivel-diplomado', 'phd-doctorado', 'egresado',
       'estudiante universitario/educación superior(desde tercer año aprobado-6to semestre aprobado)',
       'estudiante universitario/educación superior(desde un día hasta tercer año en curso o 6to semestre en curso)'],
      dtype=object)

In [24]:
df.nivelInstruccion.value_counts().reset_index()

Unnamed: 0,nivelInstruccion,count
0,tercer nivel,74962
1,bachiller,39612
2,secundaria sin finalizar,28619
3,sin instruccion,22302
4,técnico superior,13587
5,primaria /básica elemental /básica media,12131
6,cuarto nivel-especialidad,6799
7,tecnológico superior,4239
8,egresado,3937
9,cuarto nivel-maestria,3446


In [25]:
# tecnologico superior y tecnico superior hacen referencia a lo mismo
# por lo que se reemplazara la que tenga menos instancias por la de mayor
# instancias para simplificar la muestra

df.nivelInstruccion = df.nivelInstruccion.str.replace("tecnológico superior", "técnico superior")

In [26]:
# Ambas categorias se refieren a los estudiantes universitarios
df.nivelInstruccion = df.nivelInstruccion.str.replace("estudiante universitario/educación superior(desde tercer año aprobado-6to semestre aprobado", "estudiante universitario")
df.nivelInstruccion = df.nivelInstruccion.str.replace("estudiante universitario/educación superior(desde un día hasta tercer año en curso o 6to semestre en curso", "estudiante universitario")


In [27]:
# Estas categorias se pueden unir en una sola: educación básica/secundaria
df.nivelInstruccion = df.nivelInstruccion.str.replace("educación básica /básica superior", "educación básica/secundaria")
df.nivelInstruccion = df.nivelInstruccion.str.replace("secundaria sin finalizar", "educación básica/secundaria")
df.nivelInstruccion = df.nivelInstruccion.str.replace("primaria /básica elemental /básica media", "educación básica/secundaria")


In [28]:
df.nivelInstruccion.value_counts().reset_index()

Unnamed: 0,nivelInstruccion,count
0,tercer nivel,74962
1,educación básica/secundaria,41544
2,bachiller,39612
3,sin instruccion,22302
4,técnico superior,17826
5,cuarto nivel-especialidad,6799
6,egresado,3937
7,cuarto nivel-maestria,3446
8,phd-doctorado,144
9,cuarto nivel-diplomado,118


In [29]:
df.nivelInstruccion = df.nivelInstruccion.str.replace("estudiante universitario)", "estudiante universitario")
df.nivelInstruccion.value_counts().reset_index()

Unnamed: 0,nivelInstruccion,count
0,tercer nivel,74962
1,educación básica/secundaria,41544
2,bachiller,39612
3,sin instruccion,22302
4,técnico superior,17826
5,cuarto nivel-especialidad,6799
6,egresado,3937
7,cuarto nivel-maestria,3446
8,phd-doctorado,144
9,cuarto nivel-diplomado,118


In [30]:
df.nivelInstruccion = df.nivelInstruccion.astype("category")
df.dtypes

cargo                       object
modo                        object
fechaPublicado      datetime64[ns]
fechaFin            datetime64[ns]
plazas                       int64
experiencia               category
capacitacion              category
jornadas                  category
remuneracion               float64
nivelInstruccion          category
areaEstudios                object
ciudad                      object
parroquia                   object
sector                      object
dtype: object

In [31]:
df.areaEstudios.value_counts().reset_index()

Unnamed: 0,areaEstudios,count
0,sin área de estudio,47064
1,administración/oficina,29510
2,medicina/salud,25010
3,ingeniería/técnico,19627
4,economía/contabilidad,13498
5,educación básica/cursos,13146
6,marketing/ventas,12629
7,ventas al consumidor,8728
8,educación/universidad,6816
9,recursos humanos/personal,4937


In [32]:
df.areaEstudios = df.areaEstudios.astype("category")

In [33]:
df.ciudad = df.ciudad.astype("category")
df.parroquia = df.parroquia.astype("category")
df.sector = df.sector.astype("category")

In [34]:
df.dtypes

cargo                       object
modo                        object
fechaPublicado      datetime64[ns]
fechaFin            datetime64[ns]
plazas                       int64
experiencia               category
capacitacion              category
jornadas                  category
remuneracion               float64
nivelInstruccion          category
areaEstudios              category
ciudad                    category
parroquia                 category
sector                    category
dtype: object

In [35]:
df.ciudad

0                           quito
1                          ibarra
2                       guayaquil
3         pedro vicente maldonado
4                       guayaquil
                   ...           
210807                      quito
210808                     zamora
210809                      quito
210810                      quito
210811                      quito
Name: ciudad, Length: 210796, dtype: category
Categories (223, object): ['24 de mayo', 'aguarico', 'alausi', 'alfredo baquerizo moreno (jujan)', ..., 'yantzaza', 'zamora', 'zapotillo', 'zaruma']

In [36]:
df.ciudad = df.ciudad.str.strip().str.lower()
df.ciudad

0                           quito
1                          ibarra
2                       guayaquil
3         pedro vicente maldonado
4                       guayaquil
                   ...           
210807                      quito
210808                     zamora
210809                      quito
210810                      quito
210811                      quito
Name: ciudad, Length: 210796, dtype: object

In [37]:
provincias_y_ciudades = {
    'Guayas': ['crnel. marcelino maridueña', 'alfredo baquerizo moreno (jujan)', 'duran', 'gnral. antonio elizalde', 'lomas de sargentillo', 'playas', 'samborondon', 'santa lucia', 'simon bolivar', 'Guayaquil', 'Durán', 'Daule', 'Milagro', 'Samborondón', 'Velasco Ibarra', 'Naranjal', 'Balzar', 'El Triunfo', 'Yaguachi', 'Pedro Carbo', 'Salitre', 'Alfredo Baquerizo Moreno', 'Naranjito', 'San Miguel', 'Píllaro', 'Simón Bolívar', 'Santa Lucía', 'Balao', 'Palestina', 'Narcisa de Jesús', 'Colimes', 'El Empalme', 'Isidro Ayora', 'Nobol', 'San Jacinto de Yaguachi'],
    'Pichincha': ['mejia', 'Quito', 'Sangolquí', 'Cayambe', 'Pedro Vicente Maldonado', 'Puerto Quito', 'Machachi', 'Tabacundo', 'Mejía', 'Pedro Moncayo', 'Rumiñahui', 'San Miguel de Los Bancos'],
    'Azuay': ['camilo ponce enriquez', 'giron', 'Cuenca', 'Gualaceo', 'Paute', 'Chordeleg', 'Camilo Ponce Enríquez', 'Nabón', 'Guachapala', 'Pucará', 'San Fernando', 'Sevilla de Oro', 'El Pan', 'Girón', 'Oña', 'Las Lajas', 'Santa Isabel'],
    'Sto. Domingo': ['santo domingo de los tsachilas', 'Santo Domingo', 'La Concordia'],
    'El Oro': ['marcabeli', 'Machala', 'Pasaje', 'Santa Rosa', 'Huaquillas', 'Piñas', 'El Guabo', 'Arenillas', 'Balsas', 'Marcabelí', 'Portovelo', 'Zaruma', 'Las Naves', 'Atahualpa', 'Chilla'],
    'Manabí': ['jaramijo', 'junin', 'pajan', 'puerto lopez', 'Manta', 'Portoviejo', 'Montecristi', 'Chone', 'El Carmen', 'Jipijapa', 'Rocafuerte', 'Santa Ana', 'San Vicente', 'Olmedo', 'Paján', 'Sucre', 'Bahía de Caráquez', 'Jaramijó', 'Pedernales', 'Puerto López', 'Jama', '24 de Mayo', 'Bolívar', 'Chinchipe', 'Flavio Alfaro', 'Junín', 'Pichincha', 'Paján', 'Puerto López', 'Tosagua'],
    'Loja': ['espindola', 'gonzanama', 'macara', 'saraguro', 'sigsig', 'Loja', 'Catamayo', 'Macará', 'Cariamanga', 'Zapotillo', 'Celica', 'Chaguarpamba', 'Pindal', 'Alamor', 'Quilanga', 'Sozoranga', 'Calvas', 'Espíndola', 'Gonzanamá', 'Paltas', 'Puyango'],
    'Los Ríos': ['urdaneta', 'Quevedo', 'Babahoyo', 'Ventanas', 'Buena Fe', 'Vinces', 'Valencia', 'Montalvo', 'Mocache', 'Palenque', 'Catarama', 'Quinsaloma', 'Puebloviejo', 'Baba'],
    'Tungurahua': ['santiago de pillaro', 'Ambato', 'Baños de Agua Santa', 'Pelileo', 'Cevallos', 'Mocha', 'Patate', 'Quero', 'San Pedro de Pelileo', 'Santiago de Píllaro', 'Tisaleo'],
    'Chimborazo': ['cumanda', 'alausi', 'Riobamba', 'Guamote', 'Chambo', 'Chunchi', 'Guano', 'Pallatanga', 'Penipe', 'Cumandá', 'Alausí', 'Colta'],
    'Esmeraldas': ['quininde', 'Esmeraldas', 'Rosa Zárate', 'San Lorenzo', 'Atacames', 'Muisne', 'Rioverde', 'Eloy Alfaro', 'Quinindé'],
    'Cotopaxi': ['la mana', 'pujili', 'saquisili', 'Latacunga', 'La Maná', 'Pujilí', 'Sigchos', 'Saquisilí', 'Pangua', 'Salcedo'],
    'Imbabura': ['san miguel de urcuqui', 'Ibarra', 'Otavalo', 'Cotacachi', 'Pimampiro', 'Urcuquí', 'Atuntaqui', 'Antonio Ante', 'San Miguel de Urcuquí'],
    'Santa Elena': ['La Libertad', 'Santa Elena', 'Salinas', 'Salinas (Salinas, Cab. Cantonal)'],
    'Carchi': ['bolivar', 'montufar', 'tulcan', 'Tulcán', 'San Gabriel', 'Huaca', 'Bolívar', 'Mira', 'Espejo', 'Montúfar', 'San Pedro de Huaca'],
    'Sucumbíos': ['sucumbios', 'Nueva Loja', 'Shushufindi', 'Cascales', 'Cuyabeno', 'Gonzalo Pizarro', 'Putumayo', 'Sucumbíos', 'Lago Agrio'],
    'Pastaza': ['pastaza', 'Puyo', 'Mera', 'Santa Clara', 'Arajuno'],
    'Orellana': ['El Coca', 'La Joya de los Sachas', 'Aguarico', 'Loreto', 'Puerto Francisco de Orellana'],
    'Morona Santiago': ['limon indanza', 'sucua', 'Macas', 'Gualaquiza', 'Morona', 'Palora', 'Sucúa', 'Logroño', 'Santiago', 'Taisha', 'Huamboya', 'San Juan Bosco', 'Limón Indanza', 'Pablo Sexto', 'Tiwintza'],
    'Zamora Chinchipe': ['centinela del condor', 'Zamora', 'Yantzaza', 'El Pangui', 'Yacuambi', 'Centinela del Cóndor', 'Nangaritza', 'Paquisha', 'Chinchipe', 'Palanda'],
    'Cañar': ['biblian', 'deleg', 'nabon', 'pucara', 'Azogues', 'La Troncal', 'Biblián', 'Déleg', 'Suscal', 'Biblían', 'Cañar', 'El Tambo'],
    'Napo': ['Tena', 'Archidona', 'Carlos Julio Arosemena Tola', 'El Chaco', 'Quijos'],
    'Bolívar': ['echeandia', 'Guaranda', 'Chillanes', 'Echeandía', 'San Miguel', 'Chimbo', 'Caluma', 'Echeandía'],
    'Galápagos': ['san cristobal', 'Puerto Baquerizo Moreno', 'Puerto Ayora', 'Puerto Villamil', 'Isabela', 'San Cristóbal', 'Santa Cruz'],
}


In [38]:
# Convertir el diccionario para mapear ciudad a provincia
ciudad_a_provincia = {ciudad.lower(): provincia for provincia, ciudades in provincias_y_ciudades.items() for ciudad in ciudades}

In [39]:
ciudad_a_provincia

{'crnel. marcelino maridueña': 'Guayas',
 'alfredo baquerizo moreno (jujan)': 'Guayas',
 'duran': 'Guayas',
 'gnral. antonio elizalde': 'Guayas',
 'lomas de sargentillo': 'Guayas',
 'playas': 'Guayas',
 'samborondon': 'Guayas',
 'santa lucia': 'Guayas',
 'simon bolivar': 'Guayas',
 'guayaquil': 'Guayas',
 'durán': 'Guayas',
 'daule': 'Guayas',
 'milagro': 'Guayas',
 'samborondón': 'Guayas',
 'velasco ibarra': 'Guayas',
 'naranjal': 'Guayas',
 'balzar': 'Guayas',
 'el triunfo': 'Guayas',
 'yaguachi': 'Guayas',
 'pedro carbo': 'Guayas',
 'salitre': 'Guayas',
 'alfredo baquerizo moreno': 'Guayas',
 'naranjito': 'Guayas',
 'san miguel': 'Bolívar',
 'píllaro': 'Guayas',
 'simón bolívar': 'Guayas',
 'santa lucía': 'Guayas',
 'balao': 'Guayas',
 'palestina': 'Guayas',
 'narcisa de jesús': 'Guayas',
 'colimes': 'Guayas',
 'el empalme': 'Guayas',
 'isidro ayora': 'Guayas',
 'nobol': 'Guayas',
 'san jacinto de yaguachi': 'Guayas',
 'mejia': 'Pichincha',
 'quito': 'Pichincha',
 'sangolquí': 'Pich

In [40]:
# Mapear las ciudades a provincias y crear una nueva columna
df['provincia'] = df['ciudad'].map(ciudad_a_provincia)

In [41]:
df.provincia.unique()

array(['Pichincha', 'Imbabura', 'Guayas', 'Sucumbíos', 'Azuay',
       'Zamora Chinchipe', 'Manabí', 'Loja', 'Tungurahua', 'Cotopaxi',
       'El Oro', 'Orellana', 'Cañar', 'Sto. Domingo', 'Esmeraldas',
       'Los Ríos', 'Chimborazo', 'Napo', 'Bolívar', 'Carchi',
       'Santa Elena', 'Pastaza', 'Morona Santiago', 'Galápagos', nan],
      dtype=object)

In [42]:
tmp = df.loc[df.provincia.isnull(), ["ciudad"]]
tmp

Unnamed: 0,ciudad
87240,indistinto
90167,indistinto
91577,indistinto
93626,indistinto
93952,indistinto
...,...
197599,indistinto
202805,indistinto
206353,indistinto
208655,indistinto


In [43]:
df = df.loc[df.ciudad != 'indistinto'].reset_index(drop=True)
df

Unnamed: 0,cargo,modo,fechaPublicado,fechaFin,plazas,experiencia,capacitacion,jornadas,remuneracion,nivelInstruccion,areaEstudios,ciudad,parroquia,sector,provincia
0,desarrollador java jee,tiempo completo,2013-02-22,2013-03-24,1,sin experiencia,0-50 horas,jornada ordinaria (8 horas),625.5,tercer nivel,informática software,quito,indistinto,norte,Pichincha
1,guardias de seguridad con experiencia 1 año,tiempo completo,2013-02-23,2013-02-28,20,7-12 meses,0-50 horas,jornada ordinaria (8 horas),450.0,bachiller,recursos humanos/personal,ibarra,indistinto,centro,Imbabura
2,vendedor,tiempo completo,2013-02-23,2013-02-26,2,1-3 años,0-50 horas,jornada ordinaria (8 horas),450.0,bachiller,ventas al consumidor,guayaquil,indistinto,centro,Guayas
3,topografo,por obra,2013-02-23,2013-02-28,1,1-3 años,0-50 horas,jornada ordinaria (8 horas),625.5,técnico superior,ingeniería/técnico,pedro vicente maldonado,indistinto,suroeste,Pichincha
4,asistente contable,tiempo completo,2013-02-25,2013-03-27,1,1-3 años,0-50 horas,jornada ordinaria (8 horas),450.0,tercer nivel,economía/contabilidad,guayaquil,indistinto,sur,Guayas
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
210726,estratega digital,tiempo completo,2020-09-03,2020-10-03,1,1-3 años,0-50 horas,jornada ordinaria (8 horas),875.5,tercer nivel,marketing/ventas,quito,cotocollao,norte,Pichincha
210727,chófer de trailer,tiempo completo,2020-09-03,2020-09-10,1,1-3 años,0-50 horas,jornada ordinaria (8 horas),875.5,sin instruccion,sin área de estudio,zamora,"zamora, cabecera cantonal y capital provincial",centro,Zamora Chinchipe
210728,"analista de redes, seguridades y comunicaciones",tiempo completo,2020-09-03,2020-10-03,1,4-6 años,0-50 horas,jornada ordinaria (8 horas),1750.5,tercer nivel,informática/telecomunicaciones,quito,indistinto,sur,Pichincha
210729,analista de ingenieria de sistemas 3,tiempo completo,2020-09-03,2020-10-03,1,4-6 años,0-50 horas,jornada ordinaria (8 horas),1750.5,tercer nivel,informática/telecomunicaciones,quito,indistinto,sur,Pichincha


In [44]:
df.provincia.unique()

array(['Pichincha', 'Imbabura', 'Guayas', 'Sucumbíos', 'Azuay',
       'Zamora Chinchipe', 'Manabí', 'Loja', 'Tungurahua', 'Cotopaxi',
       'El Oro', 'Orellana', 'Cañar', 'Sto. Domingo', 'Esmeraldas',
       'Los Ríos', 'Chimborazo', 'Napo', 'Bolívar', 'Carchi',
       'Santa Elena', 'Pastaza', 'Morona Santiago', 'Galápagos'],
      dtype=object)

In [45]:
df.loc[df.provincia.isnull(), ["provincia", "ciudad"]]

Unnamed: 0,provincia,ciudad


In [46]:
df.isnull().sum()

cargo               0
modo                0
fechaPublicado      0
fechaFin            0
plazas              0
experiencia         0
capacitacion        0
jornadas            0
remuneracion        0
nivelInstruccion    0
areaEstudios        0
ciudad              0
parroquia           0
sector              0
provincia           0
dtype: int64

In [49]:
df.to_csv("../output/job_cleaned.csv")

In [50]:
tmp_df = df

In [53]:
df = pd.read_csv("../input/poblacion_por_provincia_2018.csv")
df

Unnamed: 0,provincia,población,superficie,hogaresInternet
0,Manabí,1537090,18939.6,24552
1,Santa Elena,384102,3690.17,5524
2,Esmeraldas,626626,16132.23,10503
3,Guayas,4267893,15430.4,133641
4,El Oro,698545,5766.68,19417
5,Los Ríos,899632,7205.27,10082
6,Santo Domingo de los Tsáchilas,44788,3446.65,8631
7,Carchi,184136,3780.45,2333
8,Imbabura,463957,4587.51,9738
9,Pichincha,3116111,9539.91,190920


In [54]:
df.provincia.str.replace("Santo Domingo de los Tsáchilas", "Sto. Domingo")

0               Manabí
1          Santa Elena
2           Esmeraldas
3               Guayas
4               El Oro
5             Los Ríos
6         Sto. Domingo
7               Carchi
8             Imbabura
9            Pichincha
10            Cotopaxi
11             Bolivar
12          Tungurahua
13          Chimborazo
14               Cañar
15               Azuay
16                Loja
17           Sucumbíos
18            Orellana
19             Pastaza
20     Morona Santiago
21    Zamora Chinchipe
22                Napo
23           Galápagos
Name: provincia, dtype: object

In [55]:
df.to_csv("../output/prov_clean.csv")