# ▶ Proceso de Limpieza de Datos



Limpieza de una Base de Datos Ensuciada

<br>

**Objetivo**: Preprocesamiento de datos, incluyendo la identificación y tratamiento de valores faltantes, datos duplicados y formatos inconsistentes en una base de datos. Este proceso es fundamental para asegurar la calidad y la integridad de los análisis posteriores.

<br>

**Instrucciones**:



# ▶ 1. Recepción de la Base de Datos
Descargar el archivo de la Base de Datos "ensuciada" proporcionado por el profesor. Este archivo contiene errores comunes, como valores duplicados, valores faltantes (NaNs) y errores en el formato de algunas columnas, que afectan el análisis y la calidad de los datos.





In [None]:
#Cargar DataFrame
from google.colab import drive
drive.mount('/content/drive')

Mounted at /content/drive


In [None]:
#Carga el archivo CSV en un DataFrame llamado df.
import pandas as pd

df=pd.read_csv('/content/drive/MyDrive/Colab Notebooks/proyectos/ProyectoFS/Base_FS_sucio.csv')
df
#print(df)


Unnamed: 0,Age,Gender,Education Level,Job Title,Years of Experience,Salary
0,32.0,Male,Bachelor's,Software Engineer,5.0,90000.0
1,28.0,Female,Master's,Data Analyst,3.0,65000.0
2,45.0,Male,PhD,Senior Manager,15.0,150000.0
3,36.0,Female,,,7.0,60000.0
4,52.0,Male,Master's,Director,20.0,200000.0
...,...,...,...,...,...,...
7416,28.0,Male,Bachelor's,Software Engineer,3.0,
7417,30.0,Female,Bachelor's Degree,Marketing Coordinator,5.0,95000.0
7418,35.0,Female,PhD,Director of Marketing,12.0,170000.0
7419,26.0,Male,Master's Degree,Digital Marketing Manager,3.0,50000.0


# ▶  2. Análisis Inicial de la Base de Datos

Realizar un análisis preliminar para comprender la naturaleza y distribución de los errores.

In [None]:
df.shape
# 7,421

(7421, 6)

In [None]:
df.columns

Index(['Age', 'Gender', 'Education Level', 'Job Title', 'Years of Experience',
       'Salary'],
      dtype='object')

## ▶ a) Visualizar valores únicos de las columnas

In [None]:
# Visualizar valores únicos de la columna [1]
df['Age'].unique()

array([32., 28., 45., 36., 52., 29., 42., 31., 26., 38., 48., 35., 40.,
       27., nan, 39., 25., 51., 34., 47., 30., 41., 37., 24., 43., 33.,
       50., 46., 49., 23., 53., 44., 61., 57., 62., 55., 56., 54., 60.,
       58., 22., 21.])

In [None]:
# Visualizar valores únicos de la columna [2]
df['Gender'].unique()


array(['Male', 'Female', nan, 'Other'], dtype=object)

In [None]:
# Visualizar valores únicos de la columna [3]
df['Education Level'].unique()


array(["Bachelor's", "Master's", 'PhD', nan, "Bachelor's Degree",
       "Master's Degree", 'High School', 'phD'], dtype=object)

In [None]:
# Visualizar valores únicos de la columna [4]
df['Job Title'].unique()


array(['Software Engineer', 'Data Analyst', 'Senior Manager', nan,
       'Director', 'Marketing Analyst', 'Product Manager',
       'Sales Manager', 'Marketing Coordinator', 'Senior Scientist',
       'Software Developer', 'HR Manager', 'Financial Analyst',
       'Project Manager', 'Customer Service Rep', 'Operations Manager',
       'Marketing Manager', 'Senior Engineer', 'Data Entry Clerk',
       'Sales Director', 'Business Analyst', 'VP of Operations',
       'IT Support', 'Recruiter', 'Financial Manager',
       'Social Media Specialist', 'Junior Developer', 'Product Designer',
       'CEO', 'Accountant', 'Data Scientist', 'Marketing Specialist',
       'Technical Writer', 'HR Generalist', 'Project Engineer',
       'Customer Success Rep', 'Sales Executive', 'UX Designer',
       'Operations Director', 'Network Engineer',
       'Administrative Assistant', 'Strategy Consultant', 'Copywriter',
       'Account Manager', 'Director of Marketing', 'Help Desk Analyst',
       'Custome

In [None]:
# Visualizar valores únicos de la columna [5]
df['Years of Experience'].unique()

# --->>> Se observa que se debe de cambiar 'bbb' pues no sería un dato para Años de Experiencia


array(['5.0', '3.0', '15.0', '7.0', '20.0', '2.0', '12.0', '4.0', '1.0',
       '10.0', nan, '18.0', '6.0', '14.0', '16.0', '0.0', '19.0', '9.0',
       '13.0', '11.0', '25.0', '21.0', '8.0', '22.0', 'bbb', '23.0',
       '24.0', '17.0', '1.5', '31.0', '30.0', '28.0', '33.0', '27.0',
       '34.0', '29.0', '26.0', '32.0'], dtype=object)

In [None]:
# Visualizar valores únicos de la columna [6]
df['Salary'].unique()


array([ 90000.,  65000., 150000.,  60000., 200000.,     nan, 120000.,
        80000.,  45000., 110000.,  75000., 130000.,  40000., 125000.,
       115000.,  35000., 180000., 190000.,  50000., 140000., 250000.,
        55000.,  95000., 105000., 170000.,  70000., 160000., 100000.,
        30000., 220000., 135000., 175000., 185000.,  85000., 145000.,
       155000.,    350., 195000., 198000., 196000., 193000.,  92000.,
       165000., 162000., 197000., 142000., 182000., 210000.,    550.,
       122485., 169159., 187081., 166109.,  78354.,  90249., 132720.,
       161568., 127346., 120177.,  69032., 101332., 121450., 166375.,
       185119., 166512., 186963.,  75072., 163398., 103947., 179180.,
       175966., 190004., 152039.,  76742., 191790., 139398.,  95845.,
       160976., 126753., 161393., 139817., 181714., 114776., 105725.,
        52731., 106492.,  73895., 119836.,  99747., 168287., 115920.,
       128078.,  51265., 165919., 188651.,  55538., 193964., 104702.,
       172955., 1380

## ▶ b) Contar Datos de cada valor único de las columnas

In [None]:
# Contar cuantos valores hay de cada valor único de la columna [1]
df['Age'].value_counts()


Unnamed: 0_level_0,count
Age,Unnamed: 1_level_1
27.0,541
29.0,488
30.0,475
28.0,462
33.0,434
26.0,412
31.0,388
32.0,372
34.0,323
36.0,308


In [None]:
# Contar cuantos valores hay de cada valor único de la columna [2]
df['Gender'].value_counts()


Unnamed: 0_level_0,count
Gender,Unnamed: 1_level_1
Male,3897
Female,3211
Other,14


In [None]:
# Contar cuantos valores hay de cada valor único de la columna [3]
df['Education Level'].value_counts()


Unnamed: 0_level_0,count
Education Level,Unnamed: 1_level_1
Bachelor's Degree,2427
Master's Degree,1683
PhD,1446
Bachelor's,789
High School,470
Master's,304
phD,1


In [None]:
# Contar cuantos valores hay de cada valor único de la columna [4]
df['Job Title'].value_counts()


Unnamed: 0_level_0,count
Job Title,Unnamed: 1_level_1
Software Engineer,537
Data Scientist,472
Software Engineer Manager,403
Data Analyst,378
Full Stack Engineer,327
...,...
Senior IT Support Specialist,1
Junior Customer Support Specialist,1
Business Intelligence Analyst,1
Junior Recruiter,1


In [None]:
# Contar cuantos valores hay de cada valor único de la columna [5]
df['Years of Experience'].value_counts() # Validar el Tipo de Datos


Unnamed: 0_level_0,count
Years of Experience,Unnamed: 1_level_1
3.0,618
2.0,612
1.0,558
4.0,545
6.0,471
8.0,441
5.0,425
9.0,399
7.0,383
11.0,315


In [None]:
# Contar cuantos valores hay de cada valor único de la columna [6]
df['Salary'].value_counts()


Unnamed: 0_level_0,count
Salary,Unnamed: 1_level_1
140000.0,309
120000.0,295
160000.0,283
55000.0,251
60000.0,240
...,...
106662.0,1
89995.0,1
143814.0,1
174726.0,1


## ▶ c) Mostrar un resumen estadístico de los datos:

In [None]:
# 2. c) Mostrar un resumen estadístico de los datos:

#print(df_Trad.describe())
df.describe() #sólo se mestran los datos numéricos


Unnamed: 0,Age,Salary
count,7122.0,6971.0
mean,33.666807,115628.243724
std,7.633494,52565.497372
min,21.0,350.0
25%,28.0,70000.0
50%,32.0,115000.0
75%,38.0,160000.0
max,62.0,250000.0


 Se observa que no se muestra información de todas las columnas, por lo que se tendrá que cambiar los datos a números, para mostrar resumen estadístico completo, por lo que primero se procede con la Traducción de los datos (no incluir acentos en los datos de las columnas)


### Traducción y Cambio a Valor Numérico

In [None]:
# Se genera df para la traducción de los datos
df_Trad= df
df_Trad.head(5)


Unnamed: 0,Age,Gender,Education Level,Job Title,Years of Experience,Salary
0,32.0,Male,Bachelor's,Software Engineer,5.0,90000.0
1,28.0,Female,Master's,Data Analyst,3.0,65000.0
2,45.0,Male,PhD,Senior Manager,15.0,150000.0
3,36.0,Female,,,7.0,60000.0
4,52.0,Male,Master's,Director,20.0,200000.0


#### Renombrar columnas

In [None]:
# Renombrar la columna [1]
df_Trad = df_Trad.rename(columns={'Age': 'Edad'})
df_Trad.head(5)


Unnamed: 0,Edad,Gender,Education Level,Job Title,Years of Experience,Salary
0,32.0,Male,Bachelor's,Software Engineer,5.0,90000.0
1,28.0,Female,Master's,Data Analyst,3.0,65000.0
2,45.0,Male,PhD,Senior Manager,15.0,150000.0
3,36.0,Female,,,7.0,60000.0
4,52.0,Male,Master's,Director,20.0,200000.0


In [None]:
# Renombrar la columna [2]
df_Trad = df_Trad.rename(columns={'Gender': 'Genero'})
df_Trad.head(5)


Unnamed: 0,Edad,Genero,Education Level,Job Title,Years of Experience,Salary
0,32.0,Male,Bachelor's,Software Engineer,5.0,90000.0
1,28.0,Female,Master's,Data Analyst,3.0,65000.0
2,45.0,Male,PhD,Senior Manager,15.0,150000.0
3,36.0,Female,,,7.0,60000.0
4,52.0,Male,Master's,Director,20.0,200000.0


In [None]:
# Renombrar la columna [3]
df_Trad = df_Trad.rename(columns={'Education Level': 'Nivel_Educativo'})
df_Trad.head(5)


Unnamed: 0,Edad,Genero,Nivel_Educativo,Job Title,Years of Experience,Salary
0,32.0,Male,Bachelor's,Software Engineer,5.0,90000.0
1,28.0,Female,Master's,Data Analyst,3.0,65000.0
2,45.0,Male,PhD,Senior Manager,15.0,150000.0
3,36.0,Female,,,7.0,60000.0
4,52.0,Male,Master's,Director,20.0,200000.0


In [None]:
# Renombrar la columna [4]
df_Trad = df_Trad.rename(columns={'Job Title': 'Titulo_Del_Trabajo'})
df_Trad.head(5)


Unnamed: 0,Edad,Genero,Nivel_Educativo,Titulo_Del_Trabajo,Years of Experience,Salary
0,32.0,Male,Bachelor's,Software Engineer,5.0,90000.0
1,28.0,Female,Master's,Data Analyst,3.0,65000.0
2,45.0,Male,PhD,Senior Manager,15.0,150000.0
3,36.0,Female,,,7.0,60000.0
4,52.0,Male,Master's,Director,20.0,200000.0


In [None]:
# Renombrar la columna [5]
df_Trad = df_Trad.rename(columns={'Years of Experience': 'Años_De_Experiencia'})
df_Trad.head(5)


Unnamed: 0,Edad,Genero,Nivel_Educativo,Titulo_Del_Trabajo,Años_De_Experiencia,Salary
0,32.0,Male,Bachelor's,Software Engineer,5.0,90000.0
1,28.0,Female,Master's,Data Analyst,3.0,65000.0
2,45.0,Male,PhD,Senior Manager,15.0,150000.0
3,36.0,Female,,,7.0,60000.0
4,52.0,Male,Master's,Director,20.0,200000.0


In [None]:
# Renombrar la columna [6]
df_Trad = df_Trad.rename(columns={'Salary': 'Salario'})
df_Trad.head(5)


Unnamed: 0,Edad,Genero,Nivel_Educativo,Titulo_Del_Trabajo,Años_De_Experiencia,Salario
0,32.0,Male,Bachelor's,Software Engineer,5.0,90000.0
1,28.0,Female,Master's,Data Analyst,3.0,65000.0
2,45.0,Male,PhD,Senior Manager,15.0,150000.0
3,36.0,Female,,,7.0,60000.0
4,52.0,Male,Master's,Director,20.0,200000.0


#### Traducción de Datos

In [None]:
# Diccionario para traducir el contenido de la columna [2] Genero
traduccionGenero = {
    'Female': 'Mujer',
    'Male': 'Hombre',
    'Other': 'Otro'
}


In [None]:
# Reemplazar (traducir) el contenido de la columna [2] 'Genero'
df_Trad['Genero'] = df_Trad['Genero'].replace(traduccionGenero)
df_Trad.head(5)


Unnamed: 0,Edad,Genero,Nivel_Educativo,Titulo_Del_Trabajo,Años_De_Experiencia,Salario
0,32.0,Hombre,Bachelor's,Software Engineer,5.0,90000.0
1,28.0,Mujer,Master's,Data Analyst,3.0,65000.0
2,45.0,Hombre,PhD,Senior Manager,15.0,150000.0
3,36.0,Mujer,,,7.0,60000.0
4,52.0,Hombre,Master's,Director,20.0,200000.0


In [None]:
# Diccionario para traducir el contenido de la columna [3] Nivel_Educativo
traduccionNivelEducativo = {
    "Bachelor's": 'Licenciatura',
    "Master's": 'Maestria',
    "PhD": 'Doctorado',
    "Master's Degree": 'Titulo de Maestria',
    "Bachelor's Degree": 'Titulo de Licenciatura',
    "High School": 'Escuela Secundaria',
    "phD": 'Doctorado'
}


In [None]:
# Reemplazar (traducir) el contenido de la columna [3] 'Nivel_Educativo'
df_Trad['Nivel_Educativo'] = df_Trad['Nivel_Educativo'].replace(traduccionNivelEducativo)
df_Trad.head(5)


Unnamed: 0,Edad,Genero,Nivel_Educativo,Titulo_Del_Trabajo,Años_De_Experiencia,Salario
0,32.0,Hombre,Licenciatura,Software Engineer,5.0,90000.0
1,28.0,Mujer,Maestria,Data Analyst,3.0,65000.0
2,45.0,Hombre,Doctorado,Senior Manager,15.0,150000.0
3,36.0,Mujer,,,7.0,60000.0
4,52.0,Hombre,Maestria,Director,20.0,200000.0


In [None]:
# Diccionario para traducir el contenido de la columna [4] Titulo_Del_Trabajo
traduccionTituloTrabajo = {
    'Software Engineer': 'Ingeniero de Software',
    'Data Analyst': 'Analista de Datos',
    'Senior Manager': 'Gerente Senior',
    'Director': 'Director',
    'Product Manager': 'Gerente de Producto',
    'Sales Manager': 'Gerente de Ventas',
    'Marketing Coordinator': 'Coordinador de Marketing',
    'Financial Analyst': 'Analista Financiero',
    'Project Manager': 'Gerente de Proyectos',
    'Customer Service Rep': 'Representante de Servicio al Cliente',
    'Data Entry Clerk': 'Empleado de Ingreso de Datos',
    'Business Analyst': 'Analista de Negocios',
    'VP of Operations': 'VP de Operaciones',
    'IT Support': 'Soporte Tecnico',
    'Financial Manager': 'Gerente Financiero',
    'Social Media Specialist': 'Especialista en Redes Sociales',
    'Junior Developer': 'Desarrollador Junior',
    'Product Designer': 'Diseñador de Producto',
    'CEO': 'CEO',
    'Data Scientist': 'Cientifico de Datos',
    'Marketing Specialist': 'Especialista en Marketing',
    'Technical Writer': 'Redactor Tecnico',
    'HR Generalist': 'Generalista de Recursos Humanos',
    'Project Engineer': 'Ingeniero de Proyectos',
    'Customer Success Rep': 'Representante de exito del Cliente',
    'UX Designer': 'Diseñador UX',
    'Operations Director': 'Director de Operaciones',
    'Administrative Assistant': 'Asistente Administrativo',
    'Strategy Consultant': 'Consultor de Estrategia',
    'Copywriter': 'Redactor Publicitario',
    'Director of Marketing': 'Director de Marketing',
    'Help Desk Analyst': 'Analista de Mesa de Ayuda',
    'VP of Finance': 'VP de Finanzas',
    'Graphic Designer': 'Diseñador Grafico',
    'Senior Engineer': 'Ingeniero Senior',
    'Social Media Manager': 'Gerente de Redes Sociales',
    'Director of Operations': 'Director de Operaciones',
    'Marketing Analyst': 'Analista de Marketing',
    'HR Manager': 'Gerente de Recursos Humanos',
    'Senior Data Scientist': 'Cientifico de Datos Senior',
    'Junior Accountant': 'Contador Junior',
    'Digital Marketing Manager': 'Gerente de Marketing Digital',
    'Business Development Manager': 'Gerente de Desarrollo de Negocios',
    'Web Developer': 'Desarrollador Web',
    'Recruiter': 'Reclutador',
    'Research Director': 'Director de Investigacion',
    'Technical Support Specialist': 'Especialista en Soporte Tecnico',
    'Creative Director': 'Director Creativo',
    'Operations Manager': 'Gerente de Operaciones',
    'Senior Software Engineer': 'Ingeniero de Software Senior',
    'Technical Recruiter': 'Reclutador Tecnico',
    'bbb': 'bbb',
    'Chief Technology Officer': 'Director de Tecnologia',
    'Financial Advisor': 'Asesor Financiero',
    'Junior Account Manager': 'Gerente de Cuentas Junior',
    'Principal Scientist': 'Cientifico Principal',
    'Supply Chain Manager': 'Gerente de Cadena de Suministro',
    'Senior Marketing Manager': 'Gerente de Marketing Senior',
    'Training Specialist': 'Especialista en Capacitacion',
    'Junior Software Developer': 'Desarrollador de Software Junior',
    'Operations Analyst': 'Analista de Operaciones',
    'Event Coordinator': 'Coordinador de Eventos',
    'Product Marketing Manager': 'Gerente de Marketing de Producto',
    'Senior HR Manager': 'Gerente de Recursos Humanos Senior',
    'Junior Web Developer': 'Desarrollador Web Junior',
    'Senior Project Coordinator': 'Coordinador de Proyectos Senior',
    'Digital Content Producer': 'Productor de Contenido Digital',
    'Customer Success Manager': 'Gerente de exito del Cliente',
    'Supply Chain Analyst': 'Analista de Cadena de Suministro',
    'Senior Business Analyst': 'Analista de Negocios Senior',
    'Senior Financial Analyst': 'Analista Financiero Senior',
    'Office Manager': 'Gerente de Oficina',
    'Senior Product Manager': 'Gerente de Producto Senior',
    'Junior Operations Analyst': 'Analista de Operaciones Junior',
    'Customer Service Manager': 'Gerente de Servicio al Cliente',
    'Senior Scientist': 'Cientifico Senior',
    'Senior HR Generalist': 'Generalista de Recursos Humanos Senior',
    'Junior Web Designer': 'Diseñador Web Junior',
    'Senior Training Specialist': 'Especialista en Capacitacion Senior',
    'Senior Research Scientist': 'Cientifico Investigador Senior',
    'Junior Sales Representative': 'Representante de Ventas Junior',
    'Senior Project Manager': 'Gerente de Proyectos Senior',
    'Junior Data Analyst': 'Analista de Datos Junior',
    'Junior Business Analyst': 'Analista de Negocios Junior',
    'Junior Project Manager': 'Gerente de Proyectos Junior',
    'Senior Accountant': 'Contador Senior',
    'Director of Sales': 'Director de Ventas',
    'Senior Business Development Manager': 'Gerente de Desarrollo de Negocios Senior',
    'Senior Product Designer': 'Diseñador de Producto Senior',
    'Junior Customer Support Specialist': 'Especialista en Soporte al Cliente Junior',
    'Senior Marketing Analyst': 'Analista de Marketing Senior',
    'Senior IT Support Specialist': 'Especialista en Soporte Tecnico Senior',
    'Junior Financial Analyst': 'Analista Financiero Junior',
    'Senior Operations Manager': 'Gerente de Operaciones Senior',
    'Director of Human Resources': 'Director de Recursos Humanos',
    'Junior Software Engineer': 'Ingeniero de Software Junior',
    'Senior Sales Representative': 'Representante de Ventas Senior',
    'Director of Product Management': 'Director de Gestion de Producto',
    'Junior Copywriter': 'Redactor Junior',
    'Senior Marketing Coordinator': 'Coordinador de Marketing Senior',
    'Senior Human Resources Manager': 'Gerente Senior de Recursos Humanos',
    'Junior Business Development Associate': 'Asociado de Desarrollo de Negocios Junior',
    'Senior Account Manager': 'Gerente de Cuentas Senior',
    'Senior Researcher': 'Investigador Senior',
    'Junior HR Coordinator': 'Coordinador de Recursos Humanos Junior',
    'Director of Finance': 'Director de Finanzas',
    'Junior Data Scientist': 'Cientifico de Datos Junior',
    'Senior Operations Analyst': 'Analista de Operaciones Senior',
    'Senior Human Resources Coordinator': 'Coordinador de Recursos Humanos Senior',
    'Senior UX Designer': 'Diseñador UX Senior',
    'Junior Product Manager': 'Gerente de Producto Junior',
    'Senior Marketing Specialist': 'Especialista en Marketing Senior',
    'Senior IT Project Manager': 'Gerente de Proyectos de TI Senior',
    'Senior Quality Assurance Analyst': 'Analista de Aseguramiento de Calidad Senior',
    'Senior Account Executive': 'Ejecutivo de Cuentas Senior',
    'Director of Business Development': 'Director de Desarrollo de Negocios',
    'Junior Social Media Manager': 'Gerente de Redes Sociales Junior',
    'Senior Human Resources Specialist': 'Especialista en Recursos Humanos Senior',
    'Senior Data Analyst': 'Analista de Datos Senior',
    'Director of Human Capital': 'Director de Capital Humano',
    'Junior Advertising Coordinator': 'Coordinador de Publicidad Junior',
    'Junior UX Designer': 'Diseñador UX Junior',
    'Senior Marketing Director': 'Director de Marketing Senior',
    'Junior HR Generalist': 'Generalista de Recursos Humanos Junior',
    'Junior Marketing Coordinator': 'Coordinador de Marketing Junior',
    'Senior Financial Advisor': 'Asesor Financiero Senior',
    'Junior Business Operations Analyst': 'Analista de Operaciones de Negocios Junior',
    'Junior Social Media Specialist': 'Especialista en Redes Sociales Junior',
    'Junior Operations Manager': 'Gerente de Operaciones Junior',
    'Senior Software Architect': 'Arquitecto de Software Senior',
    'Junior Marketing Specialist': 'Especialista en Marketing Junior',
    'Senior Software Developer': 'Desarrollador de Software Senior',
    'Junior Marketing Analyst': 'Analista de Marketing Junior',
    'Senior IT Consultant': 'Consultor de TI Senior',
    'Senior Financial Manager': 'Gerente Financiero Senior',
    'Junior Marketing Manager': 'Gerente de Marketing Junior',
    'Junior Operations Coordinator': 'Coordinador de Operaciones Junior',
    'Director of HR': 'Director de Recursos Humanos',
    'Senior Operations Coordinator': 'Coordinador de Operaciones Senior',
    'Senior Data Engineer': 'Ingeniero de Datos Senior',
    'Junior Financial Advisor': 'Asesor Financiero Junior',
    'Director of Engineering': 'Director de Ingenieria',
    'Senior Project Engineer': 'Ingeniero de Proyectos Senior',
    'Full Stack Engineer': 'Ingeniero Full Stack',
    'Front end Developer': 'Desarrollador Front End',
    'Back end Developer': 'Desarrollador Back End',
    'Software Engineer Manager': 'Gerente de Ingenieros de Software',
    'Front End Developer': 'Desarrollador Front End',
    'Software Developer': 'Desarrollador de Software',
    'Director of Data Science': 'Director de Ciencia de Datos',
    'Marketing Manager': 'Gerente de Marketing',
    'Human Resources Coordinator': 'Coordinador de Recursos Humanos',
    'Junior Sales Associate': 'Asociado de Ventas Junior',
    'Human Resources Manager': 'Gerente de Recursos Humanos',
    'Juniour HR Generalist': 'Generalista de Recursos Humanos Junior',
    'Juniour HR Coordinator': 'Coordinador de Recursos Humanos Junior',
    'Senior Product Marketing Manager': 'Gerente Senior de Marketing de Producto',
    'Sales Associate': 'Asociado de Ventas',
    'Content Marketing Manager': 'Gerente de Marketing de Contenidos',
    'Sales Director': 'Director de Ventas',
    'Sales Representative': 'Representante de Ventas',
    'Research Scientist': 'Cientifico Investigador',
    'Digital Marketing Specialist': 'Especialista en Marketing Digital',
    'Receptionist': 'Recepcionista',
    'Marketing Director': 'Director de Marketing',
    'Social Media Man': 'Gerente de Redes Sociales',
    'Customer Service Representative': 'Representante de Servicio al Cliente',
    'Delivery Driver': 'Conductor de Entrega',
    'Sales Executive': 'Ejecutivo de Ventas',
    'Junior Research Scientist': 'Cientifico Investigador Junior',
    'Sales Operations Manager': 'Grente de Operaciones de Ventas'
}


In [None]:
# Reemplazar (traducir) el contenido de la columna [4] 'Titulo_Del_Trabajo'
df_Trad['Titulo_Del_Trabajo'] = df_Trad['Titulo_Del_Trabajo'].replace(traduccionTituloTrabajo)
df_Trad.head(5)


Unnamed: 0,Edad,Genero,Nivel_Educativo,Titulo_Del_Trabajo,Años_De_Experiencia,Salario
0,32.0,Hombre,Licenciatura,Ingeniero de Software,5.0,90000.0
1,28.0,Mujer,Maestria,Analista de Datos,3.0,65000.0
2,45.0,Hombre,Doctorado,Gerente Senior,15.0,150000.0
3,36.0,Mujer,,,7.0,60000.0
4,52.0,Hombre,Maestria,Director,20.0,200000.0


#### Guardar BD 1: Traducida (Español)

In [None]:
#Guardar BD Traducida en un CSV
df_Trad.to_csv("Base_FS_1_sucio_es_MPAC.csv", index=False)

#### Convertir las columnas a valores numéricos

In [None]:
# Se genera df para mostrar resumen estadístico
dfNum = df_Trad
dfNum.head(5)


Unnamed: 0,Edad,Genero,Nivel_Educativo,Titulo_Del_Trabajo,Años_De_Experiencia,Salario
0,32.0,Hombre,Licenciatura,Ingeniero de Software,5.0,90000.0
1,28.0,Mujer,Maestria,Analista de Datos,3.0,65000.0
2,45.0,Hombre,Doctorado,Gerente Senior,15.0,150000.0
3,36.0,Mujer,,,7.0,60000.0
4,52.0,Hombre,Maestria,Director,20.0,200000.0


In [None]:
# Convertir la columna [2] 'Genero' a valores numéricos
dfNum['Genero'] = dfNum['Genero'].map({
    'Hombre': 1,
    'Mujer': 2,
    'Otro': 3
    })
dfNum.head(5)


Unnamed: 0,Edad,Genero,Nivel_Educativo,Titulo_Del_Trabajo,Años_De_Experiencia,Salario
0,32.0,1.0,Licenciatura,Ingeniero de Software,5.0,90000.0
1,28.0,2.0,Maestria,Analista de Datos,3.0,65000.0
2,45.0,1.0,Doctorado,Gerente Senior,15.0,150000.0
3,36.0,2.0,,,7.0,60000.0
4,52.0,1.0,Maestria,Director,20.0,200000.0


In [None]:
# Convertir la columna [3] 'Nivel_Educativo' a valores numéricos
dfNum['Nivel_Educativo'] = dfNum['Nivel_Educativo'].map({
    'Licenciatura': 1,
    'Maestria': 2,
    'Doctorado': 3,
    'Titulo de Maestria': 4,
    'Titulo de Licenciatura': 5,
    'Escuela Secundaria': 6,
    'Doctorado': 7
    })
dfNum.head(5)


Unnamed: 0,Edad,Genero,Nivel_Educativo,Titulo_Del_Trabajo,Años_De_Experiencia,Salario
0,32.0,1.0,1.0,Ingeniero de Software,5.0,90000.0
1,28.0,2.0,2.0,Analista de Datos,3.0,65000.0
2,45.0,1.0,7.0,Gerente Senior,15.0,150000.0
3,36.0,2.0,,,7.0,60000.0
4,52.0,1.0,2.0,Director,20.0,200000.0


In [None]:
# Convertir la columna [4] 'Titulo_Del_Trabajo' a valores numéricos
dfNum['Titulo_Del_Trabajo'] = dfNum['Titulo_Del_Trabajo'].map({
    'Ingeniero de Software': 1,
    'Analista de Datos': 2,
    'Gerente Senior': 3,
    'Director': 4,
    'Gerente de Producto': 5,
    'Gerente de Ventas': 6,
    'Coordinador de Marketing': 7,
    'Analista Financiero': 8,
    'Gerente de Proyectos': 9,
    'Representante de Servicio al Cliente': 10,
    'Empleado de Ingreso de Datos': 11,
    'Analista de Negocios': 12,
    'VP de Operaciones': 13,
    'Soporte Tecnico': 14,
    'Gerente Financiero': 15,
    'Especialista en Redes Sociales': 16,
    'Desarrollador Junior': 17,
    'Diseñador de Producto': 18,
    'CEO': 19,
    'Cientifico de Datos': 20,
    'Especialista en Marketing': 21,
    'Redactor Tecnico': 22,
    'Generalista de Recursos Humanos': 23,
    'Ingeniero de Proyectos': 24,
    'Representante de exito del Cliente': 25,
    'Diseñador UX': 26,
    'Director de Operaciones': 27,
    'Asistente Administrativo': 28,
    'Consultor de Estrategia': 29,
    'Redactor Publicitario': 30,
    'Director de Marketing': 31,
    'Analista de Mesa de Ayuda': 32,
    'VP de Finanzas': 33,
    'Diseñador Grafico': 34,
    'Ingeniero Senior': 35,
    'Gerente de Redes Sociales': 36,
    'Director de Operaciones': 37,
    'Analista de Marketing': 38,
    'Gerente de Recursos Humanos': 39,
    'Cientifico de Datos Senior': 40,
    'Contador Junior': 41,
    'Gerente de Marketing Digital': 42,
    'Gerente de Desarrollo de Negocios': 43,
    'Desarrollador Web': 44,
    'Reclutador': 45,
    'Director de Investigacion': 46,
    'Especialista en Soporte Tecnico': 47,
    'Director Creativo': 48,
    'Gerente de Operaciones': 49,
    'Ingeniero de Software Senior': 50,
    'Reclutador Tecnico': 51,
    'bbb': 52,
    'Director de Tecnologia': 53,
    'Asesor Financiero': 54,
    'Gerente de Cuentas Junior': 55,
    'Cientifico Principal': 56,
    'Gerente de Cadena de Suministro': 57,
    'Gerente de Marketing Senior': 58,
    'Especialista en Capacitacion': 59,
    'Desarrollador de Software Junior': 60,
    'Analista de Operaciones': 61,
    'Coordinador de Eventos': 62,
    'Gerente de Marketing de Producto': 63,
    'Gerente de Recursos Humanos Senior': 64,
    'Desarrollador Web Junior': 65,
    'Coordinador de Proyectos Senior': 66,
    'Productor de Contenido Digital': 67,
    'Gerente de exito del Cliente': 68,
    'Analista de Cadena de Suministro': 69,
    'Analista de Negocios Senior': 70,
    'Analista Financiero Senior': 71,
    'Gerente de Oficina': 72,
    'Gerente de Producto Senior': 73,
    'Analista de Operaciones Junior': 74,
    'Gerente de Servicio al Cliente': 75,
    'Cientifico Senior': 76,
    'Generalista de Recursos Humanos Senior': 77,
    'Diseñador Web Junior': 78,
    'Especialista en Capacitacion Senior': 79,
    'Cientifico Investigador Senior': 80,
    'Representante de Ventas Junior': 81,
    'Gerente de Proyectos Senior': 82,
    'Analista de Datos Junior': 83,
    'Analista de Negocios Junior': 84,
    'Gerente de Proyectos Junior': 85,
    'Contador Senior': 86,
    'Director de Ventas': 87,
    'Gerente de Desarrollo de Negocios Senior': 88,
    'Diseñador de Producto Senior': 89,
    'Especialista en Soporte al Cliente Junior': 90,
    'Analista de Marketing Senior': 91,
    'Especialista en Soporte Tecnico Senior': 92,
    'Analista Financiero Junior': 93,
    'Gerente de Operaciones Senior': 94,
    'Director de Recursos Humanos': 95,
    'Ingeniero de Software Junior': 96,
    'Representante de Ventas Senior': 97,
    'Director de Gestion de Producto': 98,
    'Redactor Junior': 99,
    'Coordinador de Marketing Senior': 100,
    'Gerente Senior de Recursos Humanos': 101,
    'Asociado de Desarrollo de Negocios Junior': 102,
    'Gerente de Cuentas Senior': 103,
    'Investigador Senior': 104,
    'Coordinador de Recursos Humanos Junior': 105,
    'Director de Finanzas': 106,
    'Cientifico de Datos Junior': 107,
    'Analista de Operaciones Senior': 108,
    'Coordinador de Recursos Humanos Senior': 109,
    'Diseñador UX Senior': 110,
    'Gerente de Producto Junior': 111,
    'Especialista en Marketing Senior': 112,
    'Gerente de Proyectos de TI Senior': 113,
    'Analista de Aseguramiento de Calidad Senior': 114,
    'Ejecutivo de Cuentas Senior': 115,
    'Director de Desarrollo de Negocios': 116,
    'Gerente de Redes Sociales Junior': 117,
    'Especialista en Recursos Humanos Senior': 118,
    'Analista de Datos Senior': 119,
    'Director de Capital Humano': 120,
    'Coordinador de Publicidad Junior': 121,
    'Diseñador UX Junior': 122,
    'Director de Marketing Senior': 123,
    'Generalista de Recursos Humanos Junior': 124,
    'Coordinador de Marketing Junior': 125,
    'Asesor Financiero Senior': 126,
    'Analista de Operaciones de Negocios Junior': 127,
    'Especialista en Redes Sociales Junior': 128,
    'Gerente de Operaciones Junior': 129,
    'Arquitecto de Software Senior': 130,
    'Especialista en Marketing Junior': 131,
    'Desarrollador de Software Senior': 132,
    'Analista de Marketing Junior': 133,
    'Consultor de TI Senior': 134,
    'Gerente Financiero Senior': 135,
    'Gerente de Marketing Junior': 136,
    'Coordinador de Operaciones Junior': 137,
    'Director de Recursos Humanos': 138,
    'Coordinador de Operaciones Senior': 139,
    'Ingeniero de Datos Senior': 140,
    'Asesor Financiero Junior': 141,
    'Director de Ingenieria': 142,
    'Ingeniero de Proyectos Senior': 143,
    'Ingeniero Full Stack': 144,
    'Desarrollador Front End': 145,
    'Desarrollador Back End': 146,
    'Gerente de Ingenieros de Software': 147,
    'Desarrollador Front End': 148,
    'Desarrollador de Software': 149,
    'Director de Ciencia de Datos': 150,
    'Gerente de Marketing': 151,
    'Coordinador de Recursos Humanos': 152,
    'Asociado de Ventas Junior': 153,
    'Gerente de Recursos Humanos': 154,
    'Generalista de Recursos Humanos Junior': 155,
    'Coordinador de Recursos Humanos Junior': 156,
    'Gerente Senior de Marketing de Producto': 157,
    'Asociado de Ventas': 158,
    'Gerente de Marketing de Contenidos': 159,
    'Director de Ventas': 160,
    'Representante de Ventas': 161,
    'Cientifico Investigador': 162,
    'Especialista en Marketing Digital': 163,
    'Recepcionista': 164,
    'Director de Marketing': 165,
    'Gerente de Redes Sociales': 166,
    'Representante de Servicio al Cliente': 167,
    'Conductor de Entrega': 168,
    'Ejecutivo de Ventas': 169,
    'Cientifico Investigador Junior': 170,
    'Grente de Operaciones de Ventas': 171
    })
dfNum.head(5)


Unnamed: 0,Edad,Genero,Nivel_Educativo,Titulo_Del_Trabajo,Años_De_Experiencia,Salario
0,32.0,1.0,1.0,1.0,5.0,90000.0
1,28.0,2.0,2.0,2.0,3.0,65000.0
2,45.0,1.0,7.0,3.0,15.0,150000.0
3,36.0,2.0,,,7.0,60000.0
4,52.0,1.0,2.0,4.0,20.0,200000.0


#### Guardar BD 2: Numérica

In [None]:
#Guardar BD Numérica en un CSV
dfNum.to_csv("Base_FS_2_sucio_num_MPAC.csv", index=False)

### Mostrar resumen estadístico de los datos (Final)

In [None]:
# Mostrar un resumen estadístico de los datos:
#print(df_Trad.describe())
df_Trad.describe()


Unnamed: 0,Edad,Genero,Nivel_Educativo,Titulo_Del_Trabajo,Salario
count,7122.0,7122.0,7120.0,7103.0,6971.0
mean,33.666807,1.454788,4.664747,85.74011,115628.243724
std,7.633494,0.501919,1.777825,64.2126,52565.497372
min,21.0,1.0,1.0,1.0,350.0
25%,28.0,1.0,4.0,20.0,70000.0
50%,32.0,1.0,5.0,83.0,115000.0
75%,38.0,2.0,6.0,148.0,160000.0
max,62.0,3.0,7.0,171.0,250000.0


In [None]:
# Disminuyendo el número de decimales
df_Trad.describe().style.format(precision=2)

# De aquí podemos ver por ejemplo que:
# El 75% de los datos son Mujeres de 38 años
# El 50% de los datos son Hombres de 32 años
# El 25% de los datos son Hombres de 28 años


Unnamed: 0,Edad,Genero,Nivel_Educativo,Titulo_Del_Trabajo,Salario
count,7122.0,7122.0,7120.0,7103.0,6971.0
mean,33.67,1.45,4.66,85.74,115628.24
std,7.63,0.5,1.78,64.21,52565.5
min,21.0,1.0,1.0,1.0,350.0
25%,28.0,1.0,4.0,20.0,70000.0
50%,32.0,1.0,5.0,83.0,115000.0
75%,38.0,2.0,6.0,148.0,160000.0
max,62.0,3.0,7.0,171.0,250000.0


## ▶ d) Calcular el porcentaje de valores faltantes por columna:

In [None]:
# d) Calcular el porcentaje de valores faltantes por columna:

# Porcentaje de valores faltantes
'''
Edad                   4.029107
Genero                 4.029107
Nivel_Educativo        4.056057
Titulo_Del_Trabajo     4.285137
Años_De_Experiencia    4.056057
Salario                6.063873
dtype: float64
'''
missing_percentage = df_Trad.isnull().mean() * 100
#print(missing_percentage)
missing_percentage


Unnamed: 0,0
Edad,4.029107
Genero,4.029107
Nivel_Educativo,4.056057
Titulo_Del_Trabajo,4.042582
Años_De_Experiencia,4.056057
Salario,6.063873


## ▶ e) Identificar si hay filas duplicadas:

In [None]:
# e) Identificar si hay filas duplicadas:

# Total de filas duplicadas
before_total_duplicates = df_Trad.duplicated().sum()
print(f'Total de filas duplicadas inicial: {before_total_duplicates}')
# 4,223

Total de filas duplicadas inicial: 4223


## ▶ f) Analizar los tipos de datos de las columnas:

In [None]:
# f) Analizar los tipos de datos de las columnas:

# Tipos de datos
'''
Age                    float64
Gender                  object
Education Level         object
Job Title               object
Years of Experience     object
Salary                 float64
dtype: object
'''
print(df.dtypes)
#df_Trad.dtypes

# --->>> Edad debe de ser int
# --->>> Años_De_Experiencia de ser int


Age                    float64
Gender                  object
Education Level         object
Job Title               object
Years of Experience     object
Salary                 float64
dtype: object


# ▶ 3. Limpieza de Datos


##### --> Resumen 1: Traducción de Datos

In [None]:
# Se genera df para la traducción de los datos
df_Trad= df
# Renombrar las columnas
df_Trad = df_Trad.rename(columns={'Age': 'Edad'})
df_Trad = df_Trad.rename(columns={'Gender': 'Genero'})
df_Trad = df_Trad.rename(columns={'Education Level': 'Nivel_Educativo'})
df_Trad = df_Trad.rename(columns={'Job Title': 'Titulo_Del_Trabajo'})
df_Trad = df_Trad.rename(columns={'Years of Experience': 'Años_De_Experiencia'})
df_Trad = df_Trad.rename(columns={'Salary': 'Salario'})
# Diccionario para traducir el contenido de las columna [2] Genero
traduccionGenero = {
    'Female': 'Mujer',
    'Male': 'Hombre',
    'Other': 'Otro'
}
# Reemplazar (traducir) el contenido de la columna [2] 'Genero'
df_Trad['Genero'] = df_Trad['Genero'].replace(traduccionGenero)
# Diccionario para traducir el contenido de la columna [3] Nivel_Educativo
traduccionNivelEducativo = {
    "Bachelor's": 'Licenciatura',
    "Master's": 'Maestria',
    "PhD": 'Doctorado',
    "Master's Degree": 'Titulo de Maestria',
    "Bachelor's Degree": 'Titulo de Licenciatura',
    "High School": 'Escuela Secundaria',
    "phD": 'Doctorado'
}
# Reemplazar (traducir) el contenido de la columna [3] 'Nivel_Educativo'
df_Trad['Nivel_Educativo'] = df_Trad['Nivel_Educativo'].replace(traduccionNivelEducativo)
# Diccionario para traducir el contenido de la columna [4] Titulo_Del_Trabajo
traduccionTituloTrabajo = {
    'Software Engineer': 'Ingeniero de Software',
    'Data Analyst': 'Analista de Datos',
    'Senior Manager': 'Gerente Senior',
    'Director': 'Director',
    'Product Manager': 'Gerente de Producto',
    'Sales Manager': 'Gerente de Ventas',
    'Marketing Coordinator': 'Coordinador de Marketing',
    'Financial Analyst': 'Analista Financiero',
    'Project Manager': 'Gerente de Proyectos',
    'Customer Service Rep': 'Representante de Servicio al Cliente',
    'Data Entry Clerk': 'Empleado de Ingreso de Datos',
    'Business Analyst': 'Analista de Negocios',
    'VP of Operations': 'VP de Operaciones',
    'IT Support': 'Soporte Tecnico',
    'Financial Manager': 'Gerente Financiero',
    'Social Media Specialist': 'Especialista en Redes Sociales',
    'Junior Developer': 'Desarrollador Junior',
    'Product Designer': 'Diseñador de Producto',
    'CEO': 'CEO',
    'Data Scientist': 'Cientifico de Datos',
    'Marketing Specialist': 'Especialista en Marketing',
    'Technical Writer': 'Redactor Tecnico',
    'HR Generalist': 'Generalista de Recursos Humanos',
    'Project Engineer': 'Ingeniero de Proyectos',
    'Customer Success Rep': 'Representante de exito del Cliente',
    'UX Designer': 'Diseñador UX',
    'Operations Director': 'Director de Operaciones',
    'Administrative Assistant': 'Asistente Administrativo',
    'Strategy Consultant': 'Consultor de Estrategia',
    'Copywriter': 'Redactor Publicitario',
    'Director of Marketing': 'Director de Marketing',
    'Help Desk Analyst': 'Analista de Mesa de Ayuda',
    'VP of Finance': 'VP de Finanzas',
    'Graphic Designer': 'Diseñador Grafico',
    'Senior Engineer': 'Ingeniero Senior',
    'Social Media Manager': 'Gerente de Redes Sociales',
    'Director of Operations': 'Director de Operaciones',
    'Marketing Analyst': 'Analista de Marketing',
    'HR Manager': 'Gerente de Recursos Humanos',
    'Senior Data Scientist': 'Cientifico de Datos Senior',
    'Junior Accountant': 'Contador Junior',
    'Digital Marketing Manager': 'Gerente de Marketing Digital',
    'Business Development Manager': 'Gerente de Desarrollo de Negocios',
    'Web Developer': 'Desarrollador Web',
    'Recruiter': 'Reclutador',
    'Research Director': 'Director de Investigacion',
    'Technical Support Specialist': 'Especialista en Soporte Tecnico',
    'Creative Director': 'Director Creativo',
    'Operations Manager': 'Gerente de Operaciones',
    'Senior Software Engineer': 'Ingeniero de Software Senior',
    'Technical Recruiter': 'Reclutador Tecnico',
    'bbb': 'bbb',
    'Chief Technology Officer': 'Director de Tecnologia',
    'Financial Advisor': 'Asesor Financiero',
    'Junior Account Manager': 'Gerente de Cuentas Junior',
    'Principal Scientist': 'Cientifico Principal',
    'Supply Chain Manager': 'Gerente de Cadena de Suministro',
    'Senior Marketing Manager': 'Gerente de Marketing Senior',
    'Training Specialist': 'Especialista en Capacitacion',
    'Junior Software Developer': 'Desarrollador de Software Junior',
    'Operations Analyst': 'Analista de Operaciones',
    'Event Coordinator': 'Coordinador de Eventos',
    'Product Marketing Manager': 'Gerente de Marketing de Producto',
    'Senior HR Manager': 'Gerente de Recursos Humanos Senior',
    'Junior Web Developer': 'Desarrollador Web Junior',
    'Senior Project Coordinator': 'Coordinador de Proyectos Senior',
    'Digital Content Producer': 'Productor de Contenido Digital',
    'Customer Success Manager': 'Gerente de exito del Cliente',
    'Supply Chain Analyst': 'Analista de Cadena de Suministro',
    'Senior Business Analyst': 'Analista de Negocios Senior',
    'Senior Financial Analyst': 'Analista Financiero Senior',
    'Office Manager': 'Gerente de Oficina',
    'Senior Product Manager': 'Gerente de Producto Senior',
    'Junior Operations Analyst': 'Analista de Operaciones Junior',
    'Customer Service Manager': 'Gerente de Servicio al Cliente',
    'Senior Scientist': 'Cientifico Senior',
    'Senior HR Generalist': 'Generalista de Recursos Humanos Senior',
    'Junior Web Designer': 'Diseñador Web Junior',
    'Senior Training Specialist': 'Especialista en Capacitacion Senior',
    'Senior Research Scientist': 'Cientifico Investigador Senior',
    'Junior Sales Representative': 'Representante de Ventas Junior',
    'Senior Project Manager': 'Gerente de Proyectos Senior',
    'Junior Data Analyst': 'Analista de Datos Junior',
    'Junior Business Analyst': 'Analista de Negocios Junior',
    'Junior Project Manager': 'Gerente de Proyectos Junior',
    'Senior Accountant': 'Contador Senior',
    'Director of Sales': 'Director de Ventas',
    'Senior Business Development Manager': 'Gerente de Desarrollo de Negocios Senior',
    'Senior Product Designer': 'Diseñador de Producto Senior',
    'Junior Customer Support Specialist': 'Especialista en Soporte al Cliente Junior',
    'Senior Marketing Analyst': 'Analista de Marketing Senior',
    'Senior IT Support Specialist': 'Especialista en Soporte Tecnico Senior',
    'Junior Financial Analyst': 'Analista Financiero Junior',
    'Senior Operations Manager': 'Gerente de Operaciones Senior',
    'Director of Human Resources': 'Director de Recursos Humanos',
    'Junior Software Engineer': 'Ingeniero de Software Junior',
    'Senior Sales Representative': 'Representante de Ventas Senior',
    'Director of Product Management': 'Director de Gestion de Producto',
    'Junior Copywriter': 'Redactor Junior',
    'Senior Marketing Coordinator': 'Coordinador de Marketing Senior',
    'Senior Human Resources Manager': 'Gerente Senior de Recursos Humanos',
    'Junior Business Development Associate': 'Asociado de Desarrollo de Negocios Junior',
    'Senior Account Manager': 'Gerente de Cuentas Senior',
    'Senior Researcher': 'Investigador Senior',
    'Junior HR Coordinator': 'Coordinador de Recursos Humanos Junior',
    'Director of Finance': 'Director de Finanzas',
    'Junior Data Scientist': 'Cientifico de Datos Junior',
    'Senior Operations Analyst': 'Analista de Operaciones Senior',
    'Senior Human Resources Coordinator': 'Coordinador de Recursos Humanos Senior',
    'Senior UX Designer': 'Diseñador UX Senior',
    'Junior Product Manager': 'Gerente de Producto Junior',
    'Senior Marketing Specialist': 'Especialista en Marketing Senior',
    'Senior IT Project Manager': 'Gerente de Proyectos de TI Senior',
    'Senior Quality Assurance Analyst': 'Analista de Aseguramiento de Calidad Senior',
    'Senior Account Executive': 'Ejecutivo de Cuentas Senior',
    'Director of Business Development': 'Director de Desarrollo de Negocios',
    'Junior Social Media Manager': 'Gerente de Redes Sociales Junior',
    'Senior Human Resources Specialist': 'Especialista en Recursos Humanos Senior',
    'Senior Data Analyst': 'Analista de Datos Senior',
    'Director of Human Capital': 'Director de Capital Humano',
    'Junior Advertising Coordinator': 'Coordinador de Publicidad Junior',
    'Junior UX Designer': 'Diseñador UX Junior',
    'Senior Marketing Director': 'Director de Marketing Senior',
    'Junior HR Generalist': 'Generalista de Recursos Humanos Junior',
    'Junior Marketing Coordinator': 'Coordinador de Marketing Junior',
    'Senior Financial Advisor': 'Asesor Financiero Senior',
    'Junior Business Operations Analyst': 'Analista de Operaciones de Negocios Junior',
    'Junior Social Media Specialist': 'Especialista en Redes Sociales Junior',
    'Junior Operations Manager': 'Gerente de Operaciones Junior',
    'Senior Software Architect': 'Arquitecto de Software Senior',
    'Junior Marketing Specialist': 'Especialista en Marketing Junior',
    'Senior Software Developer': 'Desarrollador de Software Senior',
    'Junior Marketing Analyst': 'Analista de Marketing Junior',
    'Senior IT Consultant': 'Consultor de TI Senior',
    'Senior Financial Manager': 'Gerente Financiero Senior',
    'Junior Marketing Manager': 'Gerente de Marketing Junior',
    'Junior Operations Coordinator': 'Coordinador de Operaciones Junior',
    'Director of HR': 'Director de Recursos Humanos',
    'Senior Operations Coordinator': 'Coordinador de Operaciones Senior',
    'Senior Data Engineer': 'Ingeniero de Datos Senior',
    'Junior Financial Advisor': 'Asesor Financiero Junior',
    'Director of Engineering': 'Director de Ingenieria',
    'Senior Project Engineer': 'Ingeniero de Proyectos Senior',
    'Full Stack Engineer': 'Ingeniero Full Stack',
    'Front end Developer': 'Desarrollador Front End',
    'Back end Developer': 'Desarrollador Back End',
    'Software Engineer Manager': 'Gerente de Ingenieros de Software',
    'Front End Developer': 'Desarrollador Front End',
    'Software Developer': 'Desarrollador de Software',
    'Director of Data Science': 'Director de Ciencia de Datos',
    'Marketing Manager': 'Gerente de Marketing',
    'Human Resources Coordinator': 'Coordinador de Recursos Humanos',
    'Junior Sales Associate': 'Asociado de Ventas Junior',
    'Human Resources Manager': 'Gerente de Recursos Humanos',
    'Juniour HR Generalist': 'Generalista de Recursos Humanos Junior',
    'Juniour HR Coordinator': 'Coordinador de Recursos Humanos Junior',
    'Senior Product Marketing Manager': 'Gerente Senior de Marketing de Producto',
    'Sales Associate': 'Asociado de Ventas',
    'Content Marketing Manager': 'Gerente de Marketing de Contenidos',
    'Sales Director': 'Director de Ventas',
    'Sales Representative': 'Representante de Ventas',
    'Research Scientist': 'Cientifico Investigador',
    'Digital Marketing Specialist': 'Especialista en Marketing Digital',
    'Receptionist': 'Recepcionista',
    'Marketing Director': 'Director de Marketing',
    'Social Media Man': 'Gerente de Redes Sociales',
    'Customer Service Representative': 'Representante de Servicio al Cliente',
    'Delivery Driver': 'Conductor de Entrega',
    'Sales Executive': 'Ejecutivo de Ventas',
    'Junior Research Scientist': 'Cientifico Investigador Junior',
    'Sales Operations Manager': 'Grente de Operaciones de Ventas'
}
# Reemplazar (traducir) el contenido de la columna [4] 'Titulo_Del_Trabajo'
df_Trad['Titulo_Del_Trabajo'] = df_Trad['Titulo_Del_Trabajo'].replace(traduccionTituloTrabajo)
df_Trad.head(5)


Unnamed: 0,Edad,Genero,Nivel_Educativo,Titulo_Del_Trabajo,Años_De_Experiencia,Salario
0,32.0,Hombre,Licenciatura,Ingeniero de Software,5.0,90000.0
1,28.0,Mujer,Maestria,Analista de Datos,3.0,65000.0
2,45.0,Hombre,Doctorado,Gerente Senior,15.0,150000.0
3,36.0,Mujer,,,7.0,60000.0
4,52.0,Hombre,Maestria,Director,20.0,200000.0


In [None]:
# Se genera df para limpieza de datos
df_Clean = df_Trad
df_Clean.shape # 7,421


(7421, 6)

In [None]:
df_Clean

Unnamed: 0,Edad,Genero,Nivel_Educativo,Titulo_Del_Trabajo,Años_De_Experiencia,Salario
0,32.0,Hombre,Licenciatura,Ingeniero de Software,5.0,90000.0
1,28.0,Mujer,Maestria,Analista de Datos,3.0,65000.0
2,45.0,Hombre,Doctorado,Gerente Senior,15.0,150000.0
3,36.0,Mujer,,,7.0,60000.0
4,52.0,Hombre,Maestria,Director,20.0,200000.0
...,...,...,...,...,...,...
7416,28.0,Hombre,Licenciatura,Ingeniero de Software,3.0,
7417,30.0,Mujer,Titulo de Licenciatura,Coordinador de Marketing,5.0,95000.0
7418,35.0,Mujer,Doctorado,Director de Marketing,12.0,170000.0
7419,26.0,Hombre,Titulo de Maestria,Gerente de Marketing Digital,3.0,50000.0


## ▶ a) Eliminación o imputación de valores faltantes:

In [None]:
# a) Eliminación o imputación de valores faltantes:

# Identificar valores faltantes
missing_values_before = df_Clean.isnull().sum()
#print(missing_values_before)
missing_values_before


Unnamed: 0,0
Edad,299
Genero,299
Nivel_Educativo,301
Titulo_Del_Trabajo,300
Años_De_Experiencia,301
Salario,450


In [None]:
# Se genera df para Cambiar los datos nulos
df_DropNa = df_Trad


In [None]:
df_DropNa.shape # No se elimina ningún dato
# 7,421


(7421, 6)

In [None]:
# Se crea una lista de todos los nombres de las columnas
lista_col = df_DropNa.columns
lista_col


Index(['Edad', 'Genero', 'Nivel_Educativo', 'Titulo_Del_Trabajo',
       'Años_De_Experiencia', 'Salario'],
      dtype='object')

In [None]:
# Hay que validar que NO debe de tener NaN

for nom_colum in lista_col:
    df_DropNa= df_DropNa.dropna(subset=[nom_colum])


In [None]:
df_DropNa.shape # No se elimina ningún dato
# 5,688


(5688, 6)

In [None]:
# Inicialmente se tenían 7,421 registros y al utilizar el dropna quedarían 5,688 por lo que perderíamos 1,733

 # --->>> Se recomienda No utilizar dropna

# De acuerdo al Análisis, se va a reemplazar o rellenar los datos NaN para después decidir si se utilizan
# se requiere hacer el cambio de los NaN, para la modificación de los Tipos de Datos de las columnas.

df_Clean.shape # Por lo que seguiremos trabajando el df de la Limpieza en donde No se elimina ningún dato


(7421, 6)

## ▶ b) Calcular el porcentaje de valores faltantes por columna:

### Porcentaje de valores faltantes (Inicial)

In [None]:
# Porcentaje de valores faltantes por columna

'''
Edad                   4.029107
Genero                 4.029107
Nivel_Educativo        4.056057
Titulo_Del_Trabajo     4.042582
Años_De_Experiencia    4.056057
Salario                6.063873
dtype: float64
'''
#Porcentaje de valores faltantes por columna:
missing_percentage_before = df_Clean.isnull().mean() * 100
#print(missing_percentage_before)
missing_percentage_before


Unnamed: 0,0
Edad,4.029107
Genero,4.029107
Nivel_Educativo,4.056057
Titulo_Del_Trabajo,4.042582
Años_De_Experiencia,4.056057
Salario,6.063873


In [None]:
df_Clean.info()
# El número de registros de cada columna NO es igual al número de renglones 7,421 dado que tiene NaN


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 7421 entries, 0 to 7420
Data columns (total 6 columns):
 #   Column               Non-Null Count  Dtype  
---  ------               --------------  -----  
 0   Edad                 7122 non-null   float64
 1   Genero               7122 non-null   object 
 2   Nivel_Educativo      7120 non-null   object 
 3   Titulo_Del_Trabajo   7121 non-null   object 
 4   Años_De_Experiencia  7120 non-null   object 
 5   Salario              6971 non-null   float64
dtypes: float64(2), object(4)
memory usage: 348.0+ KB


In [None]:
# Se crea una lista de todos los nombres de las columnas
lista_col_dNa = df_Clean.columns
lista_col_dNa

Index(['Edad', 'Genero', 'Nivel_Educativo', 'Titulo_Del_Trabajo',
       'Años_De_Experiencia', 'Salario'],
      dtype='object')

In [None]:
# Verificando si hay invalid_value
for i in lista_col_dNa:
    print(f"En la columna {i} los invalid_value son: {df_Clean[df_Clean[i] == 'invalid_value'].shape[0]}")


En la columna Edad los invalid_value son: 0
En la columna Genero los invalid_value son: 0
En la columna Nivel_Educativo los invalid_value son: 0
En la columna Titulo_Del_Trabajo los invalid_value son: 0
En la columna Años_De_Experiencia los invalid_value son: 0
En la columna Salario los invalid_value son: 0


#### Reemplazar NaN por valores validos

In [None]:
df_Clean.shape
# 7,421


(7421, 6)

In [None]:
df_Clean.columns


Index(['Edad', 'Genero', 'Nivel_Educativo', 'Titulo_Del_Trabajo',
       'Años_De_Experiencia', 'Salario'],
      dtype='object')

In [None]:
# Reemplazar NaN por valores validos -->> 0 (cero)
# df_Clean['Edad'].fillna(0, inplace=True) # --->>> No tenemos registros con Edad 0 años (NO es valor de la columna)


In [None]:
# Reemplazar NaN por valores validos -->> 'Other'
df_Clean['Genero'].fillna("Otro", inplace=True) # --->>> Si tenemos más registros con Genero= Otro (si es valor de la columna)


The behavior will change in pandas 3.0. This inplace method will never work because the intermediate object on which we are setting values always behaves as a copy.

For example, when doing 'df[col].method(value, inplace=True)', try using 'df.method({col: value}, inplace=True)' or df[col] = df[col].method(value) instead, to perform the operation inplace on the original object.


  df_Clean['Genero'].fillna("Otro", inplace=True) # --->>> Si tenemos más registros con Genero= Otro (si es valor de la columna)


In [None]:
# Reemplazar NaN por valores validos -->> 'Other'
df_Clean['Nivel_Educativo'].fillna("Otro", inplace=True) # --->>> Podría no ser indispensable tener el Nivel Educativo


The behavior will change in pandas 3.0. This inplace method will never work because the intermediate object on which we are setting values always behaves as a copy.

For example, when doing 'df[col].method(value, inplace=True)', try using 'df.method({col: value}, inplace=True)' or df[col] = df[col].method(value) instead, to perform the operation inplace on the original object.


  df_Clean['Nivel_Educativo'].fillna("Otro", inplace=True) # --->>> Podría no ser indispensable tener el Nivel Educativo


In [None]:
# Reemplazar NaN por valores validos -->> 'Other'
df_Clean['Titulo_Del_Trabajo'].fillna("Otro", inplace=True) # --->>> Podría no ser indispensable tener el Títul del Trabajo


The behavior will change in pandas 3.0. This inplace method will never work because the intermediate object on which we are setting values always behaves as a copy.

For example, when doing 'df[col].method(value, inplace=True)', try using 'df.method({col: value}, inplace=True)' or df[col] = df[col].method(value) instead, to perform the operation inplace on the original object.


  df_Clean['Titulo_Del_Trabajo'].fillna("Otro", inplace=True) # --->>> Podría no ser indispensable tener el Títul del Trabajo


In [None]:
# Reemplazar NaN por valores validos -->> 0 (cero)
df_Clean['Años_De_Experiencia'].fillna(0, inplace=True)  # --->>> Si tenemos más registros con Años de Expeciencia = 0 (si es valor de la columna)


The behavior will change in pandas 3.0. This inplace method will never work because the intermediate object on which we are setting values always behaves as a copy.

For example, when doing 'df[col].method(value, inplace=True)', try using 'df.method({col: value}, inplace=True)' or df[col] = df[col].method(value) instead, to perform the operation inplace on the original object.


  df_Clean['Años_De_Experiencia'].fillna(0, inplace=True)  # --->>> Si tenemos más registros con Años de Expeciencia = 0 (si es valor de la columna)


In [None]:
# Reemplazar NaN por valores validos -->> 0 (cero)
#df_Clean['Salario'].fillna(0, inplace=True)  #  --->>> No tenemos registros con Edad 0 años (NO es valor de la columna)


### Validar Porcentaje de valores faltantes

##### --> Resumen 2: fillna

In [None]:
# Se genera df para limpieza de datos
df_Clean = df_Trad

# Porcentaje de valores faltantes
missing_percentage_before = df_Clean.isnull().mean() * 100
print(missing_percentage_before)

# Reemplazar NaN por valores validos -->> 0 (cero)
# df_Clean['Edad'].fillna(0, inplace=True) # --->>> No tenemos registros con Edad 0 años (NO es valor de la columna)

# Reemplazar NaN por valores validos -->> 'Other'
df_Clean['Genero'].fillna("Otro", inplace=True) # --->>> Si tenemos más registros con Genero= Otro (si es valor de la columna)

# Reemplazar NaN por valores validos -->> 'Other'
df_Clean['Nivel_Educativo'].fillna("Otro", inplace=True) # --->>> Podría no ser indispensable tener el Nivel Educativo

# Reemplazar NaN por valores validos -->> 'Other'
df_Clean['Titulo_Del_Trabajo'].fillna("Otro", inplace=True) # --->>> Podría no ser indispensable tener el Títul del Trabajo

# Reemplazar NaN por valores validos -->> 0 (cero)
df_Clean['Años_De_Experiencia'].fillna(0, inplace=True)  # --->>> Si tenemos más registros con Años de Expeciencia = 0 (si es valor de la columna)

# Reemplazar NaN por valores validos -->> 0 (cero)
#df_Clean['Salario'].fillna(0, inplace=True)  #  --->>> No tenemos registros con Edad 0 años (NO es valor de la columna)



Edad                   4.029107
Genero                 4.029107
Nivel_Educativo        4.056057
Titulo_Del_Trabajo     4.042582
Años_De_Experiencia    4.056057
Salario                6.063873
dtype: float64


The behavior will change in pandas 3.0. This inplace method will never work because the intermediate object on which we are setting values always behaves as a copy.

For example, when doing 'df[col].method(value, inplace=True)', try using 'df.method({col: value}, inplace=True)' or df[col] = df[col].method(value) instead, to perform the operation inplace on the original object.


  df_Clean['Genero'].fillna("Otro", inplace=True) # --->>> Si tenemos más registros con Genero= Otro (si es valor de la columna)
The behavior will change in pandas 3.0. This inplace method will never work because the intermediate object on which we are setting values always behaves as a copy.

For example, when doing 'df[col].method(value, inplace=True)', try using 'df.method({col: value}, inplace=True)' or df[col] = df[col].method(value) instead, to perform the operation inplace on the original object.


  df_Clean['Nivel_Educativo'].fillna("Otro", inplace=True) # --->>> Podría no ser indispensable tener el Ni

In [None]:
# Porcentaje de valores faltantes por columna:

'''                    Original
Edad                   4.029107  --->>> NO Cambia a 0  # --->>> No tenemos registros con Edad 0 años (NO es valor de la columna)
Genero                 4.029107  --->>> Cambia a 0
Nivel_Educativo        4.056057  --->>> Cambia a 0
Titulo_Del_Trabajo     4.042582  --->>> Cambia a 0
Años_De_Experiencia    4.056057  --->>> Cambia a 0
Salario                6.063873  --->>> NO Cambia a 0  # --->>> No tenemos registros con Edad 0 años (NO es valor de la columna)
dtype: float64
'''
# Porcentaje de valores faltantes
missing_percentage_after = df_Clean.isnull().mean() * 100
#print(missing_percentage_after)
missing_percentage_after


Unnamed: 0,0
Edad,4.029107
Genero,0.0
Nivel_Educativo,0.0
Titulo_Del_Trabajo,0.0
Años_De_Experiencia,0.0
Salario,6.063873


#### Eliminar NaN

In [None]:
df_Clean.shape
# 7,421

(7421, 6)

In [None]:
x

In [None]:
# Se crea una lista con los nombres de las columnas a las que se eliminaran los NaN
#lista_col = df_DropNa.columns
lista_col_dNa = ['Edad',  'Salario']
lista_col_dNa


['Edad', 'Salario']

In [None]:
# Hay que validar que NO debe de tener NaN

for nom_colum in lista_col_dNa:
    df_DropNa= df_DropNa.dropna(subset=[nom_colum])


In [None]:
df_DropNa.shape
# 6,693
# Originalmente se tenían 7,421 - 728 = 6,693 Después de eliminar los NaN de las columnas Edad y Salario

(6693, 6)

### Porcentaje de valores faltantes (Final)

##### --> Resumen 3: dropNa

In [None]:
# Se genera df para Cambiar los datos nulos
df_DropNa = df_Clean

# Se crea una lista con los nombres de las columnas a las que se eliminaran los NaN
#lista_col = df_DropNa.columns
lista_col_dNa = ['Edad',  'Salario']
lista_col_dNa

# Hay que validar que NO debe de tener NaN

for nom_colum in lista_col_dNa:
    df_DropNa= df_DropNa.dropna(subset=[nom_colum])

df_DropNa.shape
# 6,693
# Originalmente se tenían 7,421 - 728 = 6,693 Después de eliminar los NaN de las columnas Edad y Salario



(6693, 6)

In [None]:
# Porcentaje de valores faltantes por columna:

'''                    Original
Edad                   4.029107  --->>> Cambia a 0  # --->>> Se borran con dropna
Genero                 0.000000
Nivel_Educativo        0.000000
Titulo_Del_Trabajo     0.000000
Años_De_Experiencia    0.000000
Salario                6.063873  --->>> Cambia a 0  # --->>> Se borran con dropna
dtype: float64
'''
# Porcentaje de valores faltantes
missing_percentage_after = df_DropNa.isnull().mean() * 100
#print(missing_percentage_after)
missing_percentage_after


Unnamed: 0,0
Edad,0.0
Genero,0.0
Nivel_Educativo,0.0
Titulo_Del_Trabajo,0.0
Años_De_Experiencia,0.0
Salario,0.0


In [None]:
df_DropNa.info()

# Como ya se reemplazaron todos los datos NaN, se puede observar que
# el número de registros es igual al número de renglones 6,693


<class 'pandas.core.frame.DataFrame'>
Index: 6693 entries, 0 to 7420
Data columns (total 6 columns):
 #   Column               Non-Null Count  Dtype  
---  ------               --------------  -----  
 0   Edad                 6693 non-null   float64
 1   Genero               6693 non-null   object 
 2   Nivel_Educativo      6693 non-null   object 
 3   Titulo_Del_Trabajo   6693 non-null   object 
 4   Años_De_Experiencia  6693 non-null   object 
 5   Salario              6693 non-null   float64
dtypes: float64(2), object(4)
memory usage: 366.0+ KB


In [None]:
df_DropNa

Unnamed: 0,Edad,Genero,Nivel_Educativo,Titulo_Del_Trabajo,Años_De_Experiencia,Salario
0,32.0,Hombre,Licenciatura,Ingeniero de Software,5.0,90000.0
1,28.0,Mujer,Maestria,Analista de Datos,3.0,65000.0
2,45.0,Hombre,Doctorado,Gerente Senior,15.0,150000.0
3,36.0,Mujer,Otro,Otro,7.0,60000.0
4,52.0,Hombre,Maestria,Director,20.0,200000.0
...,...,...,...,...,...,...
7415,26.0,Otro,Titulo de Licenciatura,Desarrollador de Software Junior,1.0,35000.0
7417,30.0,Mujer,Titulo de Licenciatura,Coordinador de Marketing,5.0,95000.0
7418,35.0,Mujer,Doctorado,Director de Marketing,12.0,170000.0
7419,26.0,Hombre,Titulo de Maestria,Gerente de Marketing Digital,3.0,50000.0


#### Guardar BD 3: sin NaN en un CSV

In [None]:
#Guardar BD sn NaN en un CSV
df_DropNa.to_csv("Base_FS_3_lim_sinNaN_MPAC.csv", index=False)

## ▶ c) Eliminación de duplicados:

In [None]:
# Se crea  df después de Reemplazar NaN
df_Dupli = df_DropNa
df_Dupli.shape


(6693, 6)

In [None]:
#Retomando la lista de todos los nombres de las columnas
lista_col = df_Dupli.columns
lista_col


Index(['Edad', 'Genero', 'Nivel_Educativo', 'Titulo_Del_Trabajo',
       'Años_De_Experiencia', 'Salario'],
      dtype='object')

In [None]:
# c) Eliminación de duplicados:

duplicates_before = df_Dupli.duplicated().sum()
df_Dupli.drop_duplicates(inplace=True) # Eliminar filas duplicadas
duplicates_after = df_Dupli.duplicated().sum()
print(f"Número de Duplicados antes: {duplicates_before}, Número de Duplicados después: {duplicates_after}")


Número de Duplicados antes: 4092, Número de Duplicados después: 0


In [None]:
# Validar el número de registros después de Eliminar duplicados
#df_Dupli.shape # 7,421 - 4,207 = 2,486
df_Dupli.shape # 7,421 - 4,092 = 2,601


(2601, 6)

In [None]:
#Validar número de registros
df_Dupli.info() # el número de registros es igual al número de renglones


<class 'pandas.core.frame.DataFrame'>
Index: 2601 entries, 0 to 7415
Data columns (total 6 columns):
 #   Column               Non-Null Count  Dtype  
---  ------               --------------  -----  
 0   Edad                 2601 non-null   float64
 1   Genero               2601 non-null   object 
 2   Nivel_Educativo      2601 non-null   object 
 3   Titulo_Del_Trabajo   2601 non-null   object 
 4   Años_De_Experiencia  2601 non-null   object 
 5   Salario              2601 non-null   float64
dtypes: float64(2), object(4)
memory usage: 142.2+ KB


##### --> Resumen 4: Duplicados

In [None]:
# Se crea  df después de Reemplazar NaN
df_Dupli = df_DropNa
df_Dupli.shape

#Retomando la lista de todos los nombres de las columnas
lista_col = df_Dupli.columns
lista_col

# c) Eliminación de duplicados:

duplicates_before = df_Dupli.duplicated().sum()
df_Dupli.drop_duplicates(inplace=True) # Eliminar filas duplicadas
duplicates_after = df_Dupli.duplicated().sum()
print(f"Número de Duplicados antes: {duplicates_before}, Número de Duplicados después: {duplicates_after}")

# Validar el número de registros después de Eliminar duplicados
#df_Dupli.shape # 7,421 - 4,207 = 2,486
df_Dupli.shape # 7,421 - 4,092 = 2,601

#Validar número de registros
df_Dupli.info() # el número de registros es igual al número de renglones



Número de Duplicados antes: 4092, Número de Duplicados después: 0
<class 'pandas.core.frame.DataFrame'>
Index: 2601 entries, 0 to 7415
Data columns (total 6 columns):
 #   Column               Non-Null Count  Dtype  
---  ------               --------------  -----  
 0   Edad                 2601 non-null   float64
 1   Genero               2601 non-null   object 
 2   Nivel_Educativo      2601 non-null   object 
 3   Titulo_Del_Trabajo   2601 non-null   object 
 4   Años_De_Experiencia  2601 non-null   object 
 5   Salario              2601 non-null   float64
dtypes: float64(2), object(4)
memory usage: 142.2+ KB


## ▶ d) Corrección de tipos de datos:

In [None]:
# d) Corrección de tipos de datos:

# Verificar tipos de datos
print(df_Dupli.dtypes)


Edad                   float64
Genero                  object
Nivel_Educativo         object
Titulo_Del_Trabajo      object
Años_De_Experiencia     object
Salario                float64
dtype: object


In [None]:
df_Dupli.info()


<class 'pandas.core.frame.DataFrame'>
Index: 2601 entries, 0 to 7415
Data columns (total 6 columns):
 #   Column               Non-Null Count  Dtype  
---  ------               --------------  -----  
 0   Edad                 2601 non-null   float64
 1   Genero               2601 non-null   object 
 2   Nivel_Educativo      2601 non-null   object 
 3   Titulo_Del_Trabajo   2601 non-null   object 
 4   Años_De_Experiencia  2601 non-null   object 
 5   Salario              2601 non-null   float64
dtypes: float64(2), object(4)
memory usage: 142.2+ KB


In [None]:
# Convertir tipos de datos
# Asegurar que la columna 'Edad' tenga tipo de datos adecuado.
df_Dupli['Edad'] = df_Dupli['Edad'].astype(int)  # Asegurar que 'Edad' sea int


In [None]:
# Convertir tipos de datos
# Asegurar que las columnas 'Salario' tenga tipo de datos adecuado.
df_Dupli['Salario'] = df_Dupli['Salario'].astype(float)  # Asegurar que 'Salario' sea float

# --->>> La columna de 'Salario' tiene la cadena 'bbb' por lo que se tiene que corregir los valores inválidos


In [None]:
# Convertir tipos de datos
# Asegurar que la columna 'Años_De_Experiencia' tenga tipo de datos adecuado.
df_Dupli['Años_De_Experiencia'] = df_Dupli['Años_De_Experiencia'].astype(float)
# Asegurar que 'Años_De_Experiencia' sea int antes verifiquemos que sea float

# --->>> La columna de 'Años_De_Experiencia' tiene la cadena 'bbb'
# por lo que se tiene que corregir los valores inválidos


ValueError: could not convert string to float: 'bbb'

## ▶ e) Corrección de valores "inválidos"

In [None]:
# Se genera df para Cambiar los datos nulos
df_Final = df_Dupli


In [None]:
df_Final.shape
# 2,601

(2601, 6)

In [None]:
# e) Corrección de valores "inválidos":

# Reemplazar valores inválidos
# df['Years of Experience'].replace('bbb', pd.NA, inplace=True)  # Reemplazar 'bbb' con NaN

df_Final['Años_De_Experiencia'].replace('bbb', pd.NA, inplace=True)  # Reemplazar 'bbb' con NaN


In [None]:
# Reemplazar NaN por valores validos
df_Final['Años_De_Experiencia'].fillna(0, inplace=True)  # --->>> Si tenemos más registros con Años de Expeciencia = 0 (si es valor de la columna)


In [None]:
# Convertir tipos de datos
df_Final['Años_De_Experiencia'] = df_Final['Años_De_Experiencia'].astype(float)  # Asegurar que 'Años_De_Experiencia' sea float


In [None]:
# Convertir tipos de datos
df_Final['Años_De_Experiencia'] = df_Final['Años_De_Experiencia'].astype(int)  # Asegurar que 'Años_De_Experiencia' sea int


In [None]:
df_Final.info()

<class 'pandas.core.frame.DataFrame'>
Index: 2601 entries, 0 to 7415
Data columns (total 6 columns):
 #   Column               Non-Null Count  Dtype  
---  ------               --------------  -----  
 0   Edad                 2601 non-null   float64
 1   Genero               2601 non-null   object 
 2   Nivel_Educativo      2601 non-null   object 
 3   Titulo_Del_Trabajo   2601 non-null   object 
 4   Años_De_Experiencia  2601 non-null   object 
 5   Salario              2601 non-null   float64
dtypes: float64(2), object(4)
memory usage: 142.2+ KB


In [None]:
# Convertir tipos de datos
df_Final['Genero'] = df_Final['Genero'].astype(str)  # Asegurar que 'Genero' sea str


In [None]:
# Convertir tipos de datos
df_Final['Nivel_Educativo'] = df_Final['Nivel_Educativo'].astype(str)  # Asegurar que 'Nivel_Educativo' sea str


In [None]:
# Convertir tipos de datos
df_Final['Titulo_Del_Trabajo'] = df_Final['Titulo_Del_Trabajo'].astype(str)  # Asegurar que 'Titulo_Del_Trabajo' sea str


In [None]:
df_Final.info()

<class 'pandas.core.frame.DataFrame'>
Index: 2601 entries, 0 to 7415
Data columns (total 6 columns):
 #   Column               Non-Null Count  Dtype  
---  ------               --------------  -----  
 0   Edad                 2601 non-null   int64  
 1   Genero               2601 non-null   object 
 2   Nivel_Educativo      2601 non-null   object 
 3   Titulo_Del_Trabajo   2601 non-null   object 
 4   Años_De_Experiencia  2601 non-null   int64  
 5   Salario              2601 non-null   float64
dtypes: float64(1), int64(2), object(3)
memory usage: 142.2+ KB


##### --> Resumen 5: Tipo de Datos

In [None]:
# Convertir tipos de datos
# Asegurar que la columna 'Edad' tenga tipo de datos adecuado.
df_Dupli['Edad'] = df_Dupli['Edad'].astype(int)  # Asegurar que 'Edad' sea int

# Convertir tipos de datos
# Asegurar que las columnas 'Salario' tenga tipo de datos adecuado.
df_Dupli['Salario'] = df_Dupli['Salario'].astype(float)  # Asegurar que 'Salario' sea float

# --->>> La columna de 'Salario' tiene la cadena 'bbb' por lo que se tiene que corregir los valores inválidos

# Convertir tipos de datos
# Asegurar que la columna 'Años_De_Experiencia' tenga tipo de datos adecuado.
#### df_Dupli['Años_De_Experiencia'] = df_Dupli['Años_De_Experiencia'].astype(float)
# Asegurar que 'Años_De_Experiencia' sea int antes verifiquemos que sea float

# --->>> La columna de 'Años_De_Experiencia' tiene la cadena 'bbb'
# por lo que se tiene que corregir los valores inválidos




# Se genera df para Cambiar los datos nulos
df_Final = df_Dupli

# e) Corrección de valores "inválidos":

# Reemplazar valores inválidos
# df['Years of Experience'].replace('bbb', pd.NA, inplace=True)  # Reemplazar 'bbb' con NaN

df_Final['Años_De_Experiencia'].replace('bbb', pd.NA, inplace=True)  # Reemplazar 'bbb' con NaN

# Reemplazar NaN por valores validos
df_Final['Años_De_Experiencia'].fillna(0, inplace=True)  # --->>> Si tenemos más registros con Años de Expeciencia = 0 (si es valor de la columna)

# Convertir tipos de datos
df_Final['Años_De_Experiencia'] = df_Final['Años_De_Experiencia'].astype(float)  # Asegurar que 'Años_De_Experiencia' sea float

# Convertir tipos de datos
df_Final['Años_De_Experiencia'] = df_Final['Años_De_Experiencia'].astype(int)  # Asegurar que 'Años_De_Experiencia' sea int

df_Final.info()

# Convertir tipos de datos
df_Final['Genero'] = df_Final['Genero'].astype(str)  # Asegurar que 'Genero' sea str

# Convertir tipos de datos
df_Final['Nivel_Educativo'] = df_Final['Nivel_Educativo'].astype(str)  # Asegurar que 'Nivel_Educativo' sea str

# Convertir tipos de datos
df_Final['Titulo_Del_Trabajo'] = df_Final['Titulo_Del_Trabajo'].astype(str)  # Asegurar que 'Titulo_Del_Trabajo' sea str

df_Final.info()



<class 'pandas.core.frame.DataFrame'>
Index: 2601 entries, 0 to 7415
Data columns (total 6 columns):
 #   Column               Non-Null Count  Dtype  
---  ------               --------------  -----  
 0   Edad                 2601 non-null   int64  
 1   Genero               2601 non-null   object 
 2   Nivel_Educativo      2601 non-null   object 
 3   Titulo_Del_Trabajo   2601 non-null   object 
 4   Años_De_Experiencia  2601 non-null   int64  
 5   Salario              2601 non-null   float64
dtypes: float64(1), int64(2), object(3)
memory usage: 142.2+ KB
<class 'pandas.core.frame.DataFrame'>
Index: 2601 entries, 0 to 7415
Data columns (total 6 columns):
 #   Column               Non-Null Count  Dtype  
---  ------               --------------  -----  
 0   Edad                 2601 non-null   int64  
 1   Genero               2601 non-null   object 
 2   Nivel_Educativo      2601 non-null   object 
 3   Titulo_Del_Trabajo   2601 non-null   object 
 4   Años_De_Experiencia  2601 non

The behavior will change in pandas 3.0. This inplace method will never work because the intermediate object on which we are setting values always behaves as a copy.

For example, when doing 'df[col].method(value, inplace=True)', try using 'df.method({col: value}, inplace=True)' or df[col] = df[col].method(value) instead, to perform the operation inplace on the original object.


  df_Final['Años_De_Experiencia'].replace('bbb', pd.NA, inplace=True)  # Reemplazar 'bbb' con NaN
The behavior will change in pandas 3.0. This inplace method will never work because the intermediate object on which we are setting values always behaves as a copy.

For example, when doing 'df[col].method(value, inplace=True)', try using 'df.method({col: value}, inplace=True)' or df[col] = df[col].method(value) instead, to perform the operation inplace on the original object.


  df_Final['Años_De_Experiencia'].fillna(0, inplace=True)  # --->>> Si tenemos más registros con Años de Expeciencia = 0 (si es valor de l

# ▶ 4. Guardar CSV

In [None]:
# Guardar resultados en un CSV
df_Final.to_csv("Base__FS__limpia_MPAC.csv", index=False)