# Análisis exploratorio
## Manager Salary Survey 2021

In [3]:
import pandas as pd
import re

In [4]:
# Definir la ruta del archivo
file_path = "../Data/Raw/ManagerSalarySurvey 2021.csv"

# Cargar el archivo CSV en un DataFrame
df = pd.read_csv(file_path, sep='|')

In [5]:
# Listar nombre de columnas
df.columns

Index(['Timestamp', 'How old are you?', 'What industry do you work in?',
       'Job title',
       'If your job title needs additional context, please clarify here:',
       'What is your annual salary? (You'll indicate the currency in a later question. If you are part-time or hourly, please enter an annualized equivalent -- what you would earn if you worked the job 40 hours a week, 52 weeks a year.)',
       'How much additional monetary compensation do you get, if any (for example, bonuses or overtime in an average year)? Please only include monetary compensation here, not the value of benefits.',
       'Please indicate the currency',
       'If "Other," please indicate the currency here: ',
       'If your income needs additional context, please provide it here:',
       'What country do you work in?',
       'If you're in the U.S., what state do you work in?',
       'What city do you work in?',
       'How many years of professional work experience do you have overall?',
       

In [6]:
# Renombrar las columnas
df.columns = ["momento de captura", 
    "rango de edad", "industria", "posicion", "descripcion de la posición", "salario anual", 
    "compensaciones extra anuales", "moneda", "otra moneda", "contexto adicional", "pais", 
    "estado us", "ciudad", "experiencia total", "experiencia especifica", "nivel educativo", 
    "genero", "etnia"
]

In [7]:
# Información general del datagrame
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 28110 entries, 0 to 28109
Data columns (total 18 columns):
 #   Column                        Non-Null Count  Dtype  
---  ------                        --------------  -----  
 0   momento de captura            28110 non-null  object 
 1   rango de edad                 28110 non-null  object 
 2   industria                     28035 non-null  object 
 3   posicion                      28109 non-null  object 
 4   descripcion de la posición    7273 non-null   object 
 5   salario anual                 28110 non-null  int64  
 6   compensaciones extra anuales  20793 non-null  float64
 7   moneda                        28110 non-null  object 
 8   otra moneda                   211 non-null    object 
 9   contexto adicional            3047 non-null   object 
 10  pais                          28110 non-null  object 
 11  estado us                     23075 non-null  object 
 12  ciudad                        28028 non-null  object 
 13  e

In [8]:
# Vista previa del dataframe
df.head()

Unnamed: 0,momento de captura,rango de edad,industria,posicion,descripcion de la posición,salario anual,compensaciones extra anuales,moneda,otra moneda,contexto adicional,pais,estado us,ciudad,experiencia total,experiencia especifica,nivel educativo,genero,etnia
0,27/04/2021 11:02:09,25-34,Education (Higher Education),Research and Instruction Librarian,,55000,0.0,USD,,,United States,Massachusetts,Boston,5-7 years,5-7 years,Master's degree,Woman,White
1,27/04/2021 11:02:21,25-34,Computing or Tech,Change & Internal Communications Manager,,54600,4000.0,GBP,,,United Kingdom,,Cambridge,8 - 10 years,5-7 years,College degree,Non-binary,White
2,27/04/2021 11:02:38,25-34,"Accounting, Banking & Finance",Marketing Specialist,,34000,,USD,,,US,Tennessee,Chattanooga,2 - 4 years,2 - 4 years,College degree,Woman,White
3,27/04/2021 11:02:40,25-34,Nonprofits,Program Manager,,62000,3000.0,USD,,,USA,Wisconsin,Milwaukee,8 - 10 years,5-7 years,College degree,Woman,White
4,27/04/2021 11:02:41,25-34,"Accounting, Banking & Finance",Accounting Manager,,60000,7000.0,USD,,,US,South Carolina,Greenville,8 - 10 years,5-7 years,College degree,Woman,White


In [9]:
columnas = ['momento de captura', 'rango de edad', 'industria', 'salario anual', 'compensaciones extra anuales', 
            'moneda', 'otra moneda', 'pais', 'estado us', 'ciudad',
       'experiencia total', 'experiencia especifica', 'nivel educativo',
       'genero', 'etnia']
df_seleccionado = df[columnas]
# Guardar en un archivo CSV
csv_filename = "../Data/Processed/ManagerSalarySurvey2021_preview.csv"
df_seleccionado.to_csv(csv_filename, index=False)

In [10]:
# Verificar formato de 'momento de captura'
pattern = re.compile(r"^\d{2}/\d{2}/\d{4} \d{2}:\d{2}:\d{2}$")
invalid_rows = df[~df["momento de captura"].astype(str).str.match(pattern)]

if invalid_rows.empty:
    df["momento de captura"] = pd.to_datetime(df["momento de captura"], format="%d/%m/%Y %H:%M:%S")
    print("Todas las filas tienen el formato correcto. Se ha convertido la columna al formato datetime.")
else:
    print("Las siguientes filas tienen un formato incorrecto en 'momento de captura':")
    print(invalid_rows[["momento de captura"]])

Todas las filas tienen el formato correcto. Se ha convertido la columna al formato datetime.


In [11]:
# Mapear generos a español
df["genero"] = df["genero"].replace({
    "Woman": "Mujeres",
    "Man": "Hombres",
    "Non-binary": "Otros",
    "Other or prefer not to answer": "No informado",
    "Prefer not to answer": "No informado"
}).fillna("No informado")

In [12]:
# Mapear niveles educativos a español
df["nivel educativo"] = df["nivel educativo"].replace({
    "Master's degree":"Maestría",
"College degree":"Título universitario",
"PhD":"Doctorado",
"Some college":"Estudios universitarios incompletos",
"High School":"Bachillerato",
"Professional degree (MD, JD, etc.)":"Título profesional",
}).fillna("No informado")

In [13]:
# Borrar espacios en columnas de interes
df[['ciudad', 'pais', 'otra moneda', 'industria']] = df[['ciudad', 'pais', 'otra moneda', 'industria']].apply(lambda x: x.str.strip())

In [14]:
# Crear la columna moneda_corregida
df['moneda_corregida'] = df['moneda'].map(lambda x: 'None' if x == 'Other' else ('AUD' if x == 'AUD/NZD' else x))

# Cargar codigos moneda, y actualizar moneda corregida para otras monedas
df_monedas = pd.read_csv("../Data/Processed/codigosMoneda.csv")

# Hacer un merge entre el DataFrame original y df_monedas usando 'moneda' y 'otra moneda' como claves
df = df.merge(df_monedas, how='left', left_on='moneda', right_on='otra moneda')

# Actualizar moneda_corregida si moneda es 'Other', asignándole el valor correspondiente de df_monedas['moneda']
df['moneda_corregida'] = df.apply(lambda row: row['moneda_y'] if row['moneda_x'] == 'Other' else row['moneda_corregida'], axis=1)

# Eliminar columnas auxiliares si ya no son necesarias
df.drop(columns=['moneda_y', 'otra moneda_y'], inplace=True)

In [15]:
# Cargar el archivo TasasDeCambio.csv en un nuevo DataFrame
df_tasas = pd.read_csv("../Data/Processed/TasasDeCambio.csv")

# Realizar un merge entre el DataFrame original y df_tasas usando 'moneda_corregida' y 'Codigo' como claves
df = df.merge(df_tasas[['Codigo', 'Cambio.']], how='left', left_on='moneda_corregida', right_on='Codigo')

# Renombrar la columna 'Cambio.' a 'COP'
df.rename(columns={'Cambio.': 'COP'}, inplace=True)

# Eliminar la columna auxiliar 'Codigo' si ya no es necesaria
df.drop(columns=['Codigo'], inplace=True)


In [25]:
# Crear las nuevas columnas
df["salario_anual COP"] = df["COP"] * df["salario anual"]
df["compensaciones COP"] = df["COP"] * df["compensaciones extra anuales"]
df["ingreso anual total COP"] = df["salario_anual COP"] + df["compensaciones COP"]

In [27]:
# Cargar el archivo mapearPaisCiudad.csv con separador ¬
file_path_mapeo = "../Data/Processed/mapearPaisCiudad.csv"
df_mapeo = pd.read_csv(file_path_mapeo, sep="¬")

# Crear la columna clave en el dataframe original
df["Clave"] = df["pais"].fillna('') + "|" + df["estado us"].fillna('') + "|" + df["ciudad"].fillna('')

# Realizar el mapeo de pais_corregido y ciudad_corregida
df = df.merge(df_mapeo[["Clave", "pais_corregido", "ciudad_corregido"]], on="Clave", how="left")


  df_mapeo = pd.read_csv(file_path_mapeo, sep="¬")


In [29]:
# Cargar el archivo mapearIndustrias.csv con separador '|'
file_path_csv = "../Data/Processed/mapearIndustrias.csv"
df_industrias = pd.read_csv(file_path_csv, sep='|')

# Realizar el merge para unir los datos en base a la columna "industria"
df = df.merge(df_industrias[['industria', 'industria_es']], on="industria", how="left")

# Mostrar los primeros registros del DataFrame actualizado
df.head()

Unnamed: 0,momento de captura,rango de edad,industria,posicion,descripcion de la posición,salario anual,compensaciones extra anuales,moneda_x,otra moneda_x,contexto adicional,...,etnia,moneda_corregida,COP,salario_anual COP,compensaciones COP,ingreso anual total COP,Clave,pais_corregido,ciudad_corregido,industria_es
0,2021-04-27 11:02:09,25-34,Education (Higher Education),Research and Instruction Librarian,,55000,0.0,USD,,,...,White,USD,4115.88,226373400.0,0.0,226373400.0,United States|Massachusetts|Boston,Estados Unidos,Boston,Educación (Educación Superior)
1,2021-04-27 11:02:09,25-34,Education (Higher Education),Research and Instruction Librarian,,55000,0.0,USD,,,...,White,USD,4115.88,226373400.0,0.0,226373400.0,United States|Massachusetts|Boston,Estados Unidos,Boston,Educación (Educación Superior)
2,2021-04-27 11:02:09,25-34,Education (Higher Education),Research and Instruction Librarian,,55000,0.0,USD,,,...,White,USD,4115.88,226373400.0,0.0,226373400.0,United States|Massachusetts|Boston,Estados Unidos,Boston,Educación (Educación Superior)
3,2021-04-27 11:02:09,25-34,Education (Higher Education),Research and Instruction Librarian,,55000,0.0,USD,,,...,White,USD,4115.88,226373400.0,0.0,226373400.0,United States|Massachusetts|Boston,Estados Unidos,Boston,Educación (Educación Superior)
4,2021-04-27 11:02:09,25-34,Education (Higher Education),Research and Instruction Librarian,,55000,0.0,USD,,,...,White,USD,4115.88,226373400.0,0.0,226373400.0,United States|Massachusetts|Boston,Estados Unidos,Boston,Educación (Educación Superior)


In [31]:
# Mapear a español los nombres de las industrias
industrias_dict = {
    "Education (Higher Education)": "Educación (Educación Superior)",
    "Computing or Tech": "Computación o Tecnología",
    "Accounting": "Contabilidad",
    "Banking & Finance": "Banca y Finanzas",
    "Nonprofits": "Organizaciones sin fines de lucro",
    "Publishing": "Editorial",
    "Education (Primary/Secondary)": "Educación (Primaria/Secundaria)",
    "Law": "Derecho",
    "Health care": "Cuidado de la salud",
    "Utilities & Telecommunications": "Servicios públicos y telecomunicaciones",
    "Business or Consulting": "Negocios o Consultoría",
    "Art & Design": "Arte y Diseño",
    "Government and Public Administration": "Gobierno y Administración Pública",
    "Public Library": "Biblioteca Pública",
    "Engineering or Manufacturing": "Ingeniería o Manufactura",
    "Media & Digital": "Medios y Digital",
    "Marketing, Advertising & PR": "Marketing, Publicidad y Relaciones Públicas",
    "Retail": "Venta al por menor",
    "Property or Construction": "Bienes Raíces o Construcción",
    "Biotechnology": "Biotecnología",
    "Aerospace contracting": "Contratación Aeroespacial",
    "Insurance": "Seguros",
    "Sales": "Ventas",
    "Energy": "Energía",
    "Environmental regulation": "Regulación ambiental",
    "Hospitality & Events": "Hospitalidad y Eventos",
    "Transport or Logistics": "Transporte o Logística",
    "Medical Devices": "Dispositivos Médicos",
    "Academic research (Psychology)": "Investigación académica (Psicología)",
    "Social Work": "Trabajo Social",
    "Surveying": "Topografía",
    "Recruitment or HR": "Reclutamiento o Recursos Humanos",
    "PhD": "Doctorado",
    "Biopharma": "Biofarmacéutica",
    "STEM research": "Investigación en STEM",
    "Libraries": "Bibliotecas",
    "Architecture": "Arquitectura",
    "Academic Medicine": "Medicina Académica",
    "Commercial Real Estate": "Bienes Raíces Comerciales",
    "Pet care industry (dog training/walking)": "Industria del cuidado de mascotas (entrenamiento/paseo de perros)",
    "Politics": "Política",
    "University administration": "Administración Universitaria",
    "Animal Health Product Manufacturing": "Fabricación de Productos de Salud Animal",
    "Educational Technology": "Tecnología Educativa",
    "Pharmaceuticals": "Farmacéutica",
    "Agriculture or Forestry": "Agricultura o Silvicultura",
    "Philanthropy": "Filantropía",
    "Real Estate": "Bienes Raíces",
    "Consulting": "Consultoría",
    "Environmental Consulting": "Consultoría Ambiental",
    "Archaeology / Cultural Resource Management": "Arqueología / Gestión de Recursos Culturales",
    "Museum": "Museo",
    "Biotech": "Biotecnología",
    "Government Relations (Lobbying)": "Relaciones Gubernamentales (Cabildeo)",
    "Software as a Service (SaaS)": "Software como Servicio (SaaS)",
    "Public health in higher education": "Salud Pública en Educación Superior",
    "Business Services": "Servicios Empresariales",
    "Law Enforcement & Security": "Cumplimiento de la Ley y Seguridad",
    "Manufacturing and distributing": "Fabricación y Distribución",
    "Leisure, Sport & Tourism": "Ocio, Deporte y Turismo",
    "Food manufacturing": "Fabricación de Alimentos",
    "Research and development": "Investigación y Desarrollo",
    "Consumer packaged goods": "Bienes de Consumo Empaquetados",
    "Entertainment": "Entretenimiento",
    "B2B Services": "Servicios B2B",
    "Oil and Gas": "Petróleo y Gas",
    "Heritage/Public History": "Patrimonio / Historia Pública",
    "Manufacturing": "Manufactura",
    "Veterinary medicine": "Medicina Veterinaria",
    "Food Production/Processing": "Producción/Procesamiento de Alimentos",
    "Health Insurance": "Seguro de Salud",
    "Government contractor": "Contratista del Gobierno",
    "Public health": "Salud Pública",
    "Renewable energy": "Energía Renovable",
    "Aerospace": "Aeroespacial",
    "Space": "Espacio",
    "Librarian": "Bibliotecario",
    "Food Service": "Servicio de Alimentos",
    "Pharma": "Farmacéutica",
    "Aerospace/Defense": "Aeroespacial/Defensa",
    "Management Consulting": "Consultoría de Gestión",
    "Academic publishing": "Publicación Académica",
    "Gas & Oil": "Gas y Petróleo",
    "Defense contracting": "Contratación de Defensa",
    "International development (multilateral donor)": "Desarrollo Internacional (donante multilateral)",
    "Project management": "Gestión de Proyectos",
    "Apparel manufacture": "Fabricación de Ropa",
    "Auto repair": "Reparación de Automóviles",
    "Life Sciences": "Ciencias de la Vida",
    "Pharma / Medical device design and manufacturing": "Diseño y fabricación de dispositivos médicos / farmacéuticos",
    "Chemical Manufacturing": "Manufactura Química",
    "Food service": "Servicio de Alimentos",
    "Science": "Ciencia",
    "Learning & Development": "Aprendizaje y Desarrollo",
    "Training": "Capacitación",
    "FMCG": "Bienes de Consumo de Rápido Movimiento",
    "E-commerce": "Comercio Electrónico",
    "UX Research": "Investigación de Experiencia de Usuario",
    "Environmental Science": "Ciencias Ambientales",
    "Music": "Música",
    "Gaming": "Videojuegos",
    "Translation": "Traducción",
    "Public safety": "Seguridad Pública",
    "Biotech/Pharma": "Biotecnología/Farmacéutica",
    "Supply chain": "Cadena de Suministro",
    "Biomedical Research": "Investigación Biomédica",
    "Government Contracting": "Contratación Gubernamental",
    "Real Estate Investment": "Inversión en Bienes Raíces",
    "Scientific Research": "Investigación Científica",
    "Veterinary Care": "Cuidado Veterinario",
    "Energy (oil & gas & associated products, renewable power, etc.)": "Energía (petróleo, gas y productos asociados, energía renovable, etc.)",
    "Fundraising": "Recaudación de Fondos",
    "Oil & Gas Safety Training": "Capacitación en Seguridad para Petróleo y Gas",
    "Wholesale": "Venta al por Mayor",
    "Workforce development": "Desarrollo de la Fuerza Laboral",
    "Retail pharmacy": "Farmacia al por menor",
    "Consumer Research": "Investigación del Consumidor",
    "STEM medical research": "Investigación Médica en STEM",
    "Marketing technology": "Tecnología de Marketing",
    "International organization (UN)": "Organización Internacional (ONU)",
    "Legal Services": "Servicios Legales",
    "Food & Beverage": "Alimentos y Bebidas",
    "Political Campaigns": "Campañas Políticas",
    "Automotive Repair": "Reparación de Automóviles",
    "Public Policy": "Política Pública",
    "Telecommunications": "Telecomunicaciones",
    "Fitness & Entertainment": "Fitness y Entretenimiento",
    "Public Libraries": "Bibliotecas Públicas",
    "Oil & Gas - Non Destructive Testing": "Petróleo y Gas - Pruebas No Destructivas",
    "Science Research": "Investigación Científica",
    "Education Consulting": "Consultoría Educativa",
    "Clinical Research": "Investigación Clínica",
    "Government Affairs/Lobbying": "Asuntos Gubernamentales/Cabildeo",
    "Research and Evaluation": "Investigación y Evaluación",
    "Corporate Sustainability": "Sostenibilidad Corporativa",

    "Accounting, Banking & Finance": "Contabilidad, Banca y Finanzas",
    "public library": "Biblioteca pública",
    "Educational Technology - hybrid between book publishing and technology really": "Tecnología Educativa - híbrido entre publicación de libros y tecnología",
    '"Government Relations" (Lobbying)': "Relaciones Gubernamentales (Cabildeo)",
    "Software as a Service SaaS": "Software como Servicio (SaaS)",
    "publishing": "Editorial",
    "Public Library (technically City Govt.?)": "Biblioteca Pública (técnicamente gobierno de la ciudad?)",
    "project management": "Gestión de Proyectos",
    "auto repair": "Reparación de Automóviles",
    "pharma / medical device design and manufacturing": "Diseño y fabricación de dispositivos médicos / farmacéutica",
    "trade association/membership": "Asociación comercial / membresía",
    "manufacturing": "Manufactura",
    "real estate": "Bienes Raíces",
    "wholesale distribution": "Distribución al por mayor",
    "Eap": "Programas de Asistencia para Empleados",
    "architecture": "Arquitectura",
    "Library (its a non-profit and its a govt job - how would I list that? Not all libraries are govt jobs)": "Biblioteca (es una organización sin fines de lucro y un trabajo gubernamental)",
    "Government- Scientist": "Científico gubernamental",
    "pharma": "Farmacéutica",
    "Sign Language Interpreter, Community": "Intérprete de Lengua de Señas, Comunidad",
    "education writing": "Escritura Educativa",
    "High end outdoor furniture manufacturer": "Fabricante de muebles de exterior de alta gama",
    "clinical research": "Investigación Clínica",
    "biotech": "Biotecnología",
    "aerospace data": "Datos Aeroespaciales",
    "technology/SaaS": "Tecnología / Software como Servicio (SaaS)",
    "Fundraising in Higher Education; nonclinical, nonacademic": "Recaudación de Fondos en Educación Superior; no clínica, no académica",
    "Govt contractor - not directly govt but they pay me": "Contratista del Gobierno - no directamente gubernamental pero me pagan",
    "labor union": "Sindicato",
    "Research & Development": "Investigación y Desarrollo",
    "Biotech / Research": "Biotecnología / Investigación",
    "Govt contractor - not direct govt but they pay my company who in turn pays me": "Contratista del Gobierno - no directo, pero me pagan a través de mi empresa",
    "Market Research": "Investigación de Mercado",
    "Commercial real estate tenancy": "Arrendamiento de Bienes Raíces Comerciales",
    "Pharmaceuticals R&D": "Investigación y Desarrollo en Farmacéutica",
    "librarian--Contractor for NASA": "Bibliotecario - Contratista de la NASA",
    "labour/professional organization": "Organización laboral / profesional",
    "Private company, federal contractor": "Empresa privada, contratista federal",
    "Craft Beer Industry": "Industria de la Cerveza Artesanal",
    "Procurement/Sourcing/Operations": "Adquisiciones / Abastecimiento / Operaciones",
    "religious educator": "Educador Religioso",
    "Information services (libraries)": "Servicios de Información (Bibliotecas)",
    "Environmental Planning": "Planificación Ambiental",
    "Ministry": "Ministerio",
    "Print / Mail": "Impresión / Correo",
    "Planning": "Planificación",
    "apparel design/product development": "Diseño de Ropa / Desarrollo de Productos",
    "Religious institution": "Institución Religiosa",
    "Defense Contracting": "Contratación de Defensa",
    "Chemistry": "Química",
    "Construction, mining, manufacturing": "Construcción, minería, manufactura",
    "Government Relations": "Relaciones Gubernamentales",
    "Automotive": "Automotriz",
    "Public libraries": "Bibliotecas Públicas",
    "STEM Research": "Investigación STEM",
    "library": "Biblioteca",
    "Supply Chain Distribution": "Distribución de la Cadena de Suministro",
    "Public Librarian": "Bibliotecario Público",
    "biological research": "Investigación Biológica",
    "Information Technology": "Tecnología de la Información",
    "Public Health Research": "Investigación en Salud Pública",
    "market research": "Investigación de Mercado",
    "Administrative Work": "Trabajo Administrativo",
    "Administration": "Administración",
    "Landscaping/Tree Work": "Paisajismo / Trabajo con Árboles",
    "accessibility": "Accesibilidad",
    "Biotech / life sciences": "Biotecnología / Ciencias de la Vida",
    "Communications": "Comunicaciones",
    "Finance/Investment Management but in legal/compliance, so back-office": "Finanzas / Gestión de Inversiones pero en legal / cumplimiento",
    "consumer product design": "Diseño de Productos de Consumo",
    "Housekeeper/cook": "Amo/a de Llaves / Cocinero/a",
    "Consumer Packaged Goods": "Bienes de Consumo Empaquetados",
    "Staffing Industry": "Industria de Reclutamiento",
    "Librarian and Assistant Manager of a library": "Bibliotecario y Asistente de Gerencia de Biblioteca",
    "educational publishing": "Publicación Educativa",
    "Marketing at a Non Profit": "Marketing en una Organización sin Fines de Lucro",
    "Human Resources": "Recursos Humanos",
    "Public/Environmental Health": "Salud Pública / Ambiental",
    "Payroll Software": "Software de Nómina",
    "Environmental": "Medio Ambiente",
    "Instructional Design and Training": "Diseño Instruccional y Capacitación",
    "Education (Other)": "Educación (Otra)",
    "Supply Chain": "Cadena de Suministro",
    "Education/vocational": "Educación / Formación Profesional",
    "Mining": "Minería",
    "Life science capability development": "Desarrollo de Capacidades en Ciencias de la Vida",
    "Fitness": "Fitness",
    "Consumer Good (Toys)": "Bienes de Consumo (Juguetes)",
    "Music, education": "Música, Educación",
    "Mining/Mineral Exploration": "Exploración Minera / Mineral",
    "Biotechnology, Research and Development": "Biotecnología, Investigación y Desarrollo",
    "Academic Scientific Research": "Investigación Científica Académica",
    "Government Contractor": "Contratista del Gobierno",
    "Arts, Culture and Heritage": "Artes, Cultura y Patrimonio",
    "Corporate Learning and Development": "Aprendizaje y Desarrollo Corporativo",
    "Cannabis": "Industria del Cannabis",
    "Govtech Software as a Service": "Govtech Software como Servicio",
    "Biology/Research": "Biología / Investigación",
    "For profit education": "Educación con fines de lucro",
    "pharmaceutical": "Farmacéutica",
    "Saas company/software": "Empresa de SaaS / Software",
    "Beauty /CPG": "Belleza / Bienes de Consumo",
    "Environment, health, and safety": "Medio Ambiente, Salud y Seguridad",
    "Clean Energy (eg. energy efficiency, renewables, etc.)": "Energía Limpia (ej. eficiencia energética, renovables, etc.)",
    "Energy: oil & gas": "Energía: Petróleo y Gas",
    "Biotech/pharmaceuticals": "Biotecnología / Farmacéutica",
    "Environmental Health + Pest Control": "Salud Ambiental + Control de Plagas",
    "Zoo": "Zoológico",
    "Automtive Repair": "Reparación Automotriz",
    "Community Foundation": "Fundación Comunitaria",
    "Medical research": "Investigación Médica",
    "Cultural Resources Management/Major Univ.": "Gestión de Recursos Culturales / Universidad",
    "Veterinarian": "Veterinario",
    "public health": "Salud Pública",
    "chemistry": "Química",
    "Actuarial": "Actuarial",
    "Librarian in legal setting": "Bibliotecario en el ámbito legal",
    "Procurement": "Adquisiciones",

    "Public library": "Biblioteca pública",
    "Pharmaceutical": "Farmacéutica",
    "Editor in educational publishing": "Editor en publicación educativa",
    "Work-Study": "Trabajo-Estudio",
    "Museum - Nonprofit": "Museo - Organización sin fines de lucro",
    "Research Administration": "Administración de Investigación",
    "Scientific research": "Investigación científica",
    "Tech": "Tecnología",
    "Healthcare IT": "Tecnología de la Información en Salud",
    "Research": "Investigación",
    "Academic Publishing": "Publicación Académica",
    "Municipal library": "Biblioteca Municipal",
    "Education (early childhood)": "Educación (Primera infancia)",
    "Medical Library": "Biblioteca Médica",
    "Fire protection": "Protección contra incendios",
    "Music: freelance, performing and education": "Música: independiente, interpretación y educación",
    "Oil & Gas": "Petróleo y Gas",
    "Libraries & Archives": "Bibliotecas y Archivos",
    "International Development": "Desarrollo Internacional",
    "Interior Design & Architecture": "Diseño de Interiores y Arquitectura",
    "Pharma/Biotech": "Farmacéutica/Biotecnología",
    "Academic/nonprofit research": "Investigación académica/sin fines de lucro",
    "Synthetic Chemical Manufacturing": "Fabricación de Químicos Sintéticos",
    "Real estate services": "Servicios inmobiliarios",
    "Automotive finance and insurance": "Finanzas y seguros automotrices",
    "Gambling": "Juegos de azar",
    "Museums: Nonprofit": "Museos: Sin fines de lucro",
    "Libraries and Archives (Academic)": "Bibliotecas y Archivos (Académico)",
    "Archaeology": "Arqueología",
    "Municipal Government (Library)": "Gobierno Municipal (Biblioteca)",
    "Library/archives": "Biblioteca/archivos",
    "Technical/Cybersecurity": "Ciberseguridad Técnica",
    "Museums": "Museos",
    "Pharmaceutical research": "Investigación farmacéutica",
    "Library": "Biblioteca",
    "Trade Association": "Asociación Comercial",
    "Mining/Resource Extraction": "Minería / Extracción de Recursos",
    "Education Publishing": "Publicación Educativa",
    "Public Health": "Salud Pública",
    "Special Collections Library": "Biblioteca de Colecciones Especiales",
    "Intergovernmental organization": "Organización Intergubernamental",
    "Information services": "Servicios de información",
    "Museum education": "Educación en museos",
    "Food & Beverage production": "Producción de Alimentos y Bebidas",
    "Food and Drink": "Alimentos y Bebidas",
    "Video Games": "Videojuegos",
    "Technical/IT": "Tecnología de la Información",
    "Logistics": "Logística",
    "Government Relations/Lobbying": "Relaciones Gubernamentales/Cabildeo",
    "Heritage": "Patrimonio",
    "Real Estate Corp. Office/not a Realtor": "Oficina Corporativa de Bienes Raíces (no agente inmobiliario)",
    "HRO": "Recursos Humanos y Organización",
    "Publications": "Publicaciones",
    "Information sciences": "Ciencias de la Información",
    "Market research": "Investigación de Mercado",
    "Food and Flavor": "Alimentos y Sabores",
    "Renewable Energy": "Energía Renovable",
    "Pharmaceutical Manufacturing": "Fabricación Farmacéutica",
    "Science/Research": "Ciencia/Investigación",
    "Biotech/pharma": "Biotecnología/Farmacéutica",
    "Research and Development": "Investigación y Desarrollo",
    "Specialist policy consulting/research": "Consultoría especializada en políticas/investigación",
    "Federal Contracting/Business Development": "Contratación Federal/Desarrollo Empresarial",
    "Aerospace and Defense": "Aeroespacial y Defensa",
    "Environmental/Cultural Resource Management": "Gestión de Recursos Ambientales/Culturales",
    "Academia--cell and molecular biology": "Academia - Biología Celular y Molecular",
    "Pharmaceutical R&D": "Investigación y Desarrollo Farmacéutico",
    "Career & Technical Training": "Formación Profesional y Técnica",
    "Trades (Supply Chain) Oil and Gas": "Oficios (Cadena de Suministro) Petróleo y Gas",
    "Wholesale - Apparel": "Venta al por mayor - Ropa",
    "Book publishing": "Publicación de libros",
    "Educational technology": "Tecnología educativa",
    "Business Process Outsourcing": "Externalización de Procesos de Negocios",
    "Manufacturing (pharmaceuticals)": "Manufactura (Farmacéutica)",
    "Book Publishing": "Publicación de Libros",
    "Translation/transcription": "Traducción/Transcripción",
    "Subsidized Seniors Housing": "Vivienda para Adultos Mayores Subvencionada",
    "Environmental sciences": "Ciencias Ambientales",
    "Federal Government Contracting": "Contratación del Gobierno Federal",
    "State DOT": "Departamento de Transporte Estatal",
    "Analytical Chemistry": "Química Analítica",
    "Executive Search": "Búsqueda Ejecutiva",
    "Religion/church": "Religión/Iglesia",
    "Title/Real Estate": "Títulos/Bienes Raíces",
    "Church ministry": "Ministerio Eclesiástico",
    "Compliance": "Cumplimiento Normativo",
    "Database subscription services": "Servicios de suscripción a bases de datos",
    "Corporate sustainability": "Sostenibilidad Corporativa",
    "Oil & gas": "Petróleo y Gas",
    "Childcare": "Cuidado Infantil",
    "Funeral Service": "Servicios Funerarios",
    "Patent translation": "Traducción de Patentes",
    "Real estate": "Bienes raíces",
    "Beauty/service industry": "Industria de la Belleza/Servicios",
    "Warehousing": "Almacenamiento",
    "Product Management": "Gestión de Productos",
    "Consumer Goods Production": "Producción de Bienes de Consumo",
    "Oil and Gas Safety Training": "Capacitación en Seguridad para Petróleo y Gas",
    "Real Estate Development": "Desarrollo de Bienes Raíces",
    "Cosmetology": "Cosmetología",
    "Journalism": "Periodismo",
    "Political Campaigning": "Campañas Políticas",
    "Staffing Industry": "Industria de Reclutamiento",
    "Medical communications": "Comunicación Médica",
    "Pharmaceutical Development": "Desarrollo Farmacéutico",
    "Academic research (social science)": "Investigación Académica (Ciencias Sociales)",
    "Manufacturing/Wholesale": "Manufactura/Venta al por mayor",
    "Research": "Investigación",
    "Medical Communications": "Comunicación Médica",
    "Telecommunications (GPS)": "Telecomunicaciones (GPS)",
    "Food demos": "Demostraciones de Alimentos",
    "Education services (tutoring)": "Servicios Educativos (Tutoría)",
    "Pharmacuticals": "Farmacéutica",
    "Tourism/Heritage -- but for a government building": "Turismo/Patrimonio - en un edificio gubernamental",
    "Scientist": "Científico",
    "Corporate accounting in death care (funeral & cemetery)": "Contabilidad Corporativa en Servicios Funerarios",
    "Academic science": "Ciencia Académica",
    "Legal services": "Servicios Legales",
    "Biotech manufacturing": "Manufactura Biotecnológica",
    "Bioscience Company": "Empresa de Biociencia",
    "Fintech": "Tecnología Financiera (Fintech)",
    "Physical sciences": "Ciencias Físicas",
    "translation": "Traducción",
    "Science/Research (Academia)": "Ciencia/Investigación (Academia)",
    "municipal (public) libraries": "Bibliotecas Municipales (Públicas)",
    "Policy research": "Investigación de Políticas",
}


# Corregir nombres de países y marcar valores incorrectos
#comodin = "Pendiente"
#df["industria_ES"] = df["industria"].apply(lambda x: industrias_dict.get(str(x).strip(), comodin))

In [33]:
#valores_unicos = df.loc[df['industria_ES'] == comodin, 'industria'].dropna().unique()
#print("', '".join(map(str, valores_unicos)))

In [35]:
df.columns

Index(['momento de captura', 'rango de edad', 'industria', 'posicion',
       'descripcion de la posición', 'salario anual',
       'compensaciones extra anuales', 'moneda_x', 'otra moneda_x',
       'contexto adicional', 'pais', 'estado us', 'ciudad',
       'experiencia total', 'experiencia especifica', 'nivel educativo',
       'genero', 'etnia', 'moneda_corregida', 'COP', 'salario_anual COP',
       'compensaciones COP', 'ingreso anual total COP', 'Clave',
       'pais_corregido', 'ciudad_corregido', 'industria_es'],
      dtype='object')

In [39]:
columnas = ['momento de captura', 'rango de edad', 'industria_es', 
       'experiencia total', 'experiencia especifica', 'nivel educativo',
       'genero', 'pais_corregido', 'ciudad_corregido',
       'salario_anual COP', 'compensaciones COP', 'ingreso anual total COP']
df_seleccionado = df[columnas]

In [43]:
# Exportar el DataFrame df a un archivo CSV separado por '|'
df_seleccionado.to_csv("../Data/Processed/dataProcessed.csv", sep='|', index=False, encoding='utf-8')