# Creación .csv con info recibida de las empresas
## Intro
#### Vamos a eliminar cierta información que los gpts nos han generado en nuestros .csv hasta ahora.

#### Si bien la hemos utilizado para validar procesos como la varieadd de tecnologías en la creación de ofertas o la identificación de tecnologías mediante un GPT asistente, no siempre nos vendrán identificadas las skills tecnológicas en las ofertas laborales.

#### Plataformas como Infojobs, facilitan esta información.

<img src="../recursos/img_tecnologias_solicitadas_infojobs.png" width="70%"></img>



#### Otras como Linkedin o las propias ofertas laborales de las páginas web de las empresas son simples textos, por lo que hay que extraer la información y clasificarla ya que pueden haber ofertas hablando de la misma tecnología pero llamarla de forma diferente.

<img src="../recursos/img_desc_oferta_pagina_web_empresa.png" width="70%"></img>

---
---


## Importamos librerías y configuraciones

In [1]:
import pandas as pd

%load_ext autoreload
%autoreload 2

## Leemos todos los archivos y generamos los nuevos con los cambios que queremos

In [2]:
import os

def obtener_nombres_csv(ruta):
    """
    Obtiene una lista con los nombres de todos los archivos .csv en la ruta dada.

    Parámetros:
        ruta (str): La ruta del directorio donde buscar los archivos .csv.

    Retorna:
        list: Una lista con los nombres de los archivos .csv encontrados.
    """
    try:
        # Lista para almacenar los nombres de los archivos .csv
        nombres_csv = []

        # Recorrer todos los archivos en la ruta
        for archivo in os.listdir(ruta):
            # Verificar si el archivo tiene extensión .csv
            if archivo.endswith('.csv'):
                nombres_csv.append(archivo)
        
        return nombres_csv
    except FileNotFoundError:
        print("La ruta especificada no existe.")
        return []
    except Exception as e:
        print(f"Ha ocurrido un error: {e}")
        return []

# Ruta del directorio donde buscar los archivos .csv
ruta_directorio = "../datos/sintetizadores_datos/datos_generados/"

# Obtener la lista de nombres de archivos .csv
nombres_archivos = obtener_nombres_csv(ruta_directorio)

# Mostrar la lista de nombres
print("Archivos .csv encontrados:")
for nombre in nombres_archivos:
    print(nombre)


Archivos .csv encontrados:
ofertas_data_analyst.csv
ofertas_data_engineer.csv
ofertas_data_scientist.csv
ofertas_seguridad_privacy_data.csv


In [4]:
for nombre_archivo in nombres_archivos:

    df = pd.read_csv(f'../datos/sintetizadores_datos/datos_generados/{nombre_archivo}')

    # eliminamos los valores de la columna 'Skills'
    df['Skills'] = ""

    # creamos la columna de 'cat_identificada'
    df['cat_identificada'] = ""

    # guardamos los datos en el nuevo directorio
    df.to_csv(f'../datos/datos_recibidos_empresa/{nombre_archivo}', index=False)