# SET UP

## CREAR EL ENTORNO PARA EL PROYECTO

Crear un nuevo entorno e instalar los paquetes básicos:

1. Ir al prompt o terminal
2. Copiar y poner la línea inferior:

conda create --name proyecto1 python numpy pandas matplotlib seaborn scikit-learn scipy sqlalchemy xgboost jupyter

3. Activar el nuevo entorno:

conda activate proyecto1

4. Instalar los paquetes que están en otros canales:

conda install -c conda-forge pyjanitor scikit-plot yellowbrick imbalanced-learn jupyter_contrib_nbextensions cloudpickle

conda install -c districtdatalabs yellowbrick

pip install category_encoders

5. Crear el environment.yml

conda env export > proyecto1.yml

*Nota: es posible que te lo haya creado en C:\Users\tu_usuario, más adelante moveremos este archivo al directorio del proyecto*

## IMPORTAR PAQUETES

In [1]:
import os
import numpy as np
import pandas as pd

#Automcompletar rápido
%config IPCompleter.greedy=True

## CREAR EL DIRECTORIO DEL PROYECTO

### Definir el directorio raiz donde vamos a crear el proyecto

In [2]:
raiz = 'C:\\Users\\Usuario\\miniconda3\\SAI Dia '

### Definir el nombre del proyecto

In [3]:
nombre_dir = 'FBS'

### Crear el directorio y la estructura del proyecto

In [4]:
path = raiz + nombre_dir

try:
    os.mkdir(path)
    os.mkdir(path + '/01_Documentos')
    os.mkdir(path + '/02_Datos')
    os.mkdir(path + '/02_Datos/01_Originales')
    os.mkdir(path + '/02_Datos/02_Validacion')
    os.mkdir(path + '/02_Datos/03_Trabajo')
    os.mkdir(path + '/02_Datos/04_Caches')
    os.mkdir(path + '/03_Notebooks')
    os.mkdir(path + '/03_Notebooks/01_Funciones')
    os.mkdir(path + '/03_Notebooks/02_Desarrollo')
    os.mkdir(path + '/03_Notebooks/03_Sistema')
    os.mkdir(path + '/04_Modelos')
    os.mkdir(path + '/05_Resultados')
    os.mkdir(path + '/09_Otros')
    
except OSError:
    print ("La creación del directorio %s ha fallado" % path)
else:
    print ("Se ha creado satisfactoriamente el directorio %s " % path)

La creación del directorio C:\Users\Usuario\miniconda3\SAI Dia FBS ha fallado


### Situar el directorio de trabajo en el proyecto

In [5]:
os.chdir(path)

In [6]:
os.listdir(path)

['01_Documentos',
 '02_Datos',
 '03_Notebooks',
 '04_Modelos',
 '05_Resultados',
 '09_Otros']

### Mover el environment.yml

Buscar manualmente el archivo proyecto1.yml, que posiblemente lo haya ubicado en C:\Users\tu_usuario y moverlo a la carpeta /01_Documentos'

## CREAR LOS DATASETS INICIALES

Poner los datos originales en la carpeta '/02_Datos/01_Originales'

### Importar los datos

Sustituir el nombre_fichero_datos.

In [7]:
nombre_fichero_datos = 'ofertas_empleo.csv'

Cargar los datos.

In [8]:
ruta_completa = path + '/02_Datos/01_Originales/' + nombre_fichero_datos

datos = pd.read_csv(ruta_completa, sep=';')
datos

Unnamed: 0.1,Unnamed: 0,ID,LINK,CNO,TITULO OFERTA,DETALLE OFERTA,FIN OFERTA,EMPRESA OFERTA,CABECERA
0,0,1765454317,https://www.empleate.gob.es/empleo/#/oferta/17...,7312,Oficial de primera soldador para soto del real...,"Transfesa Logistics, multinacional de logístic...",24/03/2022,TRANSFESA LOGISTICS,Metal/mecánica -\r\nSoldadura/calderería/chapa...
1,1,1763261290,https://www.empleate.gob.es/empleo/#/oferta/17...,3329,Gerocultor/a,"Aseo e higiene, alimentación, cambios postural...",2022-08-02 00:00:00,"Intercentros Ballesol, S.A",Salud/deporte -\r\nEnfermería\r\nTécnicos De L...
2,2,1765787917,https://www.empleate.gob.es/empleo/#/oferta/17...,4500,Auxiliar administrativa recepcionista,Atención presencial: acogida y orientación de ...,31/03/2022,IRITEB SL,Salud/deporte -\r\nFisioterapia/deporte/manten...
3,3,1764206303,https://www.empleate.gob.es/empleo/#/oferta/17...,2923,Traductor italiano,Nozama Solutions somos la plataforma de gestió...,28/02/2022,Nozama Solutions,Administración -\r\nAdministrativos\r\nFilólog...
4,4,1763217793,https://www.empleate.gob.es/empleo/#/oferta/17...,5220,Se necesita ayudante de dependienta,Horario partido de comercio en centro Madrid,2022-07-02 00:00:00,Fritos El Cisne SL,Agricultura/jardinería/alimentación -\r\nConse...
...,...,...,...,...,...,...,...,...,...
11785,11785,1764647727,https://www.empleate.gob.es/empleo/#/oferta/17...,CNO no informado,Work/location,EYTON ES UNA MULTINACIONAL FRANCESA LÍDER ESPE...,2022-08-03 00:00:00,,Dependientes/información -\r\nTeleoperadores\r...
11786,11786,1764696417,https://www.empleate.gob.es/empleo/#/oferta/17...,CNO no informado,Work/location,ESDE BARNALABOR MARTORELL SELECCIONAMOS PARA M...,2022-09-03 00:00:00,,Construcción -\r\nGrúas/excavadoras/maquinaria...
11787,11787,1756654345,https://www.empleate.gob.es/empleo/#/oferta/17...,5812,"Esteticista,manicurista","Se requiere Esteticista,manicurista",14/09/2021,,Peluquería/estética -\r\nEstética\r\nEspeciali...
11788,11788,1764696096,https://www.empleate.gob.es/empleo/#/oferta/17...,8432,Conductores-operadores de camión volquete,SE BUSCA CONDUCTOR CAMIÓN / SECTOR CONSTRUCCIÓ...,2022-02-03 00:00:00,,Construcción -\r\nGrúas/excavadoras/maquinaria...


### Extraer y reservar el dataset de validación

In [9]:
val= datos.sample(frac = 0.3)

In [10]:
nombre_fichero_validacion = 'validacion.csv'

ruta_completa = path + '/02_Datos/02_Validacion/' + nombre_fichero_validacion

val.to_csv(ruta_completa)

### Extraer y guardar el dataset de trabajo

In [11]:
trabajo = datos.loc[~datos.index.isin(val.index)]

In [12]:
nombre_fichero_trabajo = 'trabajo.csv'

ruta_completa = path + '/02_Datos/03_Trabajo/' + nombre_fichero_trabajo

trabajo.to_csv(ruta_completa)