# Creación del repositorio

Uno de los primeros pasos a seguir cuando se va a generar o transformar un dataset es crear un repositorio en el que subiremos la documentación del proceso realizado, los scripts empleados y demás piezas de código empleadas para el estudio. Por eso, en este trabajo vamos a inicializar un repositorio de GitHub siguiendo las siguientes instrucciones.

1. Vamos a seleccionar una licencia adecuada, si no está en la listas de licencias de GitHub, podemos introducirla manualmente creando un archivo `LICENSE` en el repositorio.

    *En este caso, para el código del repositorio hemos decidido emplear la licencia [CC BY-NC 4.0](https://creativecommons.org/licenses/by-nc/4.0/legalcode.en), que permite la reutilización y transformación de los datos para fines no comerciales, siempre que se atribuya adecuadamente la fuente original. El principal motivo para elegir esta licencia es que es material didáctico creado para la clase y no queremos que se pueda utilizar con fines comerciales, aunque esta decisión responde a una preferencia personal.*
    
    *Sin embargo, para el dataset no podemos modificar la licencia original asignada por los autores. Por lo tanto, cuando subamos nuestra transformación del dataset al repositorio digital, la licencia que debemos seleccionar será la misma que tiene el dataset original, y debemos cumplir con todas sus condiciones.* 
    **NUNCA PODRÁ HABER DOS LICENCIAS DIFERENTES PARA UN MISMO COMPONENTE**

![image.png](attachment:cbaaa70a-4399-4075-b481-9fcc6dbebee8.png)

2. Vamos a generar la estructura de carpetas del repositorio para mantener un orden y poder gestionar mejor los diferentes componentes de este trabajo. 
    
    *En este estudio, vamos a estructurar el repositorio de la siguiente forma:*
    
    ``` bash
    /dataset-publication-tutorial
    │
    ├── /src             # Carpeta para introducir diferentes scripts.
    │
    ├── /data            # Carpeta para guardar los datasets.
    │
    ├── /docs            # Carpeta para guardar la documentación (en caso de que fuera necesario).
    │
    ├── README.md        # Fichero markdown que debe incluir la información necesaria para la ejecución del código.
    │
    └── LICENSE          # Licencia del código del repositorio. IMPRESCINDIBLE.
    ```

![image.png](attachment:ecf398b3-d6d0-4b9a-ac5a-5398bb759077.png)


3. Es importante crear un archivo `.gitignore`, GitHub ofrece varios templates y se pueden encontrar cientos por internet. 
    *En este caso hemos empleado el por defecto de Python de GitHub, que evitara que subamos archivos innecesarios a nuestro repositorio.*
    
    *Pero además, para evitar subir los datasets al repositorio GitHub es IMPORTANTÍSIMO modificar este archivo `.gitignore` para añadir al final `data/`. De esta manera, evitaremos que cualquier fichero en esa carpeta se suba a GitHub. Es indispensable hacer commit & push después de editar este fichero.*

![image.png](attachment:b258b013-d35b-42fd-bcc3-380b0904f653.png)

4. Ahora que todo está listo, lo recomendable para comenzar con el trabajo es crear un entorno virtual propio para este estudio. De esta forma facilitaremos la reproducibilidad porque podremos incluir ficheros como `requirements.txt` (pip) o ` environment.yml` (conda) con todos los paquetes necesarios para ejecutar los scripts, generar los datos y reproducir el estudio.

    *En este caso emplearemos un entorno de conda que podrá ser recreado por cualquier usuario ejecutando:*
    ```bash
    
    conda env create -f environment.yml
    
    ```