In [2]:
# Importar dependencias
# La librería JSON permite abrir y guardar archivos en formato JSON
import json
# Sklearn cuenta con una herramienta para dividir un dataset
# en un subconjunto de entrenamiento y un subconjunto de evaluación
# Ambos, son importantes para el trabajo con aprendizaje automatico
from sklearn.model_selection import train_test_split
# os es una librería propia de Python que permite precesar archivos
import os
import subprocess
import zipfile
# La librería TQDM permite integrar barras de progreso en estructuras repetitivas for
from tqdm.auto import tqdm
# La librería shutil tiene implementaciones optimizadas para trabajar con archivos
import shutil
# La librería random permite crear números aleatorios
import random
# La librería OpenCV contiene funciones y algoritmos para procesar imágenes y video
import cv2
import pandas as pd
from matplotlib import pyplot as plt
import kaggle


In [20]:
# Revisar librerías instaladas en PIP y guardarlas en el archivo requirements.txt: pip freeze > requirements.txt
# Instalar librerías desde un archivo requirements.txt: pip install -R requirements.txt
pip freeze > requirements.txt

Note: you may need to restart the kernel to use updated packages.


In [3]:
# Comprobar si el conjunto de datos ya se ha descargado
if not os.path.exists('./dataset'):
  # Crear una nueva carpeta
  os.makedirs('dataset')
else:
  # Reemplazar carpeta previamente descargada
  !del dataset
  os.makedirs('dataset')

In [5]:
# Descargar un dataset desde Kaggle
!kaggle datasets download -d tawsifurrahman/covid19-radiography-database/ -p dataset/covid_19_radiography

Downloading covid19-radiography-database.zip to dataset/covid_19_radiography




  0%|          | 0.00/778M [00:00<?, ?B/s]
  0%|          | 1.00M/778M [00:00<07:19, 1.85MB/s]
  0%|          | 3.00M/778M [00:00<03:57, 3.43MB/s]
  1%|          | 5.00M/778M [00:01<02:47, 4.83MB/s]
  1%|          | 6.00M/778M [00:01<02:41, 5.01MB/s]
  1%|1         | 8.00M/778M [00:01<01:49, 7.40MB/s]
  1%|1         | 10.0M/778M [00:01<02:07, 6.30MB/s]
  2%|1         | 14.0M/778M [00:02<01:12, 11.1MB/s]
  2%|2         | 16.0M/778M [00:02<01:12, 11.0MB/s]
  2%|2         | 18.0M/778M [00:02<01:11, 11.1MB/s]
  3%|2         | 20.0M/778M [00:02<01:21, 9.73MB/s]
  3%|2         | 22.0M/778M [00:02<01:10, 11.3MB/s]
  3%|3         | 24.0M/778M [00:03<01:12, 10.9MB/s]
  3%|3         | 26.0M/778M [00:03<01:12, 10.9MB/s]
  4%|3         | 28.0M/778M [00:03<01:13, 10.8MB/s]
  4%|3         | 30.0M/778M [00:03<01:17, 10.1MB/s]
  4%|4         | 32.0M/778M [00:03<01:13, 10.7MB/s]
  4%|4         | 34.0M/778M [00:04<01:36, 8.09MB/s]
  5%|4         | 38.0M/778M [00:04<01:32, 8.36MB/s]
  6%|5         | 43.

In [8]:
# Ruta del archivo ZIP a descomprimir
archivo_zip = './dataset/covid_19_radiography/covid19-radiography-database.zip'

# Ruta donde se desea descomprimir el archivo
ruta_descomprimida = './dataset/covid_19_radiography/'

# Descomprimir el archivo ZIP
with zipfile.ZipFile(archivo_zip, 'r') as zip_ref:
    zip_ref.extractall(ruta_descomprimida)

In [9]:
# Eliminar el archivo ZIP
os.remove(archivo_zip)

## Iniciar Git

In [10]:
!git init

Initialized empty Git repository in C:/Users/USER/OneDrive/MaestrÃ­a/Ciencia de Datos/Modulo2_Fundamentos_de_la_ingenierÃ­a_del_Software/FinalProject/.git/


In [15]:
# Agregaremos un archivo .gitignore para que nos ayude a ignorar la carpeta dataset
# la cual debe ser controlada por DVC y no por Git
!echo dataset > .gitignore

In [16]:
!git add .



In [17]:
!git commit -m "Inicio del Proyecto"

[master (root-commit) 59f0d9c] Inicio del Proyecto
 3 files changed, 755 insertions(+)
 create mode 100644 .gitignore
 create mode 100644 .ipynb_checkpoints/code-checkpoint.ipynb
 create mode 100644 code.ipynb


In [18]:
!git remote add origin git@github.com:jwnior15/Module2Project.git

In [19]:
!git push origin master

remote: 
remote: Create a pull request for 'master' on GitHub by visiting:        
remote:      https://github.com/jwnior15/Module2Project/pull/new/master        
remote: 
To github.com:jwnior15/Module2Project.git
 * [new branch]      master -> master


In [21]:
# Inicializar repositorio
!dvc init

Initialized DVC repository.

You can now commit the changes to git.

+---------------------------------------------------------------------+
|                                                                     |
|        DVC has enabled anonymous aggregate usage analytics.         |
|     Read the analytics documentation (and how to opt-out) here:     |
|             <https://dvc.org/doc/user-guide/analytics>              |
|                                                                     |
+---------------------------------------------------------------------+

What's next?
------------
- Check out the documentation: <https://dvc.org/doc>
- Get help and share ideas: <https://dvc.org/chat>
- Star us on GitHub: <https://github.com/iterative/dvc>


In [22]:
# Añadir la carpeta con los datos al repositorio dvc con el comando
!dvc add dataset


To track the changes with git, run:

	git add dataset.dvc

To enable auto staging, run:

	dvc config core.autostage true


\u280b Checking graph



In [23]:
# Agregar un repositorio remoto por defecto en la carpeta con codigo 0AIac4JZqHhKmUk9PDA en Google Drive
# Este codigo (ID) es parte de la url de nuestra carpeta en GDrive
!dvc remote add --default -f myremote gdrive://1dxoGvnoD2xv2TRxxobHEANtWbIAMoAD5

Setting 'myremote' as a default remote.


In [24]:
# Evitar errores de seguridad
!dvc remote modify myremote gdrive_acknowledge_abuse true

In [None]:
# Sincronizar nuestro dataset
!dvc push

Usaremos `git` para crear una nueva versión del dataset. `git` guardará los archivos específicos de `dvc` del commit con el tag determinado.

In [None]:
!git add .
!git commit -m "Añadiendo DVC"
!git tag -a v0 -m "Version 0"
!git push origin master --tags

En este punto, cualquiera con acceso al repositorio de `git` y con las credenciales necesarias de `Gdrive` podrá acceder al dataset y a todas sus versiones de manera sencilla y remota para usarlo para entrenar modelos o modificarlo y crear nuevas versiones. Simplemente, usando el siguiente comando: