# Universidad Libre - Seccional Cali<br>Facultad de Ingeniería - Diplomado en Ciencia de Datos<br>(ↄ) Diego Fernando Marin, 2024

# 00_descargas
Plantilla para el desarrollo del proyecto del diplomado de Ciencia de Datos, aplicando buenas prácticas.

---

Este cuaderno representa el primer paso crucial en nuestro proceso de ciencia de datos: la obtención y almacenamiento de datos crudos. El principio fundamental aquí es preservar los datos en su estado original, sin modificaciones, para garantizar la reproducibilidad del análisis y mantener una referencia histórica confiable.

**Propósito:** Establecer el punto de partida del análisis mediante la recopilación y almacenamiento de datos crudos de múltiples fuentes, manteniendo la integridad y trazabilidad de la información original.

**Tareas habituales:**
- Configuración de conexiones a bases de datos SQL y ejecución de consultas
- Implementación de web scraping para extracción de datos de páginas web
- Desarrollo de scripts RPA (Robotic Process Automation) para automatizar descargas
- Autenticación y descarga de datos desde APIs
- Verificación de integridad de archivos descargados
- Documentación de fuentes, timestamps y métodos de obtención
- Establecimiento de estructura de carpetas para datos crudos
- Implementación de control de versiones para datos cuando sea aplicable

In [None]:
import os

In [None]:
cwd = os.getcwd() # current working directory
raw_dir = cwd + '/../data/raw/' # aquí deben quedar los archivos 'crudos'

In [None]:
os.listdir(raw_dir)

['2022', '2024', '2023', '.ipynb_checkpoints']

## Datos se descargan desde Internet

- descargar con los comandos [`wget`](https://www.gnu.org/software/wget/manual/wget.html) o [`curl`](https://curl.se/docs/manpage.html) en sistemas POSIX, o [`iwr`](https://learn.microsoft.com/en-us/powershell/module/microsoft.powershell.utility/invoke-webrequest) si utilizan PowerShell.
- usando la librería [requests](https://requests.readthedocs.io/en/latest/) o alguna otra herramienta _automática_ disponible.

In [None]:
# con wget:
!wget -O ../data/raw/delitos.csv 'https://www.datos.gov.co/api/views/4p95-h82w/rows.csv?date=20231111&accessType=DOWNLOAD'

--2024-11-29 18:42:38--  https://www.datos.gov.co/api/views/4p95-h82w/rows.csv?date=20231111&accessType=DOWNLOAD
Resolving www.datos.gov.co (www.datos.gov.co)... 52.206.68.26, 52.206.140.199, 52.206.140.205
Connecting to www.datos.gov.co (www.datos.gov.co)|52.206.68.26|:443... connected.
HTTP request sent, awaiting response... 200 OK
Length: unspecified [text/csv]
Saving to: ‘../data/raw/delitos.csv’

../data/raw/delitos     [ <=>                ]  77.36K  --.-KB/s    in 0.07s   

2024-11-29 18:42:39 (1.13 MB/s) - ‘../data/raw/delitos.csv’ saved [79218]



In [None]:
!curl -o ../data/raw/movies.zip https://paste.c-net.org/DoormanBuckaroo

  % Total    % Received % Xferd  Average Speed   Time    Time     Time  Current
                                 Dload  Upload   Total   Spent    Left  Speed
100 5930k  100 5930k    0     0  1772k      0  0:00:03  0:00:03 --:--:-- 1771k     0 --:--:-- --:--:-- --:--:--     0


In [None]:
!ls -l ../data/raw/

total 13864
drwxr-xr-x@  4 dfmarin  staff      128 May  4  2024 [1m[36m2022[m[m
drwxr-xr-x@ 14 dfmarin  staff      448 May  4  2024 [1m[36m2023[m[m
drwxr-xr-x@  5 dfmarin  staff      160 May  4  2024 [1m[36m2024[m[m
-rw-r--r--@  1 dfmarin  staff    79218 Feb 26  2024 delitos.csv
-rw-r--r--@  1 dfmarin  staff  6072700 Nov 29 18:42 movies.zip


## datos comprimidos (`.zip`, `.rar`, `.tgz`, etc.):

- descomprimir usando los comandos [`unzip`](https://infozip.sourceforge.net/), [`unrar`](https://ioflood.com/blog/install-unrar-command-linux/), [`7z`](https://axelstudios.github.io/7z/), etc.
- asegurarse que los archivos están organizados como se necesitan.

In [None]:
# con unzip:
!unzip ../data/raw/movies.zip -d ../data/raw/

Archive:  ../data/raw/movies.zip
  inflating: ../data/raw/movies.json  


In [None]:
!ls -l ../data/raw/

total 64296
drwxr-xr-x@  4 dfmarin  staff       128 May  4  2024 [1m[36m2022[m[m
drwxr-xr-x@ 14 dfmarin  staff       448 May  4  2024 [1m[36m2023[m[m
drwxr-xr-x@  5 dfmarin  staff       160 May  4  2024 [1m[36m2024[m[m
-rw-r--r--@  1 dfmarin  staff     79218 Feb 26  2024 delitos.csv
-rw-r--r--@  1 dfmarin  staff  25818047 May  5  2023 movies.json
-rw-r--r--@  1 dfmarin  staff   6072700 Nov 29 18:42 movies.zip


## datos extraidos con _WebScraping_

- usando librerías como [Beautiful Soup](https://www.crummy.com/software/BeautifulSoup/bs4/doc/) o [Scrapy](https://scrapy.org/)

In [None]:
import pandas as pd
import requests
from lxml import html
from bs4 import BeautifulSoup

In [None]:
# descargar la página web y crear el objeto BS4
def get_bs4(url):
    # consultamos la pagina y guardamos el HTML
    response = requests.get(url)
    html = response.text
    # parseamos el HTML con BS4
    return BeautifulSoup(html, 'html.parser')

In [None]:
# descargamos el HTML y creamos un objeto BS4
bs = get_bs4('https://webscraper.io/test-sites/e-commerce/allinone/computers/laptops')

In [None]:
# seleccionamos solo las DIVs de los datos que queremos
divs = bs.find_all(class_='caption')

In [None]:
# Peliculas en cartelera
productos = list()
# recorre cada DIV para extraer los datos
for div in divs:
    productos.append({
        'nombre': div.find(class_='title')['title'],
        'precio': div.find(class_='price').text,
        'descripcion': div.find(class_='description').text
    })

In [None]:
len(productos)

117

In [None]:
# resultado
productos[:5]

[{'nombre': 'Asus VivoBook X441NA-GA190',
  'precio': '$295.99',
  'descripcion': 'Asus VivoBook X441NA-GA190 Chocolate Black, 14", Celeron N3450, 4GB, 128GB SSD, Endless OS, ENG kbd'},
 {'nombre': 'Prestigio SmartBook 133S Dark Grey',
  'precio': '$299',
  'descripcion': 'Prestigio SmartBook 133S Dark Grey, 13.3" FHD IPS, Celeron N3350 1.1GHz, 4GB, 32GB, Windows 10 Pro + Office 365 1 gadam'},
 {'nombre': 'Prestigio SmartBook 133S Gold',
  'precio': '$299',
  'descripcion': 'Prestigio SmartBook 133S Gold, 13.3" FHD IPS, Celeron N3350 1.1GHz, 4GB, 32GB, Windows 10 Pro + Office 365 1 gadam'},
 {'nombre': 'Aspire E1-510',
  'precio': '$306.99',
  'descripcion': '15.6", Pentium N3520 2.16GHz, 4GB, 500GB, Linux'},
 {'nombre': 'Lenovo V110-15IAP',
  'precio': '$321.94',
  'descripcion': 'Lenovo V110-15IAP, 15.6" HD, Celeron N3350 1.1GHz, 4GB, 128GB SSD, Windows 10 Home'}]

## datos en una base de datos

- usando el método [`read_sql_query()`](https://pandas.pydata.org/docs/reference/api/pandas.read_sql_query.html) de Pandas
- usando la librería propia del motor de base de datos, Ej: [postgresql](https://www.psycopg.org/) [Demo](https://rnacentral.org/help/public-database)
- usando la librería ODBC [pyodbc](https://github.com/mkleehammer/pyodbc/wiki)


In [None]:
# PANDAS
import pandas as pd

In [None]:
# String de conexión
conn_string = "postgresql://reader:NWDMCE5xdipIjRrp@hh-pgsql-public.ebi.ac.uk:5432/pfmegrnargs"

In [None]:
# Ejemplo de consulta
query = "SELECT * FROM rnc_database"

In [None]:
# dejar que Pandas realice el trabajo
df = pd.read_sql_query(query, conn_string)

In [None]:
# Mostrar el DataFrame
df.head()

Unnamed: 0,id,timestamp,userstamp,descr,current_release,full_descr,alive,for_release,display_name,project_id,avg_length,min_length,max_length,num_sequences,num_organisms,description,url,example,reference
0,1,2017-05-01 00:00:00.000000,RNACEN,ENA,884,ENA,Y,,ENA,,412.0,10.0,900074.0,12086180,814855,provides a comprehensive record of the world's...,https://www.ebi.ac.uk/ena/browser/,"[{'upi': 'URS00002D0E0C', 'taxid': 10090}, {'u...",[{'title': 'The European Nucleotide Archive in...
1,5,2017-05-17 00:00:00.000000,RNACEN,VEGA,98,VEGA,N,,VEGA,PRJEB4568,,,,0,0,is a repository for high-quality gene models p...,http://vega.sanger.ac.uk/,"[{'upi': 'URS00000B15DA', 'taxid': 9606}, {'up...",[{'title': 'The GENCODE v7 catalog of human lo...
2,26,2017-05-01 00:00:00.000000,RNACEN,GENCODE,450,GENCODE,N,,GENCODE,,889.0,32.0,205012.0,47677,2,produces high quality reference gene annotatio...,http://gencodegenes.org/,"[{'upi': 'URS00000B15DA', 'taxid': 9606}, {'up...",[{'title': 'GENCODE: the reference human genom...
3,55,2023-10-10 15:02:45.191606,RNACEN,MGNIFY,839,MGnify,Y,,MGnify,,151.0,27.0,3514.0,135924,1929,,,,
4,41,2017-05-01 00:00:00.000000,RNACEN,GENECARDS,867,MalaCards,Y,,GeneCards,,1298.0,16.0,347561.0,517673,1,"is a searchable, integrative database that pro...",https://www.genecards.org/,"[{'upi': 'URS0000EBFCE3', 'taxid': 9606}, {'up...",[{'title': 'The GeneCards Suite: From Gene Dat...


In [None]:
df.shape

(55, 19)

In [None]:
df.to_csv('../data/raw/rnc_database.csv')

In [None]:
# Conexión Directa con la librería propia de la base de datos
import psycopg2

In [None]:
# String de conexión
conn_string = "host='hh-pgsql-public.ebi.ac.uk' dbname='pfmegrnargs' user='reader' password='NWDMCE5xdipIjRrp'"

In [None]:
# Ejemplo de consulta
query = "SELECT * FROM rnc_database"

In [None]:
try:
    conn = psycopg2.connect(conn_string)
    cursor = conn.cursor()
    cursor.execute(query)
    resultados = cursor.fetchall()
    cursor.close()
    conn.close()
except (Exception, psycopg2.DatabaseError) as error:
    print(error)

In [None]:
# Imprimir los resultados
resultados[:5]

[(1,
  datetime.datetime(2017, 5, 1, 0, 0),
  'RNACEN',
  'ENA',
  884,
  'ENA',
  'Y',
  ' ',
  'ENA',
  '',
  412,
  10,
  900074,
  12086180,
  814855,
  "provides a comprehensive record of the world's nucleotide sequencing information",
  'https://www.ebi.ac.uk/ena/browser/',
  [{'upi': 'URS00002D0E0C', 'taxid': 10090},
   {'upi': 'URS000035EE7E', 'taxid': 9606},
   {'upi': 'URS0000000001', 'taxid': 77133}],
  [{'title': 'The European Nucleotide Archive in 2017',
    'authors': 'Silvester et al.',
    'journal': 'Nucleic Acids Res. 2017',
    'pubmed_id': '29140475'}]),
 (5,
  datetime.datetime(2017, 5, 17, 0, 0),
  'RNACEN',
  'VEGA',
  98,
  'VEGA',
  'N',
  ' ',
  'VEGA',
  'PRJEB4568',
  None,
  None,
  None,
  0,
  0,
  'is a repository for high-quality gene models produced by the manual annotation of vertebrate genomes. Human and mouse data from Vega are merged into <a href="http://www.gencodegenes.org/" target="_blank">GENCODE</a>',
  'http://vega.sanger.ac.uk/',
  [{'upi': 

## datos obtenidos con un RPA

- usando las herramientas [Selenium](https://www.selenium.dev/), [Robot Framework](https://robotframework.org/) o Automation Anywhere