# PROCESOS ETL

# 1. Lectura de archivos en Python 

<a id="manejo"></a>
## Manejo de archivos en Python

Las principales funciones para el manejo de archivos en python son: `open()`, `close()`, `read()` y `write()`.  

`open()` permite leer y escribir archivos. El primer argumento es el nombre del archivo y el segundo puede tomar los siguientes valores:
* `r`: abre el fichero en modo de solo lectura (modo por defecto)
* `r+`: abre el fichero en modo lectura y escritura
* `w`: abre el fichero en modo de solo escritura
* `a`: abre el fichero para incluir nueva información sobre él 
* `w+` y `a+`: Lectura y escritura (`a+` añade datos al final del archivo mientras que `w+` sobreescribe)


In [None]:
# Abro el fichero archivo.txt, que en caso de no existir, será creado en el directorio actual


NOTA: Para conocer el directorio actual, podemos utilizar el comando `pwd`

`write()` 

In [None]:
# Escritura de datos con la función write()


In [None]:
# Cierre del archivo


<a id="estru"></a>
## Datos estructurados

Los archivos de datos estructurados consisten principalmente en archivos csv y Excel 

### CSV
Los archivos **CSV** (comma-separated values) contienen información organizada por separadores. La librería pandas permite leer fácilmente este tipo de archivos  
<img src = "https://www.todavianose.com/wp-content/uploads/2018/04/file-icon-csv.png" width=10%>

In [None]:
# Leemos el fichero csv_example.csv


Obtén los valores únicos de la columna "Fuente"

### Excel

Para leer archivos Excel, podemos utilizar la función `read_excel()` de la librería pandas. Para ello necesitamos instalar la librería `xlrd`:  
`conda install -c anaconda xlrd`

In [None]:
# Leemos el fichero excel_example.xlsx


In [None]:
# Unión de dataframes


In [None]:
# Calculamos la edad media en función del Tema


In [None]:
# Guardamos el resultado en csv


<a id="semi"></a>
## Datos semiestructurados

Los formatos más utilizados son XML y JSON

### XML
El formato **XML** (eXtensible Markup Language) es parecido al HTML, pero es más estructurado.
<img src="https://docs.adaptive-vision.com/current/studio/img/manual/XmlDescription.png">

 Los archivos XML forman una estructura de tipo árbol
<img src="https://www.cdn.geeksforgeeks.org/wp-content/uploads/parsing-XML.gif">


Vamos a leer el archivo XML cd_catalog con la librería `ElementTree`

Esta librería trata el XML como si fuese un árbol. En este formato de árbol, disponemos de diversos métodos con los que podemos extraer partes del XML. 

* `tag` muestra el texto dentro de la etiqueta
* `attrib` muestra los atributos de la etiqueta
* `text` muestra el texto del nodo
* La función `iter()` permite conocer la estructura del XML
* La función `find()` busca en el XML y devuelve el elemento que coincide con la etiqueta especificada.  
* La función `findall()` devuelve todos los elementos con cierta etiqueta

In [None]:
# Para conocer todos los elementos del árbol


### <span style="color:red">**Do it yourself**</span> 
Lee el archivo `movies.xml`. ¿Cuál es la estructura del XML en forma de árbol? ¿Cuántas películas hay? ¿Qué generos distintos hay? ¿Cuáles es la película más antigua y la más reciente?

### JSON


**JSON** (JavaScript Object Notation) es un formato para el intercambios de datos. Un objeto json se forma con pares atributo-valor, éstos deben estar encerrados entre llaves { , } que es lo que definen el inicio y el fin del objeto.
Una de las mayores ventajas que tiene el uso de JSON es que puede ser leído por cualquier lenguaje de programación. En Python podemos utilizar la librería `json`, que trata los ficheros como combinaciones de listas y diccionarios

### <span style="color:red">**Do it yourself**</span> 
Filtra el dataframe anterior para que las cuotas sean distintas de cero y calcula la cota media por cada partido y casa de apuestas. Subir el resultado al bucket `ejercicios9` en formato csv, poniendo tu nombre al fichero. Primero, guarda el dataframe a csv en local utilizando la función `to_csv()` de la librería pandas, y a continuación sube el fichero al storage utilizando la función `s3.meta.client.upload_file(Filename,Bucket,Key)`  

NOTA: Los formatos CSV y JSON/XML son complementarios

<img src='https://aukera.es/blog/imagenes/tabla-codigo.png' width=55%>

Los formatos CSV son en general más compactos que los formatos XML y JSON, siendo esta su principal ventaja. Por otro lado, CSV es el formato menos versátil y no permite crear jerarquías en los datos. Por ejemplo, los siguientes datos contienen jerarquías y es más difícil de plasmar en una tabla:

```json
[
 {
  "student_id":1,
  "age":12,
  "subjects":{
   "mathematics":{
    "scores":[7,8,7,10],
    "final_score":8
   },
   "biology":{
    "scores":[6,6,5,7],
    "final_score":6
   }
  }
 }
]
```

En general, cuando trabajemos con datos tabulares, es recomendable utilizar el formato CSV 

La estructura de un JSON puede ser bastante compleja. Es recomendable el uso de webs como [codebeautify.org](http://codebeautify.org) para representar los JSON en forma de árbol.  

Ejemplo: Accede al príncipe Harry en el archivo `data2.json`

<a id="deses"></a>
## Datos desestructurados

Los datos no estructurados se caracterizan por no tener un formato específico.
Se almacenan en múltiples formatos como documentos PDF o Word, correos electrónicos, ficheros multimedia de imagen, audio o video...

### TXT

Una forma de procesar cadenas de texto es a través de expresiones regulares. En python podemos utilizar la librería `re` y la función `findall()`
```
BASIC SYNTAX

.             One character except new line
\.            A period. \ escapes a special character.
\d            One digit
\D            One non-digit
\w            One word character including digits
\W            One non-word character
\s            One whitespace
\S            One non-whitespace
\b            Word boundary
\n            Newline
\t            Tab

MODIFIERS

$             End of string
^             Start of string
ab|cd         Matches ab or de.
[ab-d]	    One character of: a, b, c, d
[^ab-d]	   One character except: a, b, c, d
()            Items within parenthesis are retrieved
(a(bc))       Items within the sub-parenthesis are retrieved

REPETITIONS

[ab]{2}       Exactly 2 continuous occurrences of a or b
[ab]{2,5}     2 to 5 continuous occurrences of a or b
[ab]{2,}      2 or more continuous occurrences of a or b
+             One or more
*             Zero or more
?             0 or 1
(?:           group but don't capture
```

### <span style="color:red">**Do it yourself**</span> 
Obtén los valores de confianza y probabilidad de spam con otra expresión regular
```
X-DSPAM-Confidence: 0.8475  
X-DSPAM-Probability: 0.0000
```

Calcula el valor medio

## Amazon Web Services (AWS)

El Amazon Simple Storage Service (S3) es un servicio de almacenamiento de archivos para almacenar y acceder a datos en la infraestructura de AWS.  
Se han almacenado una serie de archivos relacionados con cuotas de apuestas en partidos de fútbol. Nos interesa cargar dichos archivos y unificarlos en una única tabla, con los siguientes campos:

* Partido (*match*)
* Equipo local (*hteam_name*)
* Equipo visitante (*ateam_name*)
* Cuota victoria (*price_oa*)
* Cuota derrota (*price_oh*)
* Casa de apuestas (*bookmaker_name*)

En primer lugar, instalamos la librería `boto3`, que facilita la integración de Python con los servicios de AWS  
```conda install -c anaconda boto3```

A continuación, nos conectamos a un recurso de AWS que contiene contenedores (buckets) con datos. Para ello necesitamos un *access key* y un *secret access key*

In [None]:
s3 = boto3.resource('s3',
                    aws_access_key_id='AKIA2PDVAC3FBUO7QUUR',
                    aws_secret_access_key='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')

Podemos listar los buckets disponibles

El bucket de almacenamiento se llama `rafabucket9`

Listamos los ficheros dentro del bucket

In [None]:
# Leemos uno de los ficheros: odds_121676695_2019-08-30_000046317959.json


Creamos un dataframe con todos los archivos

### <span style="color:red">**Do it yourself**</span> 
Filtra el dataframe anterior para que las cuotas sean distintas de cero y calcula la cota media por cada partido y casa de apuestas. Subir el resultado al bucket `ejercicios9` en formato csv, poniendo tu nombre al fichero. Primero, guarda el dataframe a csv en local utilizando la función `to_csv()` de la librería pandas, y a continuación sube el fichero al storage utilizando la función `s3.meta.client.upload_file(Filename,Bucket,Key)`  

<a id="ftp"></a>
## FTP

FTP (*File Transfer Protocol*) es un protocolo que permite traspasar archivos online. En Python, podemos utilizar FTP con la librería `ftplib`. Vamos a conectarnos a un servidor FTP utilizando la función `FTP()`, cuyos argumentos son:  
* Nombre del servidor: `f25-preview.runhosting.com` 
* Usuario:  `4009006_DATOS`
* Contraseña: `Rafa9999`

In [None]:
# Descargamos el archivo colors.json


Otras funciones:  
`FTP.getwelcome()` – Obtiene el mensaje de bienvenida.  
`FTP.mkd(ruta)` – Crea un directorio, se le pasa como argumento de entrada la ruta.  
`FTP.rmd(ruta)` – Elimina el directorio que le pasemos.  
`FTP.delete(fichero)` – Elimina el fichero que le pasamos como parámetro de entrada.  
`FTP.pwd()` – (Print Working Directory) Devuelve el directorio actual donde se encuentra.  
`FTP.cwd(ruta)` – (Change Working Directory) Cambia de directorio.  
`FTP.dir(ruta)` – Devuelve un listado de directorios.  
`FTP.nlst(ruta)` – Devuelve un listado con los nombres de arcivo del directorio.  
`FTP.size(archivo)` – Devuelve el tamaño del fichero que le pasamos.  
`FTP.rename(oringen, destino)` – Renombra un fichero.  

# 2. Acceso a Bases de Datos

Encuentra las cinco ciudades asiáticas más pobladas a partir de la siguiente base de datos. ¿Cuál es el idioma más hablado en cada una de ellas? 
Almacena el resultado en una base de datos SQLite llamada `Chinorris`

In [None]:
import pymysql
database_host = "relational.fit.cvut.cz"
username = "guest"
password = "relational"
database_name = "world"

db = pymysql.connect(host=database_host,
                             user=username,
                             password=password,
                             database=database_name)

<a id="nosql"></a>
## Bases de datos NoSQL (MongoDB)

Las principales diferencias entre SQL y MongoDB son las siguientes: 
<img src='http://4.bp.blogspot.com/-edz2_QrFvCE/UnzBhKZE3FI/AAAAAAAAAEs/bTEsqnZFTXw/s1600/SQL-MongoDB+Correspondence.PNG'>

Vamos a conectarnos a una base de datos en MongoDB, para lo cual debemos instalar las siguientes librerías:  
`pip install pymongo[srv]`  
`pip install dnspython`

In [None]:
client = MongoClient("mongodb+srv://rzl2:rzl123@cluster0.a0ju2.mongodb.net/sample_airbnb?retryWrites=true&w=majority",
                    ssl_cert_reqs=ssl.CERT_NONE)

Nos conectamos a la base de datos [Sample Airbnb](https://docs.atlas.mongodb.com/sample-data/sample-airbnb/). Esta base de datos contiene una única colección llamada listingsAndReviews, que contiene documentos representando detalles de viviendas turísticas en airbnb.


In [None]:
# Contamos los documentos


Para hacer queries se utiliza el método `find()`

Filtramos viviendas con 2 baños y 3 dormitorios, con alguna review

Puedes encontrar más documentación sobre la librería `pymongo` en https://api.mongodb.com/python/current/

# 3. Web Scrapping 

### Frecuencia de las palabras de un discurso  
Vamos a obtener la frecuencia de las palabras del siguiente discurso: https://elpais.com/internacional/2018/01/31/actualidad/1517387619_036241.html

In [None]:
import ssl
ssl._create_default_https_context = ssl._create_unverified_context

### <span style="color:red">**Do it yourself**</span> 

Implementar un crawler de la web http://www-math.mit.edu/~gs/ de dos niveles.
Para ello:
1) Extrae todos los hipervínculos de la web e imprímelos por pantalla  
2) Accede a cada uno de ellos y vuelve a extraer los nuevos hipervínculos, imprimiéndolos también por pantalla.


# 4. APIs

<a id="wea"></a>
## API de OpenWeather

Esta API permite obtener información climática. Puedes encontrar la documentación en https://openweathermap.org/api.   
Para obtener la API key hay que registrar un email válido, al cual será enviada la clave.  

Vamos a obtener la predicción de velocidad del viento para una ciudad a través de [esta API](https://openweathermap.org/forecast5)

In [None]:
import urllib.request
import json

api_key = '3886d5996f84c5b9a5c953b027fc2306'
