# PROCESOS ETL

# 1. Lectura de archivos en Python 

<a id="manejo"></a>
## Manejo de archivos en Python

Las principales funciones para el manejo de archivos en python son: `open()`, `close()`, `read()` y `write()`.  

`open()` permite leer y escribir archivos. El primer argumento es el nombre del archivo y el segundo puede tomar los siguientes valores:
* `r`: abre el fichero en modo de solo lectura (modo por defecto)
* `r+`: abre el fichero en modo lectura y escritura
* `w`: abre el fichero en modo de solo escritura
* `a`: abre el fichero para incluir nueva información sobre él 
* `w+` y `a+`: Lectura y escritura (`a+` añade datos al final del archivo mientras que `w+` sobreescribe)


In [1]:
# Abro el fichero archivo.txt, que en caso de no existir, será creado en el directorio actual
f = open("archivo.txt","w")

NOTA: Para conocer el directorio actual, podemos utilizar el comando `pwd`

In [2]:
pwd

'C:\\Users\\rzambrano\\Documents\\THE BRIDGE 2022\\ds_tb_part_21_09\\06 - Productivización\\Procesos ETL'

`write()` 

In [3]:
# Escritura de datos con la función write()
f.write("Texto de prueba")

15

In [4]:
# Cierre del archivo
f.close()

<a id="estru"></a>
## Datos estructurados

Los archivos de datos estructurados consisten principalmente en archivos csv y Excel 

### CSV
Los archivos **CSV** (comma-separated values) contienen información organizada por separadores. La librería pandas permite leer fácilmente este tipo de archivos  
<img src = "https://www.todavianose.com/wp-content/uploads/2018/04/file-icon-csv.png" width=10%>

In [5]:
import pandas as pd

In [9]:
# Leemos el fichero csv_example.csv
datos = pd.read_csv("files/csv_example.csv", delimiter=";", header=None,
                   names=['Fecha','Evento','IdPais','IdUsuario','Fuente','Tema'])
datos.head()

Unnamed: 0,Fecha,Evento,IdPais,IdUsuario,Fuente,Tema
0,2018-01-01 00:01:01,read,country_7,2458151261,SEO,North America
1,2018-01-01 00:03:20,read,country_7,2458151262,SEO,South America
2,2018-01-01 00:04:01,read,country_7,2458151263,AdWords,Africa
3,2018-01-01 00:04:02,read,country_7,2458151264,AdWords,Europe
4,2018-01-01 00:05:03,read,country_8,2458151265,Reddit,North America


Obtén los valores únicos de la columna "Fuente"

In [10]:
datos.Fuente.unique()

array(['SEO', 'AdWords', 'Reddit'], dtype=object)

In [11]:
datos.Fuente.value_counts()

Reddit     949
AdWords    500
SEO        346
Name: Fuente, dtype: int64

### Excel

Para leer archivos Excel, podemos utilizar la función `read_excel()` de la librería pandas. Para ello necesitamos instalar la librería `xlrd`:  
`conda install -c anaconda xlrd`

In [12]:
# Leemos el fichero excel_example.xlsx
usuarios = pd.read_excel('files/excel_example.xlsx')
usuarios.head()

Unnamed: 0,id_user,age
0,2458151261,22
1,2458151262,34
2,2458151263,22
3,2458151264,57
4,2458151265,28


In [13]:
# Unión de dataframes
datos_all = datos.merge(usuarios,left_on='IdUsuario',right_on='id_user')
datos_all.head()

Unnamed: 0,Fecha,Evento,IdPais,IdUsuario,Fuente,Tema,id_user,age
0,2018-01-01 00:01:01,read,country_7,2458151261,SEO,North America,2458151261,22
1,2018-01-01 00:03:20,read,country_7,2458151262,SEO,South America,2458151262,34
2,2018-01-01 00:04:01,read,country_7,2458151263,AdWords,Africa,2458151263,22
3,2018-01-01 00:04:02,read,country_7,2458151264,AdWords,Europe,2458151264,57
4,2018-01-01 00:05:03,read,country_8,2458151265,Reddit,North America,2458151265,28


In [18]:
# Calculamos la edad media en función del Tema
datos_final = datos_all[['Tema','age']].groupby('Tema',as_index=False).agg('mean')
datos_final

Unnamed: 0,Tema,age
0,Africa,42.64
1,Asia,43.11994
2,Australia,43.619835
3,Europe,43.099379
4,North America,44.030675
5,South America,43.688034


In [19]:
# Guardamos el resultado en csv
datos_final.to_csv('datos_final.csv',index=False)

<a id="semi"></a>
## Datos semiestructurados

Los formatos más utilizados son XML y JSON

### XML
El formato **XML** (eXtensible Markup Language) es parecido al HTML, pero es más estructurado.
<img src="https://docs.adaptive-vision.com/current/studio/img/manual/XmlDescription.png">

 Los archivos XML forman una estructura de tipo árbol
<img src="https://www.cdn.geeksforgeeks.org/wp-content/uploads/parsing-XML.gif">


Vamos a leer el archivo XML cd_catalog con la librería `ElementTree`

In [21]:
import xml.etree.ElementTree as ET

Esta librería trata el XML como si fuese un árbol. En este formato de árbol, disponemos de diversos métodos con los que podemos extraer partes del XML. 

* `tag` muestra el texto dentro de la etiqueta
* `attrib` muestra los atributos de la etiqueta
* `text` muestra el texto del nodo
* La función `iter()` permite conocer la estructura del XML
* La función `find()` busca en el XML y devuelve el elemento que coincide con la etiqueta especificada.  
* La función `findall()` devuelve todos los elementos con cierta etiqueta

In [22]:
tree = ET.parse('files/cd_catalog.xml')
raiz = tree.getroot()
print(raiz.tag)

CATALOG


In [23]:
# Para conocer todos los elementos del árbol
for elem in raiz.iter():
    print(elem.tag)

CATALOG
CD
TITLE
ARTIST
COUNTRY
COMPANY
PRICE
YEAR
CD
TITLE
ARTIST
COUNTRY
COMPANY
PRICE
YEAR
CD
TITLE
ARTIST
COUNTRY
COMPANY
PRICE
YEAR
CD
TITLE
ARTIST
COUNTRY
COMPANY
PRICE
YEAR
CD
TITLE
ARTIST
COUNTRY
COMPANY
PRICE
YEAR
CD
TITLE
ARTIST
COUNTRY
COMPANY
PRICE
YEAR
CD
TITLE
ARTIST
COUNTRY
COMPANY
PRICE
YEAR
CD
TITLE
ARTIST
COUNTRY
COMPANY
PRICE
YEAR
CD
TITLE
ARTIST
COUNTRY
COMPANY
PRICE
YEAR
CD
TITLE
ARTIST
COUNTRY
COMPANY
PRICE
YEAR
CD
TITLE
ARTIST
COUNTRY
COMPANY
PRICE
YEAR
CD
TITLE
ARTIST
COUNTRY
COMPANY
PRICE
YEAR
CD
TITLE
ARTIST
COUNTRY
COMPANY
PRICE
YEAR
CD
TITLE
ARTIST
COUNTRY
COMPANY
PRICE
YEAR
CD
TITLE
ARTIST
COUNTRY
COMPANY
PRICE
YEAR
CD
TITLE
ARTIST
COUNTRY
COMPANY
PRICE
YEAR
CD
TITLE
ARTIST
COUNTRY
COMPANY
PRICE
YEAR
CD
TITLE
ARTIST
COUNTRY
COMPANY
PRICE
YEAR
CD
TITLE
ARTIST
COUNTRY
COMPANY
PRICE
YEAR
CD
TITLE
ARTIST
COUNTRY
COMPANY
PRICE
YEAR
CD
TITLE
ARTIST
COUNTRY
COMPANY
PRICE
YEAR
CD
TITLE
ARTIST
COUNTRY
COMPANY
PRICE
YEAR
CD
TITLE
ARTIST
COUNTRY
COMPANY
PRICE
YEAR
CD


In [24]:
for hijo in raiz:
    print(hijo.tag, hijo.attrib)

CD {'id': '1'}
CD {'id': '2'}
CD {'id': '3'}
CD {'id': '4'}
CD {'id': '5'}
CD {'id': '6'}
CD {'id': '7'}
CD {'id': '8'}
CD {'id': '9'}
CD {'id': '10'}
CD {'id': '11'}
CD {'id': '12'}
CD {'id': '13'}
CD {'id': '14'}
CD {'id': '15'}
CD {'id': '16'}
CD {'id': '17'}
CD {'id': '18'}
CD {'id': '19'}
CD {'id': '20'}
CD {'id': '21'}
CD {'id': '22'}
CD {'id': '23'}
CD {'id': '24'}
CD {'id': '25'}
CD {'id': '99'}


In [25]:
lst = tree.findall('CD')
print('Número de registros',len(lst))

Número de registros 26


In [26]:
for item in lst:
    print('Id:', item.attrib['id'])
    print('Título:', item.find('TITLE').text)
    print('Precio:',item.find('PRICE').text)
    print('\r')

Id: 1
Título: Empire Burlesque
Precio: 10.90

Id: 2
Título: Hide your heart
Precio: 9.90

Id: 3
Título: Greatest Hits
Precio: 9.90

Id: 4
Título: Still got the blues
Precio: 10.20

Id: 5
Título: Eros
Precio: 9.90

Id: 6
Título: One night only
Precio: 10.90

Id: 7
Título: Sylvias Mother
Precio: 8.10

Id: 8
Título: Maggie May
Precio: 8.50

Id: 9
Título: Romanza
Precio: 10.80

Id: 10
Título: When a man loves a woman
Precio: 8.70

Id: 11
Título: Black angel
Precio: 10.90

Id: 12
Título: 1999 Grammy Nominees
Precio: 10.20

Id: 13
Título: For the good times
Precio: 8.70

Id: 14
Título: Big Willie style
Precio: 9.90

Id: 15
Título: Tupelo Honey
Precio: 8.20

Id: 16
Título: Soulsville
Precio: 7.90

Id: 17
Título: The very best of
Precio: 8.90

Id: 18
Título: Stop
Precio: 8.90

Id: 19
Título: Bridge of Spies
Precio: 7.90

Id: 20
Título: Private Dancer
Precio: 8.90

Id: 21
Título: Midt om natten
Precio: 7.80

Id: 22
Título: Pavarotti Gala Concert
Precio: 9.90

Id: 23
Título

### <span style="color:red">**Do it yourself**</span> 
Lee el archivo `movies.xml`. ¿Cuál es la estructura del XML en forma de árbol? ¿Cuántas películas hay? ¿Qué generos distintos hay? ¿Cuáles es la película más antigua y la más reciente?

### JSON


**JSON** (JavaScript Object Notation) es un formato para el intercambios de datos. Un objeto json se forma con pares atributo-valor, éstos deben estar encerrados entre llaves { , } que es lo que definen el inicio y el fin del objeto.
Una de las mayores ventajas que tiene el uso de JSON es que puede ser leído por cualquier lenguaje de programación. En Python podemos utilizar la librería `json`, que trata los ficheros como combinaciones de listas y diccionarios

In [46]:
import json

f = open('files/data.json','r')
fichero = f.read()

info = json.loads(fichero)

print('Número de presidentes',len(info))

for item in info:
    print('Nombre',item['nm'])
    print('Partido',item['pp'])
    print('\r')

Número de presidentes 45
Nombre George Washington
Partido None, Federalist

Nombre John Adams
Partido Federalist

Nombre Thomas Jefferson
Partido Democratic-Republican

Nombre James Madison
Partido Democratic-Republican

Nombre James Monroe
Partido Democratic-Republican

Nombre John Quincy Adams
Partido Democratic-Republican

Nombre Andrew Jackson
Partido Democrat

Nombre Martin van Buren
Partido Democrat

Nombre William H. Harrison
Partido Whig

Nombre John Tyler
Partido Whig

Nombre James K. Polk
Partido Democrat

Nombre Zachary Taylor
Partido Whig

Nombre Millard Fillmore
Partido Whig

Nombre Franklin Pierce
Partido Democrat

Nombre James Buchanan
Partido Democrat

Nombre Abraham Lincoln
Partido Republican

Nombre Andrew Johnson
Partido National Union

Nombre Ulysses S. Grant
Partido Republican

Nombre Rutherford Hayes
Partido Republican

Nombre James Garfield
Partido Republican

Nombre Chester Arthur
Partido Republican

Nombre Grover Cleveland
Partido Democrat


In [50]:
pd.DataFrame.from_dict(info)#.to_csv('presidentes.csv',index=False)

Unnamed: 0,id,president,nm,pp,tm
0,1,1,George Washington,"None, Federalist",1789-1797
1,2,2,John Adams,Federalist,1797-1801
2,3,3,Thomas Jefferson,Democratic-Republican,1801-1809
3,4,4,James Madison,Democratic-Republican,1809-1817
4,5,5,James Monroe,Democratic-Republican,1817-1825
5,6,6,John Quincy Adams,Democratic-Republican,1825-1829
6,7,7,Andrew Jackson,Democrat,1829-1837
7,8,8,Martin van Buren,Democrat,1837-1841
8,9,9,William H. Harrison,Whig,1841
9,10,10,John Tyler,Whig,1841-1845


NOTA: Los formatos CSV y JSON/XML son complementarios

<img src='https://aukera.es/blog/imagenes/tabla-codigo.png' width=55%>

Los formatos CSV son en general más compactos que los formatos XML y JSON, siendo esta su principal ventaja. Por otro lado, CSV es el formato menos versátil y no permite crear jerarquías en los datos. Por ejemplo, los siguientes datos contienen jerarquías y es más difícil de plasmar en una tabla:

```json
[
 {
  "student_id":1,
  "age":12,
  "subjects":{
   "mathematics":{
    "scores":[7,8,7,10],
    "final_score":8
   },
   "biology":{
    "scores":[6,6,5,7],
    "final_score":6
   }
  }
 }
]
```

En general, cuando trabajemos con datos tabulares, es recomendable utilizar el formato CSV 

La estructura de un JSON puede ser bastante compleja. Es recomendable el uso de webs como [codebeautify.org](http://codebeautify.org) para representar los JSON en forma de árbol.  

Ejemplo: Accede al príncipe Harry en el archivo `data2.json`

In [61]:
import json

f = open('files/data2.json','r')
fichero = f.read()

info = json.loads(fichero)

info['person']['children'][0]['children'][1]['name']

'Harry'

In [62]:
info

{'person': {'name': 'Elizabeth',
  'children': [{'name': 'Charles',
    'children': [{'name': 'William',
      'children': [{'name': 'George'}, {'name': 'Charlotte'}]},
     {'name': 'Harry'}]}]}}

In [63]:
pd.DataFrame.from_dict(info)

Unnamed: 0,person
children,"[{'name': 'Charles', 'children': [{'name': 'Wi..."
name,Elizabeth


<a id="deses"></a>
## Datos desestructurados

Los datos no estructurados se caracterizan por no tener un formato específico.
Se almacenan en múltiples formatos como documentos PDF o Word, correos electrónicos, ficheros multimedia de imagen, audio o video...

### TXT

In [64]:
text_file = open('files/mbox.txt','r')
lines = text_file.read()
lines



Una forma de procesar cadenas de texto es a través de expresiones regulares. En python podemos utilizar la librería `re` y la función `findall()`
```
BASIC SYNTAX

.             One character except new line
\.            A period. \ escapes a special character.
\d            One digit
\D            One non-digit
\w            One word character including digits
\W            One non-word character
\s            One whitespace
\S            One non-whitespace
\b            Word boundary
\n            Newline
\t            Tab

MODIFIERS

$             End of string
^             Start of string
ab|cd         Matches ab or de.
[ab-d]	    One character of: a, b, c, d
[^ab-d]	   One character except: a, b, c, d
()            Items within parenthesis are retrieved
(a(bc))       Items within the sub-parenthesis are retrieved

REPETITIONS

[ab]{2}       Exactly 2 continuous occurrences of a or b
[ab]{2,5}     2 to 5 continuous occurrences of a or b
[ab]{2,}      2 or more continuous occurrences of a or b
+             One or more
*             Zero or more
?             0 or 1
(?:           group but don't capture
```

In [67]:
import re
pattern = '([a-z0-9]\S*)@(\S*[a-z])'
extract = re.findall(pattern, lines, flags=re.IGNORECASE)
extract

[('stephen.marquard', 'uct.ac.za'),
 ('postmaster', 'collab.sakaiproject.org'),
 ('200801051412.m05ECIaH010327', 'nakamura.uits.iupui.edu'),
 ('source', 'collab.sakaiproject.org'),
 ('source', 'collab.sakaiproject.org'),
 ('source', 'collab.sakaiproject.org'),
 ('apache', 'localhost'),
 ('source', 'collab.sakaiproject.org'),
 ('stephen.marquard', 'uct.ac.za'),
 ('source', 'collab.sakaiproject.org'),
 ('stephen.marquard', 'uct.ac.za'),
 ('stephen.marquard', 'uct.ac.za'),
 ('louis', 'media.berkeley.edu'),
 ('postmaster', 'collab.sakaiproject.org'),
 ('200801042308.m04N8v6O008125', 'nakamura.uits.iupui.edu'),
 ('source', 'collab.sakaiproject.org'),
 ('source', 'collab.sakaiproject.org'),
 ('source', 'collab.sakaiproject.org'),
 ('apache', 'localhost'),
 ('source', 'collab.sakaiproject.org'),
 ('louis', 'media.berkeley.edu'),
 ('source', 'collab.sakaiproject.org'),
 ('louis', 'media.berkeley.edu'),
 ('louis', 'media.berkeley.edu'),
 ('zqian', 'umich.edu'),
 ('postmaster', 'collab.sakaiproj

In [68]:
emails = pd.DataFrame(extract,columns=['nombre','dominio'])
emails

Unnamed: 0,nombre,dominio
0,stephen.marquard,uct.ac.za
1,postmaster,collab.sakaiproject.org
2,200801051412.m05ECIaH010327,nakamura.uits.iupui.edu
3,source,collab.sakaiproject.org
4,source,collab.sakaiproject.org
...,...,...
331,cwen,iupui.edu
332,source,collab.sakaiproject.org
333,cwen,iupui.edu
334,cwen,iupui.edu


In [69]:
emails.dominio.value_counts()

collab.sakaiproject.org                          162
iupui.edu                                         38
umich.edu                                         29
nakamura.uits.iupui.edu                           27
localhost                                         27
uct.ac.za                                         25
media.berkeley.edu                                16
caret.cam.ac.uk                                    4
gmail.com                                          4
david-horwitz-6:~/branchManagemnt/sakai_2-5-x      4
Name: dominio, dtype: int64

### <span style="color:red">**Do it yourself**</span> 
Obtén los valores de confianza y probabilidad de spam con otra expresión regular
```
X-DSPAM-Confidence: 0.8475  
X-DSPAM-Probability: 0.0000
```

Calcula el valor medio

## Amazon Web Services (AWS)

El Amazon Simple Storage Service (S3) es un servicio de almacenamiento de archivos para almacenar y acceder a datos en la infraestructura de AWS.  
Se han almacenado una serie de archivos relacionados con cuotas de apuestas en partidos de fútbol. Nos interesa cargar dichos archivos y unificarlos en una única tabla, con los siguientes campos:

* Partido (*match*)
* Equipo local (*hteam_name*)
* Equipo visitante (*ateam_name*)
* Cuota victoria (*price_oa*)
* Cuota derrota (*price_oh*)
* Casa de apuestas (*bookmaker_name*)

En primer lugar, instalamos la librería `boto3`, que facilita la integración de Python con los servicios de AWS  
```conda install -c anaconda boto3```

In [70]:
import boto3

A continuación, nos conectamos a un recurso de AWS que contiene contenedores (buckets) con datos. Para ello necesitamos un *access key* y un *secret access key*

In [71]:
s3 = boto3.resource('s3',
                    aws_access_key_id='AKIA2PDVAC3FBUO7QUUR',
                    aws_secret_access_key='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')

Podemos listar los buckets disponibles

In [72]:
for bucket in s3.buckets.all():
    print(bucket.name)

ejercicios9
rafabucket9


El bucket de almacenamiento se llama `rafabucket9`

In [73]:
bucket = s3.Bucket('rafabucket9')

Listamos los ficheros dentro del bucket

In [74]:
for file in bucket.objects.all():
    print(file)

s3.ObjectSummary(bucket_name='rafabucket9', key='odds_121676695_2019-08-30_000046317959.json')
s3.ObjectSummary(bucket_name='rafabucket9', key='odds_121676695_2019-08-30_000046384851.json')
s3.ObjectSummary(bucket_name='rafabucket9', key='odds_121676695_2019-08-30_000046586047.json')
s3.ObjectSummary(bucket_name='rafabucket9', key='odds_121676695_2019-08-30_000046839786.json')
s3.ObjectSummary(bucket_name='rafabucket9', key='odds_121676695_2019-08-30_000046886474.json')
s3.ObjectSummary(bucket_name='rafabucket9', key='odds_121676695_2019-08-30_000046931991.json')
s3.ObjectSummary(bucket_name='rafabucket9', key='odds_121676695_2019-08-30_000047175143.json')
s3.ObjectSummary(bucket_name='rafabucket9', key='odds_121676695_2019-08-30_000047220912.json')
s3.ObjectSummary(bucket_name='rafabucket9', key='odds_121676695_2019-08-30_000047266442.json')
s3.ObjectSummary(bucket_name='rafabucket9', key='odds_121676695_2019-08-30_000047494534.json')
s3.ObjectSummary(bucket_name='rafabucket9', key='o

In [77]:
# Leemos uno de los ficheros: odds_121676695_2019-08-30_000046317959.json
file_content = bucket.Object('odds_121676695_2019-08-30_000046317959.json').get()['Body'].read().decode('utf-8')
print(file_content)

{"hc": true, "price_od": -0.25, "group_name_2": "FBSPA Segunda Divisi\u00f3n > Regular Season-19", "offer_lastupdate": 1567116039, "ateam_id": 8694, "hteam_id": 1010, "unified": false, "source": "ahc", "match": "Almeria v Huesca", "match_lastupdate": 1567084019, "cls": -0.25, "group_name": "FBSPA", "offer_inrunning": 0, "ts": 1567116037, "bookmaker_name": "victor", "hteam_name_2": "Almeria", "key": "ahc.22.5661535.FT - Asian Handicap.-0.25", "sport_id": 1, "match_live": "true", "price_oh": 2.1100000000000003, "competition_id": 12, "match_id": 1676695, "hteam_name": "Almeria", "key2": "ahc.5661535.FT - Asian Handicap.-0.25", "hteam_name_ch": "\u827e\u7f8e\u5229\u4e9e", "competition_name": "Segunda Divisi\u00f3n", "bookmaker_id": 22, "offer_isturn": 0, "ateam_name": "Huesca", "match_txid": 5661535, "source_id": 2, "offer_market": 0, "group_id": 1052, "ateam_name_ch": "\u4faf\u723e\u65af\u5361", "push_ts": 1567116039, "offer_ot": "FT - Asian Handicap", "offer_lineid": 1, "offer_bmoid": 0,

In [78]:
type(file_content)

str

In [80]:
import json
json_content = json.loads(file_content)
print(json_content)

{'hc': True, 'price_od': -0.25, 'group_name_2': 'FBSPA Segunda División > Regular Season-19', 'offer_lastupdate': 1567116039, 'ateam_id': 8694, 'hteam_id': 1010, 'unified': False, 'source': 'ahc', 'match': 'Almeria v Huesca', 'match_lastupdate': 1567084019, 'cls': -0.25, 'group_name': 'FBSPA', 'offer_inrunning': 0, 'ts': 1567116037, 'bookmaker_name': 'victor', 'hteam_name_2': 'Almeria', 'key': 'ahc.22.5661535.FT - Asian Handicap.-0.25', 'sport_id': 1, 'match_live': 'true', 'price_oh': 2.1100000000000003, 'competition_id': 12, 'match_id': 1676695, 'hteam_name': 'Almeria', 'key2': 'ahc.5661535.FT - Asian Handicap.-0.25', 'hteam_name_ch': '艾美利亞', 'competition_name': 'Segunda División', 'bookmaker_id': 22, 'offer_isturn': 0, 'ateam_name': 'Huesca', 'match_txid': 5661535, 'source_id': 2, 'offer_market': 0, 'group_id': 1052, 'ateam_name_ch': '侯爾斯卡', 'push_ts': 1567116039, 'offer_ot': 'FT - Asian Handicap', 'offer_lineid': 1, 'offer_bmoid': 0, 'offer_ts': 1567116, 'offer_id': 16766950220331, 

In [81]:
type(json_content)

dict

In [85]:
pd.DataFrame.from_dict([json_content])[['match','hteam_name','ateam_name','price_oa','price_oh','bookmaker_name']]

Unnamed: 0,match,hteam_name,ateam_name,price_oa,price_oh,bookmaker_name
0,Almeria v Huesca,Almeria,Huesca,1.8,2.11,victor


Creamos un dataframe con todos los archivos

In [86]:
df = pd.DataFrame()

for file in bucket.objects.all():
    file_content = file.get()['Body'].read().decode('utf-8')
    json_content = json.loads(file_content)
    dfaux = pd.DataFrame.from_dict([json_content])[['match','hteam_name','ateam_name','price_oa','price_oh','bookmaker_name']]
    df = pd.concat([df,dfaux],axis=0)

In [87]:
df

Unnamed: 0,match,hteam_name,ateam_name,price_oa,price_oh,bookmaker_name
0,Almeria v Huesca,Almeria,Huesca,1.80,2.11,victor
0,Almeria v Huesca,Almeria,Huesca,0.00,0.00,victor
0,Almeria v Huesca,Almeria,Huesca,0.00,0.00,victor
0,Almeria v Huesca,Almeria,Huesca,1.60,2.44,victor
0,Almeria v Huesca,Almeria,Huesca,0.00,0.00,victor
...,...,...,...,...,...,...
0,Almeria v Huesca,Almeria,Huesca,3.08,2.76,BETDAQ
0,Almeria v Huesca,Almeria,Huesca,3.00,2.70,BETDAQ
0,Almeria v Huesca,Almeria,Huesca,2.43,3.88,BETDAQ
0,Almeria v Huesca,Almeria,Huesca,3.00,2.70,BETDAQ


### <span style="color:red">**Do it yourself**</span> 
Filtra el dataframe anterior para que las cuotas sean distintas de cero y calcula la cota media por cada partido y casa de apuestas. Subir el resultado al bucket `ejercicios9` en formato csv, poniendo tu nombre al fichero. Primero, guarda el dataframe a csv en local utilizando la función `to_csv()` de la librería pandas, y a continuación sube el fichero al storage utilizando la función `s3.meta.client.upload_file(Filename,Bucket,Key)`  

<a id="ftp"></a>
## FTP

FTP (*File Transfer Protocol*) es un protocolo que permite traspasar archivos online. En Python, podemos utilizar FTP con la librería `ftplib`. Vamos a conectarnos a un servidor FTP utilizando la función `FTP()`, cuyos argumentos son:  
* Nombre del servidor: `f31-preview.runhosting.com` 
* Usuario:  `4009006_DATOS`
* Contraseña: `Rafa9999`

In [88]:
import ftplib

In [90]:
ftp = ftplib.FTP('f31-preview.runhosting.com','4009006_DATOS','Rafa9999')

In [91]:
ftp.dir()

drwxr-xr-x   2 4009006_DATOS 1111           61 Dec 16 12:05 .
drwxr-xr-x   2 4009006_DATOS 1111           61 Dec 16 12:05 ..
-rw-r--r--   1 4009006_DATOS 1111        33182 Dec 16 12:05 books.xml
-rw-r--r--   1 4009006_DATOS 1111         3841 Dec 16 12:05 colors.json
-rw-r--r--   1 4009006_DATOS 1111       763509 Dec 17 08:40 OptaF24.xml


In [92]:
# Descargamos el archivo colors.json
filename = 'colors.json'
ftp.retrbinary("RETR " + filename, open(filename,'wb').write)

'226 Transfer complete'

In [94]:
import json
f = open('colors.json','r').read()
colores = json.loads(f)
colores

{'aliceblue': '#f0f8ff',
 'antiquewhite': '#faebd7',
 'aqua': '#00ffff',
 'aquamarine': '#7fffd4',
 'azure': '#f0ffff',
 'beige': '#f5f5dc',
 'bisque': '#ffe4c4',
 'black': '#000000',
 'blanchedalmond': '#ffebcd',
 'blue': '#0000ff',
 'blueviolet': '#8a2be2',
 'brown': '#a52a2a',
 'burlywood': '#deb887',
 'cadetblue': '#5f9ea0',
 'chartreuse': '#7fff00',
 'chocolate': '#d2691e',
 'coral': '#ff7f50',
 'cornflowerblue': '#6495ed',
 'cornsilk': '#fff8dc',
 'crimson': '#dc143c',
 'cyan': '#00ffff',
 'darkblue': '#00008b',
 'darkcyan': '#008b8b',
 'darkgoldenrod': '#b8860b',
 'darkgray': '#a9a9a9',
 'darkgreen': '#006400',
 'darkgrey': '#a9a9a9',
 'darkkhaki': '#bdb76b',
 'darkmagenta': '#8b008b',
 'darkolivegreen': '#556b2f',
 'darkorange': '#ff8c00',
 'darkorchid': '#9932cc',
 'darkred': '#8b0000',
 'darksalmon': '#e9967a',
 'darkseagreen': '#8fbc8f',
 'darkslateblue': '#483d8b',
 'darkslategray': '#2f4f4f',
 'darkslategrey': '#2f4f4f',
 'darkturquoise': '#00ced1',
 'darkviolet': '#9400d3

In [95]:
colores_df = pd.DataFrame(colores.items(),columns=['color','code'])
colores_df

Unnamed: 0,color,code
0,aliceblue,#f0f8ff
1,antiquewhite,#faebd7
2,aqua,#00ffff
3,aquamarine,#7fffd4
4,azure,#f0ffff
...,...,...
143,wheat,#f5deb3
144,white,#ffffff
145,whitesmoke,#f5f5f5
146,yellow,#ffff00


In [96]:
colores_df.style.applymap(lambda x:"background-color: %s"%x, subset=['code'])

Unnamed: 0,color,code
0,aliceblue,#f0f8ff
1,antiquewhite,#faebd7
2,aqua,#00ffff
3,aquamarine,#7fffd4
4,azure,#f0ffff
5,beige,#f5f5dc
6,bisque,#ffe4c4
7,black,#000000
8,blanchedalmond,#ffebcd
9,blue,#0000ff


In [97]:
ftp.quit()

'221 Goodbye.'

Otras funciones:  
`FTP.getwelcome()` – Obtiene el mensaje de bienvenida.  
`FTP.mkd(ruta)` – Crea un directorio, se le pasa como argumento de entrada la ruta.  
`FTP.rmd(ruta)` – Elimina el directorio que le pasemos.  
`FTP.delete(fichero)` – Elimina el fichero que le pasamos como parámetro de entrada.  
`FTP.pwd()` – (Print Working Directory) Devuelve el directorio actual donde se encuentra.  
`FTP.cwd(ruta)` – (Change Working Directory) Cambia de directorio.  
`FTP.dir(ruta)` – Devuelve un listado de directorios.  
`FTP.nlst(ruta)` – Devuelve un listado con los nombres de arcivo del directorio.  
`FTP.size(archivo)` – Devuelve el tamaño del fichero que le pasamos.  
`FTP.rename(oringen, destino)` – Renombra un fichero.  

# 2. Acceso a Bases de Datos

Encuentra las cinco ciudades asiáticas más pobladas a partir de la siguiente base de datos. ¿Cuál es el idioma más hablado en cada una de ellas? 
Almacena el resultado en una base de datos SQLite llamada `Chinorris`

In [None]:
import pymysql
database_host = "relational.fit.cvut.cz"
username = "guest"
password = "relational"
database_name = "world"

db = pymysql.connect(host=database_host,
                             user=username,
                             password=password,
                             database=database_name)

<a id="nosql"></a>
## Bases de datos NoSQL (MongoDB)

Las principales diferencias entre SQL y MongoDB son las siguientes: 
<img src='http://4.bp.blogspot.com/-edz2_QrFvCE/UnzBhKZE3FI/AAAAAAAAAEs/bTEsqnZFTXw/s1600/SQL-MongoDB+Correspondence.PNG'>

Vamos a conectarnos a una base de datos en MongoDB, para lo cual debemos instalar las siguientes librerías:  
`pip install pymongo[srv]`  
`pip install dnspython`

In [None]:
client = MongoClient("mongodb+srv://rzl2:rzl123@cluster0.a0ju2.mongodb.net/sample_airbnb?retryWrites=true&w=majority",
                    ssl_cert_reqs=ssl.CERT_NONE)

Nos conectamos a la base de datos [Sample Airbnb](https://docs.atlas.mongodb.com/sample-data/sample-airbnb/). Esta base de datos contiene una única colección llamada listingsAndReviews, que contiene documentos representando detalles de viviendas turísticas en airbnb.


In [None]:
# Contamos los documentos


Para hacer queries se utiliza el método `find()`

Filtramos viviendas con 2 baños y 3 dormitorios, con alguna review

Puedes encontrar más documentación sobre la librería `pymongo` en https://api.mongodb.com/python/current/

# 3. Web Scrapping 

### Frecuencia de las palabras de un discurso  
Vamos a obtener la frecuencia de las palabras del siguiente discurso: https://elpais.com/internacional/2018/01/31/actualidad/1517387619_036241.html

In [None]:
import ssl
ssl._create_default_https_context = ssl._create_unverified_context

### <span style="color:red">**Do it yourself**</span> 

Implementar un crawler de la web http://www-math.mit.edu/~gs/ de dos niveles.
Para ello:
1) Extrae todos los hipervínculos de la web e imprímelos por pantalla  
2) Accede a cada uno de ellos y vuelve a extraer los nuevos hipervínculos, imprimiéndolos también por pantalla.


# 4. APIs

<a id="wea"></a>
## API de OpenWeather

Esta API permite obtener información climática. Puedes encontrar la documentación en https://openweathermap.org/api.   
Para obtener la API key hay que registrar un email válido, al cual será enviada la clave.  

Vamos a obtener la predicción de velocidad del viento para una ciudad a través de [esta API](https://openweathermap.org/forecast5)

In [None]:
import urllib.request
import json

api_key = '3886d5996f84c5b9a5c953b027fc2306'
