# Lectura de archivos en Python 

## Índice
1. [Manejo de archivos en Python](#manejo)
2. [Datos estructurados](#estru)
3. [Datos semiestructurados](#semi)
4. [Datos desestructurados](#deses)
5. [Amazon Web Services](#cloud)
6. [FTP](#ftp)

<a id="manejo"></a>
## Manejo de archivos en Python

Las principales funciones para el manejo de archivos en python son: `open()`, `close()`, `read()` y `write()`.  

`open()` permite leer y escribir archivos. El primer argumento es el nombre del archivo y el segundo puede tomar los siguientes valores:
* `r`: abre el fichero en modo de solo lectura (modo por defecto)
* `r+`: abre el fichero en modo lectura y escritura
* `w`: abre el fichero en modo de solo escritura
* `a`: abre el fichero para incluir nueva información sobre él 
* `w+` y `a+`: Lectura y escritura (`a+` añade datos al final del archivo mientras que `w+` sobreescribe)


In [3]:
# Abro el fichero archivo.txt, que en caso de no existir, será creado en el directorio actual
f = open('archivo.txt', 'w')

NOTA: Para conocer el directorio actual, podemos utilizar el comando `pwd`

In [4]:
import os
os.getcwd()

'C:\\Users\\Victor\\Documents\\Data-Science-The-Bridge\\Data_Science_The_Bridge\\02-Data_analysis\\02-Procesos ETL\\01-Ficheros'

`write()` 

In [5]:
# Escritura de datos con la función write()
f.write('Texto de prueba') # En el out me devuelve los caracteres introducidos

15

In [6]:
# Cierre del archivo
f.close()

<a id="estru"></a>
## Datos estructurados

Los archivos de datos estructurados consisten principalmente en archivos csv y Excel 

### CSV
Los archivos **CSV** (comma-separated values) contienen información organizada por separadores. La librería pandas permite leer fácilmente este tipo de archivos  
<img src = "https://www.todavianose.com/wp-content/uploads/2018/04/file-icon-csv.png" width=10%>

In [7]:
import pandas as pd

In [13]:
# Leemos el fichero csv_example.csv
# datos = pd.read_csv('files/csv_example.csv') No separa las columnas
# Con sep=';' se lo indico

#datos = pd.read_csv('files/csv_example.csv', sep=';')

# Me ha cogido la primera fila como cabecera
# Lo arreglo con header= None
#datos = pd.read_csv('files/csv_example.csv', sep=';', header= None)
# Ahora tengo que poner nombre a las columnas
datos = pd.read_csv('files/csv_example.csv', sep=';', header= None,
                   names = ['Fecha','Evento','IdPais','IdUsuario','Fuente','Tema','id_user','age'])

datos.head()

Unnamed: 0,Fecha,Evento,IdPais,IdUsuario,Fuente,Tema,id_user,age
0,2018-01-01 00:01:01,read,country_7,2458151261,SEO,North America,,
1,2018-01-01 00:03:20,read,country_7,2458151262,SEO,South America,,
2,2018-01-01 00:04:01,read,country_7,2458151263,AdWords,Africa,,
3,2018-01-01 00:04:02,read,country_7,2458151264,AdWords,Europe,,
4,2018-01-01 00:05:03,read,country_8,2458151265,Reddit,North America,,


Podemos conocer los valores únicos de una columna con la función `unique()`

In [14]:
datos.Fuente.unique()

array(['SEO', 'AdWords', 'Reddit'], dtype=object)

### Excel

Para leer archivos Excel, podemos utilizar la función `read_excel()` de la librería pandas. Para ello necesitamos instalar las librerías:
* xlrd:  `conda install -c anaconda xlrd`
* openpyxl: `conda install -c anaconda openpyxl`


In [15]:
# Leemos el fichero excel_example.xlsx
usuarios = pd.read_excel('files/excel_example.xlsx')
usuarios.head()

Unnamed: 0,id_user,age
0,2458151261,22
1,2458151262,34
2,2458151263,22
3,2458151264,57
4,2458151265,28


In [16]:
# Unión de dataframes
datos_all = datos.merge(usuarios, left_on='IdUsuario', right_on='id_user')

datos_all.head()

Unnamed: 0,Fecha,Evento,IdPais,IdUsuario,Fuente,Tema,id_user_x,age_x,id_user_y,age_y
0,2018-01-01 00:01:01,read,country_7,2458151261,SEO,North America,,,2458151261,22
1,2018-01-01 00:03:20,read,country_7,2458151262,SEO,South America,,,2458151262,34
2,2018-01-01 00:04:01,read,country_7,2458151263,AdWords,Africa,,,2458151263,22
3,2018-01-01 00:04:02,read,country_7,2458151264,AdWords,Europe,,,2458151264,57
4,2018-01-01 00:05:03,read,country_8,2458151265,Reddit,North America,,,2458151265,28


In [18]:
# Calculamos la edad media en función del Tema
edad_media = datos_all[['Tema','age_y']].groupby('Tema', as_index=False).agg('mean')
edad_media

Unnamed: 0,Tema,age_y
0,Africa,42.64
1,Asia,43.11994
2,Australia,43.619835
3,Europe,43.099379
4,North America,44.030675
5,South America,43.688034


In [19]:
# Guardamos el resultado en csv
edad_media.to_csv('edad_media.csv', index=False)

<a id="semi"></a>
## Datos semiestructurados

Los formatos más utilizados son XML y JSON

### XML
El formato **XML** (eXtensible Markup Language) es parecido al HTML, pero es más estructurado.
<img src="https://docs.adaptive-vision.com/current/studio/img/manual/XmlDescription.png">

 Los archivos XML forman una estructura de tipo árbol
<img src="https://www.cdn.geeksforgeeks.org/wp-content/uploads/parsing-XML.gif">


Vamos a leer el archivo XML cd_catalog con la librería `ElementTree`

In [20]:
import xml.etree.ElementTree as ET

Esta librería trata el XML como si fuese un árbol. En este formato de árbol, disponemos de diversos métodos con los que podemos extraer partes del XML. 

* `tag` muestra el texto dentro de la etiqueta
* `attrib` muestra los atributos de la etiqueta
* `text` muestra el texto del nodo
* La función `iter()` permite conocer la estructura del XML
* La función `find()` busca en el XML y devuelve el elemento que coincide con la etiqueta especificada.  
* La función `findall()` devuelve todos los elementos con cierta etiqueta

In [22]:
tree = ET.parse('files/cd_catalog.xml')
raiz = tree.getroot()
raiz.tag

'CATALOG'

In [23]:
# Para conocer todos los elementos del árbol
for elem in raiz.iter():
    print(elem.tag)

CATALOG
CD
TITLE
ARTIST
COUNTRY
COMPANY
PRICE
YEAR
CD
TITLE
ARTIST
COUNTRY
COMPANY
PRICE
YEAR
CD
TITLE
ARTIST
COUNTRY
COMPANY
PRICE
YEAR
CD
TITLE
ARTIST
COUNTRY
COMPANY
PRICE
YEAR
CD
TITLE
ARTIST
COUNTRY
COMPANY
PRICE
YEAR
CD
TITLE
ARTIST
COUNTRY
COMPANY
PRICE
YEAR
CD
TITLE
ARTIST
COUNTRY
COMPANY
PRICE
YEAR
CD
TITLE
ARTIST
COUNTRY
COMPANY
PRICE
YEAR
CD
TITLE
ARTIST
COUNTRY
COMPANY
PRICE
YEAR
CD
TITLE
ARTIST
COUNTRY
COMPANY
PRICE
YEAR
CD
TITLE
ARTIST
COUNTRY
COMPANY
PRICE
YEAR
CD
TITLE
ARTIST
COUNTRY
COMPANY
PRICE
YEAR
CD
TITLE
ARTIST
COUNTRY
COMPANY
PRICE
YEAR
CD
TITLE
ARTIST
COUNTRY
COMPANY
PRICE
YEAR
CD
TITLE
ARTIST
COUNTRY
COMPANY
PRICE
YEAR
CD
TITLE
ARTIST
COUNTRY
COMPANY
PRICE
YEAR
CD
TITLE
ARTIST
COUNTRY
COMPANY
PRICE
YEAR
CD
TITLE
ARTIST
COUNTRY
COMPANY
PRICE
YEAR
CD
TITLE
ARTIST
COUNTRY
COMPANY
PRICE
YEAR
CD
TITLE
ARTIST
COUNTRY
COMPANY
PRICE
YEAR
CD
TITLE
ARTIST
COUNTRY
COMPANY
PRICE
YEAR
CD
TITLE
ARTIST
COUNTRY
COMPANY
PRICE
YEAR
CD
TITLE
ARTIST
COUNTRY
COMPANY
PRICE
YEAR
CD


In [24]:
for hijo in raiz:
    print(hijo.tag, hijo.attrib)

CD {'id': '1'}
CD {'id': '2'}
CD {'id': '3'}
CD {'id': '4'}
CD {'id': '5'}
CD {'id': '6'}
CD {'id': '7'}
CD {'id': '8'}
CD {'id': '9'}
CD {'id': '10'}
CD {'id': '11'}
CD {'id': '12'}
CD {'id': '13'}
CD {'id': '14'}
CD {'id': '15'}
CD {'id': '16'}
CD {'id': '17'}
CD {'id': '18'}
CD {'id': '19'}
CD {'id': '20'}
CD {'id': '21'}
CD {'id': '22'}
CD {'id': '23'}
CD {'id': '24'}
CD {'id': '25'}
CD {'id': '99'}


In [25]:
lst = tree.findall('CD')
print('Numero de registros:', len(lst))

Numero de registros: 26


In [26]:
for item in lst:
    print('Id:', item.attrib['id'])
    print('Titulo:', item.find('TITLE').text)
    print('Artista:', item.find('ARTIST').text)
    print('Precio:', item.find('PRICE').text)
    print('\r')


Id: 1
Titulo: Empire Burlesque
Artista: Bob Dylan
Precio: 10.90

Id: 2
Titulo: Hide your heart
Artista: Bonnie Tyler
Precio: 9.90

Id: 3
Titulo: Greatest Hits
Artista: Dolly Parton
Precio: 9.90

Id: 4
Titulo: Still got the blues
Artista: Gary Moore
Precio: 10.20

Id: 5
Titulo: Eros
Artista: Eros Ramazzotti
Precio: 9.90

Id: 6
Titulo: One night only
Artista: Bee Gees
Precio: 10.90

Id: 7
Titulo: Sylvias Mother
Artista: Dr.Hook
Precio: 8.10

Id: 8
Titulo: Maggie May
Artista: Rod Stewart
Precio: 8.50

Id: 9
Titulo: Romanza
Artista: Andrea Bocelli
Precio: 10.80

Id: 10
Titulo: When a man loves a woman
Artista: Percy Sledge
Precio: 8.70

Id: 11
Titulo: Black angel
Artista: Savage Rose
Precio: 10.90

Id: 12
Titulo: 1999 Grammy Nominees
Artista: Many
Precio: 10.20

Id: 13
Titulo: For the good times
Artista: Kenny Rogers
Precio: 8.70

Id: 14
Titulo: Big Willie style
Artista: Will Smith
Precio: 9.90

Id: 15
Titulo: Tupelo Honey
Artista: Van Morrison
Precio: 8.20

Id: 16
Titulo: S

### <span style="color:red">**Do it yourself**</span> 
Lee el archivo `movies.xml`. ¿Cuál es la estructura del XML en forma de árbol? ¿Cuántas películas hay? ¿Qué generos distintos hay? ¿Cuáles es la película más antigua y la más reciente?

In [93]:
tree = ET.parse('files/movies.xml')
raiz = tree.getroot()
raiz.tag

# Para conocer todos los elementos del árbol
for elem in raiz.iter():
    print(elem.tag)

movies
movie
title
year
country
genre
summary
director
last_name
first_name
birth_date
actor
first_name
last_name
birth_date
role
actor
first_name
last_name
birth_date
role
actor
first_name
last_name
birth_date
role
actor
first_name
last_name
birth_date
role
movie
title
year
country
genre
summary
director
last_name
first_name
birth_date
actor
first_name
last_name
birth_date
role
actor
first_name
last_name
birth_date
role
actor
first_name
last_name
birth_date
role
actor
first_name
last_name
birth_date
role
movie
title
year
country
genre
summary
director
last_name
first_name
birth_date
actor
first_name
last_name
birth_date
role
actor
first_name
last_name
birth_date
role
actor
first_name
last_name
birth_date
role
movie
title
year
country
genre
summary
director
last_name
first_name
birth_date
actor
first_name
last_name
birth_date
role
actor
first_name
last_name
birth_date
role
movie
title
year
country
genre
director
last_name
first_name
birth_date
actor
first_name
last_name
birth_date
role

In [104]:
lst = tree.findall('movie')
print('Numero de peliculas:', len(lst))
print(lst)

Numero de peliculas: 7
[<Element 'movie' at 0x000001F585A5AD90>, <Element 'movie' at 0x000001F585A5A480>, <Element 'movie' at 0x000001F585A5A110>, <Element 'movie' at 0x000001F585A591C0>, <Element 'movie' at 0x000001F58599A9D0>, <Element 'movie' at 0x000001F5858EFC90>, <Element 'movie' at 0x000001F585AB8310>]


In [197]:
tree.findall('year')
#print(lstGenre)


[]

In [191]:
for item in lst:
    print('Pelicula:', item.find('title').text)
    print('Año:', item.find('year').text)
    print('Genero:', item.find('genre').text)
    print('\r')

Pelicula: A History of Violence
Año: 2005
Genero: Crime

Pelicula: Heat
Año: 1995
Genero: Crime

Pelicula: Unforgiven
Año: 1992
Genero: Western

Pelicula: Match Point
Año: 2005
Genero: Crime

Pelicula: Lost in Translation
Año: 2003
Genero: Drama

Pelicula: Marie Antoinette
Año: 2006
Genero: Drama

Pelicula: Spider-Man
Año: 2002
Genero: Action



In [None]:
import numpy as np

genero = []
year = []
titulos = []
for pelicula in lista:
    genero.append(pelicula.find('genre').text)
    year.append(pelicula.find('year').text)
    titulos.append(pelicula.find('title').text)

generos_unicos = set(genero)
print(generos_unicos)
print('Mas reciente:',max(year)) # print('Mas reciente:',titulos[np.argmax(year)])
print('Mas antigua:',min(year))# print('Mas antigua:',titulos[np.argmin(year)])


np.argmin(year),np.argmax(year)

### JSON


**JSON** (JavaScript Object Notation) es un formato para el intercambios de datos. Un objeto json se forma con pares atributo-valor, éstos deben estar encerrados entre llaves { , } que es lo que definen el inicio y el fin del objeto.
Una de las mayores ventajas que tiene el uso de JSON es que puede ser leído por cualquier lenguaje de programación. En Python podemos utilizar la librería `json`, que trata los ficheros como combinaciones de listas y diccionarios

In [32]:
import json

#Leemos el fichero

f = open('files/data.json', 'r')
fichero = f.read()
type(fichero) # Es un string en formato json
info = json.loads(fichero)
type(info) # loads lo ha transformado una lista pero ya no es un json (No tiene comillas dobles)
print('Numero de presidentes',len(info))

for item in info:
    print('Nombre:', item['nm'])
    print('Partido:', item['pp'])
    print('Años:', item['tm'])

Numero de presidentes 45
Nombre: George Washington
Partido: None, Federalist
Años: 1789-1797
Nombre: John Adams
Partido: Federalist
Años: 1797-1801
Nombre: Thomas Jefferson
Partido: Democratic-Republican
Años: 1801-1809
Nombre: James Madison
Partido: Democratic-Republican
Años: 1809-1817
Nombre: James Monroe
Partido: Democratic-Republican
Años: 1817-1825
Nombre: John Quincy Adams
Partido: Democratic-Republican
Años: 1825-1829
Nombre: Andrew Jackson
Partido: Democrat
Años: 1829-1837
Nombre: Martin van Buren
Partido: Democrat
Años: 1837-1841
Nombre: William H. Harrison
Partido: Whig
Años: 1841
Nombre: John Tyler
Partido: Whig
Años: 1841-1845
Nombre: James K. Polk
Partido: Democrat
Años: 1845-1849
Nombre: Zachary Taylor
Partido: Whig
Años: 1849-1850
Nombre: Millard Fillmore
Partido: Whig
Años: 1850-1853
Nombre: Franklin Pierce
Partido: Democrat
Años: 1853-1857
Nombre: James Buchanan
Partido: Democrat
Años: 1857-1861
Nombre: Abraham Lincoln
Partido: Republican
Años: 1861-1865
Nombre: Andre

### <span style="color:red">**Do it yourself**</span> 
Transforma el json anterior a formato csv y guarda el archivo. Compara los tamaños de ambos formatos

In [106]:
df = pd.DataFrame.from_dict(info)
df.to_csv('files/Presidentes.csv', index=False)
df

# json es más pesado porque repite informacion (cada registro repite las etiquetas) pero csv solo lo guarda una vez como 
#nombre de columna

Unnamed: 0,person
children,"[{'name': 'Charles', 'children': [{'name': 'Wi..."
name,Elizabeth


NOTA: Los formatos CSV y JSON/XML son complementarios

<img src='https://aukera.es/blog/imagenes/tabla-codigo.png' width=55%>

Los formatos CSV son en general más compactos que los formatos XML y JSON, siendo esta su principal ventaja. Por otro lado, CSV es el formato menos versátil y no permite crear jerarquías en los datos. Por ejemplo, los siguientes datos contienen jerarquías y es más difícil de plasmar en una tabla:

```json
[
 {
  "student_id":1,
  "age":12,
  "subjects":{
   "mathematics":{
    "scores":[7,8,7,10],
    "final_score":8
   },
   "biology":{
    "scores":[6,6,5,7],
    "final_score":6
   }
  }
 }
]
```

En general, cuando trabajemos con datos tabulares, es recomendable utilizar el formato CSV 

La estructura de un JSON puede ser bastante compleja. Es recomendable el uso de webs como [codebeautify.org](http://codebeautify.org) para representar los JSON en forma de árbol.  

Ejemplo: Accede al príncipe Harry en el archivo `data2.json`

In [36]:
import json
f = open('files/data2.json', 'r').read()
info = json.loads(f)
info


{'person': {'name': 'Elizabeth',
  'children': [{'name': 'Charles',
    'children': [{'name': 'William',
      'children': [{'name': 'George'}, {'name': 'Charlotte'}]},
     {'name': 'Harry'}]}]}}

In [37]:
# Sacamos la ruta con el json viewer de codebeautify.org 
#object->person->childre->0->children->1->name
info['person']['children'][0]['children'][1]['name']

'Harry'

In [38]:
pd.DataFrame.from_dict(info) # No funciona en todos los json si la estructura es muy complicada y no commpatible con una tabla

Unnamed: 0,person
children,"[{'name': 'Charles', 'children': [{'name': 'Wi..."
name,Elizabeth


<a id="deses"></a>
## Datos desestructurados

Los datos no estructurados se caracterizan por no tener un formato específico.
Se almacenan en múltiples formatos como documentos PDF o Word, correos electrónicos, ficheros multimedia de imagen, audio o video...

### TXT

In [39]:
text_file = open('files/mbox.txt', 'r')
lines = text_file.read()
lines



Una forma de procesar cadenas de texto es a través de expresiones regulares. En python podemos utilizar la librería `re` y la función `findall()`
```
BASIC SYNTAX

.             One character except new line
\.            A period. \ escapes a special character.
\d            One digit
\D            One non-digit
\w            One word character including digits
\W            One non-word character
\s            One whitespace
\S            One non-whitespace
\b            Word boundary
\n            Newline
\t            Tab

MODIFIERS

$             End of string
^             Start of string
ab|cd         Matches ab or de.
[ab-d]	    One character of: a, b, c, d
[^ab-d]	   One character except: a, b, c, d
()            Items within parenthesis are retrieved
(a(bc))       Items within the sub-parenthesis are retrieved

REPETITIONS

[ab]{2}       Exactly 2 continuous occurrences of a or b
[ab]{2,5}     2 to 5 continuous occurrences of a or b
[ab]{2,}      2 or more continuous occurrences of a or b
+             One or more
*             Zero or more
?             0 or 1
(?:           group but don't capture
```

In [41]:
import re

# Obtenemos las cuentas de email del archivo txt

patron = '\S+@\S+'

extract = re.findall(patron,lines, flags=re.IGNORECASE)

extract

['stephen.marquard@uct.ac.za',
 '<postmaster@collab.sakaiproject.org>',
 '<200801051412.m05ECIaH010327@nakamura.uits.iupui.edu>',
 '<source@collab.sakaiproject.org>;',
 '<source@collab.sakaiproject.org>;',
 '<source@collab.sakaiproject.org>;',
 'apache@localhost)',
 'source@collab.sakaiproject.org;',
 'stephen.marquard@uct.ac.za',
 'source@collab.sakaiproject.org',
 'stephen.marquard@uct.ac.za',
 'stephen.marquard@uct.ac.za',
 'louis@media.berkeley.edu',
 '<postmaster@collab.sakaiproject.org>',
 '<200801042308.m04N8v6O008125@nakamura.uits.iupui.edu>',
 '<source@collab.sakaiproject.org>;',
 '<source@collab.sakaiproject.org>;',
 '<source@collab.sakaiproject.org>;',
 'apache@localhost)',
 'source@collab.sakaiproject.org;',
 'louis@media.berkeley.edu',
 'source@collab.sakaiproject.org',
 'louis@media.berkeley.edu',
 'louis@media.berkeley.edu',
 'zqian@umich.edu',
 '<postmaster@collab.sakaiproject.org>',
 '<200801042109.m04L92hb007923@nakamura.uits.iupui.edu>',
 '<source@collab.sakaiproject

In [45]:
# Mejoro la expresion regular
patron = '([a-z0-9]\S*)@(\S*[a-z])'

extract = re.findall(patron,lines, flags=re.IGNORECASE)

extract

[('stephen.marquard', 'uct.ac.za'),
 ('postmaster', 'collab.sakaiproject.org'),
 ('200801051412.m05ECIaH010327', 'nakamura.uits.iupui.edu'),
 ('source', 'collab.sakaiproject.org'),
 ('source', 'collab.sakaiproject.org'),
 ('source', 'collab.sakaiproject.org'),
 ('apache', 'localhost'),
 ('source', 'collab.sakaiproject.org'),
 ('stephen.marquard', 'uct.ac.za'),
 ('source', 'collab.sakaiproject.org'),
 ('stephen.marquard', 'uct.ac.za'),
 ('stephen.marquard', 'uct.ac.za'),
 ('louis', 'media.berkeley.edu'),
 ('postmaster', 'collab.sakaiproject.org'),
 ('200801042308.m04N8v6O008125', 'nakamura.uits.iupui.edu'),
 ('source', 'collab.sakaiproject.org'),
 ('source', 'collab.sakaiproject.org'),
 ('source', 'collab.sakaiproject.org'),
 ('apache', 'localhost'),
 ('source', 'collab.sakaiproject.org'),
 ('louis', 'media.berkeley.edu'),
 ('source', 'collab.sakaiproject.org'),
 ('louis', 'media.berkeley.edu'),
 ('louis', 'media.berkeley.edu'),
 ('zqian', 'umich.edu'),
 ('postmaster', 'collab.sakaiproj

In [47]:
# Guardarlo en una tabla
# He separado la regex con parentesis y asi puedo crear la tabla con dos columnas

emails = pd.DataFrame(extract,columns=['nombre','dominio'])
emails

Unnamed: 0,nombre,dominio
0,stephen.marquard,uct.ac.za
1,postmaster,collab.sakaiproject.org
2,200801051412.m05ECIaH010327,nakamura.uits.iupui.edu
3,source,collab.sakaiproject.org
4,source,collab.sakaiproject.org
...,...,...
331,cwen,iupui.edu
332,source,collab.sakaiproject.org
333,cwen,iupui.edu
334,cwen,iupui.edu


In [48]:
emails.dominio.value_counts()

collab.sakaiproject.org                          162
iupui.edu                                         38
umich.edu                                         29
nakamura.uits.iupui.edu                           27
localhost                                         27
uct.ac.za                                         25
media.berkeley.edu                                16
caret.cam.ac.uk                                    4
gmail.com                                          4
david-horwitz-6:~/branchManagemnt/sakai_2-5-x      4
Name: dominio, dtype: int64

### <span style="color:red">**Do it yourself**</span> 
Obtén los valores de confianza y probabilidad de spam con otra expresión regular
```
X-DSPAM-Confidence: 0.8475  
X-DSPAM-Probability: 0.0000
```

Calcula el valor medio

In [118]:
# Mejoro la expresion regular
patronSpam = '(X\S*[:])[ ](0[.][0-9]{4})'

extractSpam = re.findall(patronSpam,lines, flags=re.IGNORECASE)

extractSpam       

[('X-DSPAM-Confidence:', '0.8475'),
 ('X-DSPAM-Probability:', '0.0000'),
 ('X-DSPAM-Confidence:', '0.6178'),
 ('X-DSPAM-Probability:', '0.0000'),
 ('X-DSPAM-Confidence:', '0.6961'),
 ('X-DSPAM-Probability:', '0.0000'),
 ('X-DSPAM-Confidence:', '0.7565'),
 ('X-DSPAM-Probability:', '0.0000'),
 ('X-DSPAM-Confidence:', '0.7626'),
 ('X-DSPAM-Probability:', '0.0000'),
 ('X-DSPAM-Confidence:', '0.7556'),
 ('X-DSPAM-Probability:', '0.0000'),
 ('X-DSPAM-Confidence:', '0.7002'),
 ('X-DSPAM-Probability:', '0.0000'),
 ('X-DSPAM-Confidence:', '0.7615'),
 ('X-DSPAM-Probability:', '0.0000'),
 ('X-DSPAM-Confidence:', '0.7601'),
 ('X-DSPAM-Probability:', '0.0000'),
 ('X-DSPAM-Confidence:', '0.7605'),
 ('X-DSPAM-Probability:', '0.0000'),
 ('X-DSPAM-Confidence:', '0.6959'),
 ('X-DSPAM-Probability:', '0.0000'),
 ('X-DSPAM-Confidence:', '0.7606'),
 ('X-DSPAM-Probability:', '0.0000'),
 ('X-DSPAM-Confidence:', '0.7559'),
 ('X-DSPAM-Probability:', '0.0000'),
 ('X-DSPAM-Confidence:', '0.7605'),
 ('X-DSPAM-Prob

In [135]:
confidence = []
probability = []

for reg in extractSpam:
    if reg[0] == 'X-DSPAM-Confidence:':
        confidence.append(float(reg[1]))
    else:
        probability.append(float(reg[1]))
print(type(confidence[0]))
print(probability)

emailsSpam = pd.DataFrame(confidence, columns=['Confianza'])
emailsSpam.Confianza.mean()

<class 'float'>
[0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0]


0.7507185185185185

<a id="cloud"></a>
## Amazon Web Services (AWS)

El Amazon Simple Storage Service (S3) es un servicio de almacenamiento de archivos para almacenar y acceder a datos en la infraestructura de AWS.  
Se han almacenado una serie de archivos relacionados con cuotas de apuestas en partidos de fútbol. Nos interesa cargar dichos archivos y unificarlos en una única tabla, con los siguientes campos:

* Partido (*match*)
* Equipo local (*hteam_name*)
* Equipo visitante (*ateam_name*)
* Cuota victoria (*price_oa*)
* Cuota derrota (*price_oh*)
* Casa de apuestas (*bookmaker_name*)

En primer lugar, instalamos la librería `boto3`, que facilita la integración de Python con los servicios de AWS  
```conda install -c anaconda boto3```

In [49]:
import boto3

A continuación, nos conectamos a un recurso de AWS que contiene contenedores (buckets) con datos. Para ello necesitamos un *access key* y un *secret access key*

In [50]:
s3 = boto3.resource('s3',
                    aws_access_key_id='AKIA2PDVAC3FBUO7QUUR',
                    aws_secret_access_key='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')

Podemos listar los buckets disponibles

In [52]:
for bucket in s3.buckets.all():
    print(bucket.name)

ejercicios9
rafabucket9


El bucket de almacenamiento se llama `rafabucket9`

In [53]:
bucket = s3.Bucket('rafabucket9')

Listamos los ficheros dentro del bucket

In [54]:
for obj in bucket.objects.all():
    print(obj)

s3.ObjectSummary(bucket_name='rafabucket9', key='odds_121676695_2019-08-30_000046317959.json')
s3.ObjectSummary(bucket_name='rafabucket9', key='odds_121676695_2019-08-30_000046384851.json')
s3.ObjectSummary(bucket_name='rafabucket9', key='odds_121676695_2019-08-30_000046586047.json')
s3.ObjectSummary(bucket_name='rafabucket9', key='odds_121676695_2019-08-30_000046839786.json')
s3.ObjectSummary(bucket_name='rafabucket9', key='odds_121676695_2019-08-30_000046886474.json')
s3.ObjectSummary(bucket_name='rafabucket9', key='odds_121676695_2019-08-30_000046931991.json')
s3.ObjectSummary(bucket_name='rafabucket9', key='odds_121676695_2019-08-30_000047175143.json')
s3.ObjectSummary(bucket_name='rafabucket9', key='odds_121676695_2019-08-30_000047220912.json')
s3.ObjectSummary(bucket_name='rafabucket9', key='odds_121676695_2019-08-30_000047266442.json')
s3.ObjectSummary(bucket_name='rafabucket9', key='odds_121676695_2019-08-30_000047494534.json')
s3.ObjectSummary(bucket_name='rafabucket9', key='o

In [55]:
# Leemos uno de los ficheros: odds_121676695_2019-08-30_000046317959.json
file_content = bucket.Object('odds_121676695_2019-08-30_000046317959.json').get()['Body'].read().decode('utf-8')
print(file_content)

{"hc": true, "price_od": -0.25, "group_name_2": "FBSPA Segunda Divisi\u00f3n > Regular Season-19", "offer_lastupdate": 1567116039, "ateam_id": 8694, "hteam_id": 1010, "unified": false, "source": "ahc", "match": "Almeria v Huesca", "match_lastupdate": 1567084019, "cls": -0.25, "group_name": "FBSPA", "offer_inrunning": 0, "ts": 1567116037, "bookmaker_name": "victor", "hteam_name_2": "Almeria", "key": "ahc.22.5661535.FT - Asian Handicap.-0.25", "sport_id": 1, "match_live": "true", "price_oh": 2.1100000000000003, "competition_id": 12, "match_id": 1676695, "hteam_name": "Almeria", "key2": "ahc.5661535.FT - Asian Handicap.-0.25", "hteam_name_ch": "\u827e\u7f8e\u5229\u4e9e", "competition_name": "Segunda Divisi\u00f3n", "bookmaker_id": 22, "offer_isturn": 0, "ateam_name": "Huesca", "match_txid": 5661535, "source_id": 2, "offer_market": 0, "group_id": 1052, "ateam_name_ch": "\u4faf\u723e\u65af\u5361", "push_ts": 1567116039, "offer_ot": "FT - Asian Handicap", "offer_lineid": 1, "offer_bmoid": 0,

In [56]:
type(file_content)

str

In [58]:
import json

json_content = json.loads(file_content)
json_content

{'hc': True,
 'price_od': -0.25,
 'group_name_2': 'FBSPA Segunda División > Regular Season-19',
 'offer_lastupdate': 1567116039,
 'ateam_id': 8694,
 'hteam_id': 1010,
 'unified': False,
 'source': 'ahc',
 'match': 'Almeria v Huesca',
 'match_lastupdate': 1567084019,
 'cls': -0.25,
 'group_name': 'FBSPA',
 'offer_inrunning': 0,
 'ts': 1567116037,
 'bookmaker_name': 'victor',
 'hteam_name_2': 'Almeria',
 'key': 'ahc.22.5661535.FT - Asian Handicap.-0.25',
 'sport_id': 1,
 'match_live': 'true',
 'price_oh': 2.1100000000000003,
 'competition_id': 12,
 'match_id': 1676695,
 'hteam_name': 'Almeria',
 'key2': 'ahc.5661535.FT - Asian Handicap.-0.25',
 'hteam_name_ch': '艾美利亞',
 'competition_name': 'Segunda División',
 'bookmaker_id': 22,
 'offer_isturn': 0,
 'ateam_name': 'Huesca',
 'match_txid': 5661535,
 'source_id': 2,
 'offer_market': 0,
 'group_id': 1052,
 'ateam_name_ch': '侯爾斯卡',
 'push_ts': 1567116039,
 'offer_ot': 'FT - Asian Handicap',
 'offer_lineid': 1,
 'offer_bmoid': 0,
 'offer_ts':

In [59]:
type(json_content)

dict

In [145]:
pd.DataFrame.from_dict([json_content])

Unnamed: 0,hc,price_od,group_name_2,offer_lastupdate,ateam_id,hteam_id,unified,source,match,match_lastupdate,...,offer_otid,_query,match_xsid,price_type,seq,group_name_ch,status,match_time,league_name,offer_flags
0,True,1.5,FBSPA Segunda División > Regular Season-19,1567116546,8694,1010,False,ahc,Almeria v Huesca,1567084019,...,246,simple,1167403,normal,-1154811450,西班牙乙組聯賽,real-time,1567274400,SPA Segunda Division,1


Creamos un dataframe con todos los archivos

In [146]:
# Creo un DataFrame vacio
df = pd.DataFrame()

# Recorro todos los ficheros
for obj in bucket.objects.all():
    file_content = obj.get()['Body'].read().decode('utf-8')
    json_content = json.loads(file_content)
    dfaux = pd.DataFrame.from_dict([json_content])
    df = pd.concat([df,dfaux], axis=0)

In [151]:
df

Unnamed: 0,Partido,Local,Visitante,Victoria,Derrota,Bookmaker
0,Almeria v Huesca,Almeria,Huesca,2.11,1.80,victor
1,Almeria v Huesca,Almeria,Huesca,0.00,0.00,victor
2,Almeria v Huesca,Almeria,Huesca,0.00,0.00,victor
3,Almeria v Huesca,Almeria,Huesca,2.44,1.60,victor
4,Almeria v Huesca,Almeria,Huesca,0.00,0.00,victor
...,...,...,...,...,...,...
195,Almeria v Huesca,Almeria,Huesca,2.76,3.08,BETDAQ
196,Almeria v Huesca,Almeria,Huesca,2.70,3.00,BETDAQ
197,Almeria v Huesca,Almeria,Huesca,3.88,2.43,BETDAQ
198,Almeria v Huesca,Almeria,Huesca,2.70,3.00,BETDAQ


In [152]:
df = df.rename(columns={'match':'Partido',
                       'hteam_name':'Local',
                       'ateam_name':'Visitante',
                       'price_oh':'Victoria',
                       'price_oa':'Derrota',
                       'bookmaker_name':'Bookmaker'})
df = df[['Partido','Local','Visitante','Victoria','Derrota','Bookmaker']].reset_index(drop=True)
df

Unnamed: 0,Partido,Local,Visitante,Victoria,Derrota,Bookmaker
0,Almeria v Huesca,Almeria,Huesca,2.11,1.80,victor
1,Almeria v Huesca,Almeria,Huesca,0.00,0.00,victor
2,Almeria v Huesca,Almeria,Huesca,0.00,0.00,victor
3,Almeria v Huesca,Almeria,Huesca,2.44,1.60,victor
4,Almeria v Huesca,Almeria,Huesca,0.00,0.00,victor
...,...,...,...,...,...,...
195,Almeria v Huesca,Almeria,Huesca,2.76,3.08,BETDAQ
196,Almeria v Huesca,Almeria,Huesca,2.70,3.00,BETDAQ
197,Almeria v Huesca,Almeria,Huesca,3.88,2.43,BETDAQ
198,Almeria v Huesca,Almeria,Huesca,2.70,3.00,BETDAQ


### <span style="color:red">**Do it yourself (0.2 puntos)**</span> 
Filtra el dataframe anterior para que las cuotas sean distintas de cero y calcula la cota media por cada partido y casa de apuestas. Subir el resultado al bucket `ejercicios9` en formato csv, poniendo tu nombre al fichero. Primero, guarda el dataframe a csv en local utilizando la función `to_csv()` de la librería pandas, y a continuación sube el fichero al storage utilizando la función `s3.meta.client.upload_file(Filename,Bucket,Key)`  

In [181]:
df[(df['Victoria']>0)&(df['Derrota']>0)].groupby(['Partido','Bookmaker']).mean().to_csv('victor_bandin.csv')

  df[(df['Victoria']>0)&(df['Derrota']>0)].groupby(['Partido','Bookmaker']).mean().to_csv('victor_bandin.csv')


In [182]:
s3.meta.client.upload_file('victor_bandin.csv','ejercicios9','Victor')

<a id="ftp"></a>
## FTP

FTP (*File Transfer Protocol*) es un protocolo que permite traspasar archivos online. En Python, podemos utilizar FTP con la librería `ftplib`. Vamos a conectarnos a un servidor FTP utilizando la función `FTP()`, cuyos argumentos son:  
* Nombre del servidor: `f25-preview.runhosting.com` 
* Usuario:  `3185129_EOI`
* Contraseña: `FTP_EOI1920`

In [72]:
import ftplib

In [79]:
ftp = ftplib.FTP('f31-preview.runhosting.com',"4009006_DATOS","Rafa9999")

In [80]:
ftp.dir()

drwxr-xr-x   2 4009006_DATOS 1111           61 Dec 16  2021 .
drwxr-xr-x   2 4009006_DATOS 1111           61 Dec 16  2021 ..
-rw-r--r--   1 4009006_DATOS 1111        33182 Dec 16  2021 books.xml
-rw-r--r--   1 4009006_DATOS 1111         3841 Dec 16  2021 colors.json
-rw-r--r--   1 4009006_DATOS 1111       763509 May  3 21:07 OptaF24.xml


In [83]:
# Descargamos el archivo colors.json
filename = 'colors.json'
ftp.retrbinary("RETR "+filename,open(filename,'wb').write)

'226 Transfer complete'

In [84]:
ftp.quit()

'221 Goodbye.'

In [85]:
import json
f = open('colors.json', 'r').read()
colores = json.loads(f)


In [87]:
colores_df = pd.DataFrame(list(colores.items()), columns=['color','code'])
colores_df

Unnamed: 0,color,code
0,aliceblue,#f0f8ff
1,antiquewhite,#faebd7
2,aqua,#00ffff
3,aquamarine,#7fffd4
4,azure,#f0ffff
...,...,...
143,wheat,#f5deb3
144,white,#ffffff
145,whitesmoke,#f5f5f5
146,yellow,#ffff00


In [88]:
colores_df.style.applymap(lambda x:"background-color: %s"%x, subset=['code'])

Unnamed: 0,color,code
0,aliceblue,#f0f8ff
1,antiquewhite,#faebd7
2,aqua,#00ffff
3,aquamarine,#7fffd4
4,azure,#f0ffff
5,beige,#f5f5dc
6,bisque,#ffe4c4
7,black,#000000
8,blanchedalmond,#ffebcd
9,blue,#0000ff


Otras funciones:  
`FTP.getwelcome()` – Obtiene el mensaje de bienvenida.  
`FTP.mkd(ruta)` – Crea un directorio, se le pasa como argumento de entrada la ruta.  
`FTP.rmd(ruta)` – Elimina el directorio que le pasemos.  
`FTP.delete(fichero)` – Elimina el fichero que le pasamos como parámetro de entrada.  
`FTP.pwd()` – (Print Working Directory) Devuelve el directorio actual donde se encuentra.  
`FTP.cwd(ruta)` – (Change Working Directory) Cambia de directorio.  
`FTP.dir(ruta)` – Devuelve un listado de directorios.  
`FTP.nlst(ruta)` – Devuelve un listado con los nombres de arcivo del directorio.  
`FTP.size(archivo)` – Devuelve el tamaño del fichero que le pasamos.  
`FTP.rename(oringen, destino)` – Renombra un fichero.  