# Módulo III - Funciones, lectura y escritura de archivos
***

## Funciones en Python
***
Le llamamos función a bloques de código que agrupamos y definimos mediante un nombre, y que podemos usar "llamándola" luego en nuestros *script* cuando queramos. Estos bloques ayudan a tener organizado nuestro código, encapsulando tareas que usamos repetitivamente sobre distintos objetos sin necesidad de replicar todas las instrucciones cada vez.

Cuando escribimos **print()** o **len()** estamos haciendo uso de funciones nativas de Python. Nota que la "llamada" se hace con el uso de paréntesis.

In [1]:
print("hello")
L = [1,2,3,4]
len(L)

hello


4

Las funciones reciben los objetos que procesarán dentro de los paréntesis, a estos se les llama **argumentos** de la función. En Python, al contrario de otros lenguajes, no es necesario especificar con antelación qué tipo de variables necesita como argumentos de entrada, ni el tipo de variable de salida que tendrá la función.

In [2]:
print ("hello", 1, "world", sep ="-")

hello-1-world


Podemos definir nuestras propias funciones con la sentencia **def**:

```python
def mi_funcion(n):
```
Aquí, **mi_funcion** es el nombre de la función que crearemos, y es el mismo nombre a través del cuál haremos uso de ella. Definimos un argumento **n** que debe recibir la función para procesar dentro del código. Podemos definir cuantos argumentos necesitemos. Antes de comenzar con el bloque de código, debemos colocar los dos puntos al final de la definición. 

Por ejemplo, podemos encapsular en una función el código que utlizamos para imprimir todos los productos en nuestra lista de compras:

In [3]:
def listar_productos(productos):
    print("Producto = Precio")
    for i in productos:
        print(i," = ", productos[i])

El bloque de código dentro de la función debe estar indentado, es decir, se debe comenzar el bloque con el espaciado correspondiente. Ahora podemos hacer uso de la función que definimos:

In [4]:
productos = {'azucar':9000.0, 'arroz':9850.5, 'harina':11000, 'aceite':12000, 'pasta':18000}
listar_productos(productos)

Producto = Precio
azucar  =  9000.0
arroz  =  9850.5
harina  =  11000
aceite  =  12000
pasta  =  18000


Vamos a calcular el precio promedio de todos los productos que hemos comprado hasta ahora. Creamos una función para ello:

In [5]:
def promedio(productos):
    promedio =  sum(productos.values()) / len(productos)
    return promedio

La sentencia **return** indica cuál es la variable que nos va a entregar nuestra función como resultado. Si no especificamos esto, la función nos dará una variable del tipo *None* de forma predeterminada.

In [6]:
promedio(productos)

11970.1

Nota que el nombre de la variable que le estamos pasando a la función no necesariamente tiene que ser igual que el nombre del argumento definido.

In [7]:
otro_dict = {i:i for i in range (5)}
print(otro_dict)
resultado = promedio(otro_dict)
resultado

{0: 0, 1: 1, 2: 2, 3: 3, 4: 4}


2.0

Si necesitamos que nuestra función nos regrese varios valores, podemos usar alguna estructura de datos como tuplas.

In [8]:
def resumen(productos):
    promedio =  sum(productos.values()) / len(productos)
    maximo = max(productos.values())
    return promedio, maximo     # devuelve dos valores en forma de tupla

Ahora podemos hacer uso de esta función modificada. Almacenamos los resultados en dos variables distintas (formada como una tupla).

In [9]:
precio_promedio , precio_maximo = resumen(productos)  # almacenamos simultáneamente los resultados
print(precio_promedio)
print(precio_maximo)

11970.1
18000


### Paquetes y módulos
***
Ya hemos utilizado anteriormente varios métodos o funciones para manipular objetos de varios tipos, como listas, cadenas, conjuntos. Estás funciones vienen por defecto listas para usar en Python. Pero además, Python contiene muchas más librerías estándar integradas con variadas funcionalidades. Para usar estas librerías, utilizamos la sentencia **import**:

In [10]:
import math

El módulo **math** incluye funciones para cálculo matemático más allá de sólo sumas y restas. Por ejemplo, el cálculo de raíces cuadradas, o encontrar valores de funciones trigonométricas.

In [11]:
math.cos(1)

0.5403023058681398

Usamos el nombre del módulo seguido de un punto, y luego el objeto o función del módulo que queremos utilizar. En este caso, **cos()** es una función que recibe un valor para encontrar su coseno. Podemos utilizar constantes matemáticas como **pi** o **e**, de la misma manera.

In [12]:
math.pi

3.141592653589793

Otra forma de importar estos módulos es por medio de un alias. Algunos módulos tienen nombre largos que harían el código mas engorroso. Para ellos podemos escribir:
```python
import modulo as alias
```
De esta manera podemos usar "alias" como la abreviación del nombre del módulo, con todas sus funcionalidades.

In [13]:
import math as m
m.pi

3.141592653589793

Una costumbre generalizada es utilizar el módulo **numpy** (módulo con herramientas numéricas utilizado comummente en ciencia de datos), con el alias **np**.

In [14]:
import numpy as np
np.cos(np.pi)

-1.0

Puede que queramos sólo utilizar cierto contenido específico de un módulo, en ese caso indicamos explícitamente tales contenidos de la siguiente forma:

In [15]:
from math import cos, pi

Desde el módulo *math*, importa *cos* y *pi*. Es fácil de comprender la lógica de esta importación explícita y específica.

In [16]:
from math import *

En este caso estamos importando TODO el contenido del módulo **math** dentro del espacio de trabajo de Python. Esta instrucción debe ser usada con precaución, porque puede resultar en la sobreescritura de algunas funciones que tengan el mismo nombre y que hayan sido cargadas en el mismo espacio de trabajo anteriormente.

Por ejemplo, si el módulo **numpy** contiene una funcion *suma*, y ya existe una función llamada *suma* dentro del espacio, al importar con asterisco (\*) reescribiríamos la segunda, causando posibles conflictos o resultados no deseados en nuestro programa.

Lo más recomendable es importar y usar el módulo explícitamente, sin alias o con alias, como en los primeros ejemplos.

#### Librerías Estándar 

Las siguiente son librerías estándar importantes incluidas en python:


+ **os y sys**: Contiene herramientas para interactuar con el sistema operativo, como manejar archivos y directorios y ejecutar comando en el terminal.
+ **math y cmath**: Funciones y operaciones matemáticas sobre números reales y complejos.
+ **itertools**: Para construir y manejar interadores y generadores.
+ **functools**: Asistencia para programación funcional.
+ **random**: Para generar números pseudo aleatorios.
+ **pickle**: Herramientas para guardar y cargar objetos desde el disco duro.
+ **json y csv**: Para leer archivos .csv y JSON.
+ **urllib**: Herramientas para hacer solicitudes Http u otras modalidades web.

## Lectura y escritura de archivos
***

Hasta los momentos hemos estado trabajando con datos que introducimos manualmente en variables. Con seguridad, 
lo mas frecuente es tener información almacenada en archivos de texto, como hojas de excel o texto simple, o que los datos estén alojados en la web, en distintos formatos como HTML y JSON. 

Python incluye librerías para manipular distintos tipos de archivos y extrar datos para usarlos dentro de nuestros programas. Para leer un archivo usamos la instrucción:

In [17]:
# Abriendo la conexión al archivo en modo "lectura"
f = open('compras.txt', 'r')

La función **open()** crea una conexión para manipular el archivo *"compras.txt"*. El argumento **'r'** indica que podemos acceder a él sólo en modo lectura.

In [18]:
# leyendo el contenido del archivo (cada línea)
contenido = f.readlines()
contenido

['carne 30000\n',
 'jamón 15000\n',
 'detergente 12000\n',
 'champú 18000\n',
 'refresco 8000\n',
 'leche 6000\n',
 'leche 6000\n']

Usando el manejador del archivo, que llamamos **f**, podemos aplicar variadas funciones. En este caso leemos todas las líneas que contiene el archivo, con la funcion **readlines()**, y las guardamos en una nueva variable.

Otras funciones para leer el contenido del archivo son:

+ **readline()** que sólo lee una línea a la vez.
+ **read()** que lee .....

El archivo contiene una lista de productos con sus respectivos precios. Podemos manipular estas cadenas de texto y crear variables para realizar operaciones sobre los datos. Primero eliminaremos el caracter "\n", que representa un salto de línea o "enter" dentro del texto.

In [19]:
# eliminando el caracter \n  (nueva línea o enter)
for i in range(len(contenido)):
    contenido[i] = contenido[i].replace("\n","")

Ya hemos visto anteriormente el uso de la función **replace** dentro de las cadenas de texto. Ahora que tenemos el texto sin saltos de líneas, podemos separar los nombres de los productos y los precios:

In [20]:
# separando nombres de precios (lista de listas)
prod = [p.split() for p in contenido]

La lista contiene tuplas con el nombre y el precio de cada producto. En algunos casos obtendremos elementos no deseados como listas o tuplas vacías que no son de interés:

In [21]:
# eliminando las listas sin contenido (vacías)
for i in range(len(prod)):
    if len(prod[i]) == 0: prod.pop(i)
prod

[['carne', '30000'],
 ['jamón', '15000'],
 ['detergente', '12000'],
 ['champú', '18000'],
 ['refresco', '8000'],
 ['leche', '6000'],
 ['leche', '6000']]

Fácilmente podemos obtener el diccionario de productos como el que hemos trabajado antes:

In [22]:
# creando el diccionario
productos2 = {i[0]:float(i[1]) for i in prod}
productos2

{'carne': 30000.0,
 'champú': 18000.0,
 'detergente': 12000.0,
 'jamón': 15000.0,
 'leche': 6000.0,
 'refresco': 8000.0}

Ahora tenemos otro diccionario con productos adicionales. ¿Cómo combinamos esta nueva lista con los productos que ya teníamos? La función **update()** permite modificar los valores de un diccionario y agregar nuevos elementos:

In [23]:
# los productos que ya teníamos
productos = {'azucar':9000.0, 'arroz':9850.5, 'harina':11000, 'aceite':12000, 'pasta':18000}

# ¿cómo combinamos los dos?
productos.update(productos2)
productos

{'aceite': 12000,
 'arroz': 9850.5,
 'azucar': 9000.0,
 'carne': 30000.0,
 'champú': 18000.0,
 'detergente': 12000.0,
 'harina': 11000,
 'jamón': 15000.0,
 'leche': 6000.0,
 'pasta': 18000,
 'refresco': 8000.0}

Es importante que una vez que terminemos de trabajar con el archivo, cerremos la conexión del mismo. La función **close()** hace el trabajo:

In [24]:
# cerramos la conexion al archivo
f.close()

Para agregar más productos a nuestra lista, pero dentro del archivo de texto, usamos la función **write()**, sobre el manejador de archivos **f**. En este caso usamos la sentencia **with**, que permite usar **f** sin necesidad de cerrar la conexión explícitamente al terminar de utilizarlo:

In [25]:
# abriendo la conexión al archivo en modo "append" para anexar datos al final
with open('compras.txt', 'a') as f:
    f.write("leche 6000\n")    # escribe la nueva línea al final del archivo

En la función **open**, usamos el parámetro **'a'**, para indicar que el archivo esté preparado sólo para anexar líneas al final del mismo.

La función **write** permite escribir cualquier cadena de caracteres al archivo de texto. Nota que la línea **"leche 6000\n"** incluye el caracter de nueva línea al finalizar. Ahora comprobemos que realmente agregamos la nueva información a nuestro archivo, leyendo nuevamente:

In [26]:
with open('compras.txt', 'r') as f:   # abre el archivo en modo lectura
    c = f.readlines()                 # lee el contenido completo

print(c)

['carne 30000\n', 'jamón 15000\n', 'detergente 12000\n', 'champú 18000\n', 'refresco 8000\n', 'leche 6000\n', 'leche 6000\n', 'leche 6000\n']


Como puedes ver, el nuevo producto está realmente listado al final del archivo.

Uno de los formatos más usados en archivos de datos es el **.CSV**, conocido como "valores separados por comas". Las hojas de cálculo actualmente permiten guardar archivos con este formato. Podemos manipular de manera similar estos archivos:

In [27]:
# lo mismo pero con comas de separador:
with open('compras.csv', 'r') as f:
    c = f.readlines()

# eliminando el caracter \n  (nueva línea o enter)
for i in range(len(c)):
    c[i] = c[i].replace("\n","")

Nota que el proceso de lectura y reemplazo de caracteres sigue siendo el mismo.

In [28]:
# separando nombres de precios (lista de listas)
prod = [p.split(",") for p in c]

# eliminando las listas sin contenido (vacías)
for i in range(len(prod)):
    if len(prod[i]) == 0: prod.pop(i)

# creando el diccionario
productos2 = {i[0]:float(i[1]) for i in prod}

productos2

{'carne': 30000.0,
 'champú': 18000.0,
 'detergente': 12000.0,
 'jamón espalda': 15000.0}

La única diferencia importante reside en el uso de la función **split**. Dado que sabemos que el archivo está separdo por comas, utilizamos el caracter **","** para hacer la división con ```p.split(",")``` en la primera línea de código.

Ahora queremos guardar este código como un *script* para usarlo cuando nos interese. Lo guardamos como un archivo de texto con extensión **.py**. Nuestro archivo lo llamamos **"leerproductos.py"**. Luego, para ejecutarlo sólo escribimos dentro del shell de python:

In [29]:
exec(open("leerproductos.py").read())

Esta instrucción tiene varios pasos que pueden escribirse separadamente para que notes con claridad el proceso:
```python
    f = open("leerproductos.py")     # primero abrimos la conexión al archivo
    c = f.read()              # luego leemos el contenido
    exec(c)                   # y finalmente ejecutamos el código
```

Después de ejecutar los comandos de nuestro *script* podemos acceder a las variables que se crean internamente, por ejemplo "productos2":

In [30]:
productos2

{'carne': 30000.0,
 'champú': 18000.0,
 'detergente': 12000.0,
 'jamón espalda': 15000.0}

También podemos usar nuestras funciones desde *scripts* por medio de la sentencia **import**. La función resumen que hemos creado anteriormente la guardamos en un archivo llamado **mi_script.py**.

In [31]:
def resumen(productos):  #recibe un diccionario de pares producto:precio
    promedio =  sum(productos.values()) / len(productos)
    maximo = max(productos.values())
    return promedio, maximo     # devuelve dos valores en forma de tupla

Ahora importamos nuestra función y la usamos con el diccionario "productos2":

In [32]:
from mi_script import resumen    # importa la función resumen, del archivo mi_script.py
resumen(productos2)               # ejecuta la funciónanalizar

(18750.0, 30000.0)

Si quieres cambiarle el nombre a tu script, usa la función **rename**. El primer argumento es una cadena con el nombre actual incluyendo la extensión del archivo, y la segunda es el nuevo nombre:

```python
import os
os.rename("nombreviejo.txt", "nombrenuevo.txt")
```

Desde el mismo shell de python puedes eliminar también cualquier archivo con la instrucción:
```python
import os
os.remove("nombredelarchivo.txt")
```

### Lectura de archivos desde la web
***

Es típico que se quieran extraer y analizar datos que están alojados en la web como archivos, o directamente en el código html de las páginas. El módulo **urllib** de Python permite manipular direcciones web para cargar datos.

In [33]:
## lectura de archivos desde la web con urllib
import urllib

link = "https://drive.google.com/open?id=0B6DckqJcFRC3ekt0UjZxMDhsVjg"
f = urllib.urlopen(link)
myfile = f.read()
print myfile

SyntaxError: Missing parentheses in call to 'print' (<ipython-input-33-609af12f8297>, line 7)

También con el módulo [**requests**](http://docs.python-requests.org/en/latest/) podemos acceder a este tipo de datos:

In [None]:
import requests
link = "http://www.somesite.com/details.pl?urn=2344"
f = requests.get(link)

print f.text

In [None]:
## lectura de html, xml con librerias xmlparser xml.etree.elementTree
## lectura de json files


lectura de archivos, parte para agregar

despues de hacer la limpieza con el csv separado por comas.. etc

La única diferencia importante reside en el uso de la función **split**. Dado que sabemos que el archivo está separdo por comas, utilizamos el caracter **","** para hacer la división con ```p.split(",")``` en la primera línea de código.


Como los archivos en formatos csv son de los más usados actualmente, Python contiene un módulo para manejar especificamente este formato.

import csv

Abrimos la conexion al archivo como siempre y luego usamos las funciones especificas para manejar csv:

with open("archivo.csv") as f:
	lector = csv.reader(f)
	cabecera = reader.next()
	datos = [row for row in lector]

La funcion **reader** crea un objeto por medio del cual podemos manipular cada línea del archivo csv.
Algunos archivos csv contienen en sus primeras lineas información sobre el mismo, nombre, autores, y demás. Con la función **next**, accedemos a la siguiente línea en la iteración, y como es nuestra primera lectura, en este caso es la primera.

La variable datos, es la lista con cada una de las líneas del archivo.
Podemos ver su contenido imprimiendo cada una de ellas de la forma usual:

print(cabecera)
for linea in datos: print(linea)


Además de csv, python tambien cuenta con tros modulos para leer hojas de excel:

import xlrd

libro = xlrd.open_workbook(filename=file) 

Esta instrucción abre el libro de excel y nos da una manera de manipularlo.

luego podemos escoger una hoja en particular usando el nombre, con la función sheet_by_name. Tambíen podemos acceder según el número de la hoja con sheet_by_index.
En este caso accedemos por nombre:

hoja = wb.sheet_by_name("Hoja1')      # abre la hoja del libro

Ahora que tenemos el contenido de la hoja, vamos a leer cada línea y columna que encontremos:

dataset = []  # lista vacia para colocar el contenido
for r in range(hoja.nrows):   # nrows indica el numero de lineas que tiene la hoja
	col = []     
	for c in range(hoja.ncols):  # el numero de columnas detectada
		col.append(hoja.cell(r, c).value)  # cell accede a las celdas individuales del archivo
	dataset.append(col)   # guarda cada valor en la lista

Vemos el contenido del nuevo conjunto de datos que acabamos de crear:

print(dataset)


Archivos JSON
Este es un formato de archivos ampliamente usado en aplicaciones y sistemas. Contiene una estructura del tipo etiqueta: valor, como esta:

mostrar imagen.

Generalmente estos archivos están alojados en la web, aunque puedes tenerlos en una ubicacion local en tu pc. Para extraer datos de este tipo, podemos usar el módulo request de esta forma:

import requests

Esta es la dirección web donde se encuentra el archivo JSON

url = 'https://api.github.com/users/justglowing'

Luego con la función **get** del modulo **requests** accedemos a la direccion web:
r = requests.get(url)

Y con la función json le extraemos el contenido estructurado dentro de la dirección web:

json_obj = r.json()

Esto nos da un diccionario con todos los pares de etiquetas y valores, a los que podemos acceder como siempre:

print(json_obj)
json_obj['id']

A partir de aquí ya podemos utilizar los datos para hacer análisis, graficar, organizarlos o guardarlos con otros formatos.

***
| [Atrás](Módulo II - 02 - Estructuras de datos y de control.ipynb) | [Inicio](Introducción - Contenido.ipynb) | [Siguiente](Módulo III - 02 - Introducción al Control de Versiones con Git.ipynb)