# Módulo III: Funciones, lectura y escritura de archivos
***


## Sesión a

### Funciones en Python
***
Le llamamos función a bloques de código que agrupamos y definimos mediante un nombre, y que podemos usar "llamándola" luego en nuestros *script* cuando queramos. Estos bloques ayudan a tener organizado nuestro código, encapsulando tareas que usamos repetitivamente sobre distintos objetos sin necesidad de replicar todas las instrucciones cada vez.

Cuando escribimos **print()** o **len()** estamos haciendo uso de funciones nativas de Python. Nota que la "llamada" se hace con el uso de paréntesis.

In [1]:
print("hello")
L = [1,2,3,4]
len(L)

hello


4

Las funciones reciben los objetos que procesarán dentro de los paréntesis, a estos se les llama **argumentos** de la función. En Python, al contrario de otros lenguajes, no es necesario especificar con antelación qué tipo de variables necesita como argumentos de entrada, ni el tipo de variable de salida que tendrá la función.

In [2]:
print ("hello", 1, "world", sep ="-")

hello-1-world


Podemos definir nuestras propias funciones con la sentencia **def**:

```python
def mi_funcion(n):
```
Aquí, **mi_funcion** es el nombre de la función que crearemos, y es el mismo nombre a través del cuál haremos uso de ella. Definimos un argumento **n** que debe recibir la función para procesar dentro del código. Podemos definir cuantos argumentos necesitemos. Antes de comenzar con el bloque de código, debemos colocar los dos puntos al final de la definición. 

Por ejemplo, podemos encapsular en una función el código que utlizamos para imprimir todos los productos en nuestra lista de compras:

In [1]:
def listar_productos(productos):
    print("Producto = Precio")
    for i in productos:
        print(i," = ", productos[i])

El bloque de código dentro de la función debe estar indentado, es decir, se debe comenzar el bloque con el espaciado correspondiente. Ahora podemos hacer uso de la función que definimos:

In [2]:
productos = {'azucar':9000.0, 'arroz':9850.5, 'harina':11000, 'aceite':12000, 'pasta':18000}
listar_productos(productos)

Producto = Precio
azucar  =  9000.0
arroz  =  9850.5
harina  =  11000
aceite  =  12000
pasta  =  18000


Vamos a calcular el precio promedio de todos los productos que hemos comprado hasta ahora. Creamos una función para ello:

In [6]:
def promedio(productos):
    promedio =  sum(productos.values()) / len(productos)
    return promedio

La sentencia **return** indica cuál es la variable que nos va a entregar nuestra función como resultado. Si no especificamos esto, la función nos dará una variable del tipo *None* de forma predeterminada.

In [7]:
promedio(productos)

11970.1

Nota que el nombre de la variable que le estamos pasando a la función no necesariamente tiene que ser igual que el nombre del argumento definido.

In [8]:
otro_dict = {i:i for i in range (5)}
print(otro_dict)
resultado = promedio(otro_dict)
resultado

{0: 0, 1: 1, 2: 2, 3: 3, 4: 4}


2.0

Si necesitamos que nuestra función nos regrese varios valores, podemos usar alguna estructura de datos como tuplas.

In [9]:
def resumen(productos):
    promedio =  sum(productos.values()) / len(productos)
    maximo = max(productos.values())
    return promedio, maximo     # devuelve dos valores en forma de tupla

Ahora podemos hacer uso de esta función modificada. Almacenamos los resultados en dos variables distintas (formada como una tupla).

In [10]:
precio_promedio , precio_maximo = resumen(productos)  # almacenamos simultáneamente los resultados
print(precio_promedio)
print(precio_maximo)

11970.1
18000


## Sesión b


### Lectura y escritura de archivos
***

Hasta los momentos hemos estado trabajando con datos que introducimos manualmente en variables. Con seguridad, 
lo mas frecuente es tener información almacenada en archivos de texto, como hojas de excel o texto simple, o que los datos estén alojados en la web, en distintos formatos como HTML y JSON. 

Python incluye librerías para manipular distintos tipos de archivos y extrar datos para usarlos dentro de nuestros programas. Para leer un archivo usamos la instrucción:

In [11]:
# Abriendo la conexión al archivo en modo "lectura"
f = open('compras.txt', 'r')

La función **open()** crea una conexión para manipular el archivo *"compras.txt"*. El argumento **'r'** indica que podemos acceder a él sólo en modo lectura.

In [12]:
# leyendo el contenido del archivo (cada línea)
contenido = f.readlines()
contenido

['carne 30000\n',
 'jamón 15000\n',
 'detergente 12000\n',
 'champú 18000\n',
 'refresco 8000\n',
 'leche 6000\n']

Usando el manejador del archivo, que llamamos **f**, podemos aplicar variadas funciones. En este caso leemos todas las líneas que contiene el archivo, con la funcion **readlines()**, y las guardamos en una nueva variable.

Otras funciones para leer el contenido del archivo son:

+ **readline()** que sólo lee una línea a la vez.
+ **read()** que lee .....

El archivo contiene una lista de productos con sus respectivos precios. Podemos manipular estas cadenas de texto y crear variables para realizar operaciones sobre los datos. Primero eliminaremos el caracter "\n", que representa un salto de línea o "enter" dentro del texto.

In [13]:
# eliminando el caracter \n  (nueva línea o enter)
for i in range(len(contenido)):
    contenido[i] = contenido[i].replace("\n","")

Ya hemos visto anteriormente el uso de la función **replace** dentro de las cadenas de texto. Ahora que tenemos el texto sin saltos de líneas, podemos separar los nombres de los productos y los precios:

In [14]:
# separando nombres de precios (lista de listas)
prod = [p.split() for p in contenido]

La lista contiene tuplas con el nombre y el precio de cada producto. En algunos casos obtendremos elementos no deseados como listas o tuplas vacías que no son de interés:

In [15]:
# eliminando las listas sin contenido (vacías)
for i in range(len(prod)):
    if len(prod[i]) == 0: prod.pop(i)
prod

[['carne', '30000'],
 ['jamón', '15000'],
 ['detergente', '12000'],
 ['champú', '18000'],
 ['refresco', '8000'],
 ['leche', '6000']]

Fácilmente podemos obtener el diccionario de productos como el que hemos trabajado antes:

In [16]:
# creando el diccionario
productos2 = {i[0]:float(i[1]) for i in prod}
productos2

{'carne': 30000.0,
 'champú': 18000.0,
 'detergente': 12000.0,
 'jamón': 15000.0,
 'leche': 6000.0,
 'refresco': 8000.0}

Ahora tenemos otro diccionario con productos adicionales. ¿Cómo combinamos esta nueva lista con los productos que ya teníamos? La función **update()** permite modificar los valores de un diccionario y agregar nuevos elementos:

In [18]:
# los productos que ya teníamos
productos = {'azucar':9000.0, 'arroz':9850.5, 'harina':11000, 'aceite':12000, 'pasta':18000}

# ¿cómo combinamos los dos?
productos.update(productos2)
productos

{'aceite': 12000,
 'arroz': 9850.5,
 'azucar': 9000.0,
 'carne': 30000.0,
 'champú': 18000.0,
 'detergente': 12000.0,
 'harina': 11000,
 'jamón': 15000.0,
 'leche': 6000.0,
 'pasta': 18000,
 'refresco': 8000.0}

Es importante que una vez que terminemos de trabajar con el archivo, cerremos la conexión del mismo. La función **close()** hace el trabajo:

In [19]:
# cerramos la conexion al archivo
f.close()

Para agregar más productos a nuestra lista, pero dentro del archivo de texto, usamos la función **write()**, sobre el manejador de archivos **f**. En este caso usamos la sentencia **with**, que permite usar **f** sin necesidad de cerrar la conexión explícitamente al terminar de utilizarlo:

In [20]:
# abriendo la conexión al archivo en modo "append" para anexar datos al final
with open('compras.txt', 'a') as f:
    f.write("leche 6000\n")    # escribe la nueva línea al final del archivo

En la función **open**, usamos el parámetro **'a'**, para indicar que el archivo esté preparado sólo para anexar líneas al final del mismo.

La función **write** permite escribir cualquier cadena de caracteres al archivo de texto. Nota que la línea **"leche 6000\n"** incluye el caracter de nueva línea al finalizar. Ahora comprobemos que realmente agregamos la nueva información a nuestro archivo, leyendo nuevamente:

In [21]:
with open('compras.txt', 'r') as f:   # abre el archivo en modo lectura
    c = f.readlines()                 # lee el contenido completo

print(c)

['carne 30000\n', 'jamón 15000\n', 'detergente 12000\n', 'champú 18000\n', 'refresco 8000\n', 'leche 6000\n', 'leche 6000\n']


Como puedes ver, el nuevo producto está realmente listado al final del archivo.

Uno de los formatos más usados en archivos de datos es el **.CSV**, conocido como "valores separados por comas". Las hojas de cálculo actualmente permiten guardar archivos con este formato. Podemos manipular de manera similar estos archivos:

In [22]:
# lo mismo pero con comas de separador:
with open('compras.csv', 'r') as f:
    c = f.readlines()

# eliminando el caracter \n  (nueva línea o enter)
for i in range(len(c)):
    c[i] = c[i].replace("\n","")

Nota que el proceso de lectura y reemplazo de caracteres sigue siendo el mismo.

In [24]:
# separando nombres de precios (lista de listas)
prod = [p.split(",") for p in c]

# eliminando las listas sin contenido (vacías)
for i in range(len(prod)):
    if len(prod[i]) == 0: prod.pop(i)

# creando el diccionario
productos2 = {i[0]:float(i[1]) for i in prod}

productos2

{'carne': 30000.0,
 'champú': 18000.0,
 'detergente': 12000.0,
 'jamón espalda': 15000.0}

La única diferencia importante reside en el uso de la función **split**. Dado que sabemos que el archivo está separdo por comas, utilizamos el caracter **","** para hacer la división con ```p.split(",")``` en la primera línea de código.

Ahora queremos guardar este código como un *script* para usarlo cuando nos interese. Lo guardamos como un archivo de texto con extensión **.py**. Nuestro archivo lo llamamos **"leerproductos.py"**. Luego, para ejecutarlo sólo escribimos dentro del shell de python:

In [25]:
exec(open("leerproductos.py").read())

Esta instrucción tiene varios pasos que pueden escribirse separadamente para que notes con claridad el proceso:
```python
    f = open("leerproductos.py")     # primero abrimos la conexión al archivo
    c = f.read()              # luego leemos el contenido
    exec(c)                   # y finalmente ejecutamos el código
```

Después de ejecutar los comandos de nuestro *script* podemos acceder a las variables que se crean internamente, por ejemplo "productos2":

In [26]:
productos2

{'carne': 30000.0,
 'champú': 18000.0,
 'detergente': 12000.0,
 'jamón espalda': 15000.0}

También podemos usar nuestras funciones desde *scripts* por medio de la sentencia **import**. La función resumen que hemos creado anteriormente la guardamos en un archivo llamado **mi_script.py**.

In [27]:
def resumen(productos):  #recibe un diccionario de pares producto:precio
    promedio =  sum(productos.values()) / len(productos)
    maximo = max(productos.values())
    return promedio, maximo     # devuelve dos valores en forma de tupla

Ahora importamos nuestra función y la usamos con el diccionario "productos2":

In [29]:
from mi_script import resumen    # importa la función resumen, del archivo mi_script.py
resumen(productos2)               # ejecuta la funciónanalizar

(18750.0, 30000.0)

Si quieres cambiarle el nombre a tu script, usa la función **rename**. El primer argumento es una cadena con el nombre actual incluyendo la extensión del archivo, y la segunda es el nuevo nombre:

```python
import os
os.rename("nombreviejo.txt", "nombrenuevo.txt")
```

Desde el mismo shell de python puedes eliminar también cualquier archivo con la instrucción:
```python
import os
os.remove("nombredelarchivo.txt")
```

#### Lectura de archivos desde la web
***

Es típico que se quieran extraer y analizar datos que están alojados en la web como archivos, o directamente en el código html de las páginas. El módulo **urllib** de Python permite manipular direcciones web para cargar datos.

In [None]:
## lectura de archivos desde la web con urllib
import urllib

link = "https://drive.google.com/open?id=0B6DckqJcFRC3ekt0UjZxMDhsVjg"
f = urllib.urlopen(link)
myfile = f.read()
print myfile

También con el módulo [**requests**](http://docs.python-requests.org/en/latest/) podemos acceder a este tipo de datos:

In [None]:
import requests
link = "http://www.somesite.com/details.pl?urn=2344"
f = requests.get(link)

print f.text

In [None]:
## lectura de html, xml con librerias xmlparser xml.etree.elementTree
## lectura de json files


### Control de versiones con Git
***

Ahora tenemos varios archivos en nuestra carpeta de proyecto. Es importante tener una forma de controlar los cambios que hagamos y respaldar los datos y *scripts*. Podemos usar herramientas de **control de versiones** para mantener organizado nuestro trabajo.

El **control de versiones** permite hacer segumiento de los cambios sobre nuestro código, nuestro datos y demás archivos que usemos. Es un concepto que puede ser utilizado no sólo por programadores sino para cualquier proyecto en general que quieras mantener controlado.

Una de las herramientas más populares para control de versiones es **Git**. Con Git podemos crear distintos "repositorios", que básicamente son directorios donde colocarás tus archivos y proyectos.

#### Instalación desde Windows
***
Para usarlo desde nuestra pc debemos instalar el programa. Si usas Windows, descarga el programa desde [aquí](https://git-for-windows.github.io/) o [aquí](https://github.com/git-for-windows/git/releases/tag/v2.14.1.windows.1). Elige la version de 32 o 64 bits según tu sistema.

![Descarga para Windows](images/014-descargagit.png)

Ejecuta el archivo **.exe**, sigue las instrucciones hasta finalizar el proceso de instalación. Luego puedes abrir un terminal de windows (busca en tu menú de inicio "cmd"); o puedes abrir *Git Bash*, que debe haber sido instalado junto con Git.

#### Instalación desde Linux
***
En linux, puedes instalarlo por línea de comandos. En un terminal escribe:

```
sudo apt-get update
sudo apt-get install git
```
Verifica que se haya instalado correctamente con el comando siguiente en tu terminal, el cual deberá mostrarte la versión instalada del programa:

```
git --version
```

#### Configuración y creación de repositorios
***
Inmediatamente puedes empezar a usar git. En primer lugar debes configurar tu nombre de usuario y correo electrónico, con los siguientes comandos (en el terminal o en Git bash en Windows):

```
git config --global user.name "tu nombre"
git config --global user.email "tu_email@email.com"
```


Ahora que tenemos **Git** configurado, podemos crear un repositorio para nuestro proyecto. En el terminal, debemos estar ubicados en el directorio donde están nuestros archivos. En el terminal de linux usa el comando **pwd** para ver la ruta del directorio actual, y **ls** para ver una lista de los archivos que contiene.

```
pwd
ls
```

Para cambiar de directorio o carpeta, usa el comando **cd** seguido de la ruta del directorio al que quieras entrar. Por ejemplo:

```
cd /home/mags/Documentos/
```

Si escribes: **`cd ..`** , te ubicarás en el directorio inmediatamente anterior a dónde te encuentras actualmente:

```
cd ..
pwd
```

Ahora en el directorio correcto, creamos un nuevo repositorio de Git con el comando:
```
git init
```
Con estos comandos, agregas los archivos que indicas en la lista de seguimiento del repositorio. Usando el **'*'** agregas todos los que aun estén sin seguimientos.
```
git add <nombre-del-archivo>
git add *
```
Puedes ver el estado de tus archivos con:
```
git status
```
Luego para "guardar" los cambios que has hecho sobre los archivos, usamos la instrucción:
```
git commit -m "mensaje"
```
Donde "mensaje" es cualquier mensaje personalizado que describa brevemente los cambios que has hecho sobre el archivo.

Todo este proceso está sucediendo en tu repositorio local, es decir en las carpetas de tu pc. Para tener el respaldo online, puedes usar alguno de los servicios de hosting preparados para control de versiones. En nuestro caso usaremos [Github](https://github.com).

#### Creación de cuenta y repo en Github
***

Para registrarte en Github, sólo necesitas elegir tu nombre de usuario, dar tu correo y crear una contraseña:

![Registro en Github](images/013-registrogit.png)

Ahora vamos a crear un repositorio vació para almacenar nuestro proyecto local. Dentro de Github, en la esquina superior derecha encontrarás un símbolo "+". Elige la opción "Nuevo repositorio", o "New repository".

![Crear repositorio](images/015-nuevorepo.png)

En la siguiente página, elige un nombre para tu repositorio. Dejamos la opción **Pública** por defecto. (para usar la versión privada debe pagarse una suscripción). En este caso, asegúrate de NO elegir la opción *"Iniciar este repositorio con un README"*. 

![Crear repositorio sin README](images/016-nuevorepo2.png)

En la siguiente página encontrarás instrucciones para conectar tu proyecto local con tu recién creado repositorio en Github.

![Dirección del repo](images/017-nuevorepo3.png)


Copia la dirección del repositorio y ejecuta en tu terminal los siguientes comandos:

```
git remote add origin "<direccion-de-tu-repo-en-github>"
git push -u origin master       # sube los archivos a github
```
Te pedirá los datos de *login* de tu cuenta de Github, y luego se encargará de subir los archivos, que ya estarán en tu repositorio online!

La siguiente imagen muestra la estructura de este curso dentro de un repo en Github, que ha sido creado siguiendo estos pasos:

![Repo del curso](images/018-repocurso.png)


Si ya tienes un repo en Github y quieres descargar los archivos para empezar a trabajar en local entonces usa el comando:

```
git clone "<direccion-de-tu-repo-en-github>"
```

Esto creará una copia completa del proyecto en tu computadora, desde la que podrás modificar y llevar el control de versiones. En este caso, para hacer el *push* (subir cambios en los archivos), **NO** es necesario especificar el *origen remoto* como antes (`git remote add origin`).

Ahora puedes mantener tus proyectos sincronizados, compartir y colaborar fácilmente con la comunidad de Github. Para usos más avanzados de git, creación de ramas (*branches*), ejecutar *merges*, *pull request* y otros,  puedes revisar [material](https://guides.github.com/activities/hello-world/) y [tutoriales](https://try.github.io/levels/1/challenges/1) disponibles en la web.

***
| [Atrás](Módulo II - Cadenas, estructuras de datos y de control.ipynb) | [Inicio](Introducción - Contenido.ipynb) | [Siguiente](Módulo IV - Introducción a la Ciencia de Datos.ipynb)