# Python para el análisis de datos -  UNAV 2020-2021
---

# Notebook 4: Procesado de ficheros, funciones y OOP.

## Índice  <a name="indice"></a>

    
- [Procesado de ficheros](#procesado_ficheros)
    - [Lectura de ficheros](#lectura_ficheros)
    - [Escritura en un fichero](#escritura_ficheros)
    - [Procesando ficheros .csv](#procesando_csv)

- [Funciones](#funciones)
    - [Definición de función](#definicion_funcion)
    - [Comprobar el tipo de los argumentos](#tipo_argumentos)
    - [Funciones lambda](#funcion_lambda)
- [Programación orientada a objetos](#oop)

- [Ejercicios](#ejercicios)

## Procesado de ficheros<a name="procesado_ficheros"></a> 
[Volver al índice](#indice)

En Python, para leer y escribir un fichero, lo primero es abrir/crear el fichero con la función *open()*. La función *open()* tiene tres parámetros principales:

* file: nombre o ruta del archivo.
* mode: modo en el que archivo se abre.
* encoding: tipo de codificador para tratar caracteres especiales.

Descripción detalla de la función *open()*: https://docs.python.org/3/library/functions.html#open

### Lectura de ficheros<a name="lectura_ficheros"></a> 
[Volver al índice](#indice)

La función *open()* tiene varios modos de lectura fichero:
    
* "r": abrir el archivo para lectura.
* "rb": abrir el archivo para lectura en modo binario.

Podemos utilizar la sentencia _with_ para leer un fichero. _With_ es los que se conoce en Python como context manager. Nos permite definir un contexto para la escritura y lectura de un fichero, una vez salimos del contexto el fichero se cierra automaticamente. ***Es la manera segura de procesar archivos***.

Python nos proporciona diferentes maneras de leer un fichero. En primer lugar podemos leer un fichero completamente usando la función f.read():

In [None]:
import pandas as pd 
# Read data from file 'filename.csv' 
# (in the same directory that your python process is based)
# Control delimiters, rows, column names with read_csv (see later) 
data = pd.read_csv('2020_S4_datos/python_zen.txt', sep=" ", header=None) 
# Preview the first 5 lines of the loaded data 
data.head()

In [2]:

with open(file="2020_S4_datos/python_zen.txt", mode="r") as f:
    print(f.read())

Beautiful is better than ugly.
Explicit is better than implicit.
Simple is better than complex.
Complex is better than complicated.
Flat is better than nested.
Sparse is better than dense.
Readability counts.
Special cases aren't special enough to break the rules.
Although practicality beats purity.
Errors should never pass silently.
Unless explicitly silenced.
In the face of ambiguity, refuse the temptation to guess.
There should be one-- and preferably only one --obvious way to do it.
Although that way may not be obvious at first unless you're Dutch.
Now is better than never.
Although never is often better than *right* now.
If the implementation is hard to explain, it's a bad idea.
If the implementation is easy to explain, it may be a good idea.
Namespaces are one honking great idea -- let's do more of those!


Para leer los primeros 50 bytes del fichero usando la función *f.read(size)*:

In [3]:
with open(file="2020_S4_datos/python_zen.txt", mode="r") as f:
    print(f.read(50) + "\n")

Beautiful is better than ugly.
Explicit is better 



O podemos optar por leer el archivo línea a línea:

In [6]:
'''mejor esta opción que la de abajo'''
with open(file="2020_S4_datos/python_zen.txt", mode="r") as f:
    for line in f:  # for line in f:
        print(line)

Beautiful is better than ugly.

Explicit is better than implicit.

Simple is better than complex.

Complex is better than complicated.

Flat is better than nested.

Sparse is better than dense.

Readability counts.

Special cases aren't special enough to break the rules.

Although practicality beats purity.

Errors should never pass silently.

Unless explicitly silenced.

In the face of ambiguity, refuse the temptation to guess.

There should be one-- and preferably only one --obvious way to do it.

Although that way may not be obvious at first unless you're Dutch.

Now is better than never.

Although never is often better than *right* now.

If the implementation is hard to explain, it's a bad idea.

If the implementation is easy to explain, it may be a good idea.

Namespaces are one honking great idea -- let's do more of those!


In [5]:
with open(file="2020_S4_datos/python_zen.txt", mode="r") as f:
    for line in f.readlines():  # for line in f:
        print(line)

Beautiful is better than ugly.

Explicit is better than implicit.

Simple is better than complex.

Complex is better than complicated.

Flat is better than nested.

Sparse is better than dense.

Readability counts.

Special cases aren't special enough to break the rules.

Although practicality beats purity.

Errors should never pass silently.

Unless explicitly silenced.

In the face of ambiguity, refuse the temptation to guess.

There should be one-- and preferably only one --obvious way to do it.

Although that way may not be obvious at first unless you're Dutch.

Now is better than never.

Although never is often better than *right* now.

If the implementation is hard to explain, it's a bad idea.

If the implementation is easy to explain, it may be a good idea.

Namespaces are one honking great idea -- let's do more of those!


### Escritura en un fichero<a name="escritura_ficheros"></a> 
[Volver al índice](#indice)

La función *open()* tiene varios modos de escritura de fichero:
    
* "w": abrir para escritura.
* "wb": abrir para escritura en modo binario.
* "a": abrir para escritura y añadir contenido al final si el archivo ya existe.

En Python podemos escribir un fichero, creándolo previamente, o sobreescribiendo el contenido del fichero, en caso que ya exista, usando la función *f.write()*:

In [10]:
with open(file="nuevo_fichero.txt", mode="w") as f:
    f.write("Integer tristique scelerisque dapibus.\n")
    
with open(file="nuevo_fichero.txt", mode="r") as f:
    print(f.read())

Integer tristique scelerisque dapibus.



Con el modo "a" podemos añadir nuevas líneas al final del archivo que acabamos de crear:

In [8]:
with open(file="nuevo_fichero.txt", mode="a") as f:
    f.write("Etiam molestie augue magna, vel tempor nisl faucibus ut.\n")
    
with open(file="nuevo_fichero.txt", mode="r") as f:
    print(f.read())

Integer tristique scelerisque dapibus.
Etiam molestie augue magna, vel tempor nisl faucibus ut.



En los siguientes ejemplos vemos como escribir en un fichero un rango de valores línea a línea. Vamos a utilizar las funciones *f.write()* y *f.writelines()*:

* *f.write()*: escribe una cadena de caracteres al archivo.
* *f.writelines()*: escribe una secuencia de cadenas de caracteres al archivo. Un iterable: list, set o generador. Esta función no añade separación entre cadenas, habría que añadir, por ejemplo, "\n".

Nota: estas funciones sólo admiten cadenas de caracteres, de forma que los valores numéricos deben convertirse previamente a string.

In [14]:
with open(file="fichero_range.txt", mode="w") as f:
    for i in range(20):
        f.write(str(i) + "\n")

In [12]:
with open(file="fichero_range.txt", mode="w") as f:
    f.writelines(str(i) + "\n" for i in range(20))

In [15]:
with open(file="fichero_range.txt", mode="r") as f:
    print(f.read())

0
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19



### Procesando ficheros .csv<a name="procesando_csv"></a> 
[Volver al índice](#indice)

Uno de los formatos más comunes (y menos eficientes) para el almacenamiento de datos con formato CSV (comma-separated values).  Para procesar este tipo de ficheros existe el modulo **csv** que nos permite leer el fichero de forma sencilla. Veamos como lo podemos hacer:

- Primero hay que importar el modulo usando _import csv_.
- Después se procede con la lectura línea a línea a través del módulo, usando la función _reader_ del módulo.
- Las líneas son leídas y los campos procesados son almancenados en una lista que posteriormente podemos tratar.

Veamos un ejemplo con un dataset de los códigos postales de la ciudad de Los Angeles.

In [16]:
import csv

file_csv = "2020_S4_datos/2010_Census_Populations_by_Zip_Code.csv"
n_rows = 5

with open(file=file_csv, mode="r") as f:
    reader = csv.reader(f)
    
    for i, row in enumerate(reader):
        print(row)
        
        if i == n_rows:
            break

['Zip Code', 'Total Population', 'Median Age', 'Total Males', 'Total Females', 'Total Households', 'Average Household Size']
['91371', '1', '73.5', '0', '1', '1', '1']
['90001', '57110', '26.6', '28468', '28642', '12971', '4.4']
['90002', '51223', '25.5', '24876', '26347', '11731', '4.36']
['90003', '66266', '26.3', '32631', '33635', '15642', '4.22']
['90004', '62180', '34.8', '31302', '30878', '22547', '2.73']


Podemos leer el fichero entero y almacenarlo en una lista anidada.

In [17]:
file_csv = "2020_S4_datos/2010_Census_Populations_by_Zip_Code.csv"

content = []

with open(file=file_csv, mode="r") as f:
    reader = csv.reader(f)
    
    for row in reader:
        content.append(row)

# Para contar correctamente quitamos un registro correspondiente a la cabecera 
print("Los Angeles tiene {:d} códigos postales.".format(len(content) - 1))

Los Angeles tiene 319 códigos postales.


La lista *content* contiene cada una de las listas del csv. La primera fila corresponde a la cabecera del csv (en caso que contenga el nombre de cada columna).

In [18]:
header = content[0]
header

['Zip Code',
 'Total Population',
 'Median Age',
 'Total Males',
 'Total Females',
 'Total Households',
 'Average Household Size']

In [19]:
content[1]

['91371', '1', '73.5', '0', '1', '1', '1']

Para calcular la media de población por código postal, podemos extraer el contenido de la columna correspondiente a *Total Population*. Éste es un método para hacerlo:

In [20]:
idx_col = header.index("Total Population")

n = len(content)
l_total_population = [int(content[row][idx_col]) for row in range(1, n)]
    
avg_population = sum(l_total_population) / len(l_total_population)

print(f"La media de personas por código postal es {avg_population:.2f}.")

La media de personas por código postal es 33241.34.


En la sesión anterior introdujimos NumPy. NumPy contiene algunas funcionalidades para procesar ficheros, como la función *np.genfromtxt()*: https://numpy.org/doc/stable/reference/generated/numpy.genfromtxt.html

In [22]:
import numpy as np

Vamos a calcular la media para todas las columnas. Durante la lectura evitamos la primera fila que continene las cabeceras.

In [26]:
content = np.genfromtxt(fname=file_csv, delimiter=",", skip_header=1)
print(content)

[[9.1371e+04 1.0000e+00 7.3500e+01 ... 1.0000e+00 1.0000e+00 1.0000e+00]
 [9.0001e+04 5.7110e+04 2.6600e+01 ... 2.8642e+04 1.2971e+04 4.4000e+00]
 [9.0002e+04 5.1223e+04 2.5500e+01 ... 2.6347e+04 1.1731e+04 4.3600e+00]
 ...
 [9.3560e+04 1.8910e+04 3.2400e+01 ... 9.4190e+03 6.4690e+03 2.9200e+00]
 [9.3563e+04 3.8800e+02 4.4500e+01 ... 1.2500e+02 1.0300e+02 2.5300e+00]
 [9.3591e+04 7.2850e+03 3.0900e+01 ... 3.6320e+03 1.9820e+03 3.6700e+00]]


La función devuelve un array 2-D de tipo **float**:

In [24]:
type(content), content.dtype, content.shape

(numpy.ndarray, dtype('float64'), (319, 7))

In [30]:
dict(zip(header, content.sum(axis=0) / len(content)))
resource.getrusage(resource.RUSAGE_SELF).ru_maxrss

NameError: name 'resource' is not defined

Aunque *np.genfromtxt* representa una mejora considerable respecto al módulo **csv**, en la siguientes sesiones veremos otras librerías más apropiadas para procesar archivos.

## Funciones<a name="funciones"></a> 
[Volver al índice](#indice)

Uno de los principios básicos de cualquier lenguaje de programación es "Don't Repeat Yourself", esto se conoce como código DRY. Si tenemos una acción que debería ocurrir muchas veces, podemos definir esa acción una vez (implementarla) y luego llamar a ese código cada vez que necesite llevar a cabo dicha acción.

La forma de no repetirnos constantemente (aparte del copiar + pegar), es a través de funciones. Las funciones significan menos trabajo para nosotros como programadores, y el uso efectivo de las funciones da como resultado un código que es menos propenso a errores.

### Definición de función<a name="definicion_funcion"></a> 
[Volver al índice](#indice)

En programación una función se puede definir como un código que encapsula un conjunto de acciones. Concretamente en Python, una función sigue la siguiente estructura:

<pre>
def nombre_funcion(parametro_1, parametro_2):
    sentencia(s)

nombre_funcion(argumento_1, argumento_2)
</pre>

* Utiliza la palabra reservada `def`, que le indica a Python que vamos a "definir" una función.
* La definición de la función termina con ":". Es importante indentar correctamente.
* Emplea nombre consicos y claros para funciones. Deben indicar que acciones se realizan.
* La función puede incluir *parámetros* de entrada en su definición, estos van entre paréntesis. Los valores que se pasan a una función al llamarla son los *argumentos*.

Veamos un primer ejemplo sencillo. Es importante recordar que una función debe ser definida antes de utilizarse.

In [None]:
def saludo(nombre):
    print(f"¡Hola {nombre}!")
    
saludo("Pedro")
saludo("Clara")

Si no empleamos una función y tenemos una lista de nombre muy larga el proceso es claramente repetitivo. Para éste y muchos otros casos más complejos una función es la mejor opción.

#### Argumentos posicionales

La manera más sencilla a pasar argumentos a una función es con argumentos posicionales. Para ello pasamos un argumento para cada parámetro definido en la función.

In [48]:
def fmt_fullname(name, surname):
    print(f"{name.title()} {surname.title()}")

In [49]:
fmt_fullname("julio", "verne")
fmt_fullname("julio")

Julio Verne


TypeError: fmt_fullname() missing 1 required positional argument: 'surname'

#### Parámetros por defecto

Si no pasamos dos argumentos a la función, ésta nos devuelve un error de argumento posicional:

In [None]:
fmt_fullname("julio")

In [None]:
fmt_fullname()

Podemos modificar la definición de la función para asignar a los parámetros de la misma, un valor por defecto. Esto evitará errores cuando no pasamos todos los argumentos posicionales.

In [34]:
def fmt_fullname(name="unknown", surname="unknown"):
    print(f"{name.title()} {surname.title()}")

In [35]:
fmt_fullname("julio", "verne")
fmt_fullname("julio")
fmt_fullname()

Julio Verne
Julio Unknown
Unknown Unknown


#### Argumentos de palabra clave

Modificamos la función anterior para agregar la fecha de fallecimiento:

In [None]:
def fmt_fullname_age(name, surname, age):
    print(f"{name.title()} {surname.title()} died at {age}.")

In [None]:
fmt_fullname_age("julio", "verne", 77)
fmt_fullname_age(77, "julio", "verne")

Vemos que si pasamos los argumentos en el orden adecuado aparece un error. Este error es debido a que se esperaba un argumento de tipo **str** pero recibe uno de tipo **int**. Para evitar este tipo de errores podemos pasar los argumentos usando la forma clave=valor.

In [None]:
fmt_fullname_age(age=77, name="julio", surname="verne")

#### Sentencia **return**

La sentencia **return** termina la función devolviendo un valor. Es opcional que una función devuelva un valor.

En este ejemplo la función *count_char_int* devuelve el número de caracteres que contiene un número.

In [50]:
import random


def count_char_int(number):
    if isinstance(number, int):
        return len(str(number))


max_int = int(1e4)
for number in (random.randint(0, max_int) for _ in range(10)):
    print(count_char_int(number), number)

4 1223
3 553
4 4895
4 1619
4 5736
4 8505
4 6598
3 234
4 2772
4 1990


#### Lista de argumentos de longitud variable

En ocasiones no conocemos cuantos parámetros son necesarios en la definición de una función. Por ejemplo, si queremos realizar la suma de varios números enteros. Si sólo consideramos dos enteros la definición sería así:

In [None]:
def add_int(a, b):
    return a + b

add_int(12, 43)

En los casos anteriores, el número de parámetros y argumentos posicionales debe coincidir. Al pasar tres argumentos se produce un error:

In [None]:
add_int(23, 11, 67)

Python nos proporciona una sintaxis para permitir que una función acepte una cantidad arbitraria de argumentos. Si colocamos un argumento al final de la lista de argumentos, con un asterisco delante de él, ese argumento recogerá los valores restantes de la declaración de llamada en una tupla.

* **args* permite cualquier iterable desempaquetado: list, set o generador.
* Toda secuencia de argumentos es empaquetada en una tupla.
* Se puede iterar sobre la tupla con un *for*-loop.

In [52]:
def add_ints(*args):
    s = 0
    for i in args:
        s += i
    
    expression = " + ".join(map(str, args))
    print(f"La suma de {expression} es {s}.")
    
    return s


print(add_ints(12, 43))
print(add_ints(23, 11, 67))
print(add_ints(12, 43, 156, 89, 161))

<map object at 0x000001FAA654E9D0>
La suma de 12 + 43 es 55.
55
<map object at 0x000001FAA654EC70>
La suma de 23 + 11 + 67 es 101.
101
<map object at 0x000001FAA654E1F0>
La suma de 12 + 43 + 156 + 89 + 161 es 461.
461


In [56]:
ints = [3, 4, 5, 6, 7]

add_ints(*ints)  # para desempaquetar una lista *lista
#para desempaquetar un diccionario **dict

25
<map object at 0x000001FAA6997A00>
La suma de 3 + 4 + 5 + 6 + 7 es 25.


25

#### Lista de argumentos palabra clave de longitud variable

Python también proporciona una sintaxis para aceptar un número arbitrario de argumentos de tipo palabra clave. En la siguiente función, el tercer argumento tiene dos asteriscos delante, que le indica a Python que recopile todos los argumentos clave-valor restantes en la llamada. Este argumento se denomina comúnmente `kwargs` como en el caso anterior era `args`, esto es por convención pero siempre podremos llamarlo como queramos, como veremos en un momento:

En la siguiente función queremos pasar información básica sobre un usuario. También vamos a dejar la opción de pasar información adicional. La información del usuario se imprimirá:

In [57]:
def user_info(name, surname, **kwargs):
    """Print user basic user information. Optionally include additional
    information provided as **kwargs.
    
    Parameters
    ----------
    name: str
        User name.

    surname : str
        User surname.

    kwargs: keyword arguments
        Additional user information.
    """
    
    print(f"Name: {name.title()}")
    print(f"Surname: {surname.title()}")
    
    for key, val in kwargs.items():
        print(f"{key.title()}: {val}")
    

user_info('john', 'smith', address="St. John street", postcode="GU16 7HF")

Name: John
Surname: Smith
Address: St. John street
Postcode: GU16 7HF


En la función anterior hemos creado una descripción (*docstring*). La función *help()* nos devuelve esta información.

In [58]:
help(user_info)

Help on function user_info in module __main__:

user_info(name, surname, **kwargs)
    Print user basic user information. Optionally include additional
    information provided as **kwargs.
    
    Parameters
    ----------
    name: str
        User name.
    
    surname : str
        User surname.
    
    kwargs: keyword arguments
        Additional user information.



Para este caso, podemos combinar la información básica y opcional (si existe):

In [None]:
def user_info2(name, surname, **kwargs):
    new_kwargs = {**{"name": name.title(), "surname": surname.title()}, **kwargs}
    
    for key, val in new_kwargs.items():
        print(f"{key.title():<10}: {val}")

user_info2('john', 'smith', address="St. John street", postcode="GU16 7HF")        

También podemos crear un diccionario de argumento-valor y desempaquetarlo al llamar a la función. Para desempaquetar un diccionario usamos dos asteriscos.

In [None]:
d = {"address": "St. John street", "postcode": "GU16 7HF"}
user_info2('john', 'smith', **d)

Por último, la definición de una función permite combinar varias formas de suministrar argumentos. En este caso, tenemos dos parámetros posicionales, args y kwargs. Esta definición proporciona una gran flexibilidad y es más elegante.

In [59]:
def user_info3(name, surname, *jobs, **other_info):
    d_basic = {"name": name.title(), "surname": surname.title()}
    d_jobs = {"job_{}".format(i): job for i, job in enumerate(jobs)}
    
    d_info = {**d_basic, **d_jobs, **other_info}
    
    for key, val in d_info.items():
        print(f"{key.title():<10}: {val}")
        
jobs = ("Software Engineer", "Intern")
user_info3('john', 'smith', "Software Engineer", "Intern", address="St. John street", postcode="GU16 7HF")        

Name      : John
Surname   : Smith
Job_0     : Software Engineer
Job_1     : Intern
Address   : St. John street
Postcode  : GU16 7HF


In [None]:
jobs = ("Software Engineer", "Intern")
other_info = {"address":"St. John street", "postcode": "GU16 7HF"}

user_info3('john', 'smith', *jobs, **other_info)

### Comprobar el tipo de los argumentos<a name="tipo_argumentos"></a> 
[Volver al índice](#indice)

Cuando pasamos argumentos a una función es importante comprobar si el tipo es correcto. Para ello podemos utilizar la función *isisntance()*. En caso que no sea del tipo deseado, la función devuelve una excepción. **Es buena práctica realizar este tipo de comprobaciones antes utilizar operaciones con los argumentos**.

In [None]:
def user_info(name, surname, **kwargs):
    """Print user basic user information. Optionally include additional
    information provided as **kwargs.
    
    Parameters
    ----------
    name: str
        User name.

    surname : str
        User surname.

    kwargs: keyword arguments
        Additional user information.
        
    Raises
    ------
    TypeError
        If name or surname are not a string.
    """
    
    if not isinstance(name, str):
        raise TypeError(f"name must be a string; got type {type(name)}")
        
    if not isinstance(surname, str):
        raise TypeError(f"surname must be a string; got type {type(surname)}")        
    
    print(f"Name: {name.title()}")
    print(f"Surname: {surname.title()}")
    
    for key, val in kwargs.items():
        print(f"{key.title()}: {val}")
    

user_info('john', 'smith', address="St. John street", postcode="GU16 7HF")

Python 3.0+ da soporte a anotaciones. Las anotaciones son útiles para definir el tipo que acepta cada parámetro, y generar mejor documentación. Para saber más: https://www.python.org/dev/peps/pep-3107/

In [61]:
def user_info(name: str, surname: str, **kwargs: str) -> None:
    """Print user basic user information. Optionally include additional
    information provided as **kwargs.
    
    Parameters
    ----------
    name: str
        User name.

    surname : str
        User surname.

    kwargs: keyword arguments
        Additional user information.
        
    Raises
    ------
    TypeError
        If name or surname are not a string.
    """
    
    if not isinstance(name, str):
        raise TypeError(f"name must be a string; got type {type(name)}")
        
    if not isinstance(surname, str):
        raise TypeError(f"surname must be a string; got type {type(surname)}")        
    
    print(f"Name: {name.title()}")
    print(f"Surname: {surname.title()}")
    
    for key, val in kwargs.items():
        print(f"{key.title()}: {val}")
    

user_info('john', 'smith', address="St. John street", postcode="GU16 7HF")

Name: John
Surname: Smith
Address: St. John street
Postcode: GU16 7HF


In [62]:
user_info.__annotations__

{'name': str, 'surname': str, 'kwargs': str, 'return': None}

In [None]:
info = user_info('john', 'smith', address="St. John street", postcode="GU16 7HF")

In [None]:
print(info)

### Funciones lambda <a name="funcion_lambda"></a> 
[Volver al índice](#indice)

Las funciones lambda son comunes en muchos lenguajes de programación y son:

* Concisas (una línea).
* Anónimas.

Aunque Python no es un lenguaje puramente funcional, incluye conceptos como *map()*, *filter()*, *reduce()* y el operador **lambda**. Veamos algunos ejemplos:

Para ejecutar una función lambda la delimitamos entre paréntesis y pasamos el argumento, 3, también entre paréntesis.

In [10]:
(lambda x: x ** x)(3)

27

Una función lambda también puede almacenarse en una variable:

In [11]:
x_pow_x = lambda x: x ** x
x_pow_x(3)

27

Se puede definir una función lambda con más de un parámetro, e incluso con un número indefinido de parámetros usando *args.

In [12]:
(lambda x, y : x + y)(10, -2)

8

In [13]:
(lambda *args: sum(args))(1, 2, 3, 4, 5, 6)

21

In [14]:
(lambda *args: " ".join(args))("1", "2", "3")

'1 2 3'

Como ya vimos en la clase anterior, el uso más común de las funciones en lambda es en combinación con otras funciones como *map()*, *filter()* o *reduce()*:

In [15]:
celsius = [39.2, 36.5, 37.3, 37.8]
fahrenheit = map(lambda c: (9 / 5) * c + 32, celsius)
list(fahrenheit)

[102.56, 97.7, 99.14, 100.03999999999999]

Recordar que *map()*, *filter()* y *reduce()* también permiten aplicar una función previamente definida a un iterable:

In [None]:
def conversion_celsius_fahrenheit(celsius):
    return (9 / 5) * celsius + 32

fahrenheit = map(conversion_celsius_fahrenheit, celsius)
list(fahrenheit)

## Programación orientada a objetos<a name="oop"></a> 
[Volver al índice](#indice)

Programación orientada a objetos (OOP) es un paradigma de programación, que permite estructurar programas definiendo propiedades y comportamientos. Las clases son un tema extenso, por lo que en esta sección aprenderemos lo más básico para empezar proyectos y utilizar eficientemente clases de otros modulos y librerías.

Las clases son un tipo de dato flexible, y se pueden emplean para crear estructuras de datos complejas. Las clases también puede definir funciones (métodos), que determinan las acciones que un objeto creado a partir de esta clase puede realizar.

Las propiedades que debe tener una clase se definen en el método *init()*. El método *init()* establece los valores para cualquier parámetro que deba definirse cuando se crea un objeto por primera vez (instancia). **self** es una sintaxis que permite acceder a una atributo desde cualquier otro lugar de la clase. Cualquier **self.valor** se considera un atributo de la instancia, ya que es específico a una instancia particular de la clase.

Para ver todos los conceptos básicos de OOP vamos a utilizar un ejemplo simple, una clase producto, que definimos con el siguiente código:

In [None]:
class Producto:
    def __init__(self, nombre, categoria):
        self.nombre = nombre
        self.categoria = categoria

La clase producto requiere dos parámetros para instanciar un objeto, el nombre del producto y su categoría. Estos dos valores se almacenan como atributos. Podemos ver que los productos, aún siendo instanciados con los mismos argumentos, no son iguales.

In [None]:
producto_1 = Producto(nombre="detergente", categoria="limpieza")
producto_2 = Producto(nombre="detergente", categoria="limpieza")

producto_1 == producto_2

Podemos acceder a los atributos de una clase usando *objeto.atributo*:

In [None]:
producto_1 = Producto(nombre="detergente", categoria="limpieza")
producto_2 = Producto(nombre="libreta", categoria="papeleria")

print(producto_1.nombre, producto_1.categoria)

Ahora mismo la clase Producto no sirve para mucho. Vamos a añadir un método para que nos devuelva una descripción del producto.

In [10]:
class Producto:
    def __init__(self, nombre, categoria):
        self.nombre = nombre
        self.categoria = categoria
        
    def descripcion(self):
        return f"Producto {self.nombre} pertenece a la categoria {self.categoria}."

Creamos un nuevo producto y le pedimos su descripción:

In [11]:
producto = Producto(nombre="libreta", categoria="papeleria")
print(producto.descripcion())

Producto libreta pertenece a la categoria papeleria.


Podemos comprobar que un objeto instanciado desde la clase Producto, es en efecto de tipo Producto usando la función *isinstance()*. Esto es igual que cuando comprobamos que un entero era de tipo **int**.

In [None]:
isinstance(producto, Producto)

Existe la opción de crear tantos productos como queramos usando la clase Producto. Creamos una lista de productos y mostramos la descripción de todos ellos.

In [12]:
nombres = ["vaso", "movil", "lapiz"]
categorias = ["menaje", "tecnologia", "papeleria"]

lista_productos = []
for nombre, categoria in zip(nombres, categorias):
    producto = Producto(nombre, categoria)
    lista_productos.append(producto)

In [13]:
for producto in lista_productos:
    print(producto.descripcion())

Producto vaso pertenece a la categoria menaje.
Producto movil pertenece a la categoria tecnologia.
Producto lapiz pertenece a la categoria papeleria.


Vamos a realizar algunos cambios a la clase producto para enriquecerla. Primero incorporamos un nuevo parámetro a la definición, el precio del producto. En segundo lugar, reemplazamos el método *descripcion()* por un método especial `__str__()`. Esto permite mostrar la definición cuando hacemos *print(objeto_producto)*. Por otro lado, añadimos el método *precio_con_iva()* con el parámetro por defecto de iva=0.21.

In [39]:
class Producto:
    def __init__(self, nombre, categoria, precio):
        self.nombre = nombre
        self.categoria = categoria
        self.precio = precio
        
    def __str__(self):
        return f"Producto {self.nombre} pertenece a la categoria {self.categoria}."
    
    def precio_con_iva(self, iva=0.21):
        return self.precio * (1 + iva)

Creamos una nueva lista de productos con sus precios:

In [40]:
nombres = ["vaso", "movil", "lapiz"]
categorias = ["menaje", "tecnologia", "papeleria"]
precios = [1.5, 299.99, 0.35]

lista_productos = []
for nombre, categoria, precio in zip(nombres, categorias, precios):
    producto = Producto(nombre, categoria, precio)
    lista_productos.append(producto)

Ahora definimos una nueva clase, Cesta, que almacenará una lista de productos con las unidades de cada uno. Esta clase incorpora tres métodos principales:

* add: añade un número de unidades de un producto.
* coste: permite calcular el coste de la lista. El parámetro booleano especifica si queremos tener el cuenta el iva.
* mostrar_lista: muestra los productos que se encuentran actualmente en la lista y su número de unidades.

Finalmente, el método especial `__len()__` nos sirve para saber el número de productos en la lista usando *len(objeto_cesta)*. 

A remarcar:

* add: la función comprueba si los argumentos son válidos, es decir, si el producto es de tipo Producto y el número de unidades es un entero positivo mayor >= 1.
* coste: comprueba primero si la lista esta vacía, si es así devuelve 0.

In [None]:
class Cesta:
    def __init__(self):
        self._productos = []  # atributos privados, que empiecen por _
        
    def add(self, producto, unidades=1):
        if not isinstance(producto, Producto):
            raise TypeError("producto debe ser de tipo Producto.")
            
        if not isinstance(unidades, int) or unidades <= 0:
            raise ValueError("unidades debe ser >= 1.")
            
        self._productos.append((producto, unidades))
        
    def coste(self, con_iva=True):
        if not self._productos:
            return 0
        
        total_coste = 0
        for producto, unidades in self._productos:
            if con_iva:
                total_coste += producto.precio_con_iva() * unidades
            else:
                total_coste += producto.precio * unidades
                
        return total_coste
    
    def mostrar_lista(self):
        for producto in self._productos:
            print(f"{producto[0].nombre:<20} : {producto[1]:<3} unidades")
    
    def __len__(self):
        return len(self._productos)

Veamos un ejemplo. Añadimos a la cesta la anterior la lista de productos con el número de unidades de cada uno:

In [None]:
cesta = Cesta()

unidades = [4, 1, 10]

for producto, unidad in zip(lista_productos, unidades):
    cesta.add(producto, unidad)

Calculamos el coste con y sin iva. También mostramos la lista y el número de productos que hemos añadido.

In [None]:
print(cesta.coste(con_iva=True))
print(cesta.coste(con_iva=False))

In [None]:
len(cesta)

In [None]:
cesta.mostrar_lista()

Uno de los objetivos más importantes del enfoque de la programación orientado a objetos (OOP), es la creación de un código estable, confiable y reutilizable. Si tuviésemos que crear una nueva clase para cada tipo de objeto que quisieramos modelar, difícilmente tendríamos ningún código reutilizable. En Python y en cualquier otro lenguaje que admita OOP, una clase puede **heredar** de otra clase. Esto significa que podemos basar una nueva clase en una clase existente; la nueva clase *hereda* todos los atributos y el comportamiento de la clase en la que se basa. Una nueva clase puede sobreescribir cualquier atributo o método de la clase de la que hereda, y puede agregar cualquier atributo o método nuevos que sea apropiado. La clase original se denomina clase **padre** o **superclase** y la nueva clase es **hija** de la clase principal o **subclase**, respectivamente. 

Veamos un ejemplo para ilustrar lo que acabamos de describir: 

Creamos una nueva clase Alimento que hereda de Producto. Al instanciar un objeto Alimento el método *super()* se dirige a la clase Producto con los parámetros nombre, categoría (por defecto alimentación) y precio. La clase Alimento añade otros dos atributos: temporada y calorias.

La clase Alimento incorpora un nuevo método que permite calcular calorías. También sobreescribe el método especial `___str__()` para imprimir información más completa.

In [37]:
class Alimento(Producto):
    def __init__(self, nombre, precio, temporada, calorias):
        super().__init__(nombre, "alimentacion", precio)
        
        self.temporada = temporada
        self.calorias = calorias
        
    def total_calorias(self, gramos):
        return self.calores * gramos / 100
    
    def __str__(self):
        return ("Nombre    : {:}\n"
                "Categoria : {:}\n"
                "Precio    : {:.2f} €/unidad\n"
                "Temporada : {:}\n"
                "Calorias  : {:} kcal/100g").format(
            self.nombre, self.categoria, self.precio,
            self.temporada, self.calorias)
    
    
calabaza = Alimento("calabaza cacahuete", 1.65, "otoño", 14)

NameError: name 'Producto' is not defined

In [None]:
print(calabaza)

In [None]:
print(lista_productos[0])

Podemos usar los métodos de Producto, por ejemplo:

In [None]:
calabaza.precio_con_iva(iva=0.04)

Se acerca Halloween, así que añadimos 100 calabazas a la cesta:

In [None]:
cesta.add(calabaza, 100)

In [None]:
len(cesta)

In [None]:
cesta.mostrar_lista()

## Ejercicios <a name="ejercicios"></a> 
[Volver al índice](#indice)

1 - Hemos seleccionado un fragmento del Quijote para su análisis y vamos a practicar con él. Realiza un programa que cuente cuantas palabras tiene el fichero _quijote.txt_. ¿Puedes calcular también el número de líneas?.

In [3]:
with open(file="2020_S4_datos/quijote.txt", mode="r") as f:
    n_lineas = 0
    n_palabras = 0
    for i in f:
        n_lineas += 1
        n_palabras += len(i.split())
print(n_lineas,n_palabras)

5537 56521


2 - Queremos leer del *quijote.txt* exactamente 300 caracteres a partir del caracter 10000. Escribe un programa que haga lo mencionado anteriormente.

In [99]:
counter = 0
with open(file="2020_S4_datos/quijote.txt", mode="r") as f:
    for i in f:
        counter += 1
        if counter < 2:
            print(i)
    print(counter)
            

EL INGENIOSO HIDALGO DON QUIJOTE DE LA MANCHA

5537


3 - Escribe un programa que imprima por pantalla la linea 1235 del quijote.

In [None]:
with open(file="2020_S4_datos/quijote.txt", mode="r") as f:
    for i in f:
        counter += 1
        if counter < 2:
            print(i)
    print(counter)

4 - Escribe un programa que escriba en un fichero de texto las líneas en las que aparece la palabra "hidalgo".

In [7]:
%%time
with open(file="2020_S4_datos/quijote.txt", mode="r") as f:
    hidalgo_lineas = []
    for i,line in enumerate(f):
        if "hidalgo" in line:
            hidalgo_lineas.append(i)
            
print(i_palabras_repetidas)
        

[6, 11, 22, 31, 911, 947, 956, 1033, 1652, 2492, 3349, 3420, 3595]
Wall time: 5.98 ms


5 - Escribe un programa que devuelva todas las palabras del fragmento del Quijote con el número de occurrencias de cada. Finalmente imprime las palabras por orden descendente de ocurrencias.

hola
0.00011970000002747838


In [None]:
sorted(d.items(), key = lambda item: item[0])

6 - Escribe una función que devuelva cuantas ocurrencias hay de una palabra en un archivo .txt, si hay que diferenciar entre mayúsculas y minúsculas y el tiempo total requirido para esta operación. Utiliza el módulo **time**.

In [None]:
import time

time_init = time.perf_counter()

print("hola")

time_total = time.perf_counter() - time_init
print(time_total)

7 - Diseña una función que, dada una lista de números enteros, devuelva el número de series que hay en ella. 

Nota: Llamamos serie a todo tramo de la lista con valores idénticos. Por ejemplo, la lista [1, 1, 8, 8, 8, 8, 0, 0, 0, 2, 10, 10] tiene 5 series (ten en cuenta que el 2 forma parte de una serie de un solo elemento).

In [63]:
serie = [1, 1, 8, 8, 8, 8, 0, 0, 0, 2, 10, 10]

def num_series(serie):
    prev = serie[0]
    n_series = 1
    
    for s in serie[1:]:
        if s != prev:
            n_series += 1
            prev = s
        
    return n_series

num_series(serie)

5

8 - Escribe una función que dada una lista de enteros calcule la media, mediana, desviación estándar, varianza y los percentiles 1, 25, 75 y 99, de los elementos de la lista.

In [72]:
import numpy as np

lista = [1,2,3,4,5,6,7,8]

l = np.array(lista)

print(l.mean())
print(l.std())
print(l.var())
print(np.percentile(l,[1,25,50,75,99]))


4.5
2.29128784747792
5.25
[1.07 2.75 4.5  6.25 7.93]


9 - Crea una clase Cliente para un banco. Esta clase se inicializa con los datos del cliente y el dinero inicial al abrir la cuenta. La clase debe tener funciones para realizar las siguientes operaciones:

* Ingresar dinero.
* Retirar dinero.
* Consultar movimientos.
* Consultar saldo.

Cuando el cliente ingrese o retire dinero el saldo debe actualizarse, y la información sobre el movimiento debe almacenarse. Es importante devolver mensajes al cliente si la operación no es válida. Por ejemplo, si queremos retirar una cantidad mayor al saldo actual, ya que el salgo no puede ser negativo por políticas del banco.

Extra: puedes añadir a la inicialización de la clase otros parámetros, por ejemplo, la máxima cantidad de dinero que se puede retirar en una única operación.

In [59]:
from datetime import datetime

def comprobar_cadena(nombre, n):
    if len(nombre) >= n:
        print("El nombre es muy largo")
        raise ValueError('The name should not pass 50 characters')

class Client:
    
    _movimientos = []
    date = None
    
    def __init__(self, nombre, apellidos, direccion, aportacion_inicial, *args):
        self._comprobar_params(nombre, apellidos, direccion, aportacion_inicial, args)
        
        self.nombre = nombre
        self.apellidos = apellidos
        self.direccion = direccion
        self.saldo = aportacion_inicial
        self.args = args
            
    def _comprobar_params(self, nombre, apellidos, direccion, aportacion_inicial, args):
        comprobar_cadena(nombre, 50)
    
    def ingresar_dinero(self, cantidad):
        date = str(datetime.now())
        self.saldo += cantidad
        self._movimientos.append(['ingresar', date, cantidad, self.saldo])
        
    def retirar_dinero(self, cantidad):
        if cantidad > self.saldo:
            raise ValueError('You are trying to withdraw more than you own')
        else:
            date = str(datetime.now())
            self.saldo -= cantidad
            self._movimientos.append(['retirar', date, cantidad, self.saldo])

    def ver_saldo(self):
        return self.saldo
    
    def check_movements(self):
        return self._movimientos
    
    def description(self):
        return [self.nombre, self.apellidos, self.direccion, *self.args]
    

client1 = Client("Ubaldo", "Peralta", "Andres mellado", 100, "Ingeniero Informático")

client1.ver_saldo()
client1.ingresar_dinero(27)
client1.ver_saldo()
client1.retirar_dinero(27)
client1.ver_saldo()
client1.retirar_dinero(43)
client1.check_movements()
client1.description()


['Ubaldo', 'Peralta', 'Andres mellado', 'Ingeniero Informático']

In [57]:
Cliente("nombdddddddddddddddddddd",23)  

<__main__.Cliente at 0x252a107edc0>

10 - Continuando con el ejercicio anterior, crea una clase Banco. La clase debe tener las siguientes funciones:
    
* Añadir cliente.
* Consultar saldo cliente.
* Consultar saldo total disponible (suma de todos los saldos).
* Consultar los clientes con saldos por debajo de un umbral.
* Consultar el número de movimientos de un cliente.

In [61]:
client2 = Client("Francisco", "Peralta", "Salamanca", 150, "Traductor")
client3 = Client("Galo", "Peralta", "Santander", 200, "Economista")
client4 = Client("Macarena", "Peralta", "Santander", 250, "Economista")


SyntaxError: unexpected EOF while parsing (<ipython-input-80-92cab88cc3dc>, line 23)

In [102]:
class Bank:
    
    def prove_client(self,client):
        if not isinstance(client,Client):
            raise TypeError('The argument is not a client')
    
    def __init__(self):
        self._clients = []
        
    def set_client(self, client):
        self.prove_client(client)
        self._clients.append(client)
    
    def get_client_balance(self, client):
        self.prove_client(client)
        return client.ver_saldo()
    
    def get_total_balance(self):
        return sum(client.ver_saldo() for client in self._clients)
        
    def get_umbral_balance(self, umbral):
        return [client.description() for client in self._clients if client.ver_saldo() <= umbral]
    
    def get_number_movements(self, client):
        self.prove_client(client)
        return len(client.check_movements())
            

bank = Bank()
bank.set_client(client1)
bank.set_client(client2)
bank.set_client(client3)
bank.set_client(client4)
bank.get_client_balance(client1)
bank.get_total_balance()
bank.get_umbral_balance(100)



[['Ubaldo', 'Peralta', 'Andres mellado', 'Ingeniero Informático']]

250