# Introducción

## Comprobar versión de Python de nuestro entorno

Para comprobar la versión del intérprete de python que estamos usando en el entorno de `conda` activo, simplemente tenemos que ejecutar la siguiente "celda":

In [1]:
import sys
sys.version

'3.8.12 (default, Oct 12 2021, 06:23:56) \n[Clang 10.0.0 ]'

💡**Nota**: El módulo `sys` es uno de los múltiples módulos nativos (conocidos como *built-in*'s) de `Python`. Este módulo brinda acceso a algunas variables utilizadas o mantenidas por el intérprete, y a funciones que interactúan con el intérprete.

## Revisión de Python

En primer lugar, tal y como indica el título de la sección, debemos aclarar que este breve documento introductorio (o más bien de revisión) de `Python` no pretende ser una guía exhaustiva del lenguaje en sí mismo. El presente documento únicamente pretende revisar los conceptos que consideramos importantes para el desarrollo de la asignatura. Podemos asegurar de antemano que lo que a continuación se muestra no es más que una pequeña exposición introductoria (un pequeño subconjunto selecto de una inmensidad de contenidos posibles que sólo podrían verse con la atención necesaria en un curso específico del lenguaje). Para las mentes más inquietas que quieran sacar el máximo partido del [lenguaje más popular en la actualidad](https://linuxiac.com/python-the-most-popular-programming-language/), recomendamos la lectura las referencias *de facto*: 

- [Learning Python](https://www.oreilly.com/library/view/learning-python-5th/9781449355722/): Una introducción completa y detallada al lenguaje de Python. Basado en el popular curso de capacitación del autor Mark Lutz, este libro provee una inmersión total en el lenguaje, con el objetivo último de enseñar a escribir código eficiente y de alta calidad con Python. Es una guía de mucho detalle, y por tanto apta para gente que quiera ganar un conocimiento muy profundo del lenguaje. No obstante, es un libro apto para novatos y expertos, sea nuevo en la programación o un desarrollador profesional versado en otros lenguajes.

- [Python in a Nutshell](https://www.oreilly.com/library/view/python-in-a/9781491913833/): Libro práctico que proporciona una referencia rápida al lenguaje, incluidos Python 3.5, 2.7 y aspectos destacados de 3.6, áreas de uso común de su amplia biblioteca estándar y algunos de los módulos y paquetes de terceros más útiles.

No obstante, queremos hacer notar que dicha lectura es algo opcional, y que el material necesario para entender el desarrollo de la asignatura debería estar contenido en este documento. Ésto no significa que "todo" lo que vayamos a utilizar en lo referente a `Python` esté contenido en este documento (pues esto conllevaría una extensión inncesaria del documento). Por contra, lo que queremos decir con *material necesario para entender el desarrollo de la asignatura* es precísamente *el material fundamental para entender y desarrollar otros conceptos más complejos*. Así, entederemos esta guía como un punto de partida, y nunca como un punto final.

### Tipos, variables, operadores, listas, diccionarios, control de flujo y funciones

Cualquier curso de programación tiene como punto de partida la introducción de los diferentes `tipos` inherentes del lenguaje. El paso lógico a posteriori es continuar con la definición de  `variables`, siguiendo con `operadores` que nos permiten trabajar con dichas variables, siguiendo con colecciones de variables (`listas` y `diccionarios`), para posteriormente ver `controles de flujo`  y definición de `funciones`.


#### Tipos de datos (Data Types)

En este pequeño curso exprés de `Python` seguiremos el esquema mencionado, empezando por los tipos de datos con los que podemos trabajar (por defecto) en `Python`.

Todo dato en `Python` es representado por un `objeto`, cuyo valor (`value`) en cuestión es el dato en sí mismo (y que se suele confundir con el objeto), y cuyo tipo (`type`). El tipo de un objeto determina las operaciones que soporta el objeto en cuestión, más específicamente el valor del objeto. Además, el tipo también determina si el objeto puede ser modificado, siendo un objeto `mutable` en caso afirmativo, o `inmutable` en el caso contrario.

Para conocer el tipo de un objeto, podemos hacer uso de una función/método nativo (built-in) de `Python`, el llamado `type`. A continuación exploramos con `type` los tipos de datos nativos de `Python`:

##### Numéricos

In [2]:
# decimal integer literal:
print(type(123))
print(type(1_000_000))

# binary integer literal:
print(type(0b010101))

# octal integer literal:
print(type(0o6645))

# hexadecimal integer literal:
print(type(0xDA5))

<class 'int'>
<class 'int'>
<class 'int'>
<class 'int'>
<class 'int'>


In [3]:
# floating-point literals:
print(type(1.))
print(type(.1))
print(type(1e5))
print(type(1_000.000_000_123))

<class 'float'>
<class 'float'>
<class 'float'>
<class 'float'>


In [4]:
# complex-number literals:
print(type(0j))
print(type(1+1j))

<class 'complex'>
<class 'complex'>


##### Secuencias

Una secuencia no es más que un contenedor (finito, ésta es la diferencia con un `iterador`) de elementos que mantienen un órden (de indexado). Tenemos:

- Cadenas de caracteres (`str`): **Inmutables**
- Tuplas (`tuples`): **Inmutables**
- Listas (`list`): **Mutables**

In [5]:
# Strings
print(type("hello world!"))
print(type("""This is a formatted string with several lines
without the need of adding special characters to break line."""))

<class 'str'>
<class 'str'>


In [6]:
# Tuples:
print(type( (1,2,3,4) ))

# NOT! print(type(1,2,3,4))

<class 'tuple'>


##### Conjuntos y Diccionarios

Los conjuntos y diccionarios son *built-in's* de `Python` que permiten el almacenamiento no ordenado de objetos (no tienen por qué ser del mismo tipo):

- Conjuntos (`set`): **Mutables**
- Diccionarios (`dict`): **Mutables**

In [7]:
# Set:
print({"1", 1, 1.1, 1, "1"})
print(type({"1", 1, 1.1, 1, "1"}))

print(set(["1",2]))
print(type(set(["1",2])))

{1, '1', 1.1}
<class 'set'>
{'1', 2}
<class 'set'>


In [8]:
# Dict:

print({"key_1": "value", "key_2": 1231})
print(type({"key_1": "value", "key_2": 1231}))
print(dict(key_1="value", key_2=1231))

{'key_1': 'value', 'key_2': 1231}
<class 'dict'>
{'key_1': 'value', 'key_2': 1231}


##### Boleanos

Cualquier valor en Python se puede usar como un valor de verdad: verdadero o falso. Cualquier número distinto de cero o no vacío (`not None`) (por ejemplo, cadena, tupla, lista, conjunto o diccionario) equivale a verdadero (`True`). El valor `0` (de cualquier tipo numérico), `None` y cualquier contenedor vacío equivalen a falso (`False`). 

##### None

Existe un tipo especial en `Python` que es usado para expresar la ausencia de datos, `None`.

In [9]:
print(type(None))
None

<class 'NoneType'>


##### Callables

Un último tipo que es importante tener en consideración es el de `callable`, que no es más que un objeto que tiene "propiedad" de pode ser *llamado*. Uno de los ejemplos más fácil de entender de este tipo es el de `función`. Toda función es un `callable`, aunque no son los únicos. Si queremos explorar qué es o no un `callable`, podemos usar la función *built-in* con el mismo nombre sobre un objeto, lo que retornará `True` en caso verdadero y `False` en el caso contrario:

In [10]:
callable(print)

True

In [11]:
callable(123)

False

#### Variables y referencias

Un programa `Python` accede a cualquier dato a través de una **referencia**. Es importante que entendamos éste concepto, a pesar de que pueda parecer algo abstracto, dado que es una característica fundamental del lenguaje, y que determina la forma de programación y el funcionamiento de los programas (en ocasiones llamados *scripts*). 

Una referencia no es más que un *nombre* que "apunta" a un valor, más específicamente a un objeto que tiene ese valor. ¿Dónde encontramos referencias? Como vamos a ver a continuación, una referencia puede ser: una `variable` (e.g. `x = 1.123`), un `atributo`, propiedades de un objeto (instancia de una clase, e.g. `obj.x` donde `x` sería el atributo del objeto `obj`), o un `elemento`, i.e. un componente de un contenedor (e.g., `[x, y, z]` siendo `x`, `y`, `z` elementos de la lista `[...]`). 

Lo más característico de `Python`, sobre todo para programadores que vienen de lenguajes fuertemente tipados, como puede ser `C/C++` o `Java`, es que las variables, u otras referencias, no tienen un tipo intrínseco. Esto se debe a que en python la declaración es dinámica. De esta forma, la referencia `x = 1`, puede ser primeramente una referencia a un `int`, y posteriormente cambiar a ser `x = "hola"` referencia a `str`. Es decir, en `Python` no tenemos que malgastar tiempo en "declaraciones". ¿Cómo definimos entonces una variable? Tan sencillo como asignarle (*binding*) un valor con el operador `=`:

In [12]:
my_var = 1.123

In [13]:
type(my_var)

float

In [14]:
# Posición de memoria:
hex(id(my_var))

'0x7fdde2af2590'

De esta forma, `my_var` es una variable que referencia al objeto tipo `float` con valor `1.123`. Sin embargo, `my_var` puede cambiar en cualquier momento a qué dato/objeto referencia. Para ello solo tenemos que cambiar su valor (*unbinding*):

In [15]:
my_var = "hola!"

In [16]:
type(my_var)

str

In [17]:
hex(id(my_var))

'0x7fdde2ada530'

Lo interesante de lo que acabamos de ver es que `my_var` es en sí mismo un objeto que tiene una ocupa una determinada posición de memoria, sin embargo el tipo de su contenido ha cambiado dinámicamente sin mayor esfuerzo. Esto se conoce como **tipado dinámico**.

El *tipado dinámico* (*dynamic typing*) obviamente representa una gran ventaja a la hora de escribir/prototipar código de manera rápida. Sin embargo, también puede darnos algún que otro dolor de cabeza cuando algo no funciona como esperamos y tenemos que destripar (*debugging*) el código. Es por ello que a día de hoy se recomienda anotar el tipo de las variables (*type hinting*) en ciertas ocasiones, como veremos a posteriori. Los *consejos* a los que nos refereriremos en éste curso siempre serán aquellos dados por la comunidad como PEP's ([Python Enhancement Proposals](https://www.python.org/dev/peps/)). 

Para poder explorar todos los tipos de variable que hemos comentado, vamos a utilizar una definición de una clase (`class`) antes de haber visto lo que ésto significa. Por el momento, recomendamos hacer uso del siguiente bloque de código sin mayor detalle de la definición de la clase, a lo que volveremos posteriormente con mayor atención en la sección sobre [OOP](https://en.wikipedia.org/wiki/Object-oriented_programming).

In [18]:
class Student:
    """Class defining a student
    
    The object student will contain (by default) the 
    name, surname and age of the student we are considering. 
    """
    def __init__(self, name: str, surname: str, age: float):
        """Instantiates a student object
        
        :param name: The name of the student (str)
        :param surname: The surname of the stududent (str)
        :param age: The age of the student (float)
        """
        self.name = name
        self.surname = surname
        self.age = age

In [19]:
# ref: Variable
my_hi = "hello!"
my_student = Student(
    name="John",
    surname="Doe",
    age=35,
)

my_tuple = (my_hi, my_student)
my_list = [my_hi, my_student]

In [20]:
my_hi

'hello!'

In [21]:
my_student

<__main__.Student at 0x7fdde2af9220>

In [22]:
# ref: Attribute
my_student.age

35

In [23]:
# ref: Item (first element)
my_tuple[0]

'hello!'

In [24]:
# last element:
my_tuple[-1]

<__main__.Student at 0x7fdde2af9220>

In [25]:
# slicing: selección de un intervalo semiabierto de índices [0,2)
my_list[0:2]

['hello!', <__main__.Student at 0x7fdde2af9220>]

Nada nos impide poder hacer un *rebinding* de la edad de nuestro estudiante:

In [26]:
my_student.age = "35"

#### Operadores

Para una discusión exhaustiva sobre los operadores nativos de `Python` podemos acudir a una de las referencias mencionadas más arriba, o a éste [link](https://realpython.com/python-operators-expressions/#arithmetic-operators).

En nuestro caso vamos a presentar los operadores que serán de mayor utilidada en éste curso, sin descartar la necesidad futura de alguno no mencionado en los siguientes ejemplos:

##### Operadores de comparación: `==`, `!=`, `<`, `>`, `<=`, `>=`, ...

In [27]:
my_hi == "hola"

False

In [28]:
my_hi <= "hello!"

True

In [29]:
1 < 12.123

True

In [30]:
# Cadenas (Equivalente: 1 < 2 and 2 < 3 and 3 < 4)
1 < 2 < 3 < 4

True

In [31]:
# Cuidado con los paréntesis!
((my_hi == "hello!") or (1 < 2)) and (4 < 3) 

False

In [32]:
(my_hi == "hello!") or (1 < 2) and (4 < 3)

True

In [33]:
st_1 = Student("John", "Doe", 35)
st_2 = Student("John", "Doe", 35)

# Cuidado con la comparación de objetos propios: 
st_1 == st_2

False

In [34]:
st_1.name == st_2.name and \
st_1.surname == st_2.surname and \
st_1.age == st_2.age

True

In [35]:
# Ternary operator: when_true if condition else when_false

## Built-in module for dealing with dates:
from datetime import datetime

is_friday = True if datetime.now().weekday() == 4 else False

In [36]:
is_friday

False

##### Operadores de secuencias:

**Indexado**: Para acceder a los elementos de una secuencia usaremos el operador de indexación, que se caracterizad por los corchetes. Por ejemplo:

In [37]:
# Ejemplo con secuencia string, pero también válido con tuple y list
my_seq = "Ejemplo de secuencia string"

# Primer elemento de la secuencia:
my_seq[0] 

'E'

In [38]:
# último elemento:
my_seq[-1]

'g'

In [39]:
# Primeros 3 elementos:
my_seq[:3]

'Eje'

In [40]:
# Últimos 3 elementos:
my_seq[-3:]

'ing'

In [41]:
# Elementos alternos (recorrido directo):
my_seq[::2]

'Eepod euni tig'

In [42]:
# Elementos alternos (recorrido inverso):
my_seq[::-2]

'git inue dopeE'

Cada secuencia de las mencionadas tiene además métodos característicos que nos serán muy útiles para labores de análisis.
Algunos ejemplos de estos métodos:

In [43]:
my_str = "hola me llamo John"

# Conversión a Mayúsculas:
my_str.upper()

'HOLA ME LLAMO JOHN'

In [44]:
# Conversión a minúsculas:
my_str.lower()

'hola me llamo john'

In [45]:
my_str.title()

'Hola Me Llamo John'

In [46]:
my_str.split()

['hola', 'me', 'llamo', 'John']

In [47]:
word = "llamo"
word_idx = my_str.find(word)
my_str[word_idx:word_idx+len(word)]

'llamo'

In [48]:
my_lst = my_str.split(" ")

In [49]:
# encuentra el índice en lista:
word_idx = my_lst.index(word)
my_lst[word_idx]

'llamo'

In [50]:
my_lst.count(word)

1

In [51]:
my_lst.remove("John")

In [52]:
my_lst.append("Dan")

In [53]:
my_lst

['hola', 'me', 'llamo', 'Dan']

In [54]:
my_lst.remove("Dan")

my_lst += ["Jake"]

In [55]:
my_lst

['hola', 'me', 'llamo', 'Jake']

In [56]:
my_lst.reverse()
my_lst

['Jake', 'llamo', 'me', 'hola']

In [57]:
my_lst.sort(key=None)
# my_lst.sort(key=str.lower)
my_lst

['Jake', 'hola', 'llamo', 'me']

**Conversión**: No existe conversión implícita entre secuencias. Sin embargo, podemos llamar a los métodos nativos `list` y `tuple` pasándole como argumento cualquier iterable para obtener una nueva instancia de tipo lista o tupla. Por ejemplo:

In [58]:
l_string = list(my_seq)
l_string[0:7]

['E', 'j', 'e', 'm', 'p', 'l', 'o']

In [59]:
t_string = tuple(my_seq)
t_string[-6:]

('s', 't', 'r', 'i', 'n', 'g')

In [60]:
# Mutabilidad: las cláusulas try-and-except serán vistas en controles de flujo con mayor detalle
try: 
    t_string[-6] = "S"
except: 
    print("Ha habido un fallo: La tupla no es mutable")

Ha habido un fallo: La tupla no es mutable


In [61]:
# modificación de la lista:
l_string[-6] = "S"

# Conversión de lista a string:
"".join(l_string)

'Ejemplo de secuencia String'

In [62]:
# Replace: No modifica el string original, crea uno nuevo:
my_seq.replace("e", "*")

'Ej*mplo d* s*cu*ncia string'

In [63]:
my_seq

'Ejemplo de secuencia string'

**Pertenencia**: Una de las operaciones más frecuentes cuando trabajamos con secuencias de cualquier tipo, es la de testar si un elemento pertence o no a la secuencia. Ejemplos:

In [64]:
my_lst = """## Titular
Esto simula un texto de contenido (en concreto de un Markdown)

### Título de la subsección
Aquí tendríamos más contenido para poder leer
""".split()

# list comprehension (abundaremos más en el apartado de control de flujo)
cleaned_lst = [
    e.replace(")", "").replace("(","") 
    for e in my_lst
]

cleaned_lst

['##',
 'Titular',
 'Esto',
 'simula',
 'un',
 'texto',
 'de',
 'contenido',
 'en',
 'concreto',
 'de',
 'un',
 'Markdown',
 '###',
 'Título',
 'de',
 'la',
 'subsección',
 'Aquí',
 'tendríamos',
 'más',
 'contenido',
 'para',
 'poder',
 'leer']

In [65]:
# Pertenencia a lista/tuple:
"Markdown" in cleaned_lst

True

In [66]:
# Pertenencia a string:
"i" in cleaned_lst[1]

True

##### Operadores de diccionarios:

`Python` viene por defecto con una variedad amplia de operadores aplicables a diccionarios, i.e. a objetos del tipo `{key: value}`. Por definición, los diccionarios son objetos iterables, luego podemos usarlos en cualquier función o cláusula que tome como entrada un iterable. Un ejemplo de ello es (como veremos en breve) el `for loop`. A continuación exponemos ejemplos de los operadores más usados con diccionarios:

**Indexado**: Para acceder a un valor almacenado en un diccionario debemos hacerlo mediante el índice (la clave), con el operador de indexado `[...]`. La única diferencia con las listas es que en este caso no existe orden, y la clave no tiene porqué ser numérica:

In [67]:
my_car = {"brand": "Ford", "year": 1964}

my_car["brand"]

'Ford'

In [68]:
# Con el método get conseguimos lo mismo, pero evitamos la excepción
my_car.get("color", "Unknown")

'Unknown'

**Pertenencia**: Al igual que en el caso de las secuencias, los diccionarios admiten el operador `in` para comprobar si un *elemento* en cuestión es parte del mismo. En concreto, en la expresión `k in my_dct`, donde `my_dct` es un diccionario (`dict`), lo que se comprueba es si la clave (`key`) `k` pertence a la lista de claves del diccionario. Veamos ejemplos:

In [69]:
my_car = {
  "brand": "Ford",
  "model": "Mustang",
  "year": 1964
}

"brand" in my_car

True

In [70]:
"color" in my_car

False

**Unpacking**: Existe un operador un tanto peculiar que resulta bastante útil cuando queremos extender un diccionario (aunque la forma oficialmente recomendada es usando el operador `|`, tál y como se indica en [PEP 584](https://www.python.org/dev/peps/pep-0584/#d1-d2) con `Python>=3.9`):

In [71]:
# Extendiendo un diccionario:
{**my_car, "color": "Marengo"}

{'brand': 'Ford', 'model': 'Mustang', 'year': 1964, 'color': 'Marengo'}

In [72]:
# Extendiendo diccionario siguiendo PEP-584 (Python >= 3.9):
## my_car | {"color": "Marengo"}

Y al igual que en el caso de las secuencias, los diccionarios tienen una serie de métodos propios que nos permiten su manipulación de manera eficiente y cómoda. Antes de proceder a programar cualquier función por nuestra cuenta, deberíamos consultar si esta funcionalidad ya es parte de las librerías nativas. Para explorar susodichos métodos con mayor profundidad, se puede consultar este [link](https://docs.python.org/3/tutorial/datastructures.html).

In [73]:
# índices del diccionario:
my_car.keys()

dict_keys(['brand', 'model', 'year'])

In [74]:
# Valores del diccionario:
my_car.values()

dict_values(['Ford', 'Mustang', 1964])

In [75]:
# Lista de elementos (tuplas key-value) del diccionario (útil para el recorrido en loop)
my_car.items()

dict_items([('brand', 'Ford'), ('model', 'Mustang'), ('year', 1964)])

El siguiente ejemplo hace uso de `copy` que en realidad es *shallow copy*. Para entender la diferencia entre la copia que podemos tener en mente y la que realmente ocurre, consultar este [link](https://www.geeksforgeeks.org/copy-python-deep-copy-shallow-copy/#:~:text=A%20shallow%20copy%20means%20constructing,is%20copied%20in%20other%20object.).

In [76]:
# copia ligera (shallow copy) 
my_car_2 = my_car.copy()
my_car_2

{'brand': 'Ford', 'model': 'Mustang', 'year': 1964}

#### Sentencias de control de flujo (Control Flow Statements)

Una sentencia de control de flujo no es más que una expresión donde se toma una decisión que afecta el orden (flujo) de ejecución del código. Así, el control del flujo de un programa puede depender de:

- Condicionales `if`-`elif`-`else`
- Bucles `while`
- Bucles `for`
- Cláusulas `break`, `continue`, `else`
- Captura de errores: `try`-`except`-`else`-`finally`

Además, también consideramos sentencias de control a las *list/dict/set comprehensions*. Veamos algunos ejemplos:

In [77]:
x = 123 

if x < 0: 
    print("x is negative")
elif x % 2:
    print("x is positive and odd") 
else:
    print("x is even and non-negative")

x is positive and odd


In [78]:
example_list = [1,2,3,4]

if example_list:
    n = len(example_list)
    msg = f"The list contains {n} element" \
        + ("s" if n > 1 else "")
    print(msg)
else: 
    print("The list is empty!")

The list contains 4 elements


In [79]:
import math

count = 0 
x = 123.123
x0 = x
while x > 0:
    x //= math.e
    count += 1

print(f"The approximate value of ln({x0}) is {count}")

The approximate value of ln(123.123) is 5


In [80]:
car_collection = {
    "ford": {"name": "Mustang", "year": 1964},
    "volkswagen": {"name": "Beetle","year": 1984}
}

for k, v in car_collection.items():
    print(f"Found a car of brand: {k.title()}")
    print(f"The car is a {k} {v['name']} (from {v['year']})\n")

Found a car of brand: Ford
The car is a ford Mustang (from 1964)

Found a car of brand: Volkswagen
The car is a volkswagen Beetle (from 1984)



In [81]:
# Use of range:
for i in range(5):
    print(f"Counting {i+1}...")

Counting 1...
Counting 2...
Counting 3...
Counting 4...
Counting 5...


In [82]:
# list comprehensions: [ expression for target in iterable lc-clauses ]
squares = [ e*e for e in range(100)]
# Más rápido y conveniente que:
# squares = []
# for e in range(100):
#     squares.append(e*e)

print(squares)

[0, 1, 4, 9, 16, 25, 36, 49, 64, 81, 100, 121, 144, 169, 196, 225, 256, 289, 324, 361, 400, 441, 484, 529, 576, 625, 676, 729, 784, 841, 900, 961, 1024, 1089, 1156, 1225, 1296, 1369, 1444, 1521, 1600, 1681, 1764, 1849, 1936, 2025, 2116, 2209, 2304, 2401, 2500, 2601, 2704, 2809, 2916, 3025, 3136, 3249, 3364, 3481, 3600, 3721, 3844, 3969, 4096, 4225, 4356, 4489, 4624, 4761, 4900, 5041, 5184, 5329, 5476, 5625, 5776, 5929, 6084, 6241, 6400, 6561, 6724, 6889, 7056, 7225, 7396, 7569, 7744, 7921, 8100, 8281, 8464, 8649, 8836, 9025, 9216, 9409, 9604, 9801]


In [83]:
# dict comprehensions: {key: value for key, value in iterable dc-clauses}
user_ids = {f"uuid_{e}": e for e in range(10)}
user_ids

{'uuid_0': 0,
 'uuid_1': 1,
 'uuid_2': 2,
 'uuid_3': 3,
 'uuid_4': 4,
 'uuid_5': 5,
 'uuid_6': 6,
 'uuid_7': 7,
 'uuid_8': 8,
 'uuid_9': 9}

In [84]:
# break: interrupt
counter = 10
while counter:
    print(f"Current counter value: {counter}")
    counter -= 1
    if counter == 5:
        break
print(f"Final counter value: {counter}")

Current counter value: 10
Current counter value: 9
Current counter value: 8
Current counter value: 7
Current counter value: 6
Final counter value: 5


In [85]:
# continue: only print even values
counter = 10
while counter:
    counter -= 1
    if counter%2:
        continue
    print(f"Current counter value: {counter}")
print("Good bye!")

Current counter value: 8
Current counter value: 6
Current counter value: 4
Current counter value: 2
Current counter value: 0
Good bye!


In [86]:
# else clasue in for loops: 
for e in car_collection.items():
    print(f"Found a car of brand: {k.title()}")
    print(f"The car is a {k} {v['name']} (from {v['year']})\n")
else:
    print("No more cars were found!")

Found a car of brand: Volkswagen
The car is a volkswagen Beetle (from 1984)

Found a car of brand: Volkswagen
The car is a volkswagen Beetle (from 1984)

No more cars were found!


In [87]:
# exceptions:
my_str = "Hello World!"

try: 
    my_str[0] = "h"
except TypeError:
    print("Error: No puedes modificar un string!")
except Exception:
    print("En caso que pudieramos esperar otro tipo de error")
else: 
    print("En caso que no hubiera error, se ejecutaría este código")
finally:
    print(my_str)

Error: No puedes modificar un string!
Hello World!


#### Funciones

Llegados a este punto, es natural introducir la definición de funciones. Aunque seguramente la mayor parte de nuestras taréas las podríamos codificar directamente de manera secuencial en un único archivo (e.g. `main.py`), a medida que cualquier proyecto avanza resulta natural aislar en bloques de código (**funciones**) las funcionalidades que implementamos, por dos razones principales: 1) la reutilización del código, 2) la identificación y separación inequívoca de responsabilidades. En lo que sigue vamos a ver que la definición de una función es exactamente igual cuando se hace de manera aislada en un módulo, o cuando se hace bajo una clase. Sin embargo diferenciaremos estos dos casos con el nombre de función y método, siendo éste último reservado para funciones de clases.
A continuación se muestra algún ejemplo ilustrativo:

In [88]:
def say_hello_old(name: str = "wold") -> str:
    msg = f"Hello {name}!"
    print(msg)
    return msg

say_hello_old(st_1.name)

Hello John!


'Hello John!'

In [89]:
# Forzando que todos los argumentos sean nombrados
def say_hello(*, name: str = "world") -> str:
    """Saludo tipo "hello {name}!"
    :param name: El nombre a imprimir en el mensaje (default = "world")
    :returns: Saludo con el nombre de entrada.
    """
    return say_hello_old(name)

# say_hello(st_1.name) => TypeError: say_hello() takes 0 positional arguments but 1 was given
m = say_hello(name=st_1.name)

Hello John!


In [90]:
say_hello.__annotations__

{'name': str, 'return': str}

In [91]:
# lambdas: funciones anónimas
f = lambda x: x**2
print(f(2))

4


In [92]:
# Generators

def up_and_down(n: int):
    yield from range(0, n)
    yield from range(n, 0, -1)
    
    
updown = up_and_down(1_000_000_000_000)
updown

<generator object up_and_down at 0x7fdde2b71b30>

In [93]:
for e in updown:
    if e >= 10:
        break
    print(f"element: {e}")
print(f"element: {next(updown)}")

element: 0
element: 1
element: 2
element: 3
element: 4
element: 5
element: 6
element: 7
element: 8
element: 9
element: 11


### Programación orientada a objetos (OOP): Clases, métodos especiales y decoradores

A día de hoy, no podemos decir que OOP sea un paradigma de programación, porque de hecho es uno de los paradigmas más utilizados en la progrmación. La OOP comprende una parte tan fundamental del desarrollo de software, tanto que es se hace difícil recordadr un momento en la historia en el que se utilizase como buena práctica cualquier otro enfoque. Su primera aparición fue en la década de 1980s, y, en ese entonces sí, supuso un salto radical respecto al método tradicional (de procedimiento). 

¿Qué es, y para qué sirve? La OOP consiste en escribir `classes` en lugar de `procedimientos`. Una clase contiene datos y funciones. Cuando se desea crear algo en la memoria, se crea un objeto, que es una instancia de esa clase. Así, por ejemplo, podríamos declarar una clase `Student`, que contiene datos y funciones relacionadas con los estudiantes de una universidad. Si luego queremos que nuestro programa cree un estudiante en memoria, llamaremos al constructor de la clase y se creará un nuevo objeto de la clase `Student`. Esto precisamente es lo que hicimos en el ejemplo de más arriba, sin meternos en tanto detalle de la explicación.

Las ventajas de la programación orientada a objetos residen en este tipo de encapsulación. Algunos de los principales beneficios de la OOP:

1. Modularidad para facilitar la resolución de problemas
2. Reutilización de código mediante herencia de clases
3. Flexibilidad a través del polimorfismo
4. Resolución efectiva de problemas mediante la filosofía *divide y vencerás*

A continuación vamos a ver como definir nuestras propias clases para aislar modularmente la lógica de nuestro programa, usar la herencia de clases para hacer reutilización de código, utilizar el polimorfismo, y ver un ejemplo de como atacar un problema por partes, remarcando la utilidad de hacer frente al mismo con clases.

#### Definición de una clase

Imaginemos que tenemos que hacer un programa que registre un número arbitrario de estudiantes y profesores de una universidad. Cada estudiante y profesor tendrá asociado un nombre y apellidos, además de su identificador único. Los estudiantes tendrán que tener a su vez un curso asociado (primero, segundo, tercero o cuarto), mientras que los profesores tendrán que tener una lista de materias en las que imparten clases.

Comencemos atacando el problema con la definición de las clases `Student` y `Lecturer`:

In [94]:
# hashlib para la creación de un hash unico
import hashlib
from datetime import datetime 

class Student:
    domain = "alumni.myuni.edu"
    
    # Primer método especial (dunder: double-underscore): El consturctor
    def __init__(self, name: str, surname: str, course: int = 1):
        self.name = name.title()
        self.surname = surname.title()
        full_name = f"{name.title()} {surname.title()}"
        self.full_name = full_name
        
        self.id = hashlib.md5(
            (full_name + datetime.now().strftime("%y%m%d%H%M%S"))\
                .encode("UTF-8")
        ).hexdigest()
        
        self.email = (
            f"{self.name[0:1].lower()}"
            f".{self.surname.lower()}"
            f".{self.id[0:5]}"
            f"@{Student.domain}"
        )
    
        self.course = course

    def __str__(self):
        return str({"Student": self.id,
                "Name": self.name,
                "Surname": self.surname,
                "Course": self.course})
    
    def __repr__(self):
        return f"<Student email={self.email} id={self.id[0:5]}...>"

st1 = Student(name="John", surname="Doe")
st1

<Student email=j.doe.39faf@alumni.myuni.edu id=39faf...>

In [95]:
class Lecturer:
    domain = "staff.myuni.edu"
    
    def __init__(self, name: str, surname: str, subjects: list = None):
        self.name = name.title()
        self.surname = surname.title()
        full_name = f"{name.title()} {surname.title()}"
        self.full_name = full_name

        self.id = hashlib.md5(
            (full_name + datetime.now().strftime("%y%m%d%H%M%S"))\
                .encode("UTF-8")
        ).hexdigest()
        
        self.email = (
            f"{self.name[0:1].lower()}"
            f".{self.surname.lower()}"
            f".{self.id[0:5]}"
            f"@{Lecturer.domain}"
        )
        
        self.subjects = subjects
    
    def __str__(self):
        return str({"Lecturer": self.id,
                "Name": self.name,
                "Surname": self.surname,
                "Subjects": str(self.subjects)})
    
    def __repr__(self):
        return f"<Lecturer email={self.email} id={self.id[0:5]}...>"
    
lct1 = Lecturer(name="John", surname="Doe", subjects=["SWA", "ML4Engs"])
lct1

<Lecturer email=j.doe.39faf@staff.myuni.edu id=39faf...>

#### Herencia de clases

El primer paso está dado. Con esto acabamos de ver algunos de los ingredientes más importantes a la hora de codificar y encapsular lógica de especificación en clases. Ahora tenemos una clase que nos permite crear estudiante y otra que nos permite crear profesores. Pero...¿No vemos algo peculiar?

- Primero, hay funcionalidad que hemos implementado en el constructor y que no está aislada como método, lo que hará engorroso el mantenimiento y testéo aislado de dicha funcionalidad (e.g., la de crear el ID)
- Segundo, sí...eso es, hay código duplicado. Pero...¿Qué importa, si funciona? La respuesta es sencilla, la duplicidad de código no es solo un fallo estético, representa un fallo de escalado. Tener multiples copias de un trozo de código en diferentes partes es premonitorio de incoherencias en el futuro, porque hemos cambiado algo en uno de los sitios donde copiamos, pero no en el resto, etc. 

¿Qué podemos hacer al respecto? Vamos a intentar encapsular los elementos comunes en una clase "madre". Posteriormente, implementaremos las clases `Student` y `Lecturer` como derivadas de esta clase madre. Analizando el problema, no resulta difícil ver que, los factores comunes que tenemos en ambas clases son las características de un usuario, por lo que podemos empezar por ahí, definiendo la clase `User`:

In [96]:
class User:
    
    def _build_email(self, domain: str) -> str:
        user = (
            f"{self.name[0:1].lower()}"
            f".{self.surname.lower()}"
            f".{self.id[0:5]}"
        )
        return f"{user}@{domain}"
    
    def _build_uuid(self):
        return hashlib.md5(
            (self.full_name + datetime.now().strftime("%y%m%d%H%M%S"))\
                .encode("UTF-8")
        ).hexdigest()
    
    def _build_full_name(self):
        return f"{self.name.title()} {self.surname.title()}"
    
    def __init__(self, name: str, surname: str, user_type: str):
        self.name = name.title()
        self.surname = surname.title()
        self.full_name = self._build_full_name()        
        self.id = self._build_uuid()
        self.type = user_type
        self.email = self._build_email(domain="[...].edu")
        
    def __repr__(self):
        return f"<{self.type.title()} email={self.email} id='{self.id[0:5]}...'>"
    
    def to_dict(self):
        return {
            f"{self.type.title()}": self.id,
            "Name": self.name,
            "Surname": self.surname
        }
    
    def __str__(self):
        return str(self.to_dict())

Con esto, podemos comprobar fácilmente que las clases mencionadas anteriormente se pueden reescribir de manera muy compacta:

In [97]:
class Student(User):
    domain = "alumni.myuni.edu"
    
    def __init__(self, name: str, surname: str, course: int = 1):
        super().__init__(name=name, surname=surname, user_type="Student")
        self.email = self._build_email(domain=Student.domain)
        self.course = course
    
    def to_dict(self):
        return {**super().to_dict(), "Course": self.course}

    def __str__(self):
        return str(self.to_dict())

class Lecturer(User):
    domain = "staff.myuni.edu"
    
    def __init__(self, name: str, surname: str, subjects: list = []):
        super().__init__(name=name, surname=surname, user_type="Lecturer")
        self.email = self._build_email(domain=Lecturer.domain)
        self.subjects = subjects
    
    def to_dict(self):
        return {**super().to_dict(), "Subjects": str(self.subjects)}
        
    def __str__(self):
        return str(self.to_dict())
    
st1 = Student(name="John", surname="Doe")
lct1 = Lecturer(name="John", surname="Doe", subjects=["SWA", "ML4Engs"])

for e in [st1, lct1]:
    print(f"repr: {repr(e)}")
    print(f"str: {e}\n")

repr: <Student email=j.doe.39faf@alumni.myuni.edu id='39faf...'>
str: {'Student': '39faf041252919d51754180680688769', 'Name': 'John', 'Surname': 'Doe', 'Course': 1}

repr: <Lecturer email=j.doe.39faf@staff.myuni.edu id='39faf...'>
str: {'Lecturer': '39faf041252919d51754180680688769', 'Name': 'John', 'Surname': 'Doe', 'Subjects': "['SWA', 'ML4Engs']"}



En nuestra reescritura de las clases `Student` y `Lecturer` no solo hemos ganado robustez, sino que ahora, gracias a la herencia de clases, podremos definir más roles que compartan las características básicas de un usuario de una forma sencilla. Por ejemplo, si tuvieramos que evolucionar nuestra especificación anterior del problema para poder también registrar personal (no lectivo), podríamos simplemente hacer una clase `Staff` que derivase de `User` de la misma forma. Es evidente que la abstracción en una clase madre ha hecho posible la generalización de nuestro programa.

En el ejemplo anterior, además, también hemos visto en acción (sin darnos cuenta) el concepto de polimorfismo. Formalmente, el *polimorfismo* es la capacidad de representar con una misma "interfaz" a entidades de diferentes tipos, o el uso del mismo símbolo para representar diferentes tipos. En otras palabras, el polimorfismo nos permite realizar una misma acción de maneras diferentes dependiendo del tipo.

Como ejemplo, en el caso de los estudiantes y profesores, en ambas clases estamos derivando un método (`.to_dict()`) que a posteriori cada subclase ha sobre-escrito, manteniendo la misma interfaz, pero aumentando la definición original. Es por ello que cuando recorremos una lista con estudiantes y profesores, podemos usar el método `obj.to_dict()` y cada uno hace lo que debe. Esto es polimorfismo. Veámoslo de nuevo:

In [98]:
import random

names = ["John", "Jessica", "Dan", "Liam", "Noah"]
surnames = ["Smith", "Jonhnson", "Williams", "Miller", "Lee"]
subjects = ["Analysis", "Algebra", "Geometry", "Topology", "Programming"]
courses = [1, 2, 3, 4]

students = [
    Student(
        name=random.choice(names),
        surname=random.choice(surnames),
        course=random.choice(courses)) 
    for k in range(5)
]

lecturers = [
    Lecturer(
        name=random.choice(names),
        surname=random.choice(surnames),
        subjects=random.sample(subjects, 3)) 
    for k in range(5)
]

users = students + lecturers
random.shuffle(users)

for u in users:
    print(u.to_dict())

{'Lecturer': '92953159374f1ea48098ff3b072b6735', 'Name': 'Jessica', 'Surname': 'Lee', 'Subjects': "['Topology', 'Analysis', 'Programming']"}
{'Lecturer': '9201d577c31e1d8b167c8b123068098e', 'Name': 'Noah', 'Surname': 'Smith', 'Subjects': "['Programming', 'Topology', 'Analysis']"}
{'Lecturer': '693698043a882166fe612bdb04bb77b2', 'Name': 'Dan', 'Surname': 'Miller', 'Subjects': "['Programming', 'Topology', 'Algebra']"}
{'Student': '2eb7461d35daa7741daca787239b1413', 'Name': 'Liam', 'Surname': 'Miller', 'Course': 3}
{'Student': 'b2e6cdfa9f5d1cd3272ec9322caf2358', 'Name': 'Dan', 'Surname': 'Smith', 'Course': 4}
{'Student': '6449bb7d5e39cb1d003b0b98a96d6539', 'Name': 'Noah', 'Surname': 'Lee', 'Course': 2}
{'Lecturer': '634d647791e2922a2d1e0f2d876b2646', 'Name': 'Jessica', 'Surname': 'Miller', 'Subjects': "['Topology', 'Geometry', 'Algebra']"}
{'Student': '74340b94993f4e0d6af2091b61009425', 'Name': 'John', 'Surname': 'Williams', 'Course': 2}
{'Lecturer': '9201d577c31e1d8b167c8b123068098e', 'N

Así, el programa que hace lo que se nos ha pedido, podría ser escrito como sigue:

In [99]:
import random
from enum import Enum

NAMES = ["John", "Jessica", "Dan", "Liam", "Noah"]
SURNAMES = ["Smith", "Jonhnson", "Williams", "Miller", "Lee"]
SUBJECTS = ["Analysis", "Algebra", "Geometry", "Topology", "Programming"]
YEARS = [1, 2, 3, 4]


class UserType(Enum):
    Student = 1
    Lecturer = 2


def get_user_cttor(user_type: UserType) -> User:
    cttor = None
    if user_type == UserType.Student:
        cttor = Student
    elif user_type == UserType.Lecturer:
        cttor = Lecturer
    else:
        raise Exception(f"User type: {user_type} not defined.")
    return cttor

def generate_user_args(user_type: UserType) -> dict:
    args = {
        "name": random.choice(NAMES),
        "surname": random.choice(SURNAMES),
    }
    if user_type == UserType.Student:
        args = {
            **args,
            "course": random.choice(YEARS)
        }
    elif user_type == UserType.Lecturer:
        args = {
            **args,
            "subjects": random.sample(SUBJECTS, 
                                    random.choice(YEARS))
        }
    else:
        pass
    return args

def generate_users(user_type: UserType, n_users = 1) -> list:
    if n<0: return []

    cttor = get_user_cttor(user_type)
    users = [
        cttor(**generate_user_args(user_type))
        for k in range(n_users)
    ]
    return users

def generate_people(n_students: int, n_lecturers: int) -> list:
    students = generate_users(
        user_type=UserType.Student,
        n_users=n_students,
    )
    
    lecturers = generate_users(
        user_type=UserType.Lecturer,
        n_users=n_lecturers,
    )
    
    people = lecturers + students
    random.shuffle(people)
    return people

people = generate_people(n_students=5, n_lecturers=2)
people

[<Student email=n.smith.9201d@alumni.myuni.edu id='9201d...'>,
 <Lecturer email=l.lee.a6f65@staff.myuni.edu id='a6f65...'>,
 <Student email=j.miller.b1482@alumni.myuni.edu id='b1482...'>,
 <Lecturer email=j.miller.634d6@staff.myuni.edu id='634d6...'>,
 <Student email=j.williams.831bd@alumni.myuni.edu id='831bd...'>,
 <Student email=n.jonhnson.976e2@alumni.myuni.edu id='976e2...'>,
 <Student email=j.miller.b1482@alumni.myuni.edu id='b1482...'>]

Para finalizar esta revisión rápida de OOP, vamos a ver un par de *decoradores* que son bastante utilizados cuando implementamos clases, para proteger algún atributo (esto se debe a que en `Python` por defecto no existe el concepto de atributos protegidos o privados). ¿Qué es un decorador? Pues básicamente *callables* que aceptan funciones como argumento. Veámos un ejemplo sencillo:

In [100]:
import time 

def cleansing(func):
    def wrapper():
        print("Processing the data...⚙️")
        func()
        print("Processing has finished successfully 🥳")
    return wrapper

def my_process():
    time.sleep(2)

data_cleansing = cleansing(my_process)
data_cleansing()

Processing the data...⚙️
Processing has finished successfully 🥳


In [101]:
# The syntatic sugar!
@cleansing
def cleaning_function():
    time.sleep(2)

cleaning_function()

Processing the data...⚙️
Processing has finished successfully 🥳


En el caso de clases, simplemente vamos a repasar el decorador `property`:

In [102]:
class House:
    def __init__(self, price):
        self._price = price

    @property
    def price(self):
        return self._price
            
my_house = House(price=150_000)
my_house.price

150000

In [103]:
try:
    my_house.price = 175_000
except:
    print("No puedes cambiar el precio!")

No puedes cambiar el precio!


In [104]:
class House:
    def __init__(self, price):
        self._price = price

    @property
    def price(self):
        return self._price

    @price.setter
    def price(self, new_price):
        if new_price > 0 and (
            isinstance(new_price, float)
            or isinstance(new_price, int)
        ):
            self._price = new_price
        else:
            print("Please enter a valid price")

my_house = House(price=150_000)
my_house.price = 175_000
my_house.price

175000

Como veremos a lo largo de este curso, uno de los objetos con los que vamos a trabajar son con los tweets de [twitter](https://twitter.com/). Mirando la documentación de la [API v1,1](https://developer.twitter.com/en/docs/twitter-api/v1/data-dictionary/object-model/tweet) (veremos que es una API, y exploraremos en concreto como atacarla en el siguiente módulo), podemos hacernos una idea de lo que un *tweet* debe contener. Podemos usar esto como ejemplo de OOP, y definir nosotros mismos como un tweet puede ser representado como una calse:

In [105]:
from datetime import datetime

class Tweet:
    def __init__(
        self,
        text: str,
        user_id: str,
        tweet_id: str = None,
        created_at: str = None,
        edited: bool = False,
    ): 
        self._text = text
        self._id = tweet_id
        self._user_id = user_id
        self._created_at = datetime.now() \
                if not created_at \
                else datetime.fromisoformat(created_at)
        
        self._edited = edited
        
    @property
    def text(self):
        return self._text

    @property
    def id(self):
        return self._id
    
    @property
    def user_id(self):
        return self._user_id
    
    @property
    def created_at(self):
        return self._created_at
    
    @property
    def edited(self):
        return self._edited
    
    def edit(self, text: str):
        self._text = text
        self._edited = True
        
    def to_dict(self) -> dict:
        return {
            "text": self.text,
            "tweet_id": self.id,
            "user_id": self.user_id,
            "created_at": self.created_at.isoformat(),
            "edited": self.edited,
        }
        
    def __str__(self):
        return str(self.to_dict())
    
    def __repr__(self):
        return (
            "<"
            f"{Tweet.__name__}: id='{self.id}' "
            f"text = '{self.text[0:25]}...' "
            ">"
        )


my_tweet = Tweet(
    text="Social and Web Analytics 🚀",
    tweet_id="123123",
    user_id="123456789",
    created_at=datetime.now().strftime("%Y-%m-%d %H:%M:%S")
)

my_tweet

<Tweet: id='123123' text = 'Social and Web Analytics ...' >

In [106]:
my_tweet.edit("Social and Web Analytics...to the moooon 🚀")
print(my_tweet.text)
print(my_tweet.edited)

Social and Web Analytics...to the moooon 🚀
True


### Trabajando con datos y ficheros: Módulos `json`, `io` y `pickle`

Unas de las tareas más comunes en la analítica es la de la colecta y limpieza de datos. Esta colecta de datos suele involucrar estructuras de datos y ficheros. En particular, veremos que los estándares más usados hoy día son los objetos (o ficheros) `JSON`, los `CSV`, y en el universo `Python` tenmos `pickles`.

**JSON** = **J**ava**S**cript **O**bject **N**otation es un estándar de intercambio de información, el cual tuvo su inspiración en un subcojunto de JavaScript. Si quieres conocer toda su historia y detalles, [aquí](https://www.json.org/json-en.html) tienes la página oficial.

**CSV** = **C**omma **S**eparated **V**alues es un tipo de documento en formato abierto sencillo que representa datos en forma de tabla, en las que las columnas se separan por comas (o punto y coma en donde la coma es el separador decimal como en Chile, Perú, Argentina, España, Brasil, entre otros) y las filas por saltos de línea. Puedes ir [aquí](https://en.wikipedia.org/wiki/Comma-separated_values) una descripción más detallada.

**Pickle** = Librería nativa de Python para la "serialización" (representación en forma de cadena de bytes) de un objeto. Un pickle (la representación del objeto) puede ser almacenarlo en un archivo, o en base de datos, o transferirlos a través de una red. Convertir un objeto en su representación se suele denominar "pickelizar" (*pickling*), y el inverso (i.e. convertir una cadena de bytes en un objeto) se suele denotar como *unpickling*.

A continuación procedemos a dar ejemplos de cada uno de estos formatos y de como tratarlos.

##### JSON

`Python` soporta nativamente mediante el módulo *built-in* `json`. Por ejemplo, el siguiente bloque representa el contenido de un JSON:


```javascript
tweet_data = {
    "text": "Social and Web Analytics 🚀",
    "created_at": "2022-01-20 13:03:54.388977"
    "tweet_id": 123456789,
    "user_id": 123123123,
}
```

In [107]:
import json

tweet_data = my_tweet.to_dict()
tweet_json = json.dumps(tweet_data)

# JSON
tweet_json

'{"text": "Social and Web Analytics...to the moooon \\ud83d\\ude80", "tweet_id": "123123", "user_id": "123456789", "created_at": "2022-01-20T15:51:50", "edited": true}'

In [108]:
retweet = Tweet(
    **{**my_tweet.to_dict(),
       "tweet_id": "98765432",
       "user_id": "987654321"}
)

In [109]:
[1,2].index(1)

0

In [110]:
def request_tweet(tweet_id: int):
    """Simulates a requests to Twitter DB
    """
    tweets = [my_tweet, retweet]
    tweets_ids = [t.id for t in tweets]
    if tweet_id not in tweets_ids:
        raise FileNotFoundError(f"[!] Tweet not found: No tweet with id='{tweet_id}'")
    
    t_idx = tweets_ids.index(tweet_id)
    return json.dumps(tweets[t_idx].to_dict())
    
# Simulates a bunch of tweet ids we want to search:
tweet_ids = [my_tweet.id, retweet.id] \
            + random.sample(range(1_000, 10_000_000), 10)
random.shuffle(tweet_ids)

tweets_json = []
tweets = []
for t_id in tweet_ids:
    try:
        response = request_tweet(tweet_id=t_id)
        data = json.loads(response)
        tweet = Tweet(**data)

        tweets_json.append(response)
        tweets.append(tweet)
    except FileNotFoundError as err:
        print(err)

tweets
tweets_json

[!] Tweet not found: No tweet with id='7233629'
[!] Tweet not found: No tweet with id='5889889'
[!] Tweet not found: No tweet with id='413232'
[!] Tweet not found: No tweet with id='1852904'
[!] Tweet not found: No tweet with id='7160441'
[!] Tweet not found: No tweet with id='5111497'
[!] Tweet not found: No tweet with id='5316809'
[!] Tweet not found: No tweet with id='3713715'
[!] Tweet not found: No tweet with id='1692991'
[!] Tweet not found: No tweet with id='7569886'


['{"text": "Social and Web Analytics...to the moooon \\ud83d\\ude80", "tweet_id": "98765432", "user_id": "987654321", "created_at": "2022-01-20T15:51:50", "edited": true}',
 '{"text": "Social and Web Analytics...to the moooon \\ud83d\\ude80", "tweet_id": "123123", "user_id": "123456789", "created_at": "2022-01-20T15:51:50", "edited": true}']

Imaginemos que esta es la respuesta que hemos recibido al buscar unos cuantos de tweets en Twitter. Nos gustaría guardar (de momento en local) toda la información que hemos bajado. Lo más inmediato es guardar un archivo `.json`:

In [111]:
json_file_name = "fake_tweets.json"
with open(json_file_name, "w") as tweets_file:
    json.dump(tweets_json, tweets_file)

In [112]:
with open(json_file_name, "r") as tweets_file:
    tweets_data = json.load(tweets_file)

In [113]:
tweets_data

['{"text": "Social and Web Analytics...to the moooon \\ud83d\\ude80", "tweet_id": "98765432", "user_id": "987654321", "created_at": "2022-01-20T15:51:50", "edited": true}',
 '{"text": "Social and Web Analytics...to the moooon \\ud83d\\ude80", "tweet_id": "123123", "user_id": "123456789", "created_at": "2022-01-20T15:51:50", "edited": true}']

Con esto hemos visto lo fundamental y necesario para tratar con JSONs y hacer las operacione básicas de I/O (input/ouput con `open`). Si quieres aprender más sobre I/O en `Python` puedes ir a este [link](https://docs.python.org/3/library/io.html) para encontrar una documentación más detallada al respecto.

##### CSV (Comma Separated Values)

Como hemo comentado anteriormente, otro de los grandes estándares de intercambio de información es el CSV. En este caso, un fichero CSV suele representar información tabular que ya muestra una estructura clara. Al igual que en el caso de JSON, `Python` soporta el formato CSV de manera nativa [link](https://docs.python.org/3.8/library/csv.html), aunque librerías como `pandas` hayan hecho aún más sencilla su utilización. De momento vamos a ver un ejemplo sencillo con el *built-in* `csv`. El siguiente bloque muestra un ejemplo del contenido en un fichero de este tipo:

```csv
user_id,user_name,course
first row data 1,first row data 2,first row data 3
second row data 1,second row data 2,second row data 3
```

In [114]:
# Creación del contenido del CSV:

students_str = "\n".join([
    f"{s.id},{s.name},{s.email},{s.course}" for s in students
])

students_str = "user_id,user_name,email,course\n" + students_str
print(students_str)

user_id,user_name,email,course
6449bb7d5e39cb1d003b0b98a96d6539,Noah,n.lee.6449b@alumni.myuni.edu,2
2eb7461d35daa7741daca787239b1413,Liam,l.miller.2eb74@alumni.myuni.edu,3
74340b94993f4e0d6af2091b61009425,John,j.williams.74340@alumni.myuni.edu,2
a6f654e826cab93ecba57955faeaba4a,Liam,l.lee.a6f65@alumni.myuni.edu,1
b2e6cdfa9f5d1cd3272ec9322caf2358,Dan,d.smith.b2e6c@alumni.myuni.edu,4


In [115]:
with open("fake_students.csv", "w") as file:
    file.write(students_str)

In [116]:
import csv

fieldnames = [
    "user_id",
    "user_name",
    "email",
    "course"
]


class Row:
    def __init__(self, row_data):
        self.keys = [k for k in row_data.keys()]
        self.values = [v for v in row_data.values()]

    def __repr__(self):
        return "[" + ", ".join(self.values[0:10]) + "]"
    
    def __str__(self):
        return str(self.values)

class Table:
    
    @staticmethod
    def read_csv(file_path: str):
        csv.register_dialect('unixpwd', delimiter=',', quoting=csv.QUOTE_NONE)
        with open(file_path, "r", newline="\n") as csv_file:
            reader = csv.DictReader(csv_file, fieldnames=fieldnames)
            result_list = [
                dict(row) 
                for row in reader
            ]
        return result_list
            
    def __init__(self, data: list = None, file: str = None):
        csv_data = data
        if file:
            csv_data = Table.read_csv(file_path=file)
    
        self.rows = [Row(d) for d in csv_data]
        
    def __getitem__(self, idx: int):
        return self.rows[idx + 1]
    


tb = Table(file="fake_students.csv")

In [119]:
tb[0]

[6449bb7d5e39cb1d003b0b98a96d6539, Noah, n.lee.6449b@alumni.myuni.edu, 2]

### Librerías útiles para la analítica: Pandas, matplotlib, plotly, etc.

La comunidad de `Python` es bastante activa en el desarrollo de librerías
gratuitas (*open*) de análisis de datos. Las más usadas a día de hoy (`Enero 2022`)
y con las que recomendamos cierta familiaridad son:

- Pandas: https://pandas.pydata.org/
- Matplotlib: https://matplotlib.org/
- Plotly: https://plotly.com/

En este repaso general de `Python` consideramos que debemos ceñirnos al lenguaje
per sé y no a librerías de terceros, a pesar de que las usaremos probablemente en
el curso. El motivo es sencillo, creemos que el mejor repaso de susodichas librerías
se encuentra en el `Quick Start` que se puede encontrar en los sitios web de cada
una de estas. En caso que creamos que fuera necesario alguna funcionalidad específica
de alguna librería, la explicaremos con detalle en la sección adecuada.