## **Python para Data Science: Clase 04**

### **Más información sobre estructuras**

#### Comprensión de listas

Python soporta la comprensión de listas, una forma concisa para crear listas en una sola línea. Veamos un ejemplo donde queremos obtener el cuadrado de cad elemento de una lista:

In [1]:
numeros = [1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12]

numeros_sq  = []
for i in numeros:
    numeros_sq.append(i**2)
print("primera version", numeros_sq)

# usando comprension de listas
numeros_sq = [i**2 for i in numeros]
print("segunda version", numeros_sq)

primera version [1, 4, 9, 16, 25, 36, 49, 64, 81, 100, 121, 144]
segunda version [1, 4, 9, 16, 25, 36, 49, 64, 81, 100, 121, 144]


Interesantemente, la comprensión de listas soporta clausulas if-else. Por ejemplo, podemos obtener los cuadradados pero solo de números impares:

In [2]:
numeros = [1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12]

numeros_sq  = []
for i in numeros:
    if i % 2 != 0:
      numeros_sq.append(i**2)
print("primera version", numeros_sq)

# usando comprension de listas
numeros_sq = [i**2 for i in numeros if i % 2 != 0]
print("segunda version", numeros_sq)

primera version [1, 9, 25, 49, 81, 121]
segunda version [1, 9, 25, 49, 81, 121]


Desglosemos la expresión `[i**2 for i in numeros if i % 2 != 0]`:

1. Lo primero que se hace es inicializar una lista `[]`.
2. Usando la sintaxis que permite Python, le decimos en un principio que esa lista contenga cada elemento de `numeros` usando `i for i in numeros`.
3. Antes de asignar cada elemento le decimos que incluya solo si son impares con `i % 2 != 0`.

Esto no solo se restringe a las listas, también podemos hacerlo con diccionarios:

In [3]:
numeros = [1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12]

# Crear un diccionario con los números pares como claves y su cuadrado como valores
diccionario1 = {}
for i in numeros:
    if i % 2 == 0:
        diccionario1[i] = i ** 2
print("Primera versión:", diccionario1)

# Una versión más corta
diccionario2 = {i: i ** 2 for i in numeros if i % 2 == 0}
print("Segunda versión:", diccionario2)


Primera versión: {2: 4, 4: 16, 6: 36, 8: 64, 10: 100, 12: 144}
Segunda versión: {2: 4, 4: 16, 6: 36, 8: 64, 10: 100, 12: 144}


## Slicing

Permite seleccionar un subconjunto de elementos de una secuencia, como una lista o string, utilizando una sintaxis específica que indica el rango de índices de los elementos que se desean extraer.

Por ejemplo, dado una `lista` puedo obtener los primeros 5 elementos usando la sintaxis `lista[:5]`

In [4]:
lista = [5, 4, 1, 7, 9, 3, 0, 1, 2]
print(lista[:5])

[5, 4, 1, 7, 9]


O al contrario, puedo obtener todos los elementos desde el indice 5 en adelante con `lista[5:]`

In [5]:
print(lista[5:])

[3, 0, 1, 2]


Incluso podemos obtener los elementos que están entre dos indices

In [6]:
print(lista[3:6])

[7, 9, 3]


La sintaxis en concreto es de la forma `variable[inicio:final]`, siendo

- `variable` una secuencia de elementos ordenada (lista, tupla, string)
-  `inicio` indice inicial, si no se especifica se usa por defecto el primer indice de `variable`
- `final` indice `final`, si no se especifica entonces será igual al largo de la lista. Notar que el índice usado se **excluye** del resultado

In [7]:
lista = [5, 4, 1, 7, 9, 3, 0, 1, 2,]

# como puedo extraer los últimos 3 elementos de lista?
lista[-3:]

[0, 1, 2]

In [8]:
# como puedo excluir el primer y último elemento?
lista[1:-1]

[4, 1, 7, 9, 3, 0, 1]

#### Cambiando Pasos

Otra cosa interesante del slicing es que podemos pedirle a una secuencia que nos entregue los elementos cada **x** pasos.

In [9]:
lista = list(range(1,11))
print(lista)

[1, 2, 3, 4, 5, 6, 7, 8, 9, 10]


In [10]:
# Ejemplo: cada dos pasos
print(lista[::2])

[1, 3, 5, 7, 9]


In [11]:
# Ejemplo: cada dos pasos partiendo del segundo elemento
print(lista[1::2])

[2, 4, 6, 8, 10]


In [12]:
# Ejemplo: cada un paso partiendo desde el final
print(lista[::-1])

[10, 9, 8, 7, 6, 5, 4, 3, 2, 1]


Si te has fijado bien, acabamos de dar vuelta el orden de los elementos!, esto es parecido a haber usado `reverse` sobre la lista, salvo que esto último lo hace de manera implícita:

In [14]:
lista = list(range(1,11))

# guardamos la lista dada vuelta
lista_r = lista[::-1]

# damos vuelta la lista
lista.reverse()

assert lista_r == lista, "Las listas no son iguales"

Podemos entonces también dar vuelta strings:

In [15]:
saludo = "Hola Mundo"
print(saludo[::-1])

odnuM aloH


Hagamos un pequeño ejercicio:

Defina la función `es_palindromo(palabra)`, que comprueba si `palabra` es palindromo o no, retornando `True` o `False`.

In [3]:
def es_palindromo(palabra):
  palabra = palabra.replace(" ", "").lower()
  return palabra == palabra[::-1]

assert es_palindromo("reconocer") == True
assert es_palindromo("anita lava la tina") == True
assert es_palindromo("radar") == True
assert es_palindromo("Victor") == False

### Funcionalidades importantes de los strings

Los `strings` de Python contienen una variedad de utilidades que pueden ser util en el análisis de datos. A continuación veremos algunas de ellas

#### `string.strip()`

Supongamos que tenemos estamos leyendo strings desde una tabla, y nos damos cuenta que algunos de ellos tienen espacios al principio o al final (error muy común cuando se escriben datos en una tabla). La funcionalidad `string.strip()` nos permite eliminar **todos** los espacios (y algunos otros elementos) de `string`:

In [4]:
un_string = "Un buen, Ejemplo "
un_string_clean = un_string.strip()

# Vemos que los largos son distintos
assert len(un_string) != len(un_string_clean)

# Comprobemos el último elemento de cada uno
(un_string_clean[-1], un_string[-1])

('o', ' ')

Tambien existe `lstrip` para solo eliminar la parte izquierda (left), y `rstrip` para únicamente la parte derecha (right).

#### `string.lower()` y `string.upper()`

Nos permite dejar todo el string en minúsculas (lowercase) o mayúscula (uppercase):

In [5]:
print(un_string.lower())
print(un_string.upper())

un buen, ejemplo 
UN BUEN, EJEMPLO 


#### `string.startswith(substring)` y `string.endswith(substring)`

Nos permite saber si un string empieza (startswith) o termina (endswith) con un substring.

In [6]:
un_string = "Un buen, Ejemplo "
print(un_string.startswith("Un"))
print(un_string.endswith("Ejemplo"))

True
False


#### `string.replace(a,b)`

Remplaza el substring `a` por el substring `b` dentro de `string`. Muy útil para limpiar strings.

In [7]:
print(un_string.replace('buen', 'mal'))

Un mal, Ejemplo 


In [8]:
# Como podríamos usar esto para eliminar las comas?
un_string.replace

<function str.replace(old, new, count=-1, /)>

#### `string.split(sep=" ")`

Corta `string` según cada aparición de `sep` dentro de este. Si no se define un valor, entonces se utiliza un espacio en blanco por defecto. El resultado final es una lista con cada uno de los elementos

In [9]:
un_string = "Un buen, Ejemplo, 1 "
print(un_string.split())

['Un', 'buen,', 'Ejemplo,', '1']


In [10]:
print(un_string.split(","))

['Un buen', ' Ejemplo', ' 1 ']


#### `string.capitalize()`

Capitaliza un string (deja el primer caracter en mayúscula):

In [11]:
otro_string = "hola mundo,que tal"
print(otro_string.capitalize())

Hola mundo,que tal


Veamos un ejercicio simple: transforme `"Un buen, Ejemplo "` en `"Un buen ejemplo"`.

In [12]:
un_string = "Un buen, Ejemplo "

un_string_clean = un_string.capitalize().replace(',',"").strip()
un_string_clean

assert un_string_clean == "Un buen ejemplo"

## Más información sobre funciones

Hasta ahora hemos visto lo básico de funciones, sabiendo ya como aplicarlas y definirlas. Ahora bien, nos faltan dos conceptos de interés:

- Recursividad
- Funciones anónimas (lambda functions)

### Recursividad

Un concepto no menos importante es el de *función recursiva*. Una función recursiva resuelve un problema llamándose a sí misma con argumentos que van siendo modificados en cada paso. Cada vez que la función se llama a sí misma, se acerca a una condición de parada que detiene la recursión. Sin esta condición de parada, la recursión continuaría indefinidamente.

Hay dos componentes claves en una función recursiva:

1. Caso base o condición de parada: Indica cuando se debe detener la recursión
2. Llamada recursiva: El cuerpo de la función

Recordemos la función para obtener el factorial de un número (sin casos bordes):

In [13]:
def factorial(n):
  resultado = 1
  for i in range(1, n+1):
    resultado *= i
  return resultado

factorial(3)

6

Podemos definirla usando recursividad:

- Caso base: Si $n=0$, entonces retornar 1
- Llamada recursiva: llamarse a si misma con argumento $(n-1)$ y multiplicar dicho valor por $n$.

In [14]:
def factorial_recursivo(n):
  # caso base:
  if n == 0:
    return 1

  # llamada recursiva
  else:
    return n * factorial_recursivo(n-1)

factorial_recursivo(3)

6

Podemos entender esto viendo a partir del siguiente diagrama:

```python
factorial_recursivo(3)
├── 3 * factorial_recursivo(2)
|       ├── 2 * factorial_recursivo(1)
|       |       ├── 1 * factorial_recursivo(0)
|       |       │       └── 1  (caso base)
|       |       └── 1 * 1 = 1
|       └──  2 * 1 = 2
└── 3 * 2 = 6
```

Recordemos Fibonacci:

$f_n = f_{n-1} + f_{n-2}$

Siendo $f_0=0$ y $f_1=1$ por definición.

Los primeros 10 números de la sucesion de Fibonacci son $0, 1, 1, 2, 3, 5, 8, 13,21,34$

In [15]:
def fib(n):
  # caso base
  if n == 0:
    return 0

  if n == 1:
    return 1
    
  # llamada recursiva
  return fib(n - 1) + fib (n - 2)

fib(20)

6765

### Funciones anónimas (Funciones Lambda)

Las funciones anónimas, también conocidas como *funciones lambda*, son una característica poderosa en Python que permite crear funciones pequeñas y de una sola línea sin necesidad de definirlas con un nombre usando la keyword `def`. Son particularmente útiles cuando se necesita una función simple y rápida, especialmente como argumentos en otras funciones.

Una función lambda se define utilizando el keyword `lambda`, seguida de los argumentos, dos puntos, y la expresión a evaluar y retornar. La sintaxis es la siguiente:

```python
lambda argumentos: expresión
```

Veamos un par de ejemplos:

In [18]:
# Función que suma dos numeros
suma = lambda x, y: x + y
suma(5,3)

8

In [19]:
# Función que eleva un número al cuadrado
cuadrado = lambda x : x**2
cuadrado(4)

16

Un caso de uso sencillo, es el de querer ordenar una lista de diccionarios en base a una clave en particular. Veamos el siguiente ejemplo usando la función sorted:

In [20]:
help(sorted)

Help on built-in function sorted in module builtins:

sorted(iterable, /, *, key=None, reverse=False)
    Return a new list containing all items from the iterable in ascending order.

    A custom key function can be supplied to customize the sort order, and the
    reverse flag can be set to request the result in descending order.



In [21]:
estudiantes = [
    {'nombre': 'Juan', 'edad': 21},
    {'nombre': 'Ana', 'edad': 22},
    {'nombre': 'Pedro', 'edad': 20}
]

# usamos la función sorted
estudiantes_por_edad = sorted(estudiantes, key=lambda x: x['edad'])
estudiantes_por_edad

[{'nombre': 'Pedro', 'edad': 20},
 {'nombre': 'Juan', 'edad': 21},
 {'nombre': 'Ana', 'edad': 22}]

Por ahora no hay muchos casos de uso en el ámbito de Data Science donde las funciones lambdas sean de mucha utilidad. Sin embargo, cuando veamos otras estructuras de datos más sofisticadas veremos como sacarle más provecho a estas funciones.

## Clases


Podemos entender una clase como una plantilla que define un objeto, la cual almacenará datos y funcionalidades (métodos) que operan sobre estos datos. Este concepto es fundamental en la *Programación Orientada en Objetos (POO)*, muy común en muchos otros lenguajes de programación.

La sintaxis de las clases es la siguiente:

```python
class NombreClase: # nombre de la clase

  def __init__(self, param1, param2, ..., paramN): # metodo de inicializacion
    self.param1 = param1 # asignamos param1 como atributo de la clase
    ...

  def metodo1(self): # Método de la clase
    ...
```

Notar que constantemente se utiliza `self`. En Python, esto significa que uno se está refiriendo a la clase misma. Veamos un ejemplo más concreto

In [33]:
class Usuario:

  def __init__(self, nombre, numero, correo, pais="Chile"):
    self.nombre = nombre
    self.numero = numero
    self.correo = correo
    self.pais = pais


# En las clases, el metodo __init__ no se llama de forma explicita
un_usuario = Usuario(nombre="Victor", numero="+56987654321", correo="victor.saldivia@ulagos.cl")
print(un_usuario) # Es un objeto!

<__main__.Usuario object at 0x000001EDAA52C3E0>


Una vez definida una clase y sus atributos, podemos por ejemplo acceder a sus elementos directamente usando `objeto.atributo`:

In [34]:
print(un_usuario.numero)

+56987654321


Notar que este objeto tiene cierta similaridad con la parte de *diccionarios* que vimos en la clase anterior:

In [39]:
un_usuario_dict = {"nombre": "Victor", "numero": "+56987654321",
                   "correo": "victor@ulagos.cl", "pais": "Chile"}

print(un_usuario_dict["numero"])

+56987654321


En Python podemos ver un objeto como diccionario usando `objeto.__dict__`

In [36]:
print(un_usuario.__dict__)

# Comprobamos que son iguales
assert un_usuario.__dict__ == un_usuario_dict

{'nombre': 'Victor', 'numero': '+56987654321', 'correo': 'victor.saldivia@ulagos.cl', 'pais': 'Chile'}


AssertionError: 

Ahora bien, solo hemos visto el método para construir la clase. Empecemos a mejorar la clase añadiendo nuevos métodos:

1. Queremos un método que al ser llamado, retorne el código del número asociado al usuario, por ejemplo `un_usuario.codigo_telefono()` debería retornar "+56"

In [38]:
class Usuario:

  def __init__(self, nombre, numero, correo, pais="Chile"):
    self.nombre = nombre
    self.numero = numero
    self.correo = correo
    self.pais = pais

  def codigo_telefono(self):
    return self.numero[:3]

un_usuario = Usuario(nombre="Victor", numero="+56987654321", correo="victor.saldivia@ulagos.cl")

# Tests
assert un_usuario.codigo_telefono() == "+56"

Pero notemos puede que número no sea ingresado con "+". Hagamos una mejora:

2. Validar que `numero` empiece con "+". Si no lo tiene, agregarlo a `numero`.

In [37]:
class Usuario:

  def __init__(self, nombre, numero, correo, pais="Chile"):
    self.nombre = nombre
    self.numero = numero
    #if self.numero = "+" + self.numero:
    self.correo = correo
    self.pais = pais

  def codigo_telefono(self):
    return self.numero[:3]


un_usuario = Usuario(nombre="Victor", numero="+56987654321", correo="victor.saldivia@ulagos.cl")

# Tests
assert un_usuario.codigo_telefono() == "+56"

Otra posibilidad interesante sería *mostrar un error* si por ej, número no tiene el largo suficiente, o si el correo no contiene el símbolo `@`. Para entender esto veamos primero los Excepciones en Python

## Errores y manejo de errores

Python, así como en muchos lenguajes de programación, muestra un mensaje de error cuando hay un problema en el código. Dicho mensaje corresponde a una `exception` en Python.

Existen tipos comunes de excepciones:

- **SyntaxError**: Error en la sintaxis del código.
- **TypeError**: Error cuando una operación se realiza en un objeto de tipo inapropiado.
- **ValueError**: Error cuando una función recibe un argumento de tipo correcto pero valor inapropiado.
- **IndexError**: Error cuando se intenta acceder a un índice que no existe en una secuencia.
- **KeyError**: Error cuando se intenta acceder a una clave que no existe en un diccionario.
- **ZeroDivisionError**: Error cuando se intenta dividir por cero.

Veamos por ejemplo la división por cero:

In [41]:
10/0

ZeroDivisionError: division by zero

Así como Python tiene excepciones predefinidas, nosotros también podemos definir algunas. Volvamos al ejemplo de la función recursiva:

In [42]:
def factorial(n):
  return 1 if n == 0 else n * factorial(n-1)

factorial(3)

6

Podemos incluir un validador sobre `n`, de tal modo que si hay un valor negativo "levantar" una excepción del tipo *ValueError*:

In [43]:
def factorial_v2(n):
  if n < 0:
    raise ValueError("n debe ser mayor o igual a 0")
  return 1 if n == 0 else n * factorial_v2(n-1)

factorial_v2(-1)

ValueError: n debe ser mayor o igual a 0

Ahora bien, en muchos casos nos podemos topar con el caso donde sabemos que un código pueda posiblemente activar una excepción, y queremos controlar esos casos. Para ello están los bloques `try-except-finally` en Python, cuya sintaxis es la siguiente:

```python
try:
    # Bloque de código que puede lanzar una excepción
    ...
except algunaExcepcion as e:
    # Bloque de código que se ejecuta si ocurre la excepcion algunaExcepcion
    ...
finally:
    # Bloque de código que se ejecuta siempre, ocurra o no una excepción
    ...
```

El `finally` es opcional, por lo que se puede omitir cuando se quieran manejar errores en Python. Volvamos al ejemplo de nuestra funcion `factorial_v2`:

In [44]:
try:
  factorial_v2(-1)
  print("No hubieron problemas")
except:
  print("Algo salió mal")
finally:
  print("Fin")


Algo salió mal
Fin


Teniendo conocimiento de esto, mejoremos nuestra clase:

In [49]:
class Usuario:

  def __init__(self, nombre, numero, correo, pais="Chile"):
    self.nombre = nombre
    self.numero = numero
    # validar que numero parta con "+", si no, agregarselo
    #if self.numero[0] != "+":
      #self.numero
    self.correo = correo
    self.pais = pais

  def codigo_telefono(self):
    ...


un_usuario = Usuario(nombre="Victor", numero="+56987654321", correo="victor.saldivia@ulagos.cl")

# Tests
assert un_usuario.codigo_telefono() == "+56"

AssertionError: 

Queremos:

1. Validar que `numero` tenga 11 digitos junto al símbolo "+". Si no, levantar una excepción **ValueError**
2. Validar que correo contenga "@". Si no, levantar una excepción **ValueError**

In [51]:
class Usuario:

  def __init__(self, nombre, numero, correo, pais="Chile"):
    self.nombre = nombre
    # validar que numero tenga largo 11 (sin contar el +)
    # ..
    self.numero = numero
    # validar que numero parta con "+", si no, agregarselo
    # ...

    # validar que correo contenga "@"
    # ...
    self.correo = correo
    self.pais = pais

  def codigo_telefono(self):
    ...


un_usuario = Usuario(nombre="Victor", numero="+56987654321", correo="victor.saldivia@ulagos.cl")

# Tests
assert un_usuario.codigo_telefono() == "+56"

AssertionError: 

#### Ejercicios

Considere la clase `DataHelper`, la cual almacena una lista de números:

In [53]:

class DataHelper:
  def __init__(self, data):
    if not all(isinstance(dato, (int, float)) for dato in data): #si el dato es de tipo int o float va a dar True (eso hace 'isinstance') - 'all' indica que todas las condiciones se cumplan
      raise ValueError("Los elementos de \"data\" deben ser únicamente números")
    self.data = data

  def agregar_dato(self, dato):
    if not isinstance(dato, (int, float)):
      raise ValueError("El dato agregado debe ser un número")
    self.data.append(dato)

  def eliminar_dato(self, dato):
    if dato in self.data:
      self.data.remove(dato)

  def obtener_datos(self):
    return self.data

data_helper = DataHelper([1, 3, 0])
#data_helper.agregar_dato(4)
data_helper.obtener_datos()

[1, 3, 0]

In [54]:
any(isinstance(dato, (int, float)) for dato in [1,3,0,"a"])

True

1. Defina los métodos:
  - `sum()`: Calcula la suma del total de datos
  - `len()`: Cuenta el número total de datos
  - `max()`: Obtiene el máximo entre los datos
  - `min()`: Obtiene el mínimo entre los datos

In [57]:
class DataHelper:
  def __init__(self, data):
    if not all(isinstance(dato, (int, float)) for dato in data):
      raise ValueError("Los elementos de \"data\" deben ser únicamente números")
    self.data = data

  def agregar_dato(self, dato):
    if not isinstance(dato, (int, float)):
      raise ValueError("El dato agregado debe ser un número")
    self.data.append(dato)

  def eliminar_dato(self, dato):
    if dato in self.data:
      self.data.remove(dato)

  def obtener_datos(self):
    return self.data

  def sum(self):
    return sum(self.obtener_datos())

  def len(self):
    return len(self.obtener_datos())

  def max(self):
    return max(self.obtener_datos())

  def min(self):
    return min(self.obtener_datos())

# Tests
data_helper = DataHelper([1, 3, 0])
assert data_helper.sum() == 4, "resultado incorrecto"
assert data_helper.len() == 3, "resultado incorrecto"
assert data_helper.max() == 3, "resultado incorrecto"
assert data_helper.min() == 0, "resultado incorrecto"

2. Defina los siguiente métodos:
  - `mean()`: Calcula el promedio de los datos $\Large \mu = \frac{\sum_{i=0}^n x_i}{n}$
  - `std()`: Calcula la desviación estandar de los datos $\Large \sigma = \sqrt{\frac{\sum_{i=0}^n (x_i - \mu)^2}{n}}$
  - `normalize()`: Que normaliza los datos usando un enfoque `max-min`, i.e., restando el valor mínimo y dividiendo por la diferencia entre `max` y `min` $\Large \tilde{x}_i = \frac{x_i - \min(x)}{\max(x) - \min(x)}$


In [58]:
datos = [1, 3, 0]
promedio = 1.33
(sum([(dato - promedio)**2 for dato in datos]) / len(datos)) **0.5

1.2472235832707248

In [59]:
class DataHelper:
  def __init__(self, data):
    if not all(isinstance(dato, (int, float)) for dato in data):
      raise ValueError("Los elementos de \"data\" deben ser únicamente números")
    self.data = data

  def agregar_dato(self, dato):
    if not isinstance(dato, (int, float)):
      raise ValueError("El dato agregado debe ser un número")
    self.data.append(dato)

  def eliminar_dato(self, dato):
    if dato in self.data:
      self.data.remove(dato)

  def obtener_datos(self):
    return self.data

  def sum(self):
    return sum(self.obtener_datos())

  def len(self):
    return len(self.obtener_datos())

  def max(self):
    return max(self.obtener_datos())

  def min(self):
    return min(self.obtener_datos())

  def mean(self):
    return self.sum() / self.len()

  def std(self):
    promedio = self.mean()
    suma = sum([(dato - promedio)**2 for dato in self.obtener_datos()])
    return (suma / self.len()) ** 0.5

  def normalize(self):
    min = self.min()
    max = self.max()
    return [(d - min) / (max - min) for d in self.data]

# Tests
data_helper = DataHelper([1, 3, 0])
assert round(data_helper.mean(), 2) == 1.33, "resultado incorrecto"
assert round(data_helper.std(), 2) == 1.25, "resultado incorrecto"

data_normalizada = [round(x, 2) for x in data_helper.normalize()]
expected = [0.33, 1.0, 0.0]
assert data_normalizada == [0.33, 1.0, 0.0], "resultado incorrecto"