**Módulo 2:** Fundamentos de Python para la Ciencia de Datos

## La librería estándar de Python
---

- Sitio oficial https://docs.python.org/3/library/index.html
- Funciones interconstruidas en Python https://docs.python.org/3/library/functions.html
- Tipos de datos interconstruidos en Python https://docs.python.org/3/library/stdtypes.html
- Creando y revisado por la Fundación de Python

## El repositorio de paquetes de la comunidad
---

- Sitio oficial de PyPi (Python Package Indicex) https://pypi.org/
- No oficial
- Creado por la comunidad
- No confiar en cualquier paquete, módulo o librería

## Tipos de datos interconstruidos en Python
---

| Tipo de dato | Ejemplo de información | Ejemplo en Python |
|---|---|---|
| **int** | Cantidad, Edad, Contadores | `23, 99, 12345` |
| **float** | Núm. con decimales, Moneda | `37.8, 75.1, 12345.67` |
| **str** | Texto | "00123", "Fulanito García", `'$12345.67 M.N'` |
| **bool** | Valores lógicos | `True, False` |
|---|---|---|
| **list** | Lista de ventas, Lista mixta | `[1, 2.5, "tres", True]` |
| **tuple** | Listas que generalmente no cambian | `(1, 2.5, "tres", True)` |
| **set** | Cual es la intersección entre dos conjuntos | `a.intersection(b)` |
| **dict** | Lista de empleados en base a su ID | `{"001":"Fulanito García"}` |


### Comprendiendo tipos de datos nuyméricos y operaciones

| Operador   | Operación            | Ejemplo en Python   |
|------------|----------------------|---------------------|
| +          | suma                 | 5 + 11              |
| -          | resta                | 5 - 11              |
| /          | división             | 5 / 2               |
| *          | producto             | 5 * 22              |
| **         | potencia             | 5 ** 2              |
| //         | división hacia abajo | 5 // 2              |
| %          | módulo               | 5 % 2               |


Realicemos algunas operaciones numéricas +, -, *, /, **:

In [6]:
print(5 + 11)
print(5 - 11)
print(5 / 2)
print(5 * 22)
print(5 ** 2)

16
-6
2.5
110
25


Realicemos algunas operaciones numéricas /, // y %:

$$5 / 2 = \color{red}2\color{black}.5 => 2.5 * 2 = 5$$

$$5 // 2 = \color{red}2\color{black}  =>  2 * 2 = 4 => 5 - 4 = \color{green}1\color{black} (residuo)$$

$$5 \% 2 = \color{green}1$$

In [17]:
print(5 / 2)
print(2.5 * 2)
print(5 // 2)  # <-
print(2 * 2)
print(5 - 4)
print(5 % 2)  # <-

2.5
5.0
2
4
1
1


### Comprendiendo operadores de asignación

| Operador   | Operación            | Ejemplo             |
|------------|----------------------|---------------------|
| =          | x = 11               | x = 11              |
| +=         | x = x + 5            | x += 5              |
| -=         | x = x - 5            | x -= 5              |
| *=         | x = x * 5            | x *= 5              |
| /=         | x = x / 5            | x /= 5              |
| %=         | x = x % 5            | x %= 5              |
| //=        | x = x // 5           | x //= 5             |
| **=        | x = x ** 5           | x **= 5             |

Realicemos algunas operaciones:

In [24]:
a = 10
a
b = 11.5
b
c = a + b * 2
c = c + 1
c += 2
c -= 1
c

35.0

### Comprendiendo operadores de comparación

| Operador   | Operación            | Ejemplo             |
|------------|----------------------|---------------------|
| ==         | es igual             | x == y              |
| !=         | es diferente         | x != y              |
| <          | es menor que         | x < y               |
| <=         | es menor o igual que | x <= y              |
| >          | es mayor que         | x > 5               |
| >=         | es mayor o igual que | x >= 5              |

Realicemos algunas operaciones:

In [32]:
print(10 == 11)
print(10 != 11)
print(10 < 5)
print(10 >= 5)
a = 100
b = 100.1
print(a <= b)
print( a + b <= 200)
print( (a + b) <= 200)

False
True
False
True
True
False
False


### Comprendiendo operadores lógicos

| Operador   | Operación            | Ejemplo             |
|------------|----------------------|---------------------|
| and        | Regresa verdadero si ambas expresiones son verdaderas | x == y and x <= 100 |
| or         | Regresa verdadero si una de las expresiones es verdadera | x != y or 0 < y  |
| not        | Invierte el resultado | not( x < y ) |
| in         | Regresa verdadero si un elementos está presente en una secuencia | x in list_y |
| not in     | Regresa verdadero si un elementos no está presente en una secuencia | x not in list_y |

Realicemos algunas operaciones:

In [41]:
x = 5
y = 10 

print(x == y and y < 100)
print(x != y or 0 < y)
print( not(x != y or 0 < y) )
print( x in [1,2,3,4])
print( x not in [1,2,3,4])


False
True
False
False
True


**Ejercita tu mente:** Resuelve usando algunas variables y operaciones numéricas de Python:

> Karen es 8 años mayor que Cristina, si ambas edades suman 67 años ¿Cuántos años tiene cada una?

In [43]:
c = (67 - 8) / 2
k = c + 8
print(k, c)

37.5 29.5


## Comprendiendo operaciones y funciones de Strings
---

### Creando cadenas de texto (str)

| Definición   | Descripción            | Ejemplo             |
|------------|----------------------|---------------------|
| "", ''     | Crea una cadena vacía | "" |
| "texto", 'texto' | Crea una cadena con información inicial | "Benito Bodoque" |
| """texto multi línea""" | Crea una cadena que puede ser escríta en múltipleas línea  | (hacer ejemplo) |

Realicemos algunas operaciones:

In [49]:
''
"Benito Bodoque"
'''Linea 1
Linea2
Linea3'''

'Linea 1\nLinea2\nLinea3'

### Comprendiendo operadores con cadenas (str)

| Operador   | Operación            | Ejemplo             |
|------------|----------------------|---------------------|
| +          | Concatena o une dos cadenas | "uno" + "dos" -> "unodos" |
| *          | Crea n copias de la cadena  | "uno" * 3 -> "unounouno" |

Realicemos algunas operaciones:

In [57]:
"uno" + " " +  "dos"
"uno " * 3
"=" * 60



### Comprendiendo símbolos especiales de formato (herados de lenguaje C)

| Símbolo   | Descripción            | Ejemplo             |
|-----------|----------------------|---------------------|
| \n        | Salta o avanza el cursor de línea | "Línea 1\nLínea 2" |
| \r        | Regresa el cursor al inicio de línea | "Línea 1\n\rLínea 2" |
| \t        | Inserta un tabulador | "Columna 1\tColumna 2" |

Realicemos algunas operaciones:

In [63]:
cad = "uno\tdos\ttres\tcuatro"
print(cad)
lineas = "linea1\nlinea2\nlinea3"
print(lineas)

uno	dos	tres	cuatro
linea1
linea2
linea3


### Comprendiendo algunas funciones de cadenas (str)

| Función    | Descripción            | Ejemplo             |
|------------|----------------------|---------------------|
| strip()    | Elimina blancos antes y después | "\tLínea 1\nLínea 2\n\r   ".split() |
| split(sep) | Divide la cadena en base a *sep* o los símbolos en blanco | "Col 1\tCol 2 Col 3" |
| find(sub)  | Regresa el menor índice donde aparece sub cadena | "12345671234".find("34") |
| count(sub)  | Cuenta el número de sub cadenas | "12345671234".count("34") |

Realicemos algunas operaciones:

In [64]:
"\tLínea 1\nLínea 2\n\r ".strip()

'Línea 1\nLínea 2'

In [65]:
"\tLínea 1\nLínea 2\n\r ".split()

['Línea', '1', 'Línea', '2']

In [66]:
"\tLínea 1\nLínea 2\n\r ".split("\n")

['\tLínea 1', 'Línea 2', '\r ']

In [69]:
"12345671234".count("56")

1

Pero podemos obtener ayuda de Python, veamos como:

In [70]:
str.upper?

[0;31mSignature:[0m [0mstr[0m[0;34m.[0m[0mupper[0m[0;34m([0m[0mself[0m[0;34m,[0m [0;34m/[0m[0;34m)[0m[0;34m[0m[0;34m[0m[0m
[0;31mDocstring:[0m Return a copy of the string converted to uppercase.
[0;31mType:[0m      method_descriptor

In [73]:
nombre = "benito".upper()
print(nombre)

BENITO


## Comprendiendo operaciones y funciones de Listas (list)
---

### Creando listas (list)

| Definición   | Descripción            | Ejemplo             |
|--------------|----------------------|---------------------|
| [], list()   | Crea una lista vacía | [], list() |
| [-elementos-]| Crea una lista con información incial | [1, 2, "tres", 4.5, True] |
| list(range(n)) | Crea una lista de n números iniciando en 0  | list(range(10)) |
| list(str) | Crea una lista con las letras de str | list("Hola mundo!") |

Realicemos algunas operaciones:

In [3]:
clientes_cdmx = []
clientes_cdmx

[]

In [4]:
a = list()
a

[]

In [7]:
[1.0,2.0,3.0,4.0,5.0, "uno", "dos", "17-08-2023", True, None]

[1.0, 2.0, 3.0, 4.0, 5.0, 'uno', 'dos', '17-08-2023', True, None]

In [14]:
r_1_100 = range(1, 101)  # generadores
print( list( r_1_100 ) )

[1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33, 34, 35, 36, 37, 38, 39, 40, 41, 42, 43, 44, 45, 46, 47, 48, 49, 50, 51, 52, 53, 54, 55, 56, 57, 58, 59, 60, 61, 62, 63, 64, 65, 66, 67, 68, 69, 70, 71, 72, 73, 74, 75, 76, 77, 78, 79, 80, 81, 82, 83, 84, 85, 86, 87, 88, 89, 90, 91, 92, 93, 94, 95, 96, 97, 98, 99, 100]


In [16]:
for elemento in [1,2,3,4,5]:
    print( elemento )  # \n

1
2
3
4
5


In [20]:
for el in range(1, 101):
    print(el, end=" ")

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90 91 92 93 94 95 96 97 98 99 100 

In [24]:
numeros = []               # iniciando la lista vacía
for n in range(1, 501):    # generar la lista de números
    m = n ** 2
    numeros.append( m )    # agregar el número a la lista
print( numeros )           # imprimir la lista completa

[1, 4, 9, 16, 25, 36, 49, 64, 81, 100, 121, 144, 169, 196, 225, 256, 289, 324, 361, 400, 441, 484, 529, 576, 625, 676, 729, 784, 841, 900, 961, 1024, 1089, 1156, 1225, 1296, 1369, 1444, 1521, 1600, 1681, 1764, 1849, 1936, 2025, 2116, 2209, 2304, 2401, 2500, 2601, 2704, 2809, 2916, 3025, 3136, 3249, 3364, 3481, 3600, 3721, 3844, 3969, 4096, 4225, 4356, 4489, 4624, 4761, 4900, 5041, 5184, 5329, 5476, 5625, 5776, 5929, 6084, 6241, 6400, 6561, 6724, 6889, 7056, 7225, 7396, 7569, 7744, 7921, 8100, 8281, 8464, 8649, 8836, 9025, 9216, 9409, 9604, 9801, 10000, 10201, 10404, 10609, 10816, 11025, 11236, 11449, 11664, 11881, 12100, 12321, 12544, 12769, 12996, 13225, 13456, 13689, 13924, 14161, 14400, 14641, 14884, 15129, 15376, 15625, 15876, 16129, 16384, 16641, 16900, 17161, 17424, 17689, 17956, 18225, 18496, 18769, 19044, 19321, 19600, 19881, 20164, 20449, 20736, 21025, 21316, 21609, 21904, 22201, 22500, 22801, 23104, 23409, 23716, 24025, 24336, 24649, 24964, 25281, 25600, 25921, 26244, 26569, 

### Comprendiendo algunos operadores de listas (list)

| Operador   | Operación            | Ejemplo             |
|------------|----------------------|---------------------|
| +          | Concatena o une dos listas | [1,2,3] + [3,4,5] -> [1,2,3,3,4,5] |
| *          | Crea n copias de la lista  | [1,2,3] * 3 -> [1,2,3,1,2,3,1,2,3] |

Realicemos algunas operaciones:

In [28]:
[1,2,3] + [3,4,5]
[3,4,5] + [1,2,3]
[1,2,3] * 3
[1] * 10

[1, 1, 1, 1, 1, 1, 1, 1, 1, 1]

### Comprendiendo algunas funciones de listas (str)

| Función        | Descripción            | Ejemplo             |
|----------------|----------------------|---------------------|
| append()       | Agrega un elemento al final de la lista | [1,2,3].append(4) |
| pop()          | Elimina y regresa el último elemento de la lista | [1,2,3,4].pop() |
| remove(val)    | Elimina la primera aprición de val en la lista o regresa error si no existe | [1,2,3,4,2].remove(2) |
| sort()         | Ordena los elementos de una lista | [3,5,1,4,2].sort() |
| str.join(list) | Une o concatena los elementos de una lista | "+".join(["uno","dos","tres"]) |

Realicemos algunas operaciones:

In [34]:
a = [1,2,3]
a.append(4.5)
a.pop()
a

[1, 2, 3]

In [39]:
b = ["uno", "dos", "tres"]
c = " | "
c.join(b)  # "uno" + "dos" + "tres"

'uno | dos | tres'

In [40]:
list.sort?

[0;31mSignature:[0m [0mlist[0m[0;34m.[0m[0msort[0m[0;34m([0m[0mself[0m[0;34m,[0m [0;34m/[0m[0;34m,[0m [0;34m*[0m[0;34m,[0m [0mkey[0m[0;34m=[0m[0;32mNone[0m[0;34m,[0m [0mreverse[0m[0;34m=[0m[0;32mFalse[0m[0;34m)[0m[0;34m[0m[0;34m[0m[0m
[0;31mDocstring:[0m
Sort the list in ascending order and return None.

The sort is in-place (i.e. the list itself is modified) and stable (i.e. the
order of two equal elements is maintained).

If a key function is given, apply it once to each list item and sort them,
ascending or descending, according to their function values.

The reverse flag can be set to sort in descending order.
[0;31mType:[0m      method_descriptor

### Accediendo y modificando los elementos de una lista

| Función        | Descripción            | Ejemplo             |
|----------------|----------------------|---------------------|
| lista[n]       | Regresa el elemento n de la lista. El primer elemento siempre inicia en la posición 0 | nombres[0] |
| lista[n:m]     | Obtiene los elementos de la posición n a la m-1 de la lista | [1,2,3,4][1:3] |
| lista[n:]      | Obtiene los elementos de la posición n al final de la lista | [1,2,3,4,2][2:] |
| lista[:m]      | Obtiene los elementos desde el inicio hasta la posición m-1 de la lista | [1,2,3,4,2][:3] |
| lista[n] = val | Remplaza el valor en la posición n por val | nombres[3] = "Benito" |

Realicemos algunas operaciones:

In [45]:
b[3]

IndexError: list index out of range

In [51]:
l = len(b)
b[l-1]

'tres'

In [52]:
b[ len(b) - 1 ]

'tres'

In [53]:
b[len(b) - 1]

'tres'

Forma Pythonesca de llegar al último elemento `-1`:

In [56]:
b[ -3 ]

'uno'

In [63]:
# print(numeros)
numeros[ 0:5 ]

[1, 4, 9, 16, 25]

In [64]:
numeros[ :5 ]

[1, 4, 9, 16, 25]

In [65]:
numeros[ -5: ]

[246016, 247009, 248004, 249001, 250000]

In [67]:
print( numeros[100:200] )

[10201, 10404, 10609, 10816, 11025, 11236, 11449, 11664, 11881, 12100, 12321, 12544, 12769, 12996, 13225, 13456, 13689, 13924, 14161, 14400, 14641, 14884, 15129, 15376, 15625, 15876, 16129, 16384, 16641, 16900, 17161, 17424, 17689, 17956, 18225, 18496, 18769, 19044, 19321, 19600, 19881, 20164, 20449, 20736, 21025, 21316, 21609, 21904, 22201, 22500, 22801, 23104, 23409, 23716, 24025, 24336, 24649, 24964, 25281, 25600, 25921, 26244, 26569, 26896, 27225, 27556, 27889, 28224, 28561, 28900, 29241, 29584, 29929, 30276, 30625, 30976, 31329, 31684, 32041, 32400, 32761, 33124, 33489, 33856, 34225, 34596, 34969, 35344, 35721, 36100, 36481, 36864, 37249, 37636, 38025, 38416, 38809, 39204, 39601, 40000]


In [69]:
b[0] = 0
b

[0, 'dos', 'tres']

In [70]:
print( numeros[100:200:2] )

[10201, 10609, 11025, 11449, 11881, 12321, 12769, 13225, 13689, 14161, 14641, 15129, 15625, 16129, 16641, 17161, 17689, 18225, 18769, 19321, 19881, 20449, 21025, 21609, 22201, 22801, 23409, 24025, 24649, 25281, 25921, 26569, 27225, 27889, 28561, 29241, 29929, 30625, 31329, 32041, 32761, 33489, 34225, 34969, 35721, 36481, 37249, 38025, 38809, 39601]


## Comprendiendo operaciones y funciones de diccionarios o mapas (dict)
---

### Creando, accediendo y modificando los elementos de un diccionario

| Función        | Descripción            | Ejemplo             |
|----------------|----------------------|---------------------|
| {}, dict()     | Creea un diccionario vacío | {} |
| {key: val, ...}| Un diccionario se crea usando parejas de llave:valor | {1:"uno", 2:"dos", 3:3.5} |
| dict.items()   | Obtiene los elementos de un diccionario por parejas | {1:"uno", 2:"dos", 3:3.5}.items() |
| dict[key]      | Obtiene el valor de la llave indicada por key | {1:"uno", 2:"dos", 3:3.5}[2] |
| dict[key] = val| Remplaza el valor en la llave key por val, si la llave no existe se crea | nombres[3] = "Benito" |

Realicemos algunas operaciones:

In [73]:
{}, dict()  # <- (v, v, v) <- tuple

({}, {})

In [75]:
d = {0: "uno", 1: 1, 2: 2.5, 4: [1,2,3], 7.5: 0, "nombre": None, "001": "Laptop"}
d

{0: 'uno', 1: 1, 2: 2.5, 4: [1, 2, 3], 7.5: 0, 'nombre': None, '001': 'Laptop'}

In [77]:
d["002"] = "Teclado"
d

{0: 'uno',
 1: 1,
 2: 2.5,
 4: [1, 2, 3],
 7.5: 0,
 'nombre': None,
 '001': 'Laptop',
 '002': 'Teclado'}

In [78]:
d[0] = "dos"
d

{0: 'dos',
 1: 1,
 2: 2.5,
 4: [1, 2, 3],
 7.5: 0,
 'nombre': None,
 '001': 'Laptop',
 '002': 'Teclado'}

In [79]:
del( d[1] )
d

{0: 'dos',
 2: 2.5,
 4: [1, 2, 3],
 7.5: 0,
 'nombre': None,
 '001': 'Laptop',
 '002': 'Teclado'}

In [80]:
d.keys()

dict_keys([0, 2, 4, 7.5, 'nombre', '001', '002'])

In [81]:
d.values()

dict_values(['dos', 2.5, [1, 2, 3], 0, None, 'Laptop', 'Teclado'])

In [82]:
d.items()

dict_items([(0, 'dos'), (2, 2.5), (4, [1, 2, 3]), (7.5, 0), ('nombre', None), ('001', 'Laptop'), ('002', 'Teclado')])

## Elegir la estructura de datos correcta
---

Después de revisar los tipos interconstruidos de Python sobre todo los estructurados, podemos elegir entre listas, tuplas, conjuntos o diccionarios, aunque los más usados son las listas o los diccionarios a veces dependiendo del tipo de dato, las operaciones a realizar o incluso el éstilo de programas será preferible usar unas respecto a otras, sin embargo las **Listas** son la estructura de dato por excelencia en Python.

## Listas de compresión
---

### Entendiendo la forma de una lista de compresión

Las lista de compresión se utiliozan principalmente para transformar una colección de datos (no necesariamente una lista) dando como resultado una lista, la sintaxis o forma es la siguiente:

`[ x for x in -collección- if -condicion- ]`

{ A x tales que x > 0 x e Reales } 

**Ejemplo:** Dada la siguiente lista obtén una lista con el cuadrado de cada valor

In [84]:
numeros = [1,2,3,4,5,6,7,8,9,10]

numeros_2 = []
for n in numeros:
    numeros_2.append( n ** 2 )
print( numeros_2 )

[n ** 2 for n in numeros]

[1, 4, 9, 16, 25, 36, 49, 64, 81, 100]


[1, 4, 9, 16, 25, 36, 49, 64, 81, 100]

**Ejemplo:** Dada la siguiente lista obtén sólo los valores positivos

In [85]:
numeros = [-4,-3,-2,-1,0,1,2,3,4,5,6,7,8,9,10]

[n for n in numeros if n > 0]

[1, 2, 3, 4, 5, 6, 7, 8, 9, 10]

**Ejemplo:** Dada la siguiente lista obtén una lista con lo valores no negativos

In [86]:
numeros = [-4,-3,-2,-1,0,1,2,3,4,5,6,7,8,9,10]

[n for n in numeros if not n < 0]

[0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10]

**Ejemplo:** Dada la siguiente lista nombres, convierte los nombre en nombre propios usando la primera letra mayúscula y las demás minúsculas

In [90]:
superheroes = ["BENITO", "ironman", "hulK", "viuda Negra", "capitana MARVEL", "capi"]
[ nom.title() for nom in superheroes]

['Benito', 'Ironman', 'Hulk', 'Viuda Negra', 'Capitana Marvel', 'Capi']

**Ejemplo:** Dada la siguiente lista nombres, convierte en nombre propios y además elimina blancos antes y después de cada nombre sin eliminar los blancos intermedios

In [92]:
numeros = ["   BENITO", "ironman   ", "  hulK   ", "   viuda Negra\n", "\t capitana MARVEL  ", "\t capi\n "]
[nom.title().strip() for nom in superheroes]

['Benito', 'Ironman', 'Hulk', 'Viuda Negra', 'Capitana Marvel', 'Capi']

In [94]:
[nom.title() for nom in [nom.strip() for nom in superheroes]]

['Benito', 'Ironman', 'Hulk', 'Viuda Negra', 'Capitana Marvel', 'Capi']

## Contando con el módulo de colecciones (collections)
---

Éste es un módulo que crea un tipo especial de diccionarios llamados Counter y permite obtener la cuenta de los elementos iguales y además obtener la lista de los elementos únicos.

La sintaxis es:

`variable = Counter(-secuencia de valores-)`

Veamos un ejemplo, dada la siguiente frase, encuentra la frecuencia de cada símbolo

In [2]:
from collections import Counter

frase = "Me siento feliz de tener a Python en mi vida"
letras = Counter(frase)
letras['e']

7

**Ejemplo:** Eliminar los valores duplicados de la siguiente lista de productos usando `Counter()`

In [13]:
productos = ["Leche", "Leche", "Leche", "Huevos", "Huevos", "Pan", "Pan",
             "Queso", "Queso", "Carne", "Carne", "Pescado", "Pescado",
             "Verduras", "Frutas", "Cereal", "Yogurt", "Jugos", "Agua",
             "Bebidas alcohólicas", "Bebidas gaseosas", "Azúcar", "Sal",
             "Aceite", "Pasta", "Arroz", "Frijoles", "Papas"]

repeticiones = Counter(productos)
repeticiones.keys()

dict_keys(['Leche', 'Huevos', 'Pan', 'Queso', 'Carne', 'Pescado', 'Verduras', 'Frutas', 'Cereal', 'Yogurt', 'Jugos', 'Agua', 'Bebidas alcohólicas', 'Bebidas gaseosas', 'Azúcar', 'Sal', 'Aceite', 'Pasta', 'Arroz', 'Frijoles', 'Papas'])

**Ejemplo:** Eliminar los valores duplicados de la siguiente lista de productos usando conjuntos (set)

In [7]:
print( set( productos ) )

{'Huevos', 'Queso', 'Cereal', 'Pescado', 'Sal', 'Papas', 'Azúcar', 'Yogurt', 'Frijoles', 'Aceite', 'Arroz', 'Bebidas gaseosas', 'Carne', 'Verduras', 'Pan', 'Frutas', 'Jugos', 'Agua', 'Leche', 'Pasta', 'Bebidas alcohólicas'}


In [12]:
no_repetidos = set( productos )
no_reptidos_list = list( no_repetidos )
print( sorted(no_reptidos_list) )

['Aceite', 'Agua', 'Arroz', 'Azúcar', 'Bebidas alcohólicas', 'Bebidas gaseosas', 'Carne', 'Cereal', 'Frijoles', 'Frutas', 'Huevos', 'Jugos', 'Leche', 'Pan', 'Papas', 'Pasta', 'Pescado', 'Queso', 'Sal', 'Verduras', 'Yogurt']


**Ejemplo:** Imprime una tabla con dos columnas, producto y número de repeticiones de menor a mayor.

**Si eres expert@** imprime la lista sin hacer uso de un ciclo for sólo usando cadenas, listas, listas de compresión y print.

In [28]:
def valor(t):  # ("Aceite', 1)
    return t[1]

sorted(repeticiones.items(), key=valor)

[('Verduras', 1),
 ('Frutas', 1),
 ('Cereal', 1),
 ('Yogurt', 1),
 ('Jugos', 1),
 ('Agua', 1),
 ('Bebidas alcohólicas', 1),
 ('Bebidas gaseosas', 1),
 ('Azúcar', 1),
 ('Sal', 1),
 ('Aceite', 1),
 ('Pasta', 1),
 ('Arroz', 1),
 ('Frijoles', 1),
 ('Papas', 1),
 ('Huevos', 2),
 ('Pan', 2),
 ('Queso', 2),
 ('Carne', 2),
 ('Pescado', 2),
 ('Leche', 3)]

In [27]:
sorted?

[0;31mSignature:[0m [0msorted[0m[0;34m([0m[0miterable[0m[0;34m,[0m [0;34m/[0m[0;34m,[0m [0;34m*[0m[0;34m,[0m [0mkey[0m[0;34m=[0m[0;32mNone[0m[0;34m,[0m [0mreverse[0m[0;34m=[0m[0;32mFalse[0m[0;34m)[0m[0;34m[0m[0;34m[0m[0m
[0;31mDocstring:[0m
Return a new list containing all items from the iterable in ascending order.

A custom key function can be supplied to customize the sort order, and the
reverse flag can be set to request the result in descending order.
[0;31mType:[0m      builtin_function_or_method

In [29]:
ancho = 20
for item in sorted(repeticiones.items(), key=valor):
    # linea = item[0] + " | " + str( item[1] )
    linea = f"{item[0]:{ancho}} | {item[1]}"
    print(linea)

Verduras             | 1
Frutas               | 1
Cereal               | 1
Yogurt               | 1
Jugos                | 1
Agua                 | 1
Bebidas alcohólicas  | 1
Bebidas gaseosas     | 1
Azúcar               | 1
Sal                  | 1
Aceite               | 1
Pasta                | 1
Arroz                | 1
Frijoles             | 1
Papas                | 1
Huevos               | 2
Pan                  | 2
Queso                | 2
Carne                | 2
Pescado              | 2
Leche                | 3


In [43]:
copia = list(repeticiones.items())
while copia:
    i=copia.pop()
    print(f"{i[0]:->20}|\t{i[1]:<10}")

---------------Papas|	1         
------------Frijoles|	1         
---------------Arroz|	1         
---------------Pasta|	1         
--------------Aceite|	1         
-----------------Sal|	1         
--------------Azúcar|	1         
----Bebidas gaseosas|	1         
-Bebidas alcohólicas|	1         
----------------Agua|	1         
---------------Jugos|	1         
--------------Yogurt|	1         
--------------Cereal|	1         
--------------Frutas|	1         
------------Verduras|	1         
-------------Pescado|	2         
---------------Carne|	2         
---------------Queso|	2         
-----------------Pan|	2         
--------------Huevos|	2         
---------------Leche|	3         


In [37]:
repeticiones

Counter({'Leche': 3,
         'Huevos': 2,
         'Pan': 2,
         'Queso': 2,
         'Carne': 2,
         'Pescado': 2,
         'Verduras': 1,
         'Frutas': 1,
         'Cereal': 1,
         'Yogurt': 1,
         'Jugos': 1,
         'Agua': 1,
         'Bebidas alcohólicas': 1,
         'Bebidas gaseosas': 1,
         'Azúcar': 1,
         'Sal': 1,
         'Aceite': 1,
         'Pasta': 1,
         'Arroz': 1,
         'Frijoles': 1,
         'Papas': 1})

In [33]:
copia = dict(reversed(list(repeticiones.items())))
while copia:
    i=copia.popitem()
    print(f"{i[0]:->20}|\t{i[1]:<10}")

---------------Leche|	3         
--------------Huevos|	2         
-----------------Pan|	2         
---------------Queso|	2         
---------------Carne|	2         
-------------Pescado|	2         
------------Verduras|	1         
--------------Frutas|	1         
--------------Cereal|	1         
--------------Yogurt|	1         
---------------Jugos|	1         
----------------Agua|	1         
-Bebidas alcohólicas|	1         
----Bebidas gaseosas|	1         
--------------Azúcar|	1         
-----------------Sal|	1         
--------------Aceite|	1         
---------------Pasta|	1         
---------------Arroz|	1         
------------Frijoles|	1         
---------------Papas|	1         


In [50]:
lcont = [f'| {x:20} | {y}' for x,y in reversed(repeticiones.items())]
print("\n".join(lcont))

| Papas                | 1
| Frijoles             | 1
| Arroz                | 1
| Pasta                | 1
| Aceite               | 1
| Sal                  | 1
| Azúcar               | 1
| Bebidas gaseosas     | 1
| Bebidas alcohólicas  | 1
| Agua                 | 1
| Jugos                | 1
| Yogurt               | 1
| Cereal               | 1
| Frutas               | 1
| Verduras             | 1
| Pescado              | 2
| Carne                | 2
| Queso                | 2
| Pan                  | 2
| Huevos               | 2
| Leche                | 3


## Trabajando con archivos
---

El manejo de archivo en Python se realiza mediante la instrucción `open()` y generalmente se puede usar un archivos en dos modos para lectura o para escritura, además dependiendo de la necesidad se puede usar una de las siguientes dos formas:

Forma 1:
```
arch = open(-nombre de archivo-, -modo-, encoding=-codigo de caracteres del archivo-, newline=None)
- se usa la variable arch para leer o escribir en el archivo
close(arch)
```

Forma 2:
```
with open(-nombre de archivo-, ...) as arch:
    - se usa la variable arch para leer o escribir en el archivo
```

**Ejemplo:** Escribe la lista de productos con repeticiones en el archivo `productos.txt` usando la forma 1

In [54]:
with open("productos.txt", "wt") as arch:
    for prod in productos:
        arch.write(prod+"\n")

**Ejemplo:** Lee los datos del archivo `productos.txt` e imprime eliminando uno a la cantidad de productos

In [56]:
with open("productos.txt", "rt") as arch:
    texto = arch.read()
texto

'Leche\nLeche\nLeche\nHuevos\nHuevos\nPan\nPan\nQueso\nQueso\nCarne\nCarne\nPescado\nPescado\nVerduras\nFrutas\nCereal\nYogurt\nJugos\nAgua\nBebidas alcohólicas\nBebidas gaseosas\nAzúcar\nSal\nAceite\nPasta\nArroz\nFrijoles\nPapas\n'

In [57]:
with open("productos.txt", "rt") as arch:
    lineas = arch.readlines()
lineas

['Leche\n',
 'Leche\n',
 'Leche\n',
 'Huevos\n',
 'Huevos\n',
 'Pan\n',
 'Pan\n',
 'Queso\n',
 'Queso\n',
 'Carne\n',
 'Carne\n',
 'Pescado\n',
 'Pescado\n',
 'Verduras\n',
 'Frutas\n',
 'Cereal\n',
 'Yogurt\n',
 'Jugos\n',
 'Agua\n',
 'Bebidas alcohólicas\n',
 'Bebidas gaseosas\n',
 'Azúcar\n',
 'Sal\n',
 'Aceite\n',
 'Pasta\n',
 'Arroz\n',
 'Frijoles\n',
 'Papas\n']

In [58]:
with open("productos.txt") as arch:
    lineas = arch.readlines()
lineas

['Leche\n',
 'Leche\n',
 'Leche\n',
 'Huevos\n',
 'Huevos\n',
 'Pan\n',
 'Pan\n',
 'Queso\n',
 'Queso\n',
 'Carne\n',
 'Carne\n',
 'Pescado\n',
 'Pescado\n',
 'Verduras\n',
 'Frutas\n',
 'Cereal\n',
 'Yogurt\n',
 'Jugos\n',
 'Agua\n',
 'Bebidas alcohólicas\n',
 'Bebidas gaseosas\n',
 'Azúcar\n',
 'Sal\n',
 'Aceite\n',
 'Pasta\n',
 'Arroz\n',
 'Frijoles\n',
 'Papas\n']

No logrante realizar el ejemplo de forma simple ¿cuál fué la causa?

## Leyendo la web
---

Según el WorldWideWebSize (https://www.worldwidewebsize.com) el índice de páginas web contiene al menos 5.59 billones de páginas, así que poder obtener datos de la web es alta mente probable y aunque Python cuenta con el módulo `urllib` en la librería estándar, hay un módulo externo llamado `requests` que realiza mucho mejor el trabajo.

Así que primero hay que instalar el módulo `requests`:

In [59]:
!pip install requests



**Ejemplo:** Vamos a descargar la página de la Wikipedia que contiene la lista de todos los nombres de los estádos de la república mexicana según el estándar ISO 3166-2.MX, en el siguiente link y guardaremos el resultado en el archivo `iso_3166-2.MX.html`

- https://es.wikipedia.org/wiki/ISO_3166-2:MX

In [68]:
import requests

proxies = {
   'http': 'http://proxy-dmz.intel.com:911',
   'https': 'http://proxy-dmz.intel.com:912',
}
# pagina = requests.get("https://es.wikipedia.org/wiki/ISO_3166-2:MX", proxies=proxies)

pagina = requests.get("https://es.wikipedia.org/wiki/ISO_3166-2:MX")
if pagina.status_code == 200:
    # print(pagina.text)    
    with open("iso_3166-2.MX.html", "w", enconding="utf-8") as arch:
        arch.write(pagina.text)
        

## Coincidencia de patrones con expresiones regulares (re)
---

Las expresiones regulares son una herramienta poderosa para buscar, separar y remplazar cadenas de texto basado en patrones.

Para crear los patrones existe un lenguaje de símbolos que se puede resumir en la siguiente tabla:

| Caracter | Significado |
|---|---|
| ^ | Inicio de la línea |
| $ | Fin de la línea |
| . | Cualquier carácter (excepto el salto de línea) |
| * | Cero o más repeticiones del carácter anterior |
| + | Una o más repeticiones del carácter anterior |
| ? | Cero o una repetición del carácter anterior |
| [] | Un conjunto de caracteres |
| \| | Separador de caracteres en un conjunto |
| () | Grupo de captura |
| \| | Separador de grupos de captura |
| {n} | El carácter anterior exactamente n veces |
| {m,n} | El carácter anterior entre m y n veces |
| \d | Un dígito numérico |
| \w | Un carácter alfanumérico |
| \s | Un espacio en blanco |
| \n | Un salto de línea |
| \r | Un retorno del carro |
| \t | Una tabulación |
| \xhh | Un carácter representado por la secuencia de hexadecimales hh |
| \uhhhh | Un carácter representado por la secuencia de hexadecimales hhhh |

**TIP:** Es recomendable hacer uso de sitio como https://regex101.com para validar la expresión regular usada obtiene el resultado esperado

**Ejemplo:** Obtener la lista de los códigos ISO de los estados de la república mexicana a partir del archivo `iso_3166-2.MX.html`

Puedes usar la función `re.findall(patron, cadena)`

In [4]:
import re

nom_arch = "iso_3166-2.MX.html"
patron = "MX-[A-Z]{3}"
cadena = ""
with open(nom_arch, enconding="utf-8") as arch:
    cadena = arch.read()
estados_iso = re.findall(patron, cadena)
estados_iso

['MX-AGU',
 'MX-BCN',
 'MX-BCS',
 'MX-CAM',
 'MX-CHP',
 'MX-CHH',
 'MX-CMX',
 'MX-COA',
 'MX-COL',
 'MX-DUR',
 'MX-GUA',
 'MX-GRO',
 'MX-HID',
 'MX-JAL',
 'MX-MEX',
 'MX-MIC',
 'MX-MOR',
 'MX-NAY',
 'MX-NLE',
 'MX-OAX',
 'MX-PUE',
 'MX-QUE',
 'MX-ROO',
 'MX-SLP',
 'MX-SIN',
 'MX-SON',
 'MX-TAB',
 'MX-TAM',
 'MX-TLA',
 'MX-VER',
 'MX-YUC',
 'MX-ZAC']

## Coincidencia en nombre de archivos (pathlib)
---

Si lo que buscas es obtener una lista de archivos en base a cierto patrón podrías usar la función `pathlib.Path().glob()` con la sintaxis:

`pathlib.Path(-ruta-).glob(-patron-)`

Aunque la función anterior es un **generador** por lo que hay extraer los elementos uno a uno.

**Ejemplo:** Obtener la lista de todos los archivos con extensión `html`.

In [25]:
import pathlib

ruta = pathlib.Path(".")
arch_txt = list( ruta.glob("*") )
arch_txt

[PosixPath('Fundamentos-de-Python-para-Ciencia-de-Datos.ipynb'),
 PosixPath('iso_3166-2.MX.html'),
 PosixPath('productos.txt'),
 PosixPath('.ipynb_checkpoints'),
 PosixPath('productos-Copy1.txt')]

In [26]:
import os

archivos = os.listdir()
archivos

['Fundamentos-de-Python-para-Ciencia-de-Datos.ipynb',
 'iso_3166-2.MX.html',
 'productos.txt',
 '.ipynb_checkpoints',
 'productos-Copy1.txt']

In [10]:
os.getcwd()

'/home/rctorr/Ciencia-de-datos/Módulo-2'

In [14]:
os.path.getmtime(archivos[0])

1692921777.2041442

In [15]:
os.path.getsize(archivos[0])

75564

In [None]:
os.path.