# Diccionarios

+ Un `dict` (diccionario) es una estructura de datos **mutable** que almacena parejas llave - valor.

+ Se accede a éstos por llave, no por posición

+ **IMPORTANTE:** No permite llaves duplicadas

+ Mantiene orden de inserción

### ¿Cómo creamos diccionario?

+ Primera opción con {.} y llave:valor

In [1]:
# Creamos nuestro primer diccionario
persona = {
    "nombre": "Ana",
    "edad": 30,
    "ciudad": "CDMX"
}
persona

{'nombre': 'Ana', 'edad': 30, 'ciudad': 'CDMX'}

Las llaves de este diccionario son 'nombre', 'edad' y 'ciudad'. Y los valores correspondientes son 'Ana', 30 y 'CDMX'

+ Segunda opción con la función `dict(.)`

In [2]:
persona = dict(nombre = "Ana", edad = 30, ciudad = "CDMX")
persona

{'nombre': 'Ana', 'edad': 30, 'ciudad': 'CDMX'}

In [3]:
persona2 = dict(nombre = "Eduardo", edad = 99, ciudad = "GDL")
persona2

{'nombre': 'Eduardo', 'edad': 99, 'ciudad': 'GDL'}

+ En diccionarios, la clave/llave manda
+ Muchas funciones están pensadas en las llaves

In [4]:
# Me regresa todas las parejas llave valor
persona.items()

dict_items([('nombre', 'Ana'), ('edad', 30), ('ciudad', 'CDMX')])

Si se fijan las parejas que nos imprime, tiene cara de tupla, esto es porque se quiere dar a entender que la llave no cambiará.

In [5]:
# Me regresa todas las llaves/claves
persona.keys()

dict_keys(['nombre', 'edad', 'ciudad'])

In [6]:
# Me regresa todos los valores del diccionario
persona.values()

dict_values(['Ana', 30, 'CDMX'])

In [7]:
# Si yo quisiera convertir a lista las llaves... simplemente aplico la función
# list() que ya habíamos visto
list(persona.keys())

['nombre', 'edad', 'ciudad']

In [8]:
# Lo mismo aplica si quiero metes a una lista los valores
list(persona.values())

['Ana', 30, 'CDMX']

In [9]:
# Como les dije, muchas funciones toman como elemento principal de un diccionario a la llave
list(persona)

['nombre', 'edad', 'ciudad']

In [10]:
# Otro ejemplo de este tipo de funciones que toman como elemento principal a las llaves es
# la función sorted
sorted(persona)

['ciudad', 'edad', 'nombre']

Nos regresa una lista con las llaves ordenadas alfabéticamente

+ ¿Qué tipo de objetos pueden vivir en un diccionario?

+ Esta pregunta es un poco ambigua porque RECUERDEN QUE LOS DICCIONARIOS TIENEN DOS COMPONENTES: LA LLAVE Y EL VALOR

+ Una pregunta que sí tiene sentido es: ¿Qué tipos de objetos pueden ser los valores de un diccionario?

In [11]:
dic_mixto = {
    "numero": 10, # un número ya sea int o float
    "lista": [1, 2, 3], # lista
    "diccion": {"a": 1}, # otro diccionario
    "funcion": lambda x: x**2 # una función
}

dic_mixto

{'numero': 10,
 'lista': [1, 2, 3],
 'diccion': {'a': 1},
 'funcion': <function __main__.<lambda>(x)>}

+ ¿Cuál es la siguiente pregunta obvia?: ¿Qué tipos de objetos puede ser la llave?

+ En todos estos ejemplos, la llave ha sido un string

+ Vamos a intentar otro tipo de objetos

In [13]:
otro_dicc = {1: False, 2: False, 7: True}
otro_dicc

{1: False, 2: False, 7: True}

In [14]:
otro_dicc.keys()

dict_keys([1, 2, 7])

Números enteros sí pueden ser llaves

In [15]:
otro_dicc = {1.7: False, 2.6: False, 7.9: True}
otro_dicc

{1.7: False, 2.6: False, 7.9: True}

In [16]:
otro_dicc.keys()

dict_keys([1.7, 2.6, 7.9])

+ También floats pueden ser llaves

In [17]:
# ¿Podrán ser las llaves tuplas?
otro_dicc = {(1, 2): False, (2, 3): False, (7, 9): True}
otro_dicc
# Respuesta: Sí

{(1, 2): False, (2, 3): False, (7, 9): True}

In [18]:
# ¿Podrán ser llaves booleanos?
otro_dicc = {True: 5.6, False: 7.8}
otro_dicc
# Sí, pero este dicc sólo podría tener a lo más dos parejas

{True: 5.6, False: 7.8}

In [19]:
# ¿Podrán ser llaves booleanos?
otro_dicc = {True: 5.6, True: 7.8}
otro_dicc

{True: 7.8}

+ OJO: Si intentas repetir una llave, se queda sólo con la última que escribiste porque en los diccionarios no se pueden repetir las llaves

In [21]:
# ¿Podrán ser llaves listas?
# otro_dicc = {[1, 2]: False, [2, 3]: False, [7, 9]: True}
# otro_dicc
# Respuesta: NO
# TypeError: unhashable type: 'list'

In [22]:
# Puedo obtener un diccionario a partir de una lista de 2-tuplas
pares = [("a", 1), ("b", 2)]
mi_diccionario = dict(pares)
mi_diccionario

{'a': 1, 'b': 2}

+ Una ventaja que tienen los diccionarios, y de hecho hace obvia la existencia de las llaves, es que podemos referirnos a los valores a través de las llaves

In [23]:
persona

{'nombre': 'Ana', 'edad': 30, 'ciudad': 'CDMX'}

In [24]:
# Quiero el valor asociado a la llave 'nombre'
# Ocupo la sintaxis [.]
persona["nombre"]

'Ana'

In [25]:
# Quiero el valor asociado a la llave 'nombre'
# Ocupo la sintaxis [.]
persona["edad"]

30

In [27]:
mi_diccionario

{'a': 1, 'b': 2}

In [28]:
# Quiero acceder al valor de la llave 'b'
mi_diccionario['b']

2

+ ¿qué pasa si quiero acceder al valor de una llave inexistente?

In [30]:
# La llave 'altura' no existe
# persona["altura"]
# KeyError: 'altura'

Una forma más "limpia" de hacerlo, i.e. que me regresa nada y no error es con la función 'get()'

In [31]:
# Quiero acceder a la llave altura
persona.get("altura")

+ Como no encuentra la llave, no me regresa nada, pero NO me marca error

In [32]:
persona.get("edad")

30

+ Como si encuentra la llave edad, sí me regresa el valor

In [33]:
# Si quisieramos que nos regresara un mensaje en caso de no encontrar la llave
# Se puede hacer tmb con la función get agregándole un segundo parámetro (posicional)
persona.get("altura", "no encontrada")

'no encontrada'

In [34]:
persona.get("edad", "no encontrada")

30

+ Si quiseramos cambiar el valor de una llave

In [35]:
# Usamos la notación [.] y reasignamos
persona["edad"] = 31
persona

{'nombre': 'Ana', 'edad': 31, 'ciudad': 'CDMX'}

+ Qué pasa si quiero agregar una nueva llave a un diccionario ya existente

In [36]:
# Usamos la notación [.] nombrando y dando valor al mismo tiempo
persona["profesion"] = "Actuaria"
persona

{'nombre': 'Ana', 'edad': 31, 'ciudad': 'CDMX', 'profesion': 'Actuaria'}

+ Otra forma de cambiar los valores de algunas llaves, es con la función `update`

In [37]:
persona.update({"edad": 55, "ciudad": "Guadalajara"})

In [38]:
persona

{'nombre': 'Ana', 'edad': 55, 'ciudad': 'Guadalajara', 'profesion': 'Actuaria'}

+ Para eliminar una llave existente ocupo la sentencia `del`

In [39]:
# Quiero eliminar la llave ciudad
del persona["ciudad"]

In [40]:
# Cómo se ve mi dicc actualizado
persona

{'nombre': 'Ana', 'edad': 55, 'profesion': 'Actuaria'}

In [41]:
# Otra manera es con la función `pop`
persona.pop("edad")

55

In [42]:
# Cómo se ve mi dicc actualizado
persona

{'nombre': 'Ana', 'profesion': 'Actuaria'}

In [43]:
# Popitem elimina elimina la última pareja
persona2.popitem()

('ciudad', 'GDL')

In [44]:
persona2

{'nombre': 'Eduardo', 'edad': 99}

In [46]:
persona3 = {'nombre': 'Alex', 'edad': 25, 'profesion': 'Actuaria', 'CP': 92356}
persona3

{'nombre': 'Alex', 'edad': 25, 'profesion': 'Actuaria', 'CP': 92356}

In [47]:
persona3.popitem()

('CP', 92356)

+ Dijimos ya que un valor de un diccionario puede ser otro diccionario

In [48]:
estudiante = {
    "nombre": "Luis",
    "calificaciones": {
        "mate": 9,
        "estadistica": 10
    },
    "semestre": 6,
    "aprobado": True
}
estudiante

{'nombre': 'Luis',
 'calificaciones': {'mate': 9, 'estadistica': 10},
 'semestre': 6,
 'aprobado': True}

In [49]:
estudiante["calificaciones"]

{'mate': 9, 'estadistica': 10}

In [50]:
# Si quisera acceder a la llave 'mate' del valor que tiene la llave 'calificaciones'
estudiante["calificaciones"]["mate"]

9

+ En el siguiente módulo veremos que este tipo de estructuras de datos es muy usada actualmente

In [51]:
# Podemos verificar si algún objeto es llave
"semestre" in estudiante

True

In [52]:
"mate" in estudiante

False

In [53]:
# Una que siempre es útil usar
# ¿Cuántas parejas llave:valor tiene el diccionario?
len(estudiante)

4

# Conjuntos

+ Un `set` (conjunto) es la implementación directa del concepto matemático de conjunto.

+ Un `set` (conjunto) es una colección **no ordenada** de elementos **únicos**.

+ Repito: No mantiene orden

+ Repito: No permite duplicados

+ Pero sí es mutable

+ Operaciones de pertenencia (rápidas)

+ Operaciones algebraicas de conjuntos (eficientes)

### ¿Cómo creamos un conjunto?

+ Primera opción con la sintaxis {.}

In [54]:
cjto = {1, 2, 3, 4}
cjto

{1, 2, 3, 4}

+ Segunda opción con la función `set(.)` aplicada a una lista

In [55]:
# Ojo: La lista tienre repetidas 4 veces el número 2
otro_cjto = set([1, 2, 2, 2, 2, 3])
otro_cjto

{1, 2, 3}

+ No permite que el 2 aparezca múltiples veces

In [56]:
# También lo podemos crear a través de un objeto iterable
# en este caso un string
set("hola")

{'a', 'h', 'l', 'o'}

In [57]:
# ¿Qué me devolverá?
mi_cjto = {1, True}
mi_cjto

{1}

In [58]:
# ¿Qué objetos pueden vivir en un conjunto?
mi_cjto = {1, # número
           "a", # string
            (2, 3), # tuple
            True} # Booleano
mi_cjto

{(2, 3), 1, 'a'}

In [60]:
# ¿Qué objetos pueden vivir en un conjunto?
mi_cjto = {7, # número
           "a", # string
            (2, 3), # tuple
            True} # Booleano
mi_cjto

{(2, 3), 7, True, 'a'}

In [61]:
True + True

2

In [63]:
# A los conjuntos no les gustan las listas
#mi_cjto = {7, "a", (2, 3), True, [95, 43]}
#mi_cjto
#TypeError: unhashable type: 'list'

In [66]:
# A los conjuntos tampoco les gustan los diccionarios
#mi_cjto = {7, "a", (2, 3), True, {"mi_clave": 1}}
#mi_cjto
#TypeError: unhashable type: 'dict'

In [67]:
# A los conjuntos no les gustan otros conjuntos dentro de ellos
# mi_cjto = {7, "a", (2, 3), True, set([1, 2])}
# mi_cjto
# TypeError: unhashable type: 'set'

TypeError: unhashable type: 'set'

In [68]:
# A los conjuntos sí les gustan las funciones
mi_cjto = {7, "a", (2, 3), True, lambda x: x**2}
mi_cjto

{(2, 3), 7, <function __main__.<lambda>(x)>, True, 'a'}

In [71]:
cjto

{1, 2, 3, 4}

In [69]:
# Por supuesto existe la opción de preguntar pertenencia
# Esto es lo que esperamos básicamente de un conjunto
3 in cjto

True

In [72]:
(2,3) in mi_cjto

True

In [73]:
True in mi_cjto

True

+ Otra cosa que esperamos de conjuntos, es que se puedan hacer operaciones de conjuntos que aprendimos en el bachillerato: unión, intersección, diferencia, etc.

In [74]:
A = {1, 2, 3}
B = {3, 4, 5}

In [75]:
# ¿Quién es A unión B?
A | B

{1, 2, 3, 4, 5}

In [76]:
# Otra manera de pedirle la unión de A con B
A.union(B)

{1, 2, 3, 4, 5}

In [77]:
# ¿Quién es A intersección B?
A & B

{3}

In [78]:
# otra manera
A.intersection(B)

{3}

In [79]:
A

{1, 2, 3}

In [80]:
B

{3, 4, 5}

In [81]:
# Lo que está en A pero no en B
A - B

{1, 2}

In [82]:
# Lo que está en B pero no en A
B - A

{4, 5}

In [83]:
# Diferencia simétrica
# (A-B) U (B-A)
A ^ B

{1, 2, 4, 5}

In [85]:
# Por analogía con A - B, quisieramos ver si funciona A + B
# A + B
# TypeError: unsupported operand type(s) for +: 'set' and 'set'

In [86]:
A

{1, 2, 3}

In [87]:
B

{3, 4, 5}

In [88]:
# ¿A es subconjunto de B?
A.issubset(B)

False

In [89]:
A_prima = {4,5}
# ¿{4,5} es subcjto de {3,4,5}
A_prima.issubset(B)

True

In [90]:
#¿A contiene a B?
A.issuperset(B)

False

In [92]:
A_grande = {6, 3, 4, 5, 10}
# {6, 3, 4, 5, 10} contiene a {3,4,5}
A_grande.issuperset(B)

True

In [93]:
# ¿A intersección con B es igual al vacío?
A.isdisjoint(B)
# Es falso por el 3 vive en ambos conjuntos

False

In [96]:
cjto = {1, 2, 3, 4, 28, 56, 7, 7, 7, 98}
cjto

{1, 2, 3, 4, 7, 28, 56, 98}

In [97]:
# El número de elementos de mi conjunto
len(cjto)

8

+ Como un conjunto no tiene orden, no tiene sentido buscar elementos por índice. De hecho no tiene sentido hablar de índice (i.e. posición)

In [98]:
# Soy necio y lo voy a intner
# cjto[3]
# TypeError: 'set' object is not subscriptable

TypeError: 'set' object is not subscriptable

In [99]:
cjto

{1, 2, 3, 4, 7, 28, 56, 98}

In [100]:
# ¿Cómo le agrego elementos a mi conjunto?
# Una opción es con add
cjto.add(5)

In [101]:
# Cómo se ve mi cjto actualziado
cjto

{1, 2, 3, 4, 5, 7, 28, 56, 98}

In [102]:
# Le pueden meter varios elementos a la vez
cjto.update([6, 15])

In [103]:
cjto

{1, 2, 3, 4, 5, 6, 7, 15, 28, 56, 98}

In [104]:
# ¿Qué pasa si quiero agregar alguien que ya existe?
cjto.add(4)

In [105]:
# Al parecer no marca error
cjto

{1, 2, 3, 4, 5, 6, 7, 15, 28, 56, 98}

In [106]:
# PAra eliminar un elemento específico, en este caso el 3
cjto.remove(3)

In [107]:
cjto

{1, 2, 4, 5, 6, 7, 15, 28, 56, 98}

Ya no aparece el 3 que recién eliminé

+ ¿Qué pasa si quiero eliminar a alguien que no está en el conjunto?

In [108]:
cjto

{1, 2, 4, 5, 6, 7, 15, 28, 56, 98}

In [109]:
# Si quisera quitar al 10
# cjto.remove(10)
# KeyError: 10

KeyError: 10

+ Una forma más segura, i.e. que no marca errores, para eliminar elementos es la función discard

In [110]:
cjto

{1, 2, 4, 5, 6, 7, 15, 28, 56, 98}

In [111]:
cjto.discard(10)
# El 10 no pertenece al cjto y aún así no me marca error, como con remove

In [112]:
cjto

{1, 2, 4, 5, 6, 7, 15, 28, 56, 98}

In [113]:
# Elimina al de menor valor
cjto.pop()

1

In [114]:
cjto

{2, 4, 5, 6, 7, 15, 28, 56, 98}

In [115]:
cjto.pop()

2

In [116]:
cjto.pop()

4

In [117]:
# Elimina todos los elementos del cjto
cjto.clear()

In [118]:
cjto

set()

In [120]:
conjuntillo = {"Hola", "hola", "mundo", "zapato"}
conjuntillo

{'Hola', 'hola', 'mundo', 'zapato'}

In [121]:
conjuntillo.pop()

'mundo'

Copy-pase de internet: In Python, the set.pop() method removes and returns an arbitrary (random) element from the set. Because sets are an unordered collection, you cannot determine in advance which element will be removed.

# Usos típicos

In [122]:
# Eliminar duplicados
lista = [1, 2, 2, 3]
set(lista)

{1, 2, 3}

In [123]:
lista = [1, 2, 2, 3]
lista_sin_duplicados = list(set(lista))
lista_sin_duplicados

[1, 2, 3]

In [124]:
# Comparar colecciones sencillas
usuarios_activos = {1, 2, 3}
usuarios_bloqueados = {2, 3, 4}
# Los usuarios que están activos PERO NO bloquedos
usuarios_activos - usuarios_bloqueados

{1}

# Dataframes (de pandas)

+ Un `DataFrame` (de pandas) es una estructura de datos tabular (filas x columnas)

+ tabla SQL

+ data.frame de R

+ Sheet de Excel/Google Sheets

+ Conceptualmente un diccionario de columnas.

+ Cada columna tiene un nombre y un tipo de datos, y cada fila tiene un índice.

+ Bidimensional (filas y columnas)

+ Columnas etiquetadas

+ Indexación flexible

In [None]:
import pandas as pd
# Hablar sobre la convención estándar pd

In [None]:
mi_df = pd.DataFrame({
    "nombre": ["Ana", "Luis", "María"],
    "edad": [30, 25, 40],
    "ciudad": ["CDMX", "MTY", "GDL"]
})
mi_df

In [None]:
mi_df = pd.DataFrame([
    {"nombre": "Ana", "edad": 30},
    {"nombre": "Luis", "edad": 25}
])
mi_df

In [None]:
mi_df = pd.DataFrame(
    [[1, 2], [3, 4]],
    columns=["A", "B"]
)
mi_df

In [None]:
#pd.read_csv("archivo.csv")
#pd.read_excel("archivo.xlsx")
#pd.read_parquet("archivo.parquet")

In [None]:
mi_df = pd.DataFrame({
    "nombre": [
    "Ana", "Luis", "María", "Carlos", "Sofía",
    "Jorge", "Lucía", "Miguel", "Paula", "Andrés",
    "Elena", "Raúl", "Valeria", "Diego", "Carmen"
],
    "edad": [
    18, 22, 25, 29, 31,
    34, 37, 40, 43, 45,
    48, 50, 53, 56, 60
],
    "ciudad": [
    "CDMX", "NL", "JAL", "QRO", "PUE",
    "JAL", "SON", "CHIH", "YUC", "OAX",
    "GTO", "SLP", "CDMX", "VER", "AGS"
]
})
mi_df

In [None]:
mi_df.shape
# (filas, columnas)

In [None]:
# Nombres de columnas
mi_df.columns

**OJO:** `object` no es un tipo real, suele significar "mezcla o string".

In [None]:
# Índices de las filas
mi_df.index

In [None]:
# tipo de cada columna
mi_df.dtypes

In [None]:
mi_df.head()

In [None]:
mi_df.tail()

In [None]:
mi_df.info()

In [None]:
mi_df.describe()

In [None]:
mi_df.describe(include = "object")

In [None]:
mi_df.describe(include = "all")

In [None]:
mi_df["edad"]

In [None]:
mi_df.edad

In [None]:
mi_df.loc[0]

In [None]:
mi_df.loc[0, "edad"]

In [None]:
mi_df.iloc[0, 1]

In [None]:
mi_df[["nombre", "edad"]]

In [None]:
mi_df["edad_doble"] = mi_df["edad"] * 2

In [None]:
mi_df

In [None]:
mi_df[mi_df["edad"] > 30]

In [None]:
mi_df[(mi_df["edad"] > 25) & (mi_df["ciudad"] == "CDMX")]

In [None]:
mi_df["mayor_edad"] = mi_df["edad"] >= 18

In [None]:
mi_df

In [None]:
mi_df.loc[mi_df["nombre"] == "Ana", "edad"] = 31

In [None]:
mi_df