In [None]:
import pandas as pd

# DataFrames

1. Objetivos:
- Aprender a crear `DataFrames` usando diccionarios de listas
- Aprender a indexar `DataFrames` para obtener subconjuntos de datos

Los DataFrames son entonces estructuras de datos bidimensionales. Tienen filas y columnas. Hay innumerables formas de crear `DataFrames` (si quieren ahondar en el tema, [aquí hay una fuente](https://www.geeksforgeeks.org/different-ways-to-create-pandas-dataframe/) muy completa). Vamos a aprender una de ellas: los diccionarios de listas.

Aquí tenemos un diccionario de listas:

In [None]:
datos = {
    'columna_1': ['valor_fila_0', 'valor_fila_1', 'valor_fila_2', 'valor_fila_3', 'valor_fila_4'],
    'columna_2': ['valor_fila_0', 'valor_fila_1', 'valor_fila_2', 'valor_fila_3', 'valor_fila_4'],
    'columna_3': ['valor_fila_0', 'valor_fila_1', 'valor_fila_2', 'valor_fila_3', 'valor_fila_4'],
    'columna_4': ['valor_fila_0', 'valor_fila_1', 'valor_fila_2', 'valor_fila_3', 'valor_fila_4']
}

Vamos a convertirlo en un `DataFrame`:

In [None]:
df = pd.DataFrame(datos)
df

Unnamed: 0,columna_1,columna_2,columna_3,columna_4
0,valor_fila_0,valor_fila_0,valor_fila_0,valor_fila_0
1,valor_fila_1,valor_fila_1,valor_fila_1,valor_fila_1
2,valor_fila_2,valor_fila_2,valor_fila_2,valor_fila_2
3,valor_fila_3,valor_fila_3,valor_fila_3,valor_fila_3
4,valor_fila_4,valor_fila_4,valor_fila_4,valor_fila_4


También podemos pasarle explícitamente un índice para cambiar el índice default:

In [None]:
df = pd.DataFrame(datos, index=['a', 'b', 'c', 'd', 'e'])
df

Unnamed: 0,columna_1,columna_2,columna_3,columna_4
a,valor_fila_0,valor_fila_0,valor_fila_0,valor_fila_0
b,valor_fila_1,valor_fila_1,valor_fila_1,valor_fila_1
c,valor_fila_2,valor_fila_2,valor_fila_2,valor_fila_2
d,valor_fila_3,valor_fila_3,valor_fila_3,valor_fila_3
e,valor_fila_4,valor_fila_4,valor_fila_4,valor_fila_4


Para observar columnas individualmente, usamos el `operador de indexación` y le pasamos el nombre de la columna:

In [None]:
df['columna_4']

a    valor_fila_0
b    valor_fila_1
c    valor_fila_2
d    valor_fila_3
e    valor_fila_4
Name: columna_4, dtype: object

La columna que obtuvimos es una `Serie` de pandas con una propiedad `Name`.

También podemos ver más de una columna pasando una `lista` con los nombres de las columnas que queremos en el orden que las queremos:

In [None]:
df[['columna_1', 'columna_4']]

Unnamed: 0,columna_1,columna_4
a,valor_fila_0,valor_fila_0
b,valor_fila_1,valor_fila_1
c,valor_fila_2,valor_fila_2
d,valor_fila_3,valor_fila_3
e,valor_fila_4,valor_fila_4


In [None]:
df_2 = df[['columna_1', 'columna_4']]

>Importante: Usamos las palabras `observar` o `ver` porque indexar columnas no regresa una copia de esas columnas, sino solamente una "vista" de esas columnas, como si estuviéramos viéndolas a través de una ventana. Eso quiere decir que los cambios que realicemos a las "vista" no se verán reflejados en el `DataFrame` original.

   Para indexar filas, podemos usar el operador loc.

Podemos pedir una sola fila:

In [None]:
df.iloc[3]

columna_1    valor_fila_3
columna_2    valor_fila_3
columna_3    valor_fila_3
columna_4    valor_fila_3
Name: d, dtype: object

Podemos pedir rangos tambien:

In [None]:
df.loc[['b', 'd', 'a']]

Unnamed: 0,columna_1,columna_2,columna_3,columna_4
b,valor_fila_1,valor_fila_1,valor_fila_1,valor_fila_1
d,valor_fila_3,valor_fila_3,valor_fila_3,valor_fila_3
a,valor_fila_0,valor_fila_0,valor_fila_0,valor_fila_0


In [None]:
df.loc[:'d']

Unnamed: 0,columna_1,columna_2,columna_3,columna_4
a,valor_fila_0,valor_fila_0,valor_fila_0,valor_fila_0
b,valor_fila_1,valor_fila_1,valor_fila_1,valor_fila_1
c,valor_fila_2,valor_fila_2,valor_fila_2,valor_fila_2
d,valor_fila_3,valor_fila_3,valor_fila_3,valor_fila_3


In [None]:
df.loc['b':'d']

Unnamed: 0,columna_1,columna_2,columna_3,columna_4
b,valor_fila_1,valor_fila_1,valor_fila_1,valor_fila_1
c,valor_fila_2,valor_fila_2,valor_fila_2,valor_fila_2
d,valor_fila_3,valor_fila_3,valor_fila_3,valor_fila_3


Podemos pasarle un segundo argumento a loc para seleccionar solamente algunas columnas de las filas que pedimos. En este caso estamos pidiendo la columna 'columna_2' de la fila 'b', por lo que obtenemos un solo valor:

In [None]:
df.loc['b', 'columna_2']

'valor_fila_1'

In [None]:
df['columna_2']['b']

'valor_fila_1'

Tambiín podemos pedir multiples filas y columnas:

In [None]:
df.loc['b',['columna_2', 'columna_4']]

columna_2    valor_fila_1
columna_4    valor_fila_1
Name: b, dtype: object

In [None]:
df.loc[['b','d'],['columna_2']]

Unnamed: 0,columna_2
b,valor_fila_1
d,valor_fila_3


In [None]:
import pandas as pd

Vamonos al Reto:

In [None]:
datos_productos = {
    "nombre": ["Pokemaster", "Cegatron", "Pikame Mucho", "Lazarillo de Tormes", "Stevie Wonder", "Needle", "El AyMeDuele"],
    "precio": [10000, 5500, 3500, 750, 15500, 12250, 23000],
    "peso": [1.2, 1.5, 2.3, 5.5, 3.4, 2.4, 8.8],
    "capacidad de destrucción retinal": [3, 7, 6, 8, 9, 2, 10],
    "disponible": [True, False, True, True, False, False, True]
}

indice = [1, 2, 3, 4, 5, 6, 7]

In [None]:
df_productos = pd.DataFrame(datos_productos)

In [None]:
df_productos = pd.DataFrame(datos_productos, index=[1,2,3,4,5,6,7])
df_productos

Unnamed: 0,nombre,precio,peso,capacidad de destrucción retinal,disponible
1,Pokemaster,10000,1.2,3,True
2,Cegatron,5500,1.5,7,False
3,Pikame Mucho,3500,2.3,6,True
4,Lazarillo de Tormes,750,5.5,8,True
5,Stevie Wonder,15500,3.4,9,False
6,Needle,12250,2.4,2,False
7,El AyMeDuele,23000,8.8,10,True


In [None]:
# Quiero un DataFrame que contenga los productos "Pikame Mucho" y "Stevie Wonder"
pm_sw = df_productos.loc[]
pm_sw

# Quiero un DataFrame que contenga desde el producto #4 hasta el último
p4_final = df_productos.loc[4:]
p4_final

# Quiero un DataFrame que contenga los productos "El AyMeDuele", "Lazarillo de Tormes" y "Needle"
amd_lt_n = df_productos.loc[[7,4,6]]
amd_lt_n

# Quiero un DataFrame que contenga desde el primer producto hasta el producto #5
primer_p5 = df_productos.loc[:5]
primer_p5

# Quiero un DataFrame que contenga los productos "Pikame Mucho" y "Lazarillo de Tormes", pero sólo con las columnas "nombre", "precio" y "peso"
pm_lt_pp = df_productos.loc[[3]]
pm_lt_pp

# Quiero un DataFrame que contenga todos los productos pero con sólo las columnas 'nombre', 'precio' y 'capacidad de destrucción retinal'
t_pcdr = df_productos.loc[:,{'nombre', 'precio', 'disponible'}]
t_pcdr

# Quiero un DataFrame que contenga desde el producto #3 hasta el #6, pero sólo las columnas 'nombre', 'precio' y 'disponible'
p3_p6_pd = df_productos.loc[3:5,['nombre', 'precio', 'capacidad de destruccion retinal']]
p3_p6_pd
