## Ejemplo 3: DataFrames

### 1. Objetivos:
    - Aprender a crear `DataFrames` usando diccionarios de listas
    - Aprender a indexar `DataFrames` para obtener subconjuntos de datos
 
---
    
### 2. Desarrollo:

In [1]:
import pandas as pd

Los `DataFrames` son entonces estructuras de datos bidimensionales. Tienen filas y columnas. Hay innumerables formas de crear `DataFrames` (si quieren ahondar en el tema, [aquí hay una fuente](https://www.geeksforgeeks.org/different-ways-to-create-pandas-dataframe/) muy completa). Vamos a aprender una de ellas: los diccionarios de listas.

Aquí tenemos un diccionario de listas:

In [2]:
datos = {
    'columna_1': ['valor_fila_0', 'valor_fila_1',
        'valor_fila_2', 'valor_fila_3', 'valor_fila_4'],
    'columna_2': ['valor_fila_0', 'valor_fila_1',
        'valor_fila_2', 'valor_fila_3', 'valor_fila_4'],
    'columna_3': ['valor_fila_0', 'valor_fila_1',
        'valor_fila_2', 'valor_fila_3', 'valor_fila_4'],
    'columna_4': ['valor_fila_0', 'valor_fila_1',
        'valor_fila_2', 'valor_fila_3', 'valor_fila_4']
}

Vamos a convertirlo en un `DataFrame`:

In [4]:
pd.DataFrame(datos)

Unnamed: 0,columna_1,columna_2,columna_3,columna_4
0,valor_fila_0,valor_fila_0,valor_fila_0,valor_fila_0
1,valor_fila_1,valor_fila_1,valor_fila_1,valor_fila_1
2,valor_fila_2,valor_fila_2,valor_fila_2,valor_fila_2
3,valor_fila_3,valor_fila_3,valor_fila_3,valor_fila_3
4,valor_fila_4,valor_fila_4,valor_fila_4,valor_fila_4


También podemos pasarle explícitamente un índice para cambiar el índice default:

In [10]:
df = pd.DataFrame(datos, index=list("ABCDE"))
df

Unnamed: 0,columna_1,columna_2,columna_3,columna_4
A,valor_fila_0,valor_fila_0,valor_fila_0,valor_fila_0
B,valor_fila_1,valor_fila_1,valor_fila_1,valor_fila_1
C,valor_fila_2,valor_fila_2,valor_fila_2,valor_fila_2
D,valor_fila_3,valor_fila_3,valor_fila_3,valor_fila_3
E,valor_fila_4,valor_fila_4,valor_fila_4,valor_fila_4


Ahora imprime las columnas 1 y 3:

In [13]:
columnas = ["columna_1", "columna_3"]
df[columnas]

Unnamed: 0,columna_1,columna_3
A,valor_fila_0,valor_fila_0
B,valor_fila_1,valor_fila_1
C,valor_fila_2,valor_fila_2
D,valor_fila_3,valor_fila_3
E,valor_fila_4,valor_fila_4


In [17]:
df.columns

Index(['columna_1', 'columna_2', 'columna_3', 'columna_4'], dtype='object')

> **Importante**: Usamos las palabras `observar` o `ver` porque indexar columnas no regresa una copia de esas columnas, sino solamente una "vista" de esas columnas, como si estuviéramos viéndolas a través de una ventana. Eso quiere decir que los cambios que realicemos a las "vista" se verán reflejados en el `DataFrame` original.

También imprime la tercer y primera fila:

In [23]:
df[columnas].loc[["A", "C"]]

Unnamed: 0,columna_1,columna_3
A,valor_fila_0,valor_fila_0
C,valor_fila_2,valor_fila_2


Y también la primera y última filas:

In [31]:
filas = ["A", "B", "E"]
df[columnas].loc[filas]

Unnamed: 0,columna_1,columna_3
A,valor_fila_0,valor_fila_0
B,valor_fila_1,valor_fila_1
E,valor_fila_4,valor_fila_4


Podemos pasarle un segundo argumento a `loc` para seleccionar solamente algunas columnas de las filas que pedimos. En este caso estamos pidiendo la columna 'columna_2' de la segunda fila, por lo que obtenemos un solo valor:

In [34]:
df[columnas].loc["A":"C"]

Unnamed: 0,columna_1,columna_3
A,valor_fila_0,valor_fila_0
B,valor_fila_1,valor_fila_1
C,valor_fila_2,valor_fila_2


In [38]:
df.loc["A":"C", "columna_1":"columna_3"]

Unnamed: 0,columna_1,columna_2,columna_3
A,valor_fila_0,valor_fila_0,valor_fila_0
B,valor_fila_1,valor_fila_1,valor_fila_1
C,valor_fila_2,valor_fila_2,valor_fila_2


¡Vayamos a practicar esto en un Reto!

---
---
## Reto 3: DataFrames

### 1. Objetivos:
    - Aprender a crear `DataFrames` e indexar por columna y por fila
 
---
    
### 2. Desarrollo:

#### a) Creación e indexación de `DataFrames`

Eres el Data Wrangler (procesador de datos) de EyePoker Inc. Tienes el siguiente diccionario con datos que se refieren a diferentes productos que vende la empresa. Este es tu conjunto de datos y el índice que le corresponde:

In [42]:
datos_productos = {
    "nombre": ["Pokemaster", "Cegatron", "Pikame Mucho", "Lazarillo de Tormes", "Stevie Wonder", "Needle", "El AyMeDuele"],
    "precio": [10000, 5500, 3500, 750, 15500, 12250, 23000],
    "peso": [1.2, 1.5, 2.3, 5.5, 3.4, 2.4, 8.8],
    "capacidad de destrucción retinal": [3, 7, 6, 8, 9, 2, 10],
    "disponible": [True, False, True, True, False, False, True]
}

indice = [1, 2, 3, 4, 5, 6, 7]

El Analista de Datos de la empresa quiere realizar algunas visualizaciones con este conjunto de datos, pero no es muy buen procesador de datos, así que te pide a ti ayuda para crear los subconjuntos de datos que necesita para sus visualizaciones.

Te ha dado las descripciones de los subconjuntos que necesita, en el orden en el que los quiere.

Tu primer paso es convertir tu `diccionario` a `DataFrame` usando `datos_productos` e `indice`:

In [None]:
## Realiza aquí los imports que necesites


In [41]:
df_productos = pd.DataFrame(datos_productos, index=indice)
df_productos

Unnamed: 0,nombre,precio,peso,capacidad de destrucción retinal,disponible
1,Pokemaster,10000,1.2,3,True
2,Cegatron,5500,1.5,7,False
3,Pikame Mucho,3500,2.3,6,True
4,Lazarillo de Tormes,750,5.5,8,True
5,Stevie Wonder,15500,3.4,9,False
6,Needle,12250,2.4,2,False
7,El AyMeDuele,23000,8.8,10,True


Ahora, indexa tu `DataFrame` para obtener los subconjuntos requeridos. Los productos en existencia tienen un orden específico en la base de datos. El orden correcto es el que está definido en `datos_productos`. Eso significa que el "Pokemaster" tiene el índice `1` y es el *primer* producto; y el "El AyMeDuele" tiene el ìndice `7` y es el *último* producto.

Realiza las indexaciones debajo. Recuerda ordenar tus `DataFrames` en el orden en el que los menciona el Analista:

In [44]:
# Quiero un DataFrame que contenga los
# productos "Pikame Mucho" y "Stevie Wonder"
pm_sw = df_productos.loc[[3, 5]]
pm_sw

# Quiero un DataFrame que contenga desde
# el producto #4 hasta el último
# p4_final =

# Quiero un DataFrame que contenga los
# productos "El AyMeDuele", "Lazarillo de
# Tormes" y "Needle"
# amd_lt_n =

# Quiero un DataFrame que contenga los
# productos "Pikame Mucho" y "Lazarillo de Tormes",
# pero sólo con las columnas "nombre", "precio"
# y "peso"
# pm_lt_pp =

Unnamed: 0,nombre,precio,peso,capacidad de destrucción retinal,disponible
3,Pikame Mucho,3500,2.3,6,True
5,Stevie Wonder,15500,3.4,9,False


In [49]:
df_productos.loc[:, "nombre":"peso"]

Unnamed: 0,nombre,precio,peso
1,Pokemaster,10000,1.2
2,Cegatron,5500,1.5
3,Pikame Mucho,3500,2.3
4,Lazarillo de Tormes,750,5.5
5,Stevie Wonder,15500,3.4
6,Needle,12250,2.4
7,El AyMeDuele,23000,8.8
