## Ejemplo 3: DataFrames

### 1. Objetivos:
    - Aprender a crear `DataFrames` usando diccionarios de listas
    - Aprender a indexar `DataFrames` para obtener subconjuntos de datos
 
---
    
### 2. Desarrollo:

In [3]:
import pandas as pd

Los `DataFrames` son entonces estructuras de datos bidimensionales. Tienen filas y columnas. Hay innumerables formas de crear `DataFrames` (si quieren ahondar en el tema, [aquí hay una fuente](https://www.geeksforgeeks.org/different-ways-to-create-pandas-dataframe/) muy completa). Vamos a aprender una de ellas: los diccionarios de listas.

Aquí tenemos un diccionario de listas:

In [1]:
datos = {
    'columna_1': ['col_1_fila_0', 'col_1_fila_1',
        'col_1_fila_2', 'col_1_fila_3', 'col_1_fila_4'],
    
    'columna_2': ['col_2_fila_0', 'col_2_fila_1',
        'col_2_fila_2', 'col_2_fila_3', 'col_2_fila_4'],
    
    'columna_3': ['col_3_fila_0', 'col_3_fila_1',
        'col_3_fila_2', 'col_3_fila_3', 'col_3_fila_4'],
    
    'columna_4': ['col_4_fila_0', 'col_4_fila_1',
        'col_4_fila_2', 'col_4_fila_3', 'col_4_fila_4']
}

Vamos a convertirlo en un DataFrame con `pd.DataFrame(-diccionario-)`:

In [4]:
df = pd.DataFrame(datos)
df

Unnamed: 0,columna_1,columna_2,columna_3,columna_4
0,col_1_fila_0,col_2_fila_0,col_3_fila_0,col_4_fila_0
1,col_1_fila_1,col_2_fila_1,col_3_fila_1,col_4_fila_1
2,col_1_fila_2,col_2_fila_2,col_3_fila_2,col_4_fila_2
3,col_1_fila_3,col_2_fila_3,col_3_fila_3,col_4_fila_3
4,col_1_fila_4,col_2_fila_4,col_3_fila_4,col_4_fila_4


También podemos pasarle explícitamente un índice de la forma:

`pd.DataFrame(-diccionario-, index=-lista de índices-)`

Asigna como índices las letras de la `A` a la `E`:

In [7]:
df = pd.DataFrame(datos, index= list('ABCDE'))
df

Unnamed: 0,columna_1,columna_2,columna_3,columna_4
A,col_1_fila_0,col_2_fila_0,col_3_fila_0,col_4_fila_0
B,col_1_fila_1,col_2_fila_1,col_3_fila_1,col_4_fila_1
C,col_1_fila_2,col_2_fila_2,col_3_fila_2,col_4_fila_2
D,col_1_fila_3,col_2_fila_3,col_3_fila_3,col_4_fila_3
E,col_1_fila_4,col_2_fila_4,col_3_fila_4,col_4_fila_4


Ahora imprime las columnas 1 y 3 usando la forma:

`variable_dataframe["col_x", "col_y", ...]`

In [8]:
columnas = ['columna_1', 'columna_3']
df[columnas]

Unnamed: 0,columna_1,columna_3
A,col_1_fila_0,col_3_fila_0
B,col_1_fila_1,col_3_fila_1
C,col_1_fila_2,col_3_fila_2
D,col_1_fila_3,col_3_fila_3
E,col_1_fila_4,col_3_fila_4


También podemos obtener el nombre de todas las columnas con:

`variable_dataframe.columns`

In [9]:
df.columns

Index(['columna_1', 'columna_2', 'columna_3', 'columna_4'], dtype='object')

> **Importante**: Usamos las palabras `observar` o `ver` porque indexar columnas no regresa una copia de esas columnas, sino solamente una "vista" de esas columnas, como si estuviéramos viéndolas a través de una ventana. Eso quiere decir que los cambios que realicemos a las "vista" se verán reflejados en el `DataFrame` original.

También es posible imprimir sólo la primera y tercer fila de las columnas seleccionadas usando la forma:

`variable_dataframe[-lista de columna-].loc[-lista de filas-]`

In [10]:
df[columnas].loc[['A','C']]

Unnamed: 0,columna_1,columna_3
A,col_1_fila_0,col_3_fila_0
C,col_1_fila_2,col_3_fila_2


O usando una variable para indicar la primera, segunda y última filas:

In [11]:
filas = ['A','C']
df[columnas].loc[filas]

Unnamed: 0,columna_1,columna_3
A,col_1_fila_0,col_3_fila_0
C,col_1_fila_2,col_3_fila_2


Podemos pasarle un segundo argumento a `loc` para seleccionar solamente algunas columnas de las filas que pedimos.

`variable_dataframe.loc[-lista de filas-, -lista de columnas-]`

En este caso estamos pidiendo la columna 'columna_2' de la segunda fila, por lo que obtenemos un solo valor:

In [12]:
df.loc['B','columna_2']

'col_2_fila_1'

O podría pensar en las filas de la `A` a la `C` y de la columna 1 a la 3:

In [13]:
df.loc['A':'C','columna_1':'columna_3']

Unnamed: 0,columna_1,columna_2,columna_3
A,col_1_fila_0,col_2_fila_0,col_3_fila_0
B,col_1_fila_1,col_2_fila_1,col_3_fila_1
C,col_1_fila_2,col_2_fila_2,col_3_fila_2


¡Vayamos a practicar esto en un Reto!

---
---
## Reto 3: DataFrames

### 1. Objetivos:
    - Aprender a crear `DataFrames` e indexar por columna y por fila
 
---
    
### 2. Desarrollo:

#### a) Creación e indexación de `DataFrames`

Eres el Data Wrangler (procesador de datos) de EyePoker Inc. Tienes el siguiente diccionario con datos que se refieren a diferentes productos que vende la empresa. Este es tu conjunto de datos y el índice que le corresponde:

In [14]:
datos_productos = {
    "nombre": ["Pokemaster", "Cegatron", "Pikame Mucho",
        "Lazarillo de Tormes", "Stevie Wonder", "Needle",
        "El AyMeDuele"],
    "precio": [10000, 5500, 3500, 750, 15500, 12250, 23000],
    "peso": [1.2, 1.5, 2.3, 5.5, 3.4, 2.4, 8.8],
    "capacidad de destrucción retinal": [3, 7, 6, 8, 9, 2, 10],
    "disponible": [True, False, True, True, False, False, True]
}

indice = [1, 2, 3, 4, 5, 6, 7]

El Analista de Datos de la empresa quiere realizar algunas visualizaciones con este conjunto de datos, pero no es muy buen procesador de datos, así que te pide a ti ayuda para crear los subconjuntos de datos que necesita para sus visualizaciones.

Te ha dado las descripciones de los subconjuntos que necesita, en el orden en el que los quiere.

Tu primer paso es convertir tu `diccionario` a `DataFrame` usando `datos_productos` e `indice`:

In [15]:
## Realiza aquí los imports que necesites
import pandas as pd

In [16]:
df_productos = pd.DataFrame(datos_productos, index = indice)
df_productos

Unnamed: 0,nombre,precio,peso,capacidad de destrucción retinal,disponible
1,Pokemaster,10000,1.2,3,True
2,Cegatron,5500,1.5,7,False
3,Pikame Mucho,3500,2.3,6,True
4,Lazarillo de Tormes,750,5.5,8,True
5,Stevie Wonder,15500,3.4,9,False
6,Needle,12250,2.4,2,False
7,El AyMeDuele,23000,8.8,10,True


Ahora, indexa tu `DataFrame` para obtener los subconjuntos requeridos. Los productos en existencia tienen un orden específico en la base de datos. El orden correcto es el que está definido en `datos_productos`. Eso significa que el "Pokemaster" tiene el índice `1` y es el *primer* producto; y el "El AyMeDuele" tiene el ìndice `7` y es el *último* producto.

Realiza las indexaciones debajo. Recuerda ordenar tus `DataFrames` en el orden en el que los menciona el Analista:

In [18]:
# Quiero un DataFrame que contenga los
# productos "Pikame Mucho" y "Stevie Wonder"
pm_sw = df_productos.loc[[3,7]]
pm_sw

Unnamed: 0,nombre,precio,peso,capacidad de destrucción retinal,disponible
3,Pikame Mucho,3500,2.3,6,True
7,El AyMeDuele,23000,8.8,10,True


In [19]:
# Quiero un DataFrame que contenga desde
# el producto #4 hasta el último
p4_final = df_productos.loc[4:]
p4_final

Unnamed: 0,nombre,precio,peso,capacidad de destrucción retinal,disponible
4,Lazarillo de Tormes,750,5.5,8,True
5,Stevie Wonder,15500,3.4,9,False
6,Needle,12250,2.4,2,False
7,El AyMeDuele,23000,8.8,10,True


In [20]:
# Quiero un DataFrame que contenga los
# productos "El AyMeDuele", "Lazarillo de
# Tormes" y "Needle"
amd_lt_n = df_productos.loc[[4,6,7]]
amd_lt_n

Unnamed: 0,nombre,precio,peso,capacidad de destrucción retinal,disponible
4,Lazarillo de Tormes,750,5.5,8,True
6,Needle,12250,2.4,2,False
7,El AyMeDuele,23000,8.8,10,True


In [23]:
# Quiero un DataFrame que contenga los
# productos "Pikame Mucho" y "Lazarillo de Tormes",
# pero sólo con las columnas "nombre", "precio"
# y "peso"
pm_lt_pp =df_productos.loc[3:4,'nombre':'precio']
pm_lt_pp

Unnamed: 0,nombre,precio
3,Pikame Mucho,3500
4,Lazarillo de Tormes,750
