In [7]:
import pandas as pd

# DataFrames

1. Objetivos:
- Aprender a crear `DataFrames` usando diccionarios de listas
- Aprender a indexar `DataFrames` para obtener subconjuntos de datos

Los DataFrames son entonces estructuras de datos bidimensionales. Tienen filas y columnas. Hay innumerables formas de crear `DataFrames` (si quieren ahondar en el tema, [aquí hay una fuente](https://www.geeksforgeeks.org/different-ways-to-create-pandas-dataframe/) muy completa). Vamos a aprender una de ellas: los diccionarios de listas.

Aqui tenemos un diccionario de Listas

In [8]:
datos = {
    'columna_1': ['valor_fila_0', 'valor_fila_1', 'valor_fila_2', 'valor_fila_3', 'valor_fila_4'],
    'columna_2': ['valor_fila_0', 'valor_fila_1', 'valor_fila_2', 'valor_fila_3', 'valor_fila_4'],
    'columna_3': ['valor_fila_0', 'valor_fila_1', 'valor_fila_2', 'valor_fila_3', 'valor_fila_4'],
    'columna_4': ['valor_fila_0', 'valor_fila_1', 'valor_fila_2', 'valor_fila_3', 'valor_fila_4']
}


In [9]:
df = pd.DataFrame(datos)
df

Unnamed: 0,columna_1,columna_2,columna_3,columna_4
0,valor_fila_0,valor_fila_0,valor_fila_0,valor_fila_0
1,valor_fila_1,valor_fila_1,valor_fila_1,valor_fila_1
2,valor_fila_2,valor_fila_2,valor_fila_2,valor_fila_2
3,valor_fila_3,valor_fila_3,valor_fila_3,valor_fila_3
4,valor_fila_4,valor_fila_4,valor_fila_4,valor_fila_4


También podemos pasarle explícitamente un índice para cambiar el índice default:

In [10]:
df = pd.DataFrame(datos, index=['a','b','c','d','e'])
df

Unnamed: 0,columna_1,columna_2,columna_3,columna_4
a,valor_fila_0,valor_fila_0,valor_fila_0,valor_fila_0
b,valor_fila_1,valor_fila_1,valor_fila_1,valor_fila_1
c,valor_fila_2,valor_fila_2,valor_fila_2,valor_fila_2
d,valor_fila_3,valor_fila_3,valor_fila_3,valor_fila_3
e,valor_fila_4,valor_fila_4,valor_fila_4,valor_fila_4


Vamos a convertirlo en un `DataFrame`:

Para observar columnas individualmente, usamos el `operador de indexación` y le pasamos el nombre de la columna:

In [13]:
df['columna_4']

a    valor_fila_0
b    valor_fila_1
c    valor_fila_2
d    valor_fila_3
e    valor_fila_4
Name: columna_4, dtype: object

La columna que obtuvimos es una `Serie` de pandas con una propiedad `Name`.

También podemos ver más de una columna pasando una `lista` con los nombres de las columnas que queremos en el orden que las queremos:

In [14]:
df[['columna_1', 'columna_4']]

Unnamed: 0,columna_1,columna_4
a,valor_fila_0,valor_fila_0
b,valor_fila_1,valor_fila_1
c,valor_fila_2,valor_fila_2
d,valor_fila_3,valor_fila_3
e,valor_fila_4,valor_fila_4


In [15]:
df_2 = df[['columna_1', 'columna_4']]

>Importante: Usamos las palabras `observar` o `ver` porque indexar columnas no regresa una copia de esas columnas, sino solamente una "vista" de esas columnas, como si estuviéramos viéndolas a través de una ventana. Eso quiere decir que los cambios que realicemos a las "vista" no se verán reflejados en el `DataFrame` original.

   Para indexar filas, podemos usar el operador loc.

Podemos pedir una sola fila:

In [16]:
df_2

Unnamed: 0,columna_1,columna_4
a,valor_fila_0,valor_fila_0
b,valor_fila_1,valor_fila_1
c,valor_fila_2,valor_fila_2
d,valor_fila_3,valor_fila_3
e,valor_fila_4,valor_fila_4


In [17]:
df.loc['d'] # nombre del indice

columna_1    valor_fila_3
columna_2    valor_fila_3
columna_3    valor_fila_3
columna_4    valor_fila_3
Name: d, dtype: object

In [19]:
df.iloc[3]

columna_1    valor_fila_3
columna_2    valor_fila_3
columna_3    valor_fila_3
columna_4    valor_fila_3
Name: d, dtype: object

In [21]:
df.loc[['b','d','a']]

Unnamed: 0,columna_1,columna_2,columna_3,columna_4
b,valor_fila_1,valor_fila_1,valor_fila_1,valor_fila_1
d,valor_fila_3,valor_fila_3,valor_fila_3,valor_fila_3
a,valor_fila_0,valor_fila_0,valor_fila_0,valor_fila_0


In [27]:
df.loc['b':'d']

Unnamed: 0,columna_1,columna_2,columna_3,columna_4
b,valor_fila_1,valor_fila_1,valor_fila_1,valor_fila_1
c,valor_fila_2,valor_fila_2,valor_fila_2,valor_fila_2
d,valor_fila_3,valor_fila_3,valor_fila_3,valor_fila_3


In [26]:
df.loc['b':'e']

Unnamed: 0,columna_1,columna_2,columna_3,columna_4
b,valor_fila_1,valor_fila_1,valor_fila_1,valor_fila_1
c,valor_fila_2,valor_fila_2,valor_fila_2,valor_fila_2
d,valor_fila_3,valor_fila_3,valor_fila_3,valor_fila_3
e,valor_fila_4,valor_fila_4,valor_fila_4,valor_fila_4


Podemos pasarle un segundo argumento a loc para seleccionar solamente algunas columnas de las filas que pedimos. En este caso estamos pidiendo la columna 'columna_2' de la fila 'b', por lo que obtenemos un solo valor:

In [29]:
df.loc['b','columna_2']

'valor_fila_1'

In [30]:
# rpimero se pone la columna
df['columna_2']['b']

'valor_fila_1'

Tambien podemos pedir multiples filas y columnas 

In [31]:
df.loc[['b','d'],['columna_2','columna_4']]

Unnamed: 0,columna_2,columna_4
b,valor_fila_1,valor_fila_1
d,valor_fila_3,valor_fila_3


In [32]:
df.loc[['b','d'],['columna_2']]

Unnamed: 0,columna_2
b,valor_fila_1
d,valor_fila_3


Vamonos al Reto 

In [33]:
datos = {
    "Nombre": ["Pepinillo Hernández", "Lúpulo de Dios", "Juan Juon", "Jimmy el Patatas", "Lorenzo Retaguardias"],
    "Cereal favorito": ["Korn Floks", "Verdurinis", "Zumbaritas", "Diabetukis, Papá", "Fibra Máxima 3000"],
    "Hora del desayuno": ["11:00", "07:30", "07:00", "08:30", "09:30"]
}

df = pd.DataFrame(datos)

In [39]:
df

{'Nombre': ['Pepinillo Hernández',
  'Lúpulo de Dios',
  'Juan Juon',
  'Jimmy el Patatas',
  'Lorenzo Retaguardias'],
 'Cereal favorito': ['Korn Floks',
  'Verdurinis',
  'Zumbaritas',
  'Diabetukis, Papá',
  'Fibra Máxima 3000'],
 'Hora del desayuno': ['11:00', '07:30', '07:00', '08:30', '09:30']}

Podemos agregar nuevas columnas a nuestros `DataFrames` con una sintaxis muy parecida a la de los `diccionarios`:

In [None]:
df['Hora del desayuno']= pd.Series(['12:30','6:30','','','12:10'])

Tambien podemon eliminar una columna usando el siguinete comando:

In [None]:
df.drop(columns='Fruta con la que acompaña el cereal')

Recuerda que estos métodos sólo regresan "vistas". Para que el cambio permanezca, tenemos que asignar el resultado de la operación a la variable `df` o a alguna otra variable: