# DataFrames

1. Objetivos:
- Aprender a crear `DataFrames` usando diccionarios de listas
- Aprender a indexar `DataFrames` para obtener subconjuntos de datos

## 2.Desarrollo:

In [1]:
import pandas as pd

Los DataFrames son entonces estructuras de datos bidimensionales. Tienen filas y columnas. Hay innumerables formas de crear `DataFrames` (si quieren ahondar en el tema, [aquí hay una fuente](https://www.geeksforgeeks.org/different-ways-to-create-pandas-dataframe/) muy completa). Vamos a aprender una de ellas: los diccionarios de listas.

Aquí tenemos un diccionario de listas:

In [2]:
datos = {
    'columna_1': ['valor_fila_0', 'valor_fila_1', 'valor_fila_2', 'valor_fila_3', 'valor_fila_4'],
    'columna_2': ['valor_fila_0', 'valor_fila_1', 'valor_fila_2', 'valor_fila_3', 'valor_fila_4'],
    'columna_3': ['valor_fila_0', 'valor_fila_1', 'valor_fila_2', 'valor_fila_3', 'valor_fila_4'],
    'columna_4': ['valor_fila_0', 'valor_fila_1', 'valor_fila_2', 'valor_fila_3', 'valor_fila_4']
}

Vamos a convertirlo en un `DataFrame`:

In [3]:
df = pd.DataFrame(datos)
df

Unnamed: 0,columna_1,columna_2,columna_3,columna_4
0,valor_fila_0,valor_fila_0,valor_fila_0,valor_fila_0
1,valor_fila_1,valor_fila_1,valor_fila_1,valor_fila_1
2,valor_fila_2,valor_fila_2,valor_fila_2,valor_fila_2
3,valor_fila_3,valor_fila_3,valor_fila_3,valor_fila_3
4,valor_fila_4,valor_fila_4,valor_fila_4,valor_fila_4


También podemos pasarle explícitamente un índice para cambiar el índice default:

In [4]:
df= pd.DataFrame(datos,index=["a","b","c","d","e"] )
df

Unnamed: 0,columna_1,columna_2,columna_3,columna_4
a,valor_fila_0,valor_fila_0,valor_fila_0,valor_fila_0
b,valor_fila_1,valor_fila_1,valor_fila_1,valor_fila_1
c,valor_fila_2,valor_fila_2,valor_fila_2,valor_fila_2
d,valor_fila_3,valor_fila_3,valor_fila_3,valor_fila_3
e,valor_fila_4,valor_fila_4,valor_fila_4,valor_fila_4


La columna que obtuvimos es una `Serie` de pandas con una propiedad `Name`.

También podemos ver más de una columna pasando una `lista` con los nombres de las columnas que queremos en el orden que las queremos:

In [6]:
df

Unnamed: 0,columna_1,columna_2,columna_3,columna_4
a,valor_fila_0,valor_fila_0,valor_fila_0,valor_fila_0
b,valor_fila_1,valor_fila_1,valor_fila_1,valor_fila_1
c,valor_fila_2,valor_fila_2,valor_fila_2,valor_fila_2
d,valor_fila_3,valor_fila_3,valor_fila_3,valor_fila_3
e,valor_fila_4,valor_fila_4,valor_fila_4,valor_fila_4


In [7]:
df[['columna_1', "columna_2"]]

Unnamed: 0,columna_1,columna_2
a,valor_fila_0,valor_fila_0
b,valor_fila_1,valor_fila_1
c,valor_fila_2,valor_fila_2
d,valor_fila_3,valor_fila_3
e,valor_fila_4,valor_fila_4


In [9]:
df_2 = df[['columna_1', 'columna_4']]

>Importante: Usamos las palabras `observar` o `ver` porque indexar columnas no regresa una copia de esas columnas, sino solamente una "vista" de esas columnas, como si estuviéramos viéndolas a través de una ventana. Eso quiere decir que los cambios que realicemos a las "vista" no se verán reflejados en el `DataFrame` original.

   Para indexar filas, podemos usar el operador loc.

Podemos pedir una sola fila:

In [10]:
df_2

Unnamed: 0,columna_1,columna_4
a,valor_fila_0,valor_fila_0
b,valor_fila_1,valor_fila_1
c,valor_fila_2,valor_fila_2
d,valor_fila_3,valor_fila_3
e,valor_fila_4,valor_fila_4


In [12]:
df.loc['d']

columna_1    valor_fila_3
columna_2    valor_fila_3
columna_3    valor_fila_3
columna_4    valor_fila_3
Name: d, dtype: object

In [13]:
df.iloc[3]

columna_1    valor_fila_3
columna_2    valor_fila_3
columna_3    valor_fila_3
columna_4    valor_fila_3
Name: d, dtype: object

O podemos pedir varias filas

In [15]:
df.loc[['b',"d","a"]]

Unnamed: 0,columna_1,columna_2,columna_3,columna_4
b,valor_fila_1,valor_fila_1,valor_fila_1,valor_fila_1
d,valor_fila_3,valor_fila_3,valor_fila_3,valor_fila_3
a,valor_fila_0,valor_fila_0,valor_fila_0,valor_fila_0


Podemos pedir rangos

In [17]:
df

Unnamed: 0,columna_1,columna_2,columna_3,columna_4
a,valor_fila_0,valor_fila_0,valor_fila_0,valor_fila_0
b,valor_fila_1,valor_fila_1,valor_fila_1,valor_fila_1
c,valor_fila_2,valor_fila_2,valor_fila_2,valor_fila_2
d,valor_fila_3,valor_fila_3,valor_fila_3,valor_fila_3
e,valor_fila_4,valor_fila_4,valor_fila_4,valor_fila_4


In [20]:
df[:"d"]

Unnamed: 0,columna_1,columna_2,columna_3,columna_4
a,valor_fila_0,valor_fila_0,valor_fila_0,valor_fila_0
b,valor_fila_1,valor_fila_1,valor_fila_1,valor_fila_1
c,valor_fila_2,valor_fila_2,valor_fila_2,valor_fila_2
d,valor_fila_3,valor_fila_3,valor_fila_3,valor_fila_3


In [21]:
df["b":"d"]

Unnamed: 0,columna_1,columna_2,columna_3,columna_4
b,valor_fila_1,valor_fila_1,valor_fila_1,valor_fila_1
c,valor_fila_2,valor_fila_2,valor_fila_2,valor_fila_2
d,valor_fila_3,valor_fila_3,valor_fila_3,valor_fila_3


In [22]:
df["b":]

Unnamed: 0,columna_1,columna_2,columna_3,columna_4
b,valor_fila_1,valor_fila_1,valor_fila_1,valor_fila_1
c,valor_fila_2,valor_fila_2,valor_fila_2,valor_fila_2
d,valor_fila_3,valor_fila_3,valor_fila_3,valor_fila_3
e,valor_fila_4,valor_fila_4,valor_fila_4,valor_fila_4


In [23]:
df[:]

Unnamed: 0,columna_1,columna_2,columna_3,columna_4
a,valor_fila_0,valor_fila_0,valor_fila_0,valor_fila_0
b,valor_fila_1,valor_fila_1,valor_fila_1,valor_fila_1
c,valor_fila_2,valor_fila_2,valor_fila_2,valor_fila_2
d,valor_fila_3,valor_fila_3,valor_fila_3,valor_fila_3
e,valor_fila_4,valor_fila_4,valor_fila_4,valor_fila_4


Podemos pasarle un segundo argumento a loc para seleccionar solamente algunas columnas de las filas que pedimos. En este caso estamos pidiendo la columna 'columna_2' de la fila 'b', por lo que obtenemos un solo valor:

In [25]:
df.loc["b", "columna_2"]

'valor_fila_1'

In [28]:
df["columna_2"]["b"]

'valor_fila_1'

Tambien podemos pepdir multiples filas y columnas

In [30]:
df.loc["b",["columna_4"]]

columna_4    valor_fila_1
Name: b, dtype: object

In [33]:
df.loc[["b","d"],["columna_2", "columna_4"]]

Unnamed: 0,columna_2,columna_4
b,valor_fila_1,valor_fila_1
d,valor_fila_3,valor_fila_3


In [34]:
df.loc[["b","d"],["columna_2"]]

Unnamed: 0,columna_2
b,valor_fila_1
d,valor_fila_3
