<a href="https://colab.research.google.com/github/fermuba/Procesamiento-de-Datos/blob/main/S4/Ejemplos_clase%20/Ejemplo_4_dataframes.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

## Ejemplo 4: DataFrames

### 1. Objetivos:
    - Aprender a crear `DataFrames` usando diccionarios de listas
    - Aprender a indexar `DataFrames` para obtener subconjuntos de datos

---
    
### 2. Desarrollo:

In [None]:
# Cargamos librerias
import pandas as pd

Los `DataFrames` son entonces estructuras de datos bidimensionales. Tienen filas y columnas. Hay innumerables formas de crear `DataFrames` (si quieren ahondar en el tema, [aquí hay una fuente](https://www.geeksforgeeks.org/different-ways-to-create-pandas-dataframe/) muy completa). Vamos a aprender una de ellas: los diccionarios de listas.

Aquí tenemos un diccionario de listas:

In [None]:
# Creamos un diccionario, de listas como valores
datos = {
    'columna_1': ['valor_fila_0', 'valor_fila_1', 'valor_fila_2', 'valor_fila_3', 'valor_fila_4'],
    'columna_2': ['valor_fila_0', 'valor_fila_1', 'valor_fila_2', 'valor_fila_3', 'valor_fila_4'],
    'columna_3': ['valor_fila_0', 'valor_fila_1', 'valor_fila_2', 'valor_fila_3', 'valor_fila_4'],
    'columna_4': ['valor_fila_0', 'valor_fila_1', 'valor_fila_2', 'valor_fila_3', 'valor_fila_4']
}

Vamos a convertirlo en un `DataFrame`:

In [None]:
# Crear un DataFrame desde un diccionario
df = pd.DataFrame(datos)

df

Unnamed: 0,columna_1,columna_2,columna_3,columna_4
0,valor_fila_0,valor_fila_0,valor_fila_0,valor_fila_0
1,valor_fila_1,valor_fila_1,valor_fila_1,valor_fila_1
2,valor_fila_2,valor_fila_2,valor_fila_2,valor_fila_2
3,valor_fila_3,valor_fila_3,valor_fila_3,valor_fila_3
4,valor_fila_4,valor_fila_4,valor_fila_4,valor_fila_4


También podemos pasarle explícitamente un índice para cambiar el índice default:

In [None]:
# Creacion de DataFrame definiendo los indices para las filas
df = pd.DataFrame(datos, index=['a', 'b', 'c', 'd', 'e'])

df

Unnamed: 0,columna_1,columna_2,columna_3,columna_4
a,valor_fila_0,valor_fila_0,valor_fila_0,valor_fila_0
b,valor_fila_1,valor_fila_1,valor_fila_1,valor_fila_1
c,valor_fila_2,valor_fila_2,valor_fila_2,valor_fila_2
d,valor_fila_3,valor_fila_3,valor_fila_3,valor_fila_3
e,valor_fila_4,valor_fila_4,valor_fila_4,valor_fila_4


Para observar columnas individualmente, usamos el `operador de indexación` y le pasamos el nombre de la columna:

In [None]:
# Seleccionar una columna para ver su contenido
df['columna_1']

a    valor_fila_0
b    valor_fila_1
c    valor_fila_2
d    valor_fila_3
e    valor_fila_4
Name: columna_1, dtype: object

La columna que obtuvimos es una `Serie` de `pandas` con una propiedad `Name`.

También podemos ver más de una columna pasando una `lista` con los nombres de las columnas que queremos en el orden que las queremos:

In [None]:
# Seleccion de mas de una columna
df[['columna_3', 'columna_1']]

Unnamed: 0,columna_3,columna_1
a,valor_fila_0,valor_fila_0
b,valor_fila_1,valor_fila_1
c,valor_fila_2,valor_fila_2
d,valor_fila_3,valor_fila_3
e,valor_fila_4,valor_fila_4


> **Importante**: Usamos las palabras `observar` o `ver` porque indexar columnas no regresa una copia de esas columnas, sino solamente una "vista" de esas columnas, como si estuviéramos viéndolas a través de una ventana. Eso quiere decir que los cambios que realicemos a las "vista" se verán reflejados en el `DataFrame` original.

Para indexar filas, podemos usar el operador `loc`.

Podemos pedir una sola fila:

In [None]:
# Seleccion de filas
df.loc['a']

columna_1    valor_fila_0
columna_2    valor_fila_0
columna_3    valor_fila_0
columna_4    valor_fila_0
Name: a, dtype: object

O podemos pedir varias:

In [None]:
# Seleccion de varias filas
df.loc[['c', 'a']]

Unnamed: 0,columna_1,columna_2,columna_3,columna_4
c,valor_fila_2,valor_fila_2,valor_fila_2,valor_fila_2
a,valor_fila_0,valor_fila_0,valor_fila_0,valor_fila_0


Podemos pedir rangos también:

In [None]:
# Seleccion con operador : [inicio:fin]
df.loc['b':]

Unnamed: 0,columna_1,columna_2,columna_3,columna_4
b,valor_fila_1,valor_fila_1,valor_fila_1,valor_fila_1
c,valor_fila_2,valor_fila_2,valor_fila_2,valor_fila_2
d,valor_fila_3,valor_fila_3,valor_fila_3,valor_fila_3
e,valor_fila_4,valor_fila_4,valor_fila_4,valor_fila_4


In [None]:
# Seleccion con operador : en un intervalo [inicio:fin]

df.loc['b':'d']

Unnamed: 0,columna_1,columna_2,columna_3,columna_4
b,valor_fila_1,valor_fila_1,valor_fila_1,valor_fila_1
c,valor_fila_2,valor_fila_2,valor_fila_2,valor_fila_2
d,valor_fila_3,valor_fila_3,valor_fila_3,valor_fila_3


Podemos pasarle un segundo argumento a `loc` para seleccionar solamente algunas columnas de las filas que pedimos. En este caso estamos pidiendo la columna 'columna_2' de la fila 'b', por lo que obtenemos un solo valor:

In [None]:
# Seleccion de fila y columna [fila, columna]
df.loc['b', 'columna_2']

'valor_fila_1'

También podemos pedir múltiples filas y columnas:

In [None]:
# Seleccion multiple  de filas y columnas
df.loc[['e', 'c'], ['columna_4', 'columna_2']]

Unnamed: 0,columna_4,columna_2
e,valor_fila_4,valor_fila_4
c,valor_fila_2,valor_fila_2


¡Vayamos a practicar esto en un Reto!