# Creación de DataFrames

Los DataFrames en python suelen tener dos dimensiones y en ellos se almacena la información en forma estructurada. La primera dimensión son las **filas**, y corresponden al *axis = 0*. La segunda dimensión son las **columnas** y corresponden al *axis = 1*. La librería que se requiere para el uso de DataFrames o tablas en Python es `pandas`

In [1]:
# Importamos las librerías necesarias

import pandas as pd #importo la librería pandas y le pongo el alias pd

In [2]:
# Creamos un nuevo DataFrame a partir de listas

estaturas = pd.DataFrame([["Lina", 159, 41], ["Cristobal", 186, 17], ["Juan David", 150, 16],
                          ["Andrea", 154, 17], ["Ángel", 170, 17], ["Gustavo", 168, 24],
                          ["Mateo", 170, 16], ["Cristian", 165, 17], ["Marilyn", 155, 20],
                          ["Yuliana", 160, 16], ["Salomón", 177, 18], ["Juan Pablo", 173, 17],
                          ["Valentina", 167, 18], ["Gabriel", 181, 19], ["Juan Felipe", 177, 21],
                          ["Mariana", 155, 22], ["Ximena", 155, 17], ["Karen", 168, 16],
                          ["Manuel", 170, 21]], columns = ['Nombre', 'Estatura', 'Edad'])

In [None]:
estaturas #impresión implícita

In [None]:
print(estaturas) #impresión explícita

In [5]:
# Creamos un DataFrame a partir de diccionarios

estaturas_diccionarios = pd.DataFrame({"Nombre": ["Lina", "Cristobal", "Juan David",
                                                   "Andrea", "Ángel", "Gustavo",
                                                   "Mateo", "Cristian", "Marilyn",
                                                   "Yuliana", "Salomón",
                                                   "Juan Pablo", "Valentina", "Gabriel",
                                                   "Juan Felipe", "Mariana", "Ximena",
                                                   "Karen", "Manuel"],
                                        "Color": ["Negro", "Verde", "Negro", "Azul",
                                                  "Blanco", "Rojo", "Rojo", "Azul",
                                                  "Morado", "Rosado", "Verde", "Rojo",
                                                  "Lila", "Naranja", "Negro", "Negro",
                                                  "Negro", "Negro", "Verde"]})

In [None]:
estaturas_diccionarios

## Index o índice

Es un número que se genera de forma automática y que numera las filas de las tablas. Podemos cambiar el índice con la función `set_index`

In [None]:
#fijamos el índice para la tabla actual.
#el set_index debe contener el o los nombres de las columnas
#que quiero fijar como índices

estaturas_diccionarios = estaturas_diccionarios.set_index("Nombre")
estaturas_diccionarios

# Lectura de archivos en excel

Para la generación de tablas a partir de archivos ya existes en excel, usamos la función `read_excel`. En caso de que tengamos un archivo tipo `csv` usamos el mismo procedimiento pero con la función `read_csv`.

In [None]:
# hacemos la lectura del archivo ubicado en el directorio
# temporal de colab

datos = pd.read_excel("/content/LibroDiario.xlsx")

#visualizamos los 3 primeros registros o filas de los datos
datos.head(3)

In [None]:
#visualizamos los 6 últimos registros o filas de los datos
datos.tail(6)

In [None]:
#visualizamos la cantidad máxima de registros permitida
datos

# Agrupaciones

Sirven para agrupar datos de acuerdo a algunas de las columnas o filas de la tabla. La idea siempre es que cada agrupación esté acompañada de una medida.

In [16]:
#para nuestro ejemplo, agruparemos primero la tabla por Naturaleza

datos_agrupados = datos.groupby("Naturaleza")

#generamos la medida Crédito

credito = datos_agrupados["Crédito"].sum()

#generamos la medida Débito

debito = datos_agrupados["Débito"].sum()


In [17]:
#visualizamos el resultado
print(credito)
print(debito)

Naturaleza
CR    864500000
DB    188400000
Name: Crédito, dtype: int64
Naturaleza
CR    112400000
DB    940500000
Name: Débito, dtype: int64


In [22]:
# Vamos a agrupar por A - PS -PT y vamos a calcular el promedio del
#crédito

#genero la agrupación
datos_tipologia = datos.groupby("A - PS - PT")

#calculamos la medida y la visualizamos
datos_tipologia["Crédito"].sum()

A - PS - PT
AC            188400000
ANC                   0
ER-Costo              0
ER-Gastos             0
ER-Ingreso    145000000
PCP           119500000
PT            600000000
Name: Crédito, dtype: int64