#### DataFrames

Un `DataFrame` de la librería Pandas es análogo a los _data frames_ del lenguaje R que viste en unidades anteriores de este curso. Representa un conjunto de datos en forma _tabular_, muy similar a una tabla en base de datos o también a una hoja de cálculo. Puedes verlo como una colección de columnas o series alineadas, cada columna con su propio nombre o etiqueta, y además pudiendo ser cada una de un tipo de dato distinto.

In [None]:
# Creamos un `DataFrame` utilizando un diccionario
df1 = DataFrame({'mes' : ["Ene","Feb","Mar","Abr","May","Jun",
                          "Jul","Ago","Sep","Oct","Nov","Dic"],
                 'temp_c' : [7.2, 7.3, 12.1, 15.7, 20.3, 24.8, 
                             28.2, 25.6, 20.8, 16.8, 12.3, 7.8],
                 'lluvia_mm' : [21, 22, 19, 39, 44, 26, 
                                17, 17, 30, 36, 30, 21],
                 'humedad' : [75, 67, 59, 57, 54, 49, 
                              47, 51, 57, 67, 73, 76]
                })

print(df1)

    humedad  lluvia_mm  mes  temp_c
0        75         21  Ene     7.2
1        67         22  Feb     7.3
2        59         19  Mar    12.1
3        57         39  Abr    15.7
4        54         44  May    20.3
5        49         26  Jun    24.8
6        47         17  Jul    28.2
7        51         17  Ago    25.6
8        57         30  Sep    20.8
9        67         36  Oct    16.8
10       73         30  Nov    12.3
11       76         21  Dic     7.8


Una de las formas más comunes y rápidas de crear un `DataFrame` es utilizando un diccionario, como en el ejemplo que acabas de ver. Cada _clave_ del diccionario se toma como una columna. Y los _valores_ asociados a cada _clave_ son a su vez listas que contienen los valores de cada columna. Para que no haya problemas, las listas deben tener todas la misma longitud.

Si te has fijado, las columnas no salen en el mismo orden en el que las hemos definido, si no que aparecen en orden alfabético. Podemos pasar una secuencia con los nombres de las columnas para indicar el orden exacto que queremos.

In [None]:
# Creamos un `DataFrame` utilizando un diccionario
# utilizamos el argumento `columns` para especificar el orden de las columnas
df1 = DataFrame({'mes' : ["Ene","Feb","Mar","Abr","May","Jun",
                          "Jul","Ago","Sep","Oct","Nov","Dic"],
                 'temp_c' : [7.2, 7.3, 12.1, 15.7, 20.3, 24.8, 
                             28.2, 25.6, 20.8, 16.8, 12.3, 7.8],
                 'lluvia_mm' : [21, 22, 19, 39, 44, 26, 
                                17, 17, 30, 36, 30, 21],
                 'humedad' : [75, 67, 59, 57, 54, 49, 
                              47, 51, 57, 67, 73, 76]
                }, columns = ['mes','temp_c','lluvia_mm','humedad'])
print(df1)

    mes  temp_c  lluvia_mm  humedad
0   Ene     7.2         21       75
1   Feb     7.3         22       67
2   Mar    12.1         19       59
3   Abr    15.7         39       57
4   May    20.3         44       54
5   Jun    24.8         26       49
6   Jul    28.2         17       47
7   Ago    25.6         17       51
8   Sep    20.8         30       57
9   Oct    16.8         36       67
10  Nov    12.3         30       73
11  Dic     7.8         21       76


También podemos utilizar un array de Numpy o una serie para definir los valores de una columna.

In [None]:
import numpy as np

temp_mensual = Series([7.2, 7.3, 12.1, 15.7, 20.3, 24.8, 
                       28.2, 25.6, 20.8, 16.8, 12.3, 7.8])

df2 = DataFrame({'mes' : ["Ene","Feb","Mar","Abr","May","Jun",
                          "Jul","Ago","Sep","Oct","Nov","Dic"],
                 'imes' : np.arange(1, 13),
                 'temp_c' : temp_mensual,
                 'lluvia_mm' : [21, 22, 19, 39, 44, 26, 
                                17, 17, 30, 36, 30, 21],
                 'humedad' : [75, 67, 59, 57, 54, 49, 
                              47, 51, 57, 67, 73, 76]
                }, columns = ['mes','imes','temp_c','lluvia_mm','humedad'])
print(df2)

    mes  imes  temp_c  lluvia_mm  humedad
0   Ene     1     7.2         21       75
1   Feb     2     7.3         22       67
2   Mar     3    12.1         19       59
3   Abr     4    15.7         39       57
4   May     5    20.3         44       54
5   Jun     6    24.8         26       49
6   Jul     7    28.2         17       47
7   Ago     8    25.6         17       51
8   Sep     9    20.8         30       57
9   Oct    10    16.8         36       67
10  Nov    11    12.3         30       73
11  Dic    12     7.8         21       76


De forma similar a las Series, los DataFrames también incorporan un índice que permite acceder a las filas. Por defecto se asigna la secuencia de índices posicionales habitual, comenzando en cero. Pero también es posible especificar cualquier otra secuencia de etiquetas para indexar el contenido del DataFrame.

In [None]:
# Vimos como crear una serie con etiquetas como índice
temp_mensual = Series([7.2, 7.3, 12.1, 15.7, 20.3, 24.8, 
                       28.2, 25.6, 20.8, 16.8, 12.3, 7.8],
                     index = ["Ene","Feb","Mar","Abr","May","Jun",
                              "Jul","Ago","Sep","Oct","Nov","Dic"])

# También podemos definir el índice en un DataFrame
df3 = DataFrame({'imes' : np.arange(1, 13),
                 'temp_c' : temp_mensual,
                 'lluvia_mm' : [21, 22, 19, 39, 44, 26, 
                                17, 17, 30, 36, 30, 21],
                 'humedad' : [75, 67, 59, 57, 54, 49, 
                              47, 51, 57, 67, 73, 76]}, 
                columns = ['imes','temp_c','lluvia_mm','humedad'],
                index = ["Ene","Feb","Mar","Abr","May","Jun",
                         "Jul","Ago","Sep","Oct","Nov","Dic"])
print(df3)

     imes  temp_c  lluvia_mm  humedad
Ene     1     7.2         21       75
Feb     2     7.3         22       67
Mar     3    12.1         19       59
Abr     4    15.7         39       57
May     5    20.3         44       54
Jun     6    24.8         26       49
Jul     7    28.2         17       47
Ago     8    25.6         17       51
Sep     9    20.8         30       57
Oct    10    16.8         36       67
Nov    11    12.3         30       73
Dic    12     7.8         21       76


Podemos listar la secuencia de etiquetas que forman el índice, o la secuencia de etiquetas con los nombres de las columnas de un DataFrame.

In [None]:
# Índice asociado al DataFrame
df3.index

Index(['Ene', 'Feb', 'Mar', 'Abr', 'May', 'Jun', 'Jul', 'Ago', 'Sep', 'Oct',
       'Nov', 'Dic'],
      dtype='object')

In [None]:
# Columnas del DataFrame
df3.columns

Index(['imes', 'temp_c', 'lluvia_mm', 'humedad'], dtype='object')

Como ves, la información de los nombres del índice (filas) y de los nombres de las columnas se almacenan ambas en objetos de tipo `Index`.

Veamos algunas operaciones básicas para una primera inspección del contenido de un DataFrame.

In [None]:
# Tamaño del DataFrame (num. filas, num. columnas)
df3.shape

(12, 4)

In [None]:
# La forma más rápida de sacar el número de filas
df3.shape[0]

12

In [None]:
# Tamaño total (num. total de elementos)
df3.size

48

In [None]:
# Mostrar las N primeras filas (5 por defecto)
df3.head()

Unnamed: 0,imes,temp_c,lluvia_mm,humedad
Ene,1,7.2,21,75
Feb,2,7.3,22,67
Mar,3,12.1,19,59
Abr,4,15.7,39,57
May,5,20.3,44,54


In [None]:
# o las N últimas
df3.tail(3)

Unnamed: 0,imes,temp_c,lluvia_mm,humedad
Oct,10,16.8,36,67
Nov,11,12.3,30,73
Dic,12,7.8,21,76


In [None]:
# Conteo de elementos no nulos
# en cada columna
df3.count()

imes         12
temp_c       12
lluvia_mm    12
humedad      12
dtype: int64

In [None]:
# Resumen con estadísticas básicas de cada columna
df3.describe()

Unnamed: 0,imes,temp_c,lluvia_mm,humedad
count,12.0,12.0,12.0,12.0
mean,6.5,16.575,26.833333,61.0
std,3.605551,7.42234,9.013458,10.277955
min,1.0,7.2,17.0,47.0
25%,3.75,11.025,20.5,53.25
50%,6.5,16.25,24.0,58.0
75%,9.25,21.8,31.5,68.5
max,12.0,28.2,44.0,76.0
