## DataFrame como matriz generalizada de NumPy

Si una **Serie** es un análogo de un array unidimensional con índices flexibles, un **DataFrame** es un **análogo de un array bidimensional con índices de fila y nombres de columna flexibles**. Al igual que se puede pensar en una matriz bidimensional como una secuencia ordenada de columnas unidimensionales alineadas, se puede pensar en un **DataFrame** como una secuencia de objetos **Series** alineados. Aquí, por "alineado" queremos decir que **comparten el mismo índice**.

Para comprobarlo, reconstruyamos la serie de la población de estados de la sesión anterior y luego una nueva **Serie** que enumere el área de cada uno de los cinco estados discutidos en la sesión anterior:

In [2]:
import pandas as pd

In [9]:
population_dict = {"California":38332521, 
                   "Texas":26448193,
                   "New York":19651127,
                   "Florida":19552860,
                   "Illinois":12882125}
population = pd.Series(population_dict)
population

California    38332521
Texas         26448193
New York      19651127
Florida       19552860
Illinois      12882125
dtype: int64

In [4]:
area_dict = {"California":423967, 
            "Texas":695692,
            "New York":141297,
            "Florida":170312,
            "Illinois":149995
            }

In [6]:
area=pd.Series(area_dict)
area

California    423967
Texas         695692
New York      141297
Florida       170312
Illinois      149995
dtype: int64

Ahora porcederemos a utilizar un diccionario para construir un unico objeto bidimensional que contenga
esta información:

In [26]:
estados= {"Poblacion":population,
          "Superficie":area}
estados

{'Poblacion': California    38332521
 Texas         26448193
 New York      19651127
 Florida       19552860
 Illinois      12882125
 dtype: int64,
 'Superficie': California    423967
 Texas         695692
 New York      141297
 Florida       170312
 Illinois      149995
 dtype: int64}

Ahora sí, procederemos a crear un dataframe

In [27]:
states= pd.DataFrame(estados)
states

Unnamed: 0,Poblacion,Superficie
California,38332521,423967
Texas,26448193,695692
New York,19651127,141297
Florida,19552860,170312
Illinois,12882125,149995


Al igual que el objeto Series, el DataFrame tiene un atributo index que da el acceso a las etiquetas del indice

In [16]:
states.index

Index(['California', 'Texas', 'New York', 'Florida', 'Illinois'], dtype='object')

Podemos acceder a las columnas

In [17]:
states.columns

Index(['Pobacion', 'Superficie'], dtype='object')

Podemos acceder a los valores

In [22]:
states.values

array([[38332521,   423967],
       [26448193,   695692],
       [19651127,   141297],
       [19552860,   170312],
       [12882125,   149995]])

### DataFrame como diccionario especializado

Del mismo modo, también podemos pensar en un **DataFrame** como una especialización de un diccionario. Mientras que un diccionario asigna una clave a un valor, un **DataFrame** asigna un nombre de columna a una **Serie** de datos de columna. Por ejemplo, pedir el atributo **superficie** devuelve el objeto **Series** que contiene las áreas que vimos anteriormente:

In [24]:
states["Superficie"]

California    423967
Texas         695692
New York      141297
Florida       170312
Illinois      149995
Name: Superficie, dtype: int64

In [28]:
states["Poblacion"]

California    38332521
Texas         26448193
New York      19651127
Florida       19552860
Illinois      12882125
Name: Poblacion, dtype: int64

In [29]:
states.loc["Florida"]

Poblacion     19552860
Superficie      170312
Name: Florida, dtype: int64

## Construyendo DataFrames

Un **DataFrame** de Pandas se puede construir de varias maneras. Veremos varios ejemplos.

### A partir de un único objeto Serie

Un **DataFrame** es una colección de objetos **Series**, y se puede construir un **DataFrame** de una sola columna a partir de una única **Series**:

In [31]:
pd.DataFrame(data=population,columns=["poblacion"])

Unnamed: 0,poblacion
California,38332521
Texas,26448193
New York,19651127
Florida,19552860
Illinois,12882125


Cualquier lista de diccionarios puede convertirse en un DataFrame

In [35]:
data = [{"a":i,"b":2*i} for i in range (3)]
data

[{'a': 0, 'b': 0}, {'a': 1, 'b': 2}, {'a': 2, 'b': 4}]

In [36]:
pd.DataFrame(data)

Unnamed: 0,a,b
0,0,0
1,1,2
2,2,4


Incluso si faltan algunas claves en el diccionario, Pandas las rellenará con valores  
``NaN`` (es decir, "no un número"); [De NaN y nulos como también se les conoce  
hablaremos en sesiones posteriores NaN es el acrónimo de Not a Number]

In [39]:
pd.DataFrame([{"a":1,"a":2},{"pepito":2,"juanito":4}])

Unnamed: 0,a,pepito,juanito
0,2.0,,
1,,2.0,4.0


### A partir de un diccionario de objetos Series

Como vimos antes, un ``DataFrame`` puede construirse también a partir de un
diccionario de objetos ``Series`` [que es como hemos hecho en la sesión anterior y
al principio de esta]:



In [41]:
pd.DataFrame({"population_bis":population,"area":area})

Unnamed: 0,population_bis,area
California,38332521,423967
Texas,26448193,695692
New York,19651127,141297
Florida,19552860,170312
Illinois,12882125,149995


In [43]:
pd.DataFrame({"columna_1":[12,3,4],"columna_2":[5,6,7]})

Unnamed: 0,columna_1,columna_2
0,12,5
1,3,6
2,4,7


### A partir de un array bidimensional de NumPy

Dado un array bidimensional de datos, podemos crear un DataFrame con los
nombres de columna e índice que se especifiquen. Si se omite, se utilizará un índice
entero para cada una:

In [47]:
import numpy as np
np.random.seed(10)

array_base=np.random.rand(3,2)
array_base

array([[0.77132064, 0.02075195],
       [0.63364823, 0.74880388],
       [0.49850701, 0.22479665]])

In [48]:
pd.DataFrame(array_base,columns=["col_1","col_2"],
            index = ["fil_1","fil_2","fil_3"])

Unnamed: 0,col_1,col_2
fil_1,0.771321,0.020752
fil_2,0.633648,0.748804
fil_3,0.498507,0.224797


## Index

Hemos visto que tanto los objetos Series como DataFrame contienen un índice explícito que permite referenciar y modificar los datos. Este objeto Index es una estructura interesante en sí misma, y puede ser considerada como un array inmutable o como un conjunto ordenado (técnicamente un multi-conjunto, ya que los objetos Index pueden contener valores repetidos).

Como ejemplo sencillo, construyamos un Index a partir de una lista de enteros:

In [50]:
ind = pd.Index([3,2,5,11,7])
ind

Index([3, 2, 5, 11, 7], dtype='int64')

### Index como array inmutable

El Index en muchos aspectos funciona como un array. Por ejemplo, podemos utilizar la notación de indexación estándar de Python para recuperar valores o trozos:

In [51]:
ind[1]

np.int64(2)

In [52]:
ind[2:]

Index([5, 11, 7], dtype='int64')

In [53]:
ind[::2]

Index([3, 5, 7], dtype='int64')

In [55]:
print(ind.ndim, ind.shape, ind.dtype, ind.size)

1 (5,) int64 5


In [None]:
print(ind.ndim, ind.shape, ind.dtype, ind.size)

In [59]:
print(ind.max())
print(ind.min())
print(ind.argmax())

11
2
3


Una diferencia importante entre los objetos index y las matrices Numpy es que los índices son inmutables, es decir, no
pueden ser modificados por los medios normales

Esta inmutabilidad hace que sea mas seguro compartir indices entre multiples DataFrames y Arrays, sin el potencial de efectos secundarios
de la modifcacion inadvertida del índice

## Operaciones tipo Set

Para terminar, el objeto Index permite calcular intersecciones de índices o uniones entre índices con métodos

In [63]:
indA = pd.Index([1,3,5,7,9])
indB = pd.Index([2,3,5,7,11])


In [66]:
indA.intersection(indB)

Index([3, 5, 7], dtype='int64')

In [67]:
indA.union(indB)

Index([1, 2, 3, 5, 7, 9, 11], dtype='int64')