DataFrame:
El DataFrame tiene tanto un índice de fila como de
columna; puede considerarse como un diccionario de Series que comparten el mismo índice.
Hay muchas maneras de construir un DataFrame, aunque una de las más comunes es a partir
de un diccionario de listas de igual longitud o arrays de NumPy:

In [3]:
import numpy as np
import pandas as pd

In [4]:
data = {"state": ["Ohio", "Ohio", "Ohio", "Nevada", "Nevada", "Nevada"],
 "year": [2000, 2001, 2002, 2001, 2002, 2003],
 "pop": [1.5, 1.7, 3.6, 2.4, 2.9, 3.2]}
frame = pd.DataFrame(data)

In [5]:
frame

Unnamed: 0,state,year,pop
0,Ohio,2000,1.5
1,Ohio,2001,1.7
2,Ohio,2002,3.6
3,Nevada,2001,2.4
4,Nevada,2002,2.9
5,Nevada,2003,3.2


Para DataFrames grandes, el método head selecciona sólo las cinco primeras filas:

In [6]:
frame.head()

Unnamed: 0,state,year,pop
0,Ohio,2000,1.5
1,Ohio,2001,1.7
2,Ohio,2002,3.6
3,Nevada,2001,2.4
4,Nevada,2002,2.9


Del mismo modo, tail devuelve las cinco últimas filas:

In [7]:
frame.tail()


Unnamed: 0,state,year,pop
1,Ohio,2001,1.7
2,Ohio,2002,3.6
3,Nevada,2001,2.4
4,Nevada,2002,2.9
5,Nevada,2003,3.2


Si especifica una secuencia de columnas, las columnas del DataFrame se ordenarán en ese
orden:

In [8]:
pd.DataFrame(data, columns=["year", "state", "pop"])

Unnamed: 0,year,state,pop
0,2000,Ohio,1.5
1,2001,Ohio,1.7
2,2002,Ohio,3.6
3,2001,Nevada,2.4
4,2002,Nevada,2.9
5,2003,Nevada,3.2


Si pasa una columna que no está contenida en el diccionario, aparecerá con valores ausentes
en el resultado:

In [9]:
frame2 = pd.DataFrame(data, columns=["year", "state", "pop", "debt"])
frame2

Unnamed: 0,year,state,pop,debt
0,2000,Ohio,1.5,
1,2001,Ohio,1.7,
2,2002,Ohio,3.6,
3,2001,Nevada,2.4,
4,2002,Nevada,2.9,
5,2003,Nevada,3.2,


In [10]:
frame2.columns

Index(['year', 'state', 'pop', 'debt'], dtype='object')

Una columna de un DataFrame puede recuperarse como una Serie mediante notación tipo
diccionario o utilizando la notación de atributo . (dot notation)

In [15]:
frame2["state"]

0      Ohio
1      Ohio
2      Ohio
3    Nevada
4    Nevada
5    Nevada
Name: state, dtype: object

In [11]:
frame2.year

0    2000
1    2001
2    2002
3    2001
4    2002
5    2003
Name: year, dtype: int64

Las filas también pueden recuperarse por posición o nombre con los atributos especiales
iloc y loc 

In [12]:
frame2

Unnamed: 0,year,state,pop,debt
0,2000,Ohio,1.5,
1,2001,Ohio,1.7,
2,2002,Ohio,3.6,
3,2001,Nevada,2.4,
4,2002,Nevada,2.9,
5,2003,Nevada,3.2,


In [18]:
frame2.loc[1]

year     2001
state    Ohio
pop       1.7
debt     16.5
Name: 1, dtype: object

In [19]:
frame2.iloc[2]

year     2002
state    Ohio
pop       3.6
debt     16.5
Name: 2, dtype: object

Las columnas pueden modificarse por asignación. Por ejemplo, a la columna debt vacía se
le puede asignar un valor escalar o un array de valores

In [17]:
frame2["debt"] = 16.5
frame2

Unnamed: 0,year,state,pop,debt
0,2000,Ohio,1.5,16.5
1,2001,Ohio,1.7,16.5
2,2002,Ohio,3.6,16.5
3,2001,Nevada,2.4,16.5
4,2002,Nevada,2.9,16.5
5,2003,Nevada,3.2,16.5


Cuando asigne listas o arrays a una columna, la longitud del valor debe coincidir con la
longitud del DataFrame. Si asigna una Series , sus etiquetas se realinearán exactamente
con el índice del DataFrame, insertando los valores que falten en cualquier valor del índice
que no esté presente:

In [20]:
val = pd.Series([-1.2, -1.5, -1.7], index=[2, 4, 5])
frame2["debt"] = val
frame2

Unnamed: 0,year,state,pop,debt
0,2000,Ohio,1.5,
1,2001,Ohio,1.7,
2,2002,Ohio,3.6,-1.2
3,2001,Nevada,2.4,
4,2002,Nevada,2.9,-1.5
5,2003,Nevada,3.2,-1.7


Al asignar una columna que no existe se creará una columna
nueva. La palabra clave del borrará columnas como con un
diccionario. Como ejemplo, primero se añade una nueva
columna de valores booleanos donde la columna state es
igual a "Ohio" :

In [21]:
frame2["eastern"] = frame2["state"] == "Ohio"
frame2

Unnamed: 0,year,state,pop,debt,eastern
0,2000,Ohio,1.5,,True
1,2001,Ohio,1.7,,True
2,2002,Ohio,3.6,-1.2,True
3,2001,Nevada,2.4,,False
4,2002,Nevada,2.9,-1.5,False
5,2003,Nevada,3.2,-1.7,False


El método del se puede utilizar para eliminar esta columna:

In [22]:
del frame2["eastern"]

In [23]:
frame2.columns


Index(['year', 'state', 'pop', 'debt'], dtype='object')

In [24]:
frame2

Unnamed: 0,year,state,pop,debt
0,2000,Ohio,1.5,
1,2001,Ohio,1.7,
2,2002,Ohio,3.6,-1.2
3,2001,Nevada,2.4,
4,2002,Nevada,2.9,-1.5
5,2003,Nevada,3.2,-1.7


In [25]:
frame

Unnamed: 0,state,year,pop
0,Ohio,2000,1.5
1,Ohio,2001,1.7
2,Ohio,2002,3.6
3,Nevada,2001,2.4
4,Nevada,2002,2.9
5,Nevada,2003,3.2


La columna devuelta al indexar un DataFrame es una vista de los datos subyacentes, no una
copia. Por lo tanto, cualquier modificación en la Series se reflejará en el DataFrame. La
columna puede copiarse explícitamente con el método copy de la Series .
Otra forma común de datos es un diccionario anidado de diccionarios:

In [27]:
populations = {"Ohio": {2000: 1.5, 2001: 1.7, 2002: 3.6}, "Nevada": {2001: 2.4, 2002:2.9}}
               

Si el diccionario anidado se pasa al DataFrame, pandas interpretará las claves externas del
diccionario como las columnas, y las claves internas como los índices de fila:

In [28]:
frame3 = pd.DataFrame(populations)
frame3

Unnamed: 0,Ohio,Nevada
2000,1.5,
2001,1.7,2.4
2002,3.6,2.9


Puede transponer el DataFrame (intercambiar filas y columnas) con una sintaxis similar a la
de un array NumPy:

In [29]:
frame3.T

Unnamed: 0,2000,2001,2002
Ohio,1.5,1.7,3.6
Nevada,,2.4,2.9


In [30]:
frame3

Unnamed: 0,Ohio,Nevada
2000,1.5,
2001,1.7,2.4
2002,3.6,2.9


Cuidado
Tenga en cuenta que la transposición descarta los tipos de datos de columna si las columnas
no tienen todas el mismo tipo de datos, por lo que transponer y luego volver a transponer
puede perder la información del tipo anterior. En este caso, las columnas se convierten en
arrays de objetos Python puros.
Las claves de los diccionarios internos se combinan para formar el índice del resultado. Esto
no es cierto si se especifica un índice explícito:


In [31]:
pd.DataFrame(populations, index=[2001, 2002, 2003])


Unnamed: 0,Ohio,Nevada
2001,1.7,2.4
2002,3.6,2.9
2003,,


Los diccionarios de Series reciben un tratamiento muy similar:


In [32]:
pdata = {"Ohio": frame3["Ohio"][:-1],"Nevada": frame3["Nevada"][:2]}
# frame3["Ohio"][:-1]: Extrae todos los valores de la columna “Ohio”
# excepto el último valor.
# frame3["Nevada"][:2]:Extrae los primeros dos valores de la columna “Nevada”
# en el DataFrame frame3.
pdata

{'Ohio': 2000    1.5
 2001    1.7
 Name: Ohio, dtype: float64,
 'Nevada': 2000    NaN
 2001    2.4
 Name: Nevada, dtype: float64}

In [33]:
pd.DataFrame(pdata)

Unnamed: 0,Ohio,Nevada
2000,1.5,
2001,1.7,2.4


Posibles entradas de datos para el constructor
DataFrame


In [34]:
frame3

Unnamed: 0,Ohio,Nevada
2000,1.5,
2001,1.7,2.4
2002,3.6,2.9


In [35]:
frame3.index.name = "year"
frame3.columns.name = "state"
frame3


state,Ohio,Nevada
year,Unnamed: 1_level_1,Unnamed: 2_level_1
2000,1.5,
2001,1.7,2.4
2002,3.6,2.9


A diferencia de Series , DataFrame no tiene atributo name. El método to_numpy de
DataFrame devuelve los datos contenidos en el DataFrame como un ndarray
bidimensional:

In [36]:
frame3.to_numpy()

array([[1.5, nan],
       [1.7, 2.4],
       [3.6, 2.9]])

Si las columnas del DataFrame son de diferentes tipos de datos, el tipo de datos del array
devuelto se elegirá para acomodar todas las columnas, veamos lo que contiene frame2:

In [37]:
frame2

Unnamed: 0,year,state,pop,debt
0,2000,Ohio,1.5,
1,2001,Ohio,1.7,
2,2002,Ohio,3.6,-1.2
3,2001,Nevada,2.4,
4,2002,Nevada,2.9,-1.5
5,2003,Nevada,3.2,-1.7


In [38]:
frame2.to_numpy()

array([[2000, 'Ohio', 1.5, nan],
       [2001, 'Ohio', 1.7, nan],
       [2002, 'Ohio', 3.6, -1.2],
       [2001, 'Nevada', 2.4, nan],
       [2002, 'Nevada', 2.9, -1.5],
       [2003, 'Nevada', 3.2, -1.7]], dtype=object)

Objetos índice
Los objetos Index de pandas son responsables de mantener las etiquetas de los ejes
(incluyendo los nombres de las columnas de un DataFrame) y otros metadatos (como el nombre o nombres de los ejes). Cualquier array u otra secuencia de etiquetas que se utilice
al construir una Series o DataFrame se convierte internamente en un Índice:

In [39]:
obj = pd.Series(np.arange(3), index=["a", "b", "c"])
obj


a    0
b    1
c    2
dtype: int64

In [40]:
index = obj.index
index

Index(['a', 'b', 'c'], dtype='object')

In [41]:
index[1:]


Index(['b', 'c'], dtype='object')

La inmutabilidad hace que sea más seguro compartir objetos índice entre estructuras de
datos:


In [43]:
labels = pd.Index(np.arange(3))
labels

Index([0, 1, 2], dtype='int64')

In [44]:
obj2 = pd.Series([1.5, -2.5, 0], index=labels)
obj2


0    1.5
1   -2.5
2    0.0
dtype: float64

In [45]:
obj2.index is labels

True

Además de ser similar a un array, un índice también se comporta como un conjunto (set) de
tamaño fijo:

In [46]:
frame3

state,Ohio,Nevada
year,Unnamed: 1_level_1,Unnamed: 2_level_1
2000,1.5,
2001,1.7,2.4
2002,3.6,2.9


In [47]:
frame3.columns

Index(['Ohio', 'Nevada'], dtype='object', name='state')

In [48]:
"Ohio" in frame3.columns

True

In [49]:
"Ohio" in frame3.index

False

A diferencia de los conjuntos ( set() ) de Python, un índice de pandas puede contener
etiquetas duplicadas:

In [50]:
pd.Index(["foo", "foo", "bar", "bar"])


Index(['foo', 'foo', 'bar', 'bar'], dtype='object')

Funciones esenciales
Esta sección es una guia a través de la mecánica fundamental de la interacción con los datos
contenidos en una Serie o DataFrame.

Reindexación (Reindexing)
Un método importante en los objetos pandas es reindex , que significa crear un nuevo
objeto con los valores reordenados para alinearlos con el nuevo índice. Consideremos un
ejemplo:

In [51]:
obj = pd.Series([4.5, 7.2, -5.3, 3.6], index=["d", "b", "a", "c"])
obj


d    4.5
b    7.2
a   -5.3
c    3.6
dtype: float64

Si se llama a reindex en esta Series , los datos se reordenan de acuerdo con el nuevo
índice, introduciendo los valores que faltan si alguno de los valores del índice no estaba ya
presente:

In [52]:
obj2 = obj.reindex(["a", "b", "c", "d", "e"])
obj2


a   -5.3
b    7.2
c    3.6
d    4.5
e    NaN
dtype: float64

En el caso de datos ordenados como series temporales, es posible que desee realizar alguna
interpolación o relleno de valores al reindexar. Utilizando un método como ffill , que
rellena los valores hacia delante

In [53]:
obj3 = pd.Series(["blue", "purple", "yellow"], index=[0, 2, 4])
obj3

0      blue
2    purple
4    yellow
dtype: object

In [54]:
obj3.reindex(np.arange(6), method="ffill")


0      blue
1      blue
2    purple
3    purple
4    yellow
5    yellow
dtype: object

Con DataFrame, reindex puede alterar el índice (de filas), las columnas o ambos. Si sólo se
le pasa una secuencia, reindexa las filas del resultado:


In [57]:
frame = pd.DataFrame(np.arange(9).reshape((3, 3)),index=["a", "c", "d"],columns=["Ohio","Texas","California"])
frame

Unnamed: 0,Ohio,Texas,California
a,0,1,2
c,3,4,5
d,6,7,8


In [58]:
frame2 = frame.reindex(index=["a", "b", "c", "d"])
frame2

Unnamed: 0,Ohio,Texas,California
a,0.0,1.0,2.0
b,,,
c,3.0,4.0,5.0
d,6.0,7.0,8.0


The columns can be reindexed with the columns keyword

In [59]:
frame

Unnamed: 0,Ohio,Texas,California
a,0,1,2
c,3,4,5
d,6,7,8


In [61]:
states = ["Texas", "Utah", "California"]
frame.reindex(columns=states)

Unnamed: 0,Texas,Utah,California
a,1,,2
c,4,,5
d,7,,8


Como "Ohio" no estaba en los states , los datos de esa columna se eliminan del
resultado. Otra forma de hacer reindex en un eje concreto es pasar las nuevas etiquetas de eje como argumento posicional y, a continuación, especificar el eje que se va a reindexar
con la palabra clave axis :

In [62]:
frame.reindex(states, axis="columns")

Unnamed: 0,Texas,Utah,California
a,1,,2
c,4,,5
d,7,,8


In [63]:
frame

Unnamed: 0,Ohio,Texas,California
a,0,1,2
c,3,4,5
d,6,7,8


In [64]:
frame.loc[["a", "d", "c"], ["California", "Texas"]]

Unnamed: 0,California,Texas
a,2,1
d,8,7
c,5,4


Eliminar entradas de un eje
Eliminar una o más entradas de un eje es sencillo si ya tienes un array o una lista de índices
sin esas entradas, ya que puedes utilizar el método reindex o la indexación basada en
.loc . Como eso puede requerir un poco de lógica el método drop devolverá un nuevo
objeto con el valor o valores indicados eliminados de un eje: 

In [66]:
obj = pd.Series(np.arange(5.), index=["a", "b", "c", "d", "e"])
obj


a    0.0
b    1.0
c    2.0
d    3.0
e    4.0
dtype: float64

In [67]:
new_obj = obj.drop("c")
new_obj

a    0.0
b    1.0
d    3.0
e    4.0
dtype: float64

In [68]:
obj.drop(["d", "c"])

a    0.0
b    1.0
e    4.0
dtype: float64

Con DataFrame, los valores índice se pueden eliminar de cualquiera de los ejes. Para ilustrar
esto, primero crearemos un DataFrame de ejemplo

In [69]:
data = pd.DataFrame(np.arange(16).reshape((4, 4)),
 index=["Ohio", "Colorado", "Utah", "New York"],
 columns=["one", "two", "three", "four"])
data

Unnamed: 0,one,two,three,four
Ohio,0,1,2,3
Colorado,4,5,6,7
Utah,8,9,10,11
New York,12,13,14,15


Si se llama a drop con una secuencia de etiquetas, se eliminarán los valores de las
etiquetas de fila (eje 0)

In [70]:
data.drop(index=["Colorado", "Ohio"])


Unnamed: 0,one,two,three,four
Utah,8,9,10,11
New York,12,13,14,15


Para eliminar las etiquetas de las columnas, utilice en su lugar la palabra clave columns 

In [71]:
data.drop(columns=["two"])

Unnamed: 0,one,three,four
Ohio,0,2,3
Colorado,4,6,7
Utah,8,10,11
New York,12,14,15


También puede eliminar valores de las columnas pasando axis=1 ( como en NumPy) o
axis="columns" :

In [72]:
data.drop("two", axis=1)

Unnamed: 0,one,three,four
Ohio,0,2,3
Colorado,4,6,7
Utah,8,10,11
New York,12,14,15


In [73]:
data.drop(["two", "four"], axis="columns")


Unnamed: 0,one,three
Ohio,0,2
Colorado,4,6
Utah,8,10
New York,12,14
