# Empezando con Pandas

Pandas será una herramienta de gran interés en gran parte del resto del libro. Contiene estructuras de datos y herramientas de manipulación de datos diseñadas para que la **limpieza y el análisis de datos sean rápidos y fáciles en Python.** pandas se usa a menudo en conjunto con herramientas de computación numérica como NumPy y SciPy, bibliotecas analíticas como statsmodels y scikit-learn, y bibliotecas de visualización de datos como matplotlib. pandas adopta partes significativas del estilo idiomático de computación basada en matrices de NumPy, especialmente funciones basadas en matrices y una preferencia por el procesamiento de datos sin bucles for.

Si bien pandas adopta muchos modismos de codificación de NumPy, la mayor diferencia es que pandas está diseñado para **trabajar con datos tabulares o heterogéneos.** NumPy, por el contrario, es más adecuado para trabajar con datos de **matriz numérica homogénea.**

Desde que se convirtió en un proyecto de código abierto en 2010, pandas se ha convertido en una biblioteca bastante grande que se puede aplicar en un amplio conjunto de casos de uso del mundo real. La comunidad de desarrolladores ha crecido hasta contar con más de **800 colaboradores distintos, que han estado ayudando a construir el proyecto, ya que lo han utilizado para resolver sus problemas de datos diarios.**



In [1]:
import pandas as pd

Por lo tanto, siempre que vea `pd`. en código, se refiere a  pandas. También puede resultarle más fácil importar Series y DataFrame en el espacio de nombres local, ya que se usan con tanta frecuencia:

In [2]:
from pandas import Series,DataFrame

## Estructuras de Datos con Pandas.

Para comenzar con pandas, deberá sentirse cómodo con sus dos estructuras de datos : **Series** y **DataFrame**. Si bien no son una solución universal para todos los problemas, brindan una base sólida y fácil de usar para la mayoría de las aplicaciones.

## Series

Una serie es un objeto similar a una matriz unidimensional que contiene una secuencia de valores (de tipos similares a los tipos NumPy) y una matriz asociada de etiquetas de datos, llamada index. La serie más simple se forma a partir de solo una matriz de datos:

In [3]:
serieP = pd.Series([4,7,-5,3])
print(serieP)

0    4
1    7
2   -5
3    3
dtype: int64


La representación de  String de una Serie mostrada de forma interactiva muestra el **índice a la izquierda** y los **valores a la derecha.** Como **no especificamos un índice para los datos, se crea uno predeterminado que consta de los números enteros del 0 al $N - 1 $** (donde N es la longitud de los datos). Puede obtener la representación de matriz y el objeto de índice de la Serie a través de sus valores y atributos de índice, respectivamente:

In [4]:
print(serieP.values) # obtenemos valores
print(serieP.index) # info acerca del indice de nuestra serie

[ 4  7 -5  3]
RangeIndex(start=0, stop=4, step=1)


A menudo, será deseable crear una serie con un índice que identifique cada punto de datos con una etiqueta:

In [5]:
sserie = pd.Series([1,2,3,4],index=['fer','mac','ra','hp'])
print(sserie)
print(sserie.index)

fer    1
mac    2
ra     3
hp     4
dtype: int64
Index(['fer', 'mac', 'ra', 'hp'], dtype='object')


En comparación con las matrices NumPy, **puede usar etiquetas en el índice al seleccionar valores individuales o un conjunto de valores**:

In [6]:
print(sserie['fer'])
sserie['hp'] = 21
print(sserie)


1
fer     1
mac     2
ra      3
hp     21
dtype: int64


El uso de funciones NumPy u operaciones similares a NumPy, como el filtrado con una matriz booleana, la multiplicación escalar o la aplicación de funciones matemáticas, preservará el vínculo índice-valor:

In [7]:
print(sserie * 2)

fer     2
mac     4
ra      6
hp     42
dtype: int64


In [8]:
import numpy as np

np.exp(sserie)

fer    2.718282e+00
mac    7.389056e+00
ra     2.008554e+01
hp     1.318816e+09
dtype: float64

Otra forma de pensar en una serie es como un **dict ordenado de longitud fija**, ya que es una asignación de valores de índice a valores de datos. Se puede usar en muchos contextos en los que podría usar un dict:

In [9]:
'ra' in sserie
'l' in sserie

False

Si tiene datos contenidos en un dictado de Python, puede crear una serie a partir de él pasando el dictado:

In [10]:
sdata = {'Ohio': 35000, 'Texas': 71000, 'Oregon': 16000, 'Utah': 5000}

ps = pd.Series(sdata)
print(ps)

Ohio      35000
Texas     71000
Oregon    16000
Utah       5000
dtype: int64


Cuando **solo está pasando un dict, el índice de la serie resultante tendrá las claves del dict en orden ordenado.** Puede anular esto pasando las claves de dictado en el orden en que desea que aparezcan en la Serie resultante:

In [11]:
states = ['California', 'Ohio', 'Oregon', 'Texas']

nobj = pd.Series(sdata,index = states)
nobj

California        NaN
Ohio          35000.0
Oregon        16000.0
Texas         71000.0
dtype: float64

Aquí, tres valores encontrados en sdata se colocaron en las ubicaciones apropiadas, pero como no se encontró ningún valor para 'California', aparece como NaN (no un número), que se considera en pandas para marcar valores faltantes o NA. Dado que 'Utah' no se incluyó en los estados, se excluye del objeto resultante.

In [12]:
pd.isnull(nobj) # vemos que valores tienen un  objeto nulo


California     True
Ohio          False
Oregon        False
Texas         False
dtype: bool

In [13]:
nobj.isnull()

California     True
Ohio          False
Oregon        False
Texas         False
dtype: bool

Tanto el objeto Series en sí como su índice tienen un atributo de nombre, que se integra con otras áreas clave de la funcionalidad de pandas:

In [14]:
nobj.name = 'poblacion' # nombre a nuestra serie
nobj.index.name = 'estado' # nombre a nuestra columna

nobj

estado
California        NaN
Ohio          35000.0
Oregon        16000.0
Texas         71000.0
Name: poblacion, dtype: float64

In [15]:
nobj.index = ['Bob', 'Steve', 'Jeff', 'Ryan'] # cambiamos el indice de nuestra serie
nobj

Bob          NaN
Steve    35000.0
Jeff     16000.0
Ryan     71000.0
Name: poblacion, dtype: float64

## DataFrame

Un DataFrame representa una **tabla rectangular de datos y contiene una colección ordenada de columnas, cada una de las cuales puede tener un tipo de valor diferente (numérico, de cadena, booleano, etc.).** El DataFrame tiene un índice de fila y columna; se puede considerar como un **dictado de series que comparten el mismo índice.** Bajo el capó, los datos se almacenan como uno o más bloques bidimensionales en lugar de una lista, dict o alguna otra colección de matrices unidimensionales. Los detalles exactos de los componentes internos de DataFrame están fuera del alcance de este libro.

Hay muchas formas de construir un DataFrame, aunque una de las más comunes es a partir de un dictado de listas de igual longitud o matrices NumPy:


In [16]:
data = {'state': ['Ohio', 'Ohio', 'Ohio', 'Nevada', 'Nevada', 'Nevada'],
        'year': [2000, 2001, 2002, 2001, 2002, 2003],
        'pop': [1.5, 1.7, 3.6, 2.4, 2.9, 3.2]}

df = pd.DataFrame(data)
df

Unnamed: 0,state,year,pop
0,Ohio,2000,1.5
1,Ohio,2001,1.7
2,Ohio,2002,3.6
3,Nevada,2001,2.4
4,Nevada,2002,2.9
5,Nevada,2003,3.2


Si especifica una secuencia de columnas, las columnas del DataFrame se organizarán en ese orden:

In [17]:
pd.DataFrame(data,columns=['year','state','pop'])


Unnamed: 0,year,state,pop
0,2000,Ohio,1.5
1,2001,Ohio,1.7
2,2002,Ohio,3.6
3,2001,Nevada,2.4
4,2002,Nevada,2.9
5,2003,Nevada,3.2


Si pasa una columna que no está contenida en el dictado, aparecerá con valores faltantes en el resultado:

In [18]:
frame2 = pd.DataFrame(data, columns=['year', 'state', 'pop', 'debt'],
                      index=['one', 'two', 'three', 'four','five', 'six'])                        

In [19]:
frame2

Unnamed: 0,year,state,pop,debt
one,2000,Ohio,1.5,
two,2001,Ohio,1.7,
three,2002,Ohio,3.6,
four,2001,Nevada,2.4,
five,2002,Nevada,2.9,
six,2003,Nevada,3.2,


In [20]:
frame2.columns

Index(['year', 'state', 'pop', 'debt'], dtype='object')

Una columna en un DataFrame se puede recuperar como una **serie, ya sea por notación similar a un dict o por atributo:**

In [21]:
frame2['state']

one        Ohio
two        Ohio
three      Ohio
four     Nevada
five     Nevada
six      Nevada
Name: state, dtype: object

In [22]:
frame2.year

one      2000
two      2001
three    2002
four     2001
five     2002
six      2003
Name: year, dtype: int64

Las filas también se pueden recuperar por posición o nombre con el atributo de `loc` especial (más sobre esto más adelante):

In [23]:
frame2.loc['three']

year     2002
state    Ohio
pop       3.6
debt      NaN
Name: three, dtype: object

Cuando asigna listas o matrices a una columna, la longitud del valor debe coincidir con la longitud del DataFrame. Si asigna una Serie, sus etiquetas se realinearán exactamente con el índice del DataFrame, insertando los valores faltantes en cualquier hueco:

In [24]:
val = pd.Series([-1.2, -1.5, -1.7], index=['two', 'four', 'five'])
frame2['debt'] = val

frame2

Unnamed: 0,year,state,pop,debt
one,2000,Ohio,1.5,
two,2001,Ohio,1.7,-1.2
three,2002,Ohio,3.6,
four,2001,Nevada,2.4,-1.5
five,2002,Nevada,2.9,-1.7
six,2003,Nevada,3.2,


Si asigna una columna que **no existe, se creará una nueva columna. La palabra clave del borrará columnas como con un dict.**

In [25]:
frame2['eastern'] = frame2.state == 'Ohio'
frame2

Unnamed: 0,year,state,pop,debt,eastern
one,2000,Ohio,1.5,,True
two,2001,Ohio,1.7,-1.2,True
three,2002,Ohio,3.6,,True
four,2001,Nevada,2.4,-1.5,False
five,2002,Nevada,2.9,-1.7,False
six,2003,Nevada,3.2,,False


El método `del` se puede utilizar para eliminar esta columna:

In [26]:
del frame2['eastern']

In [27]:
frame2.columns

Index(['year', 'state', 'pop', 'debt'], dtype='object')

Otra forma común de datos es un dict anidado de dictados:

In [28]:
pop = {
    'Nevada': {2001: 2.4, 2002: 2.9},
    'Ohio': {2000: 1.5, 2001: 1.7, 2002: 3.6}
}

In [29]:
frame3 = pd.DataFrame(pop)

In [30]:
frame3

Unnamed: 0,Nevada,Ohio
2001,2.4,1.7
2002,2.9,3.6
2000,,1.5


In [31]:
frame3.T

Unnamed: 0,2001,2002,2000
Nevada,2.4,2.9,
Ohio,1.7,3.6,1.5


Las claves de los dictados internos se combinan y ordenan para formar el índice en el resultado. Esto no es cierto si se especifica un índice explícito:

In [32]:
pd.DataFrame(pop,index=[2001,2002,2003])

Unnamed: 0,Nevada,Ohio
2001,2.4,1.7
2002,2.9,3.6
2003,,


Dicts of Series are treated in much the same way:



In [33]:
pdata = {
    'Ohio': frame3['Ohio'][:-1],
    'Nevada': frame3['Nevada'][:2]
}

pd.DataFrame(pdata)

Unnamed: 0,Ohio,Nevada
2001,1.7,2.4
2002,3.6,2.9


Para obtener una lista completa de las cosas que puede pasar al constructor DataFrame, consulte la Tabla 5-1. Si el índice y las columnas de un DataFrame tienen sus atributos de nombre establecidos, estos también se mostrarán:

In [34]:
frame3.index.name = 'year'; frame3.columns.name = 'state'
# agregamos atributos d enombre establecidos
frame3

state,Nevada,Ohio
year,Unnamed: 1_level_1,Unnamed: 2_level_1
2001,2.4,1.7
2002,2.9,3.6
2000,,1.5


Al igual que con Series, el atributo de valores devuelve los datos contenidos en el DataFrame como un ndarray bidimensional:

In [35]:
frame3.values

array([[2.4, 1.7],
       [2.9, 3.6],
       [nan, 1.5]])

---
## Index Objects

Los objetos Index de pandas son responsables de **mantener las etiquetas de los ejes y otros metadatos (como el nombre o los nombres de los ejes).** Cualquier matriz u otra secuencia de etiquetas que use al construir una serie o un marco de datos se convierte internamente en un índice:

In [36]:
obj = pd.Series(range(3),index = ['a','b','c'])

index = obj.index
index

Index(['a', 'b', 'c'], dtype='object')

In [37]:
index[1:]

Index(['b', 'c'], dtype='object')

Los objetos de índice son inmutables y, por lo tanto, el usuario no puede modificarlos:

In [38]:
index[1] = 'd'

TypeError: ignored

La inmutabilidad hace que sea más seguro compartir objetos Index entre estructuras de datos:

In [39]:
labels = pd.Index(np.arange(3))
labels

Int64Index([0, 1, 2], dtype='int64')

In [40]:
obj2 = pd.Series([1.5,-2.5,0],index = labels)
obj2

0    1.5
1   -2.5
2    0.0
dtype: float64

Además de ser similar a una matriz, un índice también se comporta como un conjunto de tamaño fijo:

In [41]:
frame3

state,Nevada,Ohio
year,Unnamed: 1_level_1,Unnamed: 2_level_1
2001,2.4,1.7
2002,2.9,3.6
2000,,1.5


In [42]:
frame3.columns

Index(['Nevada', 'Ohio'], dtype='object', name='state')

In [43]:
'Ohio' in frame3.columns

True

## 5.2 Funcionalidad esencial 

Esta sección lo guiará a través de la mecánica fundamental de interactuar con los datos contenidos en una serie o DataFrame. En los próximos capítulos, profundizaremos más en los temas de análisis y manipulación de datos utilizando pandas. Este libro no pretende servir como documentación exhaustiva para la biblioteca de pandas; en cambio, nos centraremos en las características más importantes, dejando las cosas menos comunes (es decir, más esotéricas) para que las explore por su cuenta.

## Reindexar 

Un metodo importante en pandas es ´index´, lo que significa crear un nuevo objeto con los datos conformados a un nuevo indice.

In [44]:
obj = pd.Series([4.5,7.2,-5.3,3.6], index = ['d','b','a','c'])
obj

d    4.5
b    7.2
a   -5.3
c    3.6
dtype: float64

In [45]:
obj2 = obj.reindex(['a','b','c','d'])
obj2

a   -5.3
b    7.2
c    3.6
d    4.5
dtype: float64

Para datos ordenados como series de tiempo, puede ser deseable hacer alguna *interpolación o completar valores al reindexar.* ffill, que reenvía los valores:

In [47]:
obj3 = pd.Series(['blue', 'purple', 'yellow'], index=[0, 2, 4])
obj3

0      blue
2    purple
4    yellow
dtype: object

In [48]:
obj3.reindex(range(6),method = 'ffill')

0      blue
1      blue
2    purple
3    purple
4    yellow
5    yellow
dtype: object

In [49]:
df = pd.DataFrame(np.arange(9).reshape((3,3)),
                  index = ['a','c','d'],
                  columns = ['Ohio', 'Texas', 'California'])
df

Unnamed: 0,Ohio,Texas,California
a,0,1,2
c,3,4,5
d,6,7,8


In [50]:
df2 = df.reindex(['a','b','c','d'])
df2

Unnamed: 0,Ohio,Texas,California
a,0.0,1.0,2.0
b,,,
c,3.0,4.0,5.0
d,6.0,7.0,8.0


Las columnas se pueden volver a indexar con la palabra columns

In [51]:
states = ['Texas','Utah','California']

df.reindex(columns = states)

Unnamed: 0,Texas,Utah,California
a,1,,2
c,4,,5
d,7,,8


# Eliminacion de Entradas

Eliminar una o más entradas de un eje es fácil si ya tiene una matriz de índice o una lista sin esas entradas. Como eso puede requerir un poco de lógica y configuración, el método drop devolverá un nuevo objeto con el valor indicado o los valores eliminados de un eje:

In [54]:
obj = pd.Series(np.arange(5.), index = ['a','b','c','d','e'])
obj

a    0.0
b    1.0
c    2.0
d    3.0
e    4.0
dtype: float64

In [55]:
nobj = obj.drop('c')
nobj

a    0.0
b    1.0
d    3.0
e    4.0
dtype: float64

In [57]:
obj.drop(['a','b'])

c    2.0
d    3.0
e    4.0
dtype: float64

Con DataFrame, los valores de índice se pueden eliminar de cualquier eje. Para ilustrar esto, primero creamos un DataFrame de ejemplo:

In [64]:
data = pd.DataFrame(np.arange(16).reshape((4,4)),
                                         index=['Ohio', 'Colorado', 'Utah', 'New York'],
                                          columns = ['one', 'two', 'three', 'four'])

In [61]:
data

Unnamed: 0,one,two,three,four
Ohio,0,1,2,3
Colorado,4,5,6,7
Utah,8,9,10,11
New York,12,13,14,15


In [62]:
data.drop(['Colorado', 'Ohio'])

Unnamed: 0,one,two,three,four
Utah,8,9,10,11
New York,12,13,14,15


You can drop values from the columns by passing axis=1 or axis='columns':

In [63]:
data.drop('two',axis=1)

Unnamed: 0,one,three,four
Ohio,0,2,3
Colorado,4,6,7
Utah,8,10,11
New York,12,14,15


In [65]:
data.drop(['two','four'],axis='columns')

Unnamed: 0,one,three
Ohio,0,2
Colorado,4,6
Utah,8,10
New York,12,14


Muchas funciones, como drop, que modifican el tamaño o la forma de una serie o marco de datos, pueden manipular un objeto in-place sin devolver un nuevo objeto

In [67]:
obj.drop('c',inplace=True)

In [68]:
obj

a    0.0
b    1.0
d    3.0
e    4.0
dtype: float64

In [69]:
obj = pd.Series(np.arange(4.),index = ['a','b','c','d'])
obj

a    0.0
b    1.0
c    2.0
d    3.0
dtype: float64

In [70]:
obj['b':'c']

b    1.0
c    2.0
dtype: float64

In [71]:
obj['b':'c'] = 21
obj

a     0.0
b    21.0
c    21.0
d     3.0
dtype: float64

In [87]:
 data = pd.DataFrame(np.arange(16).reshape((4, 4)),
   .....:                     index=['Ohio', 'Colorado', 'Utah', 'New York'],
   .....:                     columns=['one', 'two', 'three', 'four'])

In [88]:
data

Unnamed: 0,one,two,three,four
Ohio,0,1,2,3
Colorado,4,5,6,7
Utah,8,9,10,11
New York,12,13,14,15


La indexación en un DataFrame es para recuperar una o más columnas, ya sea con un solo valor o secuencia:

In [89]:
data[data['three'] > 5]

Unnamed: 0,one,two,three,four
Colorado,4,5,6,7
Utah,8,9,10,11
New York,12,13,14,15


In [83]:
data[data< 5] = 'MENOR QUE 5'
data

Unnamed: 0,one,two,three,four
Ohio,MENOR QUE 5,MENOR QUE 5,MENOR QUE 5,MENOR QUE 5
Colorado,MENOR QUE 5,5,6,7
Utah,8,9,10,11
New York,12,13,14,15


## Seleccion con LOC e ILOC

Para la indexación de etiquetas de DataFrame en las filas, presento los operadores de indexación especiales loc e iloc. Le permiten **seleccionar un subconjunto de filas y columnas de un DataFrame con notación similar a NumPy usando etiquetas de eje (loc) o enteros (iloc).**

In [85]:
data.loc['Colorado',['two','three']]

two      5
three    6
Name: Colorado, dtype: int64

In [90]:
data.iloc[1,[1,2]]

two      5
three    6
Name: Colorado, dtype: int64

In [91]:
data.iloc[2]

one       8
two       9
three    10
four     11
Name: Utah, dtype: int64

In [92]:
data.iloc[[-1,0],[1,3]]

Unnamed: 0,two,four
New York,13,15
Ohio,1,3


In [93]:
data.iloc[:,:3][data.three > 5]

Unnamed: 0,one,two,three
Colorado,4,5,6
Utah,8,9,10
New York,12,13,14


## Enteros Indexados

Trabajar con objetos pandas indexados por números enteros es algo que a menudo hace tropezar a los nuevos usuarios debido a algunas diferencias con la semántica de indexación en estructuras de datos integradas de Python como listas y tuplas. Por ejemplo, es posible que no espere que el siguiente código genere un error.

In [94]:
ser = pd.Series(np.arange(3.))
ser

0    0.0
1    1.0
2    2.0
dtype: float64

In [95]:
ser[-1]

KeyError: ignored

En este caso,  pandas podrían "recurrir" a la indexación de enteros, pero es difícil hacer esto en general sin introducir errores sutiles. Aquí tenemos un índice que contiene 0, 1, 2, pero inferir lo que quiere el usuario (indexación basada en etiquetas o basada en posición) es difícil:

In [96]:
ser

0    0.0
1    1.0
2    2.0
dtype: float64

Por otro lado, con un índice no entero, no hay posibilidad de ambigüedad:

In [97]:
ser2 = pd.Series(np.arange(3.), index=['a', 'b', 'c'])
ser2[-1]

2.0

In [98]:
ser.iloc[-1]

2.0

In [99]:
ser[:2]

0    0.0
1    1.0
dtype: float64

# Alineación aritmética y de datos

Una característica importante de  pandas para algunas aplicaciones es el comportamiento de la **aritmética entre objetos con diferentes índices.** Cuando agrega objetos, si algún par de índices **no es el mismo, el índice respectivo en el resultado será la unión de los pares de índices.** Para los usuarios con experiencia en bases de datos, esto es similar a una combinación externa automática en las etiquetas de índice. Veamos un ejemplo:

In [104]:
s1 = pd.Series([7.3, -2.5, 3.4, 1.5], index=['a', 'c', 'd', 'e'])
s2 = pd.Series([-2.1, 3.6, -1.5, 4, 3.1],index=['a', 'c', 'e', 'f', 'g'])
s1+s2

a    5.2
c    1.1
d    NaN
e    0.0
f    NaN
g    NaN
dtype: float64

En operaciones aritméticas entre objetos indexados de manera diferente, es posible que desee completar con un valor especial, como 0, cuando se encuentra una etiqueta de eje en un objeto pero no en el otro:

In [106]:
df1 = pd.DataFrame(np.arange(12.).reshape((3,4)),
                   columns = list(('abcd')))
df2 = pd.DataFrame(np.arange(20.).reshape((4,5)),
                   columns = list(('abcde')))

In [107]:
df1

Unnamed: 0,a,b,c,d
0,0.0,1.0,2.0,3.0
1,4.0,5.0,6.0,7.0
2,8.0,9.0,10.0,11.0


In [108]:
df2

Unnamed: 0,a,b,c,d,e
0,0.0,1.0,2.0,3.0,4.0
1,5.0,6.0,7.0,8.0,9.0
2,10.0,11.0,12.0,13.0,14.0
3,15.0,16.0,17.0,18.0,19.0


In [109]:
df1 + df2

Unnamed: 0,a,b,c,d,e
0,0.0,2.0,4.0,6.0,
1,9.0,11.0,13.0,15.0,
2,18.0,20.0,22.0,24.0,
3,,,,,


In [110]:
# rellenamos los Nan con 0
df1.add(df2,fill_value = 0)

Unnamed: 0,a,b,c,d,e
0,0.0,2.0,4.0,6.0,4.0
1,9.0,11.0,13.0,15.0,9.0
2,18.0,20.0,22.0,24.0,14.0
3,15.0,16.0,17.0,18.0,19.0


In [111]:
df1.reindex(columns=df2.columns,fill_value=0)

Unnamed: 0,a,b,c,d,e
0,0.0,1.0,2.0,3.0,0
1,4.0,5.0,6.0,7.0,0
2,8.0,9.0,10.0,11.0,0


## Aplicación y asignación de funciones


Los ufuncs de NumPy (métodos de matriz basados en elementos) también funcionan con objetos pandas:

In [112]:
frame = pd.DataFrame(np.random.randn(4,3),columns = list('bde'),
                     index=['Utah', 'Ohio', 'Texas', 'Oregon'])
frame

Unnamed: 0,b,d,e
Utah,-1.723648,1.550233,-0.830104
Ohio,1.46549,1.261505,-0.407939
Texas,-0.124372,0.659547,-1.563238
Oregon,0.674742,0.94398,-0.288776


In [113]:
np.abs(frame)

Unnamed: 0,b,d,e
Utah,1.723648,1.550233,0.830104
Ohio,1.46549,1.261505,0.407939
Texas,0.124372,0.659547,1.563238
Oregon,0.674742,0.94398,0.288776


In [115]:
# aplicando funciones al dframe
f = lambda x: x.max() - x.min()
frame.apply(f)

b    3.189138
d    0.890686
e    1.274462
dtype: float64

In [116]:
frame.apply(f,axis='columns')

Utah      3.273880
Ohio      1.873429
Texas     2.222786
Oregon    1.232757
dtype: float64

## Sorting  adn Ranking

La clasificación de un conjunto de datos según algún criterio es otra importante operación incorporada. Para ordenar lexicográficamente por índice de fila o columna, use el método sort_index, que devuelve un nuevo objeto ordenado:

In [120]:
obj = pd.Series(range(4),index = ['d','a','b','c'])
obj.sort_index()

a    1
b    2
c    3
d    0
dtype: int64

In [121]:
obj

d    0
a    1
b    2
c    3
dtype: int64

In [123]:
frame = pd.DataFrame(np.arange(8).reshape((2,4)),
                     index =['three','one'],
                     columns = ['d','a','b','c'])
frame

Unnamed: 0,d,a,b,c
three,0,1,2,3
one,4,5,6,7


In [124]:
frame.sort_index()

Unnamed: 0,d,a,b,c
one,4,5,6,7
three,0,1,2,3


In [126]:
frame.sort_index(axis = 1)

Unnamed: 0,a,b,c,d
three,1,2,3,0
one,5,6,7,4


Al ordenar un DataFrame, puede usar los datos en una o más columnas como claves de ordenación. Para hacerlo, pase uno o más nombres de columna a la opción  de sort values

In [127]:
frame = pd.DataFrame({'b': [4, 7, -3, 2], 'a': [0, 1, 0, 1]})

In [128]:
frame

Unnamed: 0,b,a
0,4,0
1,7,1
2,-3,0
3,2,1


In [129]:
frame.sort_values(by='b')

Unnamed: 0,b,a
2,-3,0
3,2,1
0,4,0
1,7,1


In [130]:
frame.sort_values(by=['a','b'])

Unnamed: 0,b,a
2,-3,0
0,4,0
3,2,1
1,7,1


La clasificación asigna rangos desde uno hasta el número de puntos de datos válidos en una matriz. Los métodos de clasificación para Series y DataFrame son el lugar para buscar; por defecto, el rango rompe empates asignando a cada grupo el rango medio:

In [131]:
obj = pd.Series([7, -5, 7, 4, 2, 0, 4])
obj

0    7
1   -5
2    7
3    4
4    2
5    0
6    4
dtype: int64

In [132]:
obj.rank()

0    6.5
1    1.0
2    6.5
3    4.5
4    3.0
5    2.0
6    4.5
dtype: float64

## Índices de eje con etiquetas duplicadas

Hasta ahora, todos los ejemplos que hemos examinado tenían etiquetas de eje únicas (valores de índice). Si bien muchas funciones de pandas (como reindexar) requieren que las etiquetas sean únicas, no es obligatorio. Consideremos una serie pequeña con índices duplicados:

In [133]:
obj = pd.Series(range(5), index=['a', 'a', 'b', 'b', 'c'])
obj

a    0
a    1
b    2
b    3
c    4
dtype: int64

In [134]:
# verfiicamos si hay etiquetas unicas o no
obj.index.is_unique

False

## Resumir y calcular estadísticas descriptivas

Los objetos pandas están equipados con un conjunto de métodos matemáticos y estadísticos comunes. La mayoría de estos se incluyen en la categoría de reducciones o estadísticas de resumen, métodos que extraen un solo valor (como la suma o la media) de una serie o una serie de valores de las filas o columnas de un DataFrame. En comparación con los métodos similares que se encuentran en las matrices NumPy, tienen un manejo integrado de los datos faltantes. Considere un DataFrame pequeño:

In [135]:
df = pd.DataFrame(
    [[1.4, np.nan], [7.1, -4.5],
     [np.nan, np.nan], [0.75, -1.3]],
     index=['a', 'b', 'c', 'd'],
     columns=['one', 'two']
)
df

Unnamed: 0,one,two
a,1.4,
b,7.1,-4.5
c,,
d,0.75,-1.3


In [136]:
df.sum()

one    9.25
two   -5.80
dtype: float64

In [137]:
# sumamos por columnas
df.sum(axis='columns')

a    1.40
b    2.60
c    0.00
d   -0.55
dtype: float64

In [138]:
df.mean(axis='columns',skipna=False)

a      NaN
b    1.300
c      NaN
d   -0.275
dtype: float64

Algunos métodos, como idxmin e idxmax, devuelven estadísticas indirectas como el valor del índice donde se alcanzan los valores mínimos o máximos

In [139]:
df.idxmax()

one    b
two    d
dtype: object

In [140]:
df.cumsum() # SUMA Y ACUMULA

Unnamed: 0,one,two
a,1.4,
b,8.5,-4.5
c,,
d,9.25,-5.8


In [144]:
df.describe()


Unnamed: 0,one,two
count,3.0,2.0
mean,3.083333,-2.9
std,3.493685,2.262742
min,0.75,-4.5
25%,1.075,-3.7
50%,1.4,-2.9
75%,4.25,-2.1
max,7.1,-1.3


In [145]:
obj = pd.Series(['a', 'a', 'b', 'c'] * 4)
obj.describe()

count     16
unique     3
top        a
freq       8
dtype: object

## Correlación y covarianza

Algunas estadísticas de resumen, como la correlación y la covarianza, se calculan a partir de pares de argumentos. Consideremos algunos DataFrames de precios de acciones y volúmenes obtenidos de Yahoo! Finanzas usando el paquete complementario pandas-datareader. Si aún no lo tiene instalado, puede obtenerlo a través de conda o pip:

In [146]:
import pandas_datareader.data as web

In [147]:
all_data = {ticker: web.get_data_yahoo(ticker)
            for ticker in ['AAPL', 'IBM', 'MSFT', 'GOOG']}

price = pd.DataFrame({ticker: data['Adj Close']
                     for ticker, data in all_data.items()})
volume = pd.DataFrame({ticker: data['Volume']
                      for ticker, data in all_data.items()})

Ahora calculo los cambios porcentuales de los precios, una operación de serie de tiempo que se explorará más en

In [148]:
returns = price.pct_change()

returns.tail()

Unnamed: 0_level_0,AAPL,IBM,MSFT,GOOG
Date,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
2021-01-13,0.016227,-0.017723,0.00656,0.004495
2021-01-14,-0.015127,0.016152,-0.015346,-0.008105
2021-01-15,-0.013731,-0.004497,-0.001737,-0.002293
2021-01-19,0.005427,0.004907,0.017823,0.031489
2021-01-20,0.028124,0.011549,0.034744,0.042672


El método corr de Series calcula la **correlación de los valores superpuestos**, no NA, alineados por índice en dos Series. De manera relacionada, cov calcula la covarianza:

In [149]:
returns['MSFT'].corr(returns['IBM'])

0.5503586060302362

In [150]:
returns['MSFT'].cov(returns['IBM'])

0.00015578327584182212

In [151]:
returns.corr()

Unnamed: 0,AAPL,IBM,MSFT,GOOG
AAPL,1.0,0.465254,0.713247,0.655029
IBM,0.465254,1.0,0.550359,0.514284
MSFT,0.713247,0.550359,1.0,0.778695
GOOG,0.655029,0.514284,0.778695,1.0


In [152]:
returns.cov()

Unnamed: 0,AAPL,IBM,MSFT,GOOG
AAPL,0.000359,0.000143,0.000236,0.000206
IBM,0.000143,0.000263,0.000156,0.000139
MSFT,0.000236,0.000156,0.000304,0.000226
GOOG,0.000206,0.000139,0.000226,0.000276


Con el método corrwith de DataFrame, puede calcular correlaciones por pares entre las columnas o filas de un DataFrame con otra serie o DataFrame. Pasar una serie devuelve una serie con el valor de correlación calculado para cada columna:

In [153]:
returns.corrwith(returns.IBM)

AAPL    0.465254
IBM     1.000000
MSFT    0.550359
GOOG    0.514284
dtype: float64

## Unique Values, Value Counts, and Membership


Otra clase de métodos relacionados extrae información sobre los valores contenidos en una Serie unidimensional. Para ilustrarlos, considere este ejemplo:


In [154]:
obj = pd.Series(['c', 'a', 'd', 'a', 'a', 'b', 'b', 'c', 'c'])

In [155]:
uniques = obj.unique()
uniques

array(['c', 'a', 'd', 'b'], dtype=object)

In [156]:
obj.value_counts()

a    3
c    3
b    2
d    1
dtype: int64

In [157]:
pd.value_counts(obj.values, sort=False)

c    3
a    3
b    2
d    1
dtype: int64

In [158]:
obj

0    c
1    a
2    d
3    a
4    a
5    b
6    b
7    c
8    c
dtype: object

In [159]:
mask = obj.isin(['b','c'])
mask

0     True
1    False
2    False
3    False
4    False
5     True
6     True
7     True
8     True
dtype: bool

In [160]:
obj[mask]

0    c
5    b
6    b
7    c
8    c
dtype: object

In [161]:
to_match = pd.Series(['c', 'a', 'b', 'b', 'c', 'a'])
unique_vals = pd.Series(['c', 'b', 'a'])

Related to isin is the Index.get_indexer method ,que le da una matriz de índice de una matriz de valores posiblemente no distintos en otra matriz de valores distintos:

In [162]:
pd.Index(unique_vals).get_indexer(to_match)

array([0, 2, 1, 1, 0, 2])

En algunos casos, es posible que desee calcular un histograma en varias columnas relacionadas en un DataFrame. Aquí tienes un ejemplo:

In [166]:
data = pd.DataFrame(
    {'Qu1': [1, 3, 4, 3, 4],
     'Qu2': [2, 3, 1, 2, 3],
      'Qu3': [1, 5, 2, 4, 4]}
)
data

Unnamed: 0,Qu1,Qu2,Qu3
0,1,2,1
1,3,3,5
2,4,1,2
3,3,2,4
4,4,3,4


In [168]:

r = data.apply(pd.value_counts).fillna(0)
r

Unnamed: 0,Qu1,Qu2,Qu3
1,1.0,1.0,1.0
2,0.0,2.0,1.0
3,2.0,2.0,0.0
4,2.0,0.0,2.0
5,0.0,0.0,1.0


Aquí, las etiquetas de fila en el resultado son los valores distintos que ocurren en todas las columnas. Los valores son los recuentos respectivos de estos valores en cada columna.