## Pandas

In [127]:
import pandas as pd
from pandas import Series, DataFrame
import numpy as np

# **Serie**

Es un Objeto unidimensional (similar a una matriz) que contiene una secuencia de valores (de tipos similares a NumPy) y una matriz asociada de etiquetas de datos (índice).

### Representación de *serie* mostrará índice a la izquierda y valor a la derecha.
Si no especificamos un índice toma predeterminados (enteros - hasta N-1) siendo N la longitud de los datos:

In [4]:
obj = pd.Series([4, 7, -5, 3])
obj


0    4
1    7
2   -5
3    3
dtype: int64

In [5]:
obj.values

array([ 4,  7, -5,  3])

In [6]:
obj.index

RangeIndex(start=0, stop=4, step=1)

A menudo es deseable crear una *serie* con un índice que identifique cada punto de datos con una etiqueta, entonces =>

In [7]:
obj2 = pd.Series([4, 7, -5, 3], index=['d', 'b', 'a', 'c'])
obj2

d    4
b    7
a   -5
c    3
dtype: int64

In [8]:
obj2.index

Index(['d', 'b', 'a', 'c'], dtype='object')

Pero a diferencia de NumPy podemos usar etiquetas en el índice al seleccionar valores o un conjunto de ellos:

In [9]:
obj2['a']


-5

In [10]:
obj2['d']=6
obj2[['c', 'a', 'd']]

c    3
a   -5
d    6
dtype: int64

Para el uso de funciones NumPy, como el filtrado con una matriz booleana, multiplicaciones escalares o funciones matemáticas  conservamos el vínculo índice-valor:

In [12]:
obj2[obj2>0]

d    6
b    7
c    3
dtype: int64

In [13]:
obj2*2

d    12
b    14
a   -10
c     6
dtype: int64

Otra forma de pensar en una *serie* es como una longitud fija (ordered dict):

In [14]:
'b' in obj2

True

Puede crear una *serie* a partir de un 
dictado:

In [15]:
sdata = {'Ohio': 35000, 'Texas': 71000, 'Oregon': 16000, 'Utah': 5000}
obj3 = pd.Series(sdata)
obj3

Ohio      35000
Texas     71000
Oregon    16000
Utah       5000
dtype: int64

In [16]:
states = ['California', 'Ohio', 'Oregon', 'Texas']
obj4 = pd.Series(sdata, index=states)
obj4

California        NaN
Ohio          35000.0
Oregon        16000.0
Texas         71000.0
dtype: float64

*isnull* y *notnull* como funciones en pandas deben usarse para detectar datos faltantes:

In [17]:
pd.isnull(obj4)
pd.notnull(obj4)

California    False
Ohio           True
Oregon         True
Texas          True
dtype: bool

In [18]:
obj4.isnull()

California     True
Ohio          False
Oregon        False
Texas         False
dtype: bool

In [19]:
obj3
obj4
obj3 + obj4

California         NaN
Ohio           70000.0
Oregon         32000.0
Texas         142000.0
Utah               NaN
dtype: float64

In [20]:
obj4.name = 'population'
obj4.index.name = 'state'
obj4

state
California        NaN
Ohio          35000.0
Oregon        16000.0
Texas         71000.0
Name: population, dtype: float64

In [21]:
obj
obj.index = ['Bob', 'Steve', 'Jeff', 'Ryan']
obj

Bob      4
Steve    7
Jeff    -5
Ryan     3
dtype: int64

# **DataFrame**

Representa una tabla rectangular de datos y contiene una colección ordenada de columnas, cada una de las cuales puede ser de un tipo de valor diferente (numérico, cadena, booleano, etc). 

El DataFrame tiene un índice de fila y columna; se puede considerar como un dictado de series que comparten el mismo índice. 

*Si bien un DataFrame es físicamente bidimensional, puede usarlo para representar datos de mayor dimensión en un formato tabular usando indexación jerárquica*

Para construir un DataFrame, una de las formas más comunes es con un dictado de listas de igual longitud o matrices NumPy:

In [22]:
data = {'state': ['Ohio', 'Ohio', 'Ohio', 'Nevada', 'Nevada', 'Nevada'],
        'year': [2000, 2001, 2002, 2001, 2002, 2003],
        'pop': [1.5, 1.7, 3.6, 2.4, 2.9, 3.2]}
frame = pd.DataFrame(data)


El DataFrame resultante tiene su índice asignado automáticamente y las columnas se colocarán en orden ordenado:

In [23]:
frame 

Unnamed: 0,state,year,pop
0,Ohio,2000,1.5
1,Ohio,2001,1.7
2,Ohio,2002,3.6
3,Nevada,2001,2.4
4,Nevada,2002,2.9
5,Nevada,2003,3.2


Método *head()* selecciona solo las primeras cinco filas:

In [24]:
frame.head()

Unnamed: 0,state,year,pop
0,Ohio,2000,1.5
1,Ohio,2001,1.7
2,Ohio,2002,3.6
3,Nevada,2001,2.4
4,Nevada,2002,2.9


Si especifica una secuencia de columnas, las columnas del DataFrame se organizarán en el orden proporcionado:

In [27]:
pd.DataFrame(data, columns=['year', 'state', 'pop'])

Unnamed: 0,year,state,pop
0,2000,Ohio,1.5
1,2001,Ohio,1.7
2,2002,Ohio,3.6
3,2001,Nevada,2.4
4,2002,Nevada,2.9
5,2003,Nevada,3.2


Si pasamos columnas no contenidas en el dic --> NaN:

In [30]:
frame2 = pd.DataFrame(data, columns=['year', 'state', 'pop', 'debt'],
                      index=['one', 'two', 'three', 'four',
                             'five', 'six'])
frame2


Unnamed: 0,year,state,pop,debt
one,2000,Ohio,1.5,
two,2001,Ohio,1.7,
three,2002,Ohio,3.6,
four,2001,Nevada,2.4,
five,2002,Nevada,2.9,
six,2003,Nevada,3.2,


In [31]:
frame2.columns

Index(['year', 'state', 'pop', 'debt'], dtype='object')

Una columna en un DataFrame se puede recuperar como una serie (por notación tipo dict o por atributo):

In [36]:
frame2['state']


one        Ohio
two        Ohio
three      Ohio
four     Nevada
five     Nevada
six      Nevada
Name: state, dtype: object

In [37]:
frame2.year

one      2000
two      2001
three    2002
four     2001
five     2002
six      2003
Name: year, dtype: int64

Las filas también se pueden recuperar por posición o nombre con el locatributo especial 

In [38]:
frame2.loc['three']

year     2002
state    Ohio
pop       3.6
debt     16.5
Name: three, dtype: object

Las columnas se pueden modificar por asignación. Por ejemplo, a la 'debt'se le podría asignar un valor escalar o una matriz de valores:

In [41]:
frame2['debt'] = 10.5
frame2


Unnamed: 0,year,state,pop,debt
one,2000,Ohio,1.5,10.5
two,2001,Ohio,1.7,10.5
three,2002,Ohio,3.6,10.5
four,2001,Nevada,2.4,10.5
five,2002,Nevada,2.9,10.5
six,2003,Nevada,3.2,10.5


Las etiquetas se realinearán exactamente al índice del DataFrame:

In [46]:
val = pd.Series([-1.2, -1.5, -1.7], index=['two', 'four', 'five'])
frame2['debt'] = val
frame2

Unnamed: 0,year,state,pop,debt
one,2000,Ohio,1.5,
two,2001,Ohio,1.7,-1.2
three,2002,Ohio,3.6,
four,2001,Nevada,2.4,-1.5
five,2002,Nevada,2.9,-1.7
six,2003,Nevada,3.2,


Agregando nueva columna con booleanos, donde el state es igual a 'Ohio':

In [47]:
frame2['eastern'] = frame2.state == 'Ohio'
frame2

Unnamed: 0,year,state,pop,debt,eastern
one,2000,Ohio,1.5,,True
two,2001,Ohio,1.7,-1.2,True
three,2002,Ohio,3.6,,True
four,2001,Nevada,2.4,-1.5,False
five,2002,Nevada,2.9,-1.7,False
six,2003,Nevada,3.2,,False


Método *del()* para eliminación:

In [48]:
del frame2['eastern']
frame2.columns

Index(['year', 'state', 'pop', 'debt'], dtype='object')

Un dictado anidado de dictados:

In [49]:
pop = {'Nevada': {2001: 2.4, 2002: 2.9}, 'Ohio': {2000: 1.5, 2001: 1.7, 2002: 3.6}}

Si el dictado anidado se pasa al DataFrame, los pandas interpretarán las claves de dictado externas como columnas y las claves internas como índices de fila:

In [50]:
frame3 = pd.DataFrame(pop)
frame3

Unnamed: 0,Nevada,Ohio
2001,2.4,1.7
2002,2.9,3.6
2000,,1.5


Puede transponer el DataFrame (intercambiar filas y columnas) con una sintaxis similar a una matriz NumPy:

In [51]:
frame3.T

Unnamed: 0,2001,2002,2000
Nevada,2.4,2.9,
Ohio,1.7,3.6,1.5


Las claves de los dictados internos se combinan y ordenan para formar el índice en el resultado. Esto no es cierto si se especifica un índice explícito:

In [52]:
pd.DataFrame(pop, index=[2001, 2002, 2003])

Unnamed: 0,Nevada,Ohio
2001,2.4,1.7
2002,2.9,3.6
2003,,


Los dictados de series se tratan de la misma manera:

In [53]:
pdata = {'Ohio': frame3['Ohio'][:-1], 'Nevada': frame3['Nevada'][:2]}
pd.DataFrame(pdata)

Unnamed: 0,Ohio,Nevada
2001,1.7,2.4
2002,3.6,2.9


Si un DataFrame tiene sus atributos establecidos, puedo mostrarlos así:

In [54]:
frame3.index.name = 'year'; frame3.columns.name = 'state'
frame3


state,Nevada,Ohio
year,Unnamed: 1_level_1,Unnamed: 2_level_1
2001,2.4,1.7
2002,2.9,3.6
2000,,1.5


Con Values devuelve los datos contenidos en el DataFrame como un array bidimensional:

In [55]:
frame3.values

array([[2.4, 1.7],
       [2.9, 3.6],
       [nan, 1.5]])

In [56]:
frame2.values

array([[2000, 'Ohio', 1.5, nan],
       [2001, 'Ohio', 1.7, -1.2],
       [2002, 'Ohio', 3.6, nan],
       [2001, 'Nevada', 2.4, -1.5],
       [2002, 'Nevada', 2.9, -1.7],
       [2003, 'Nevada', 3.2, nan]], dtype=object)

# **Index Objects**

Responsables de mantener las etiquetas de los ejes y otros metadatos. Cualquier matriz u otra secuencia de etiquetas que use al construir una serie o marco de datos se convierte internamente en un índice.

In [78]:
obj = pd.Series(range(3), index=['a', 'b', 'c'])
index = obj.index
index

Index(['a', 'b', 'c'], dtype='object')

In [83]:
index[1:]

Index(['b', 'c'], dtype='object')

IndexObjects no se pueden modificar (son inmutables)
index[1] = 'd' --> TypeError

In [128]:
labels = pd.Index(np.arange(3))
labels

Int64Index([0, 1, 2], dtype='int64')

Además de ser similar a una matriz, un índice también se comporta como un conjunto de tamaño fijo:

In [88]:
frame3

state,Nevada,Ohio
year,Unnamed: 1_level_1,Unnamed: 2_level_1
2001,2.4,1.7
2002,2.9,3.6
2000,,1.5


In [89]:
frame3.columns

Index(['Nevada', 'Ohio'], dtype='object', name='state')

In [90]:
'Ohio' in frame3.columns

True

In [91]:
2003 in frame3.index

False

A diferencia de los conjuntos de Python, un índice de pandas puede contener etiquetas duplicadas:

In [92]:
dup_labels = pd.Index(['foo', 'foo', 'bar', 'bar'])
dup_labels

Index(['foo', 'foo', 'bar', 'bar'], dtype='object')

# **Reindexar**

Método que significa crear un nuevo objeto con los datos conformados a un nuevo índice.

In [93]:
obj = pd.Series([4.5, 7.2, -5.3, 3.6], index=['d', 'b', 'a', 'c'])
obj

d    4.5
b    7.2
a   -5.3
c    3.6
dtype: float64

Al recurrir reindexar esta serie, se reordenan los datos de acuerdo con el nuevo índice, introduciendo valores faltantes si alguno de los valores del índice aún no estaba presente:



In [94]:
obj2 = obj.reindex(['a', 'b', 'c', 'd', 'e'])
obj2

a   -5.3
b    7.2
c    3.6
d    4.5
e    NaN
dtype: float64

Para datos ordenados como series de tiempo, puede ser deseable hacer alguna interpolación o completar valores al reindexar. La methodopción nos permite hacer esto, usando un método como ffill, que reenvía los valores:

In [95]:
obj3 = pd.Series(['blue', 'purple', 'yellow'], index=[0, 2, 4])
obj3

0      blue
2    purple
4    yellow
dtype: object

In [96]:
obj3.reindex(range(6), method='ffill')

0      blue
1      blue
2    purple
3    purple
4    yellow
5    yellow
dtype: object

Con DataFrame, reindexpuede alterar el índice (fila), las columnas o ambos. Cuando se pasa solo una secuencia, vuelve a indexar las filas en el resultado:

In [129]:
frame = pd.DataFrame(np.arange(9).reshape((3, 3)),index=['a', 'c', 'd'],columns=['Ohio', 'Texas', 'California'])
frame

Unnamed: 0,Ohio,Texas,California
a,0,1,2
c,3,4,5
d,6,7,8


In [98]:
frame2 = frame.reindex(['a','b','c','d'])
frame2

Unnamed: 0,state,year,pop
a,,,
b,,,
c,,,
d,,,


Las columnas se pueden volver a indexar con la columnspalabra clave:

In [99]:
states = ['Texas', 'Utah', 'California']
frame.reindex(columns=states)

Unnamed: 0,Texas,Utah,California
0,,,
1,,,
2,,,
3,,,
4,,,
5,,,


# **Eliminación de entradas de un Eje**

Eliminar una o más entradas de un eje, el método *drop()* devolverá un nuevo objeto con el valor indicado o los valores eliminados de un eje:

In [130]:
obj = pd.Series(np.arange(5.), index=['a', 'b', 'c', 'd', 'e'])
obj

a    0.0
b    1.0
c    2.0
d    3.0
e    4.0
dtype: float64

In [101]:
new_obj = obj.drop('c')
new_obj

d    4.5
b    7.2
a   -5.3
dtype: float64

In [102]:
obj.drop(['d', 'c'])

b    7.2
a   -5.3
dtype: float64

Con DataFrame, los valores de índice se pueden eliminar de cualquier eje. 

In [131]:
data = pd.DataFrame(np.arange(16).reshape((4, 4)), index=['Ohio', 'Colorado', 'Utah', 'New York'], columns=['one', 'two', 'three', 'four'])
data

Unnamed: 0,one,two,three,four
Ohio,0,1,2,3
Colorado,4,5,6,7
Utah,8,9,10,11
New York,12,13,14,15


In [None]:
data.drop(['Colorado', 'Ohio'])

Puede eliminar valores de las columnas pasando axis=1o axis='columns':

In [None]:
data.drop('two', axis=1)

In [None]:
data.drop(['two', 'four'], axis='columns')

Método *drop()* puede modificar el tamaño o la forma de una serie o DataFrame:

In [104]:
obj.drop('c', inplace=True)
obj

d    4.5
b    7.2
a   -5.3
dtype: float64

# **Indexación, Selección y Filtrado**

La indexación de series funciona de manera análoga a la indexación de matrices NumPy, excepto que puede usar los valores de índice de la serie en lugar de solo números enteros.

In [132]:
obj = pd.Series(np.arange(4.), index=['a', 'b', 'c', 'd'])
obj


a    0.0
b    1.0
c    2.0
d    3.0
dtype: float64

In [None]:
obj['b']

In [None]:
obj[1]

In [None]:
obj[2:4]

In [None]:
obj[['b', 'a', 'd']]

In [None]:
obj[[1, 3]]

In [None]:
obj[obj < 2]

La división con etiquetas se comporta de manera diferente a la división normal de Python en que el punto final es inclusivo:

In [None]:
obj['b':'c']

La configuración mediante estos métodos modifica la sección correspondiente de la Serie:

In [None]:
obj['b':'c'] = 5
obj

La indexación en un DataFrame es para recuperar una o más columnas, ya sea con un solo valor o secuencia:

In [None]:
data = pd.DataFrame(np.arange(16).reshape((4, 4)), index=['Ohio', 'Colorado', 'Utah', 'New York'], columns=['one', 'two', 'three', 'four'])
data

In [None]:
data['two']

In [None]:
data[['three','one']]

La indexación como esta tiene algunos casos especiales. Primero, cortando o seleccionando datos con una matriz booleana:

In [None]:
data[:2]

In [None]:
data[data['three'] > 5]

La sintaxis de selección de filas data[:2]se proporciona para su comodidad. Pasar un solo elemento o una lista al []operador selecciona columnas.

Otro caso de uso es la indexación con un DataFrame booleano, como uno producido por una comparación escalar:

In [None]:
data < 5

In [None]:
data[data < 5] = 0
data

**Selección con loc e iloc**
Para la indexación de etiquetas DataFrame en las filas, presento la indexación especial operadores locy iloc. Le permiten seleccionar un subconjunto de filas y columnas de un DataFrame con notación similar a NumPy usando etiquetas de eje ( loc) o enteros ( iloc).



In [None]:
data.loc['Colorado', ['two', 'three']]

Luego realizaremos algunas selecciones similares con números enteros usando iloc:

In [None]:
data.iloc[2, [3, 0, 1]]

In [None]:
data.iloc[2]

In [None]:
data.iloc[[1, 2], [3, 0, 1]]

Ambas funciones de indexación funcionan con sectores además de etiquetas individuales o listas de etiquetas:

In [None]:
data.loc[:'Utah', 'two']

In [None]:
data.iloc[:, :3][data.three > 5]

#**Indices Enteros**

Trabajando con pandas Los objetos indexados por números enteros es algo que a menudo hace tropezar a los nuevos usuarios debido a algunas diferencias con la semántica de indexación en estructuras de datos integradas de Python , como listas y tuplas. Por ejemplo, es posible que no espere que el siguiente código genere un error:

ser = pd.Series(np.arange(3.)) ser ser[-1]

In [133]:
ser = pd.Series(np.arange(3.))
ser

0    0.0
1    1.0
2    2.0
dtype: float64

In [None]:
ser2 = pd.Series(np.arange(3.), index=['a', 'b', 'c'])
ser2[-1]

Si tiene un índice de eje que contiene números enteros, la selección de datos siempre estará orientada a etiquetas. Para un manejo más preciso, use loc(para etiquetas) o iloc(para enteros):

ser[-1] --> KeyError

In [None]:
ser.iloc[-1]

Por otro lado, el corte con números enteros siempre está orientado a números enteros:

In [None]:
ser[:2]

#**Alineación Aritmética y de Datos**

Una característica para algunas aplicaciones es la aritmética entre objetos con diferentes índices. Cuando agrega objetos, si algún par de índices no es el mismo, el índice respectivo en el resultado será la unión de los pares de índices.

In [134]:
s1 = pd.Series([7.3, -2.5, 3.4, 1.5], index=['a', 'c', 'd', 'e'])
s2 = pd.Series([-2.1, 3.6, -1.5, 4, 3.1], index=['a', 'c', 'e', 'f', 'g'])
s1

a    7.3
c   -2.5
d    3.4
e    1.5
dtype: float64

In [135]:
s2

a   -2.1
c    3.6
e   -1.5
f    4.0
g    3.1
dtype: float64

Sumando tenemos:

In [136]:
s1 + s2

a    5.2
c    1.1
d    NaN
e    0.0
f    NaN
g    NaN
dtype: float64

La alineación de datos internos introduce valores faltantes en las ubicaciones de las etiquetas que no se superponen. Los valores que falten se propagarán en otros cálculos aritméticos.

En el caso de DataFrame, la alineación se realiza tanto en las filas como en las columnas:

In [137]:
df1 = pd.DataFrame(np.arange(9.).reshape((3, 3)), columns=list('bcd'), index=['Ohio', 'Texas', 'Colorado'])
df2 = pd.DataFrame(np.arange(12.).reshape((4, 3)), columns=list('bde'), index=['Utah', 'Ohio', 'Texas', 'Oregon'])
df1

Unnamed: 0,b,c,d
Ohio,0.0,1.0,2.0
Texas,3.0,4.0,5.0
Colorado,6.0,7.0,8.0


In [138]:
df2

Unnamed: 0,b,d,e
Utah,0.0,1.0,2.0
Ohio,3.0,4.0,5.0
Texas,6.0,7.0,8.0
Oregon,9.0,10.0,11.0


Al sumarlos obtenemos un DataFrame cuyo índice y columnas son las uniones de las de cada DataFrame:

In [139]:
df1+df2

Unnamed: 0,b,c,d,e
Colorado,,,,
Ohio,3.0,,6.0,
Oregon,,,,
Texas,9.0,,12.0,
Utah,,,,


Dado que las columnas 'c'y 'e'no se encuentran en ambos objetos DataFrame, aparecen como faltantes en el resultado. Lo mismo se aplica a las filas cuyas etiquetas no son comunes a ambos objetos.

Si agrega objetos DataFrame sin etiquetas de fila o columna en común, el resultado contendrá todos los nulos:

In [140]:
df1 = pd.DataFrame({'A': [1, 2]})
df2 = pd.DataFrame({'B': [3, 4]})
df1

Unnamed: 0,A
0,1
1,2


In [141]:
df2

Unnamed: 0,B
0,3
1,4


In [142]:
df1-df2

Unnamed: 0,A,B
0,,
1,,


**Métodos aritméticos con valores de relleno (FillValues)**
Las operaciones entre objetos indexados funcionan de manera diferente, es posible que desee completar con un valor especial, como 0, cuando se encuentra una etiqueta de eje en un objeto pero no en el otro:

In [143]:
df1 = pd.DataFrame(np.arange(12.).reshape((3, 4)), columns=list('abcd'))
df2 = pd.DataFrame(np.arange(20.).reshape((4, 5)), columns=list('abcde'))
df2.loc[1, 'b'] = np.nan
df1

Unnamed: 0,a,b,c,d
0,0.0,1.0,2.0,3.0
1,4.0,5.0,6.0,7.0
2,8.0,9.0,10.0,11.0


In [144]:
df2

Unnamed: 0,a,b,c,d,e
0,0.0,1.0,2.0,3.0,4.0
1,5.0,,7.0,8.0,9.0
2,10.0,11.0,12.0,13.0,14.0
3,15.0,16.0,17.0,18.0,19.0


La suma de estos da como resultado valores NA en las ubicaciones que no se superponen:

In [145]:
df1 + df2

Unnamed: 0,a,b,c,d,e
0,0.0,2.0,4.0,6.0,
1,9.0,,13.0,15.0,
2,18.0,20.0,22.0,24.0,
3,,,,,


Usando el addmétodo encendido df1, paso df2un argumento a fill_value:

In [146]:
df1.add(df2, fill_value=0)

Unnamed: 0,a,b,c,d,e
0,0.0,2.0,4.0,6.0,4.0
1,9.0,5.0,13.0,15.0,9.0
2,18.0,20.0,22.0,24.0,14.0
3,15.0,16.0,17.0,18.0,19.0


Estas dos declaraciones son equivalentes:

In [147]:
1 / df1

Unnamed: 0,a,b,c,d
0,inf,1.0,0.5,0.333333
1,0.25,0.2,0.166667,0.142857
2,0.125,0.111111,0.1,0.090909


In [148]:
df1.rdiv(1)

Unnamed: 0,a,b,c,d
0,inf,1.0,0.5,0.333333
1,0.25,0.2,0.166667,0.142857
2,0.125,0.111111,0.1,0.090909


De manera relacionada, al volver a indexar una serie o un DataFrame, también puede especificar un valor de relleno diferente:

In [149]:
df1.reindex(columns=df2.columns, fill_value=0)

Unnamed: 0,a,b,c,d,e
0,0.0,1.0,2.0,3.0,0
1,4.0,5.0,6.0,7.0,0
2,8.0,9.0,10.0,11.0,0


**Operaciones entre DataFrame y Series**
Al igual que con las matrices NumPy de También se definen diferentes dimensiones, la aritmética entre DataFrame y Series. Primero, como un ejemplo motivador, considere la diferencia entre una matriz bidimensional y una de sus filas:

In [150]:
arr = np.arange(12.).reshape((3, 4))
arr

array([[ 0.,  1.,  2.,  3.],
       [ 4.,  5.,  6.,  7.],
       [ 8.,  9., 10., 11.]])

In [151]:
arr[0]

array([0., 1., 2., 3.])

In [152]:
arr - arr[0]

array([[0., 0., 0., 0.],
       [4., 4., 4., 4.],
       [8., 8., 8., 8.]])

Cuando restamos arr[0]de arr, la resta se realiza una vez para cada fila. Esto se conoce como la radiodifusión.
Las operaciones entre un DataFrame y una Serie son similares:

In [153]:
frame = pd.DataFrame(np.arange(12.).reshape((4, 3)), columns=list('bde'), index=['Utah', 'Ohio', 'Texas', 'Oregon'])
series = frame.iloc[0]
frame

Unnamed: 0,b,d,e
Utah,0.0,1.0,2.0
Ohio,3.0,4.0,5.0
Texas,6.0,7.0,8.0
Oregon,9.0,10.0,11.0


In [154]:
series

b    0.0
d    1.0
e    2.0
Name: Utah, dtype: float64

In [155]:
frame - series

Unnamed: 0,b,d,e
Utah,0.0,0.0,0.0
Ohio,3.0,3.0,3.0
Texas,6.0,6.0,6.0
Oregon,9.0,9.0,9.0


Si no se encuentra un valor de índice ni en las columnas del DataFrame ni en el índice de la Serie, los objetos se volverán a indexar para formar la unión:

In [156]:
series2 = pd.Series(range(3), index=['b', 'e', 'f'])
frame + series2

Unnamed: 0,b,d,e,f
Utah,0.0,,3.0,
Ohio,3.0,,6.0,
Texas,6.0,,9.0,
Oregon,9.0,,12.0,


Si, en cambio, desea transmitir sobre las columnas, haciendo coincidir las filas, debe usar uno de los métodos aritméticos. Por ejemplo:

In [157]:
series3 = frame['d']
frame

Unnamed: 0,b,d,e
Utah,0.0,1.0,2.0
Ohio,3.0,4.0,5.0
Texas,6.0,7.0,8.0
Oregon,9.0,10.0,11.0


In [158]:
series3

Utah       1.0
Ohio       4.0
Texas      7.0
Oregon    10.0
Name: d, dtype: float64

In [159]:
frame.sub(series3, axis='index')

Unnamed: 0,b,d,e
Utah,-1.0,0.0,1.0
Ohio,-1.0,0.0,1.0
Texas,-1.0,0.0,1.0
Oregon,-1.0,0.0,1.0


#**Aplicación y Asignación de funciones**



In [None]:
frame = pd.DataFrame(np.random.randn(4, 3), columns=list('bde'), index=['Utah', 'Ohio', 'Texas', 'Oregon'])
frame

In [None]:
np.abs(frame)

Otra operación frecuente es aplicar una función en matrices unidimensionales a cada columna o fila. De trama de datos applymétodohace exactamente esto:

In [None]:
f = lambda x: x.max() - x.min()
frame.apply(f)

Aquí, la función f, que calcula la diferencia entre el máximo y el mínimo de una serie, se invoca una vez en cada columna de frame. El resultado es una serie que tiene las columnas de framecomo índice.

Si pasa axis='columns'a apply, la función se invocará una vez por fila en su lugar:



In [None]:
frame.apply(f, axis='columns')

Muchas de las estadísticas de matrices más comunes (como sumy mean) son métodos DataFrame, por applylo que no es necesario usarlas .

In [None]:
def f(x): return pd.Series([x.min(), x.max()], index=['min', 'max'])
frame.apply(f)

También se pueden usar funciones de Python basadas en elementos. Suponga que desea calcular una cadena formateada a partir de cada valor de punto flotante en frame. Puedes hacerlocon applymap:

In [None]:
format = lambda x: '%.2f' % x
frame.applymap(format)

La razón del nombre applymapes que Series tiene un mapmétodopara aplicar una función por elementos:

In [None]:
frame['e'].map(format)

#**Clasificación**
Ordenar un conjunto de datos por algún criterio es otra operación incorporada importante. Para ordenar lexicográficamente por índice de fila o columna, use el sort_indexmétodo,que devuelve un nuevo objeto ordenado:


In [None]:
obj = pd.Series(range(4), index=['d', 'a', 'b', 'c'])
obj.sort_index()


Con un DataFrame, puede ordenar por índice en cualquier eje:

In [None]:
frame = pd.DataFrame(np.arange(8).reshape((2, 4)), index=['three', 'one'], columns=['d', 'a', 'b', 'c'])
frame.sort_index()

In [None]:
frame.sort_index(axis=1)

Los datos se ordenan en orden ascendente de forma predeterminada, pero también se pueden ordenar en orden descendente:

In [None]:
frame.sort_index(axis=1, ascending=False)

Para ordenar una serie por sus valores, usa su sort_values método:

In [None]:
obj = pd.Series([4, 7, -3, 2])
obj.sort_values()

Cualquier valor faltante se ordenan al final de la serie de forma predeterminada:

In [None]:
obj = pd.Series([4, np.nan, 7, np.nan, -3, 2])
obj.sort_values()

Al ordenar un DataFrame, puede usar los datos en una o más columnas como claves de ordenación. Para hacerlo, pase uno o más nombres de columna a la byopción de sort_values:

In [None]:
frame = pd.DataFrame({'b': [4, 7, -3, 2], 'a': [0, 1, 0, 1]})
frame

In [None]:
frame.sort_values(by='b')

Para ordenar por varias columnas, pase una lista de nombres:

In [None]:
frame.sort_values(by=['a', 'b'])

La clasificación asigna rangos desde uno hasta el número de puntos de datos válidos en una matriz.Los rankmétodos para Series yDataFrame es el lugar para buscar; por defecto rankrompe empates asignando a cada grupo el rango medio:

In [None]:
obj = pd.Series([7, -5, 7, 4, 2, 0, 4])
obj.rank()

Los rangos también se pueden asignar de acuerdo con el orden en que se observan en los datos:

In [None]:
obj.rank(method='first')

Aquí, en lugar de usar el rango promedio 6.5 para las entradas 0 y 2, se han establecido en 6 y 7 porque la etiqueta 0 precede a la etiqueta 2 en los datos.

También puede clasificar en orden descendente:

In [None]:
obj.rank(ascending=False, method='max')

DataFrame puede calcular rangos en filas o columnas:

In [None]:
frame = pd.DataFrame({'b': [4.3, 7, -3, 2], 'a': [0, 1, 0, 1], 'c': [-2, 5, 8, -2.5]})
frame

In [None]:
frame.rank(axis='columns')

#**Indices con Etiquetas duplicadas**
Hasta ahora, hemos visto etiquetas de eje únicas (valores de índice). Consideremos una Serie con índices duplicados:




In [None]:
obj = pd.Series(range(5), index=['a', 'a', 'b', 'b', 'c'])
obj

is_unique indica si sus etiquetas son únicas o no:

In [None]:
obj.index.is_unique

La selección de datos es una de las principales cosas que se comportan de manera diferente con los duplicados. La indexación de una etiqueta con varias entradas devuelve una serie, mientras que las entradas individuales devuelven un valor escalar:



In [None]:
obj['a']

In [None]:
obj['c']

Esto puede hacer que su código sea más complicado, ya que el tipo de salida de la indexación puede variar en función de si una etiqueta se repite o no.

La misma lógica se extiende a la indexación de filas en un DataFrame:

In [None]:
df = pd.DataFrame(np.random.randn(4, 3), index=['a', 'a', 'b', 'b'])
df

In [None]:
df.loc['b']

#**Estadísticas Descriptivas**
los objetos pandas son equipado con un conjunto de métodos matemáticos y estadísticos comunes. La mayoría de estos se incluyen en la categoría de reducciones o estadísticas de resumen , métodos que extraen un solo valor (como la suma o la media) de una serie o una serie de valores de las filas o columnas de un DataFrame. En comparación con los métodos similares que se encuentran en las matrices NumPy, tienen un manejo integrado de los datos faltantes. Considere un DataFrame pequeño:




In [None]:
df = pd.DataFrame([[1.4, np.nan], [7.1, -4.5],[np.nan, np.nan], [0.75, -1.3]],index=['a', 'b', 'c', 'd'], columns=['one', 'two'])
df

Llamando al summétodo de DataFramedevuelve una serie que contiene sumas de columna:

In [None]:
df.sum()

Pasando axis='columns'o axis=1sumas a través de las columnas en su lugar:

In [None]:
df.sum(axis='columns')

Los valores NA se excluyen a menos que todo el segmento (fila o columna en este caso) sea NA. Esto se puede desactivar con *skipna:*

In [None]:
df.mean(axis='columns', skipna=False)

Algunos métodos, como idxminy idxmax, devuelven estadísticas indirectas como el valor del índice donde se alcanzan los valores mínimo o máximo:

In [None]:
df.idxmax()

Otros metodos son acumulaciones :

In [None]:
df.cumsum()

Otro tipo de método no es ni reducción ni acumulación. describees uno de esos ejemplos, que produce múltiples estadísticas resumidas de una sola vez:

In [None]:
df.describe()

En datos no numéricos, *describe() *produce estadísticos de resumen alternativos:

In [None]:
obj = pd.Series(['a', 'a', 'b', 'c'] * 4)
obj.describe()

#**Correlación y Covarianza**
Estadísticas resumidas, se calculan a partir de pares de argumentos. 



In [162]:
import pandas_datareader.data as web
all_data = {ticker: web.get_data_yahoo(ticker) for ticker in ['AAPL', 'IBM', 'MSFT', 'GOOG']}

price = pd.DataFrame({ticker: data['Adj Close'] for ticker, data in all_data.items()})
volume = pd.DataFrame({ticker: data['Volume'] for ticker, data in all_data.items()})

SyntaxError: ignored

In [126]:
returns = price.pct_change()
returns.tail()

NameError: ignored

El corrmétodo deSeries calcula la correlación de los valores superpuestos, no NA, alineados por índice en dos Series. De manera relacionada, covcalcula elcovarianza:

In [None]:
returns['MSFT'].corr(returns['IBM'])

In [None]:
returns['MSFT'].cov(returns['IBM'])

Ya que MSFTes un validoAtributo de Python, también podemos seleccionar estas columnas usando una sintaxis más concisa

In [None]:
returns.MSFT.corr(returns.IBM)

DataFrame's corry covmétodos,por otro lado, devuelve una matriz de correlación o covarianza completa como un DataFrame, respectivamente:

In [None]:
returns.corr()

In [None]:
returns.cov()

Usando el corrwith método de DataFrame ,puede calcular correlaciones por pares entre las columnas o filas de un DataFrame con otra Serie o DataFrame. Pasar una serie devuelve una serie con el valor de correlación calculado para cada columna:

In [None]:
returns.corrwith(returns.IBM)

Pasar un DataFrame calcula las correlaciones de los nombres de columna coincidentes. Aquí calculo las correlaciones de los cambios porcentuales con el volumen:

In [None]:
returns.corrwith(volume)

#**Valores Unicos, Valor Contable y Membresía**
Estadísticas resumidas, se calculan a partir de pares de argumentos. 



In [None]:
obj = pd.Series(['c', 'a', 'd', 'a', 'a', 'b', 'b', 'c', 'c'])

La primera función es unique, quele ofrece una matriz de valores únicos en una serie:

In [None]:
uniques = obj.unique()
uniques

Los valores únicos no se devuelven necesariamente en orden ordenado, pero se pueden ordenar después del hecho si es necesario ( uniques.sort()). De manera relacionada, value_countscalcula una serie que contiene frecuencias de valor:

In [None]:
obj.value_counts()

La serie está ordenada por valor en orden descendente para su conveniencia. value_countstambién está disponible como un método pandas de nivel superior que se puede usar con cualquier matriz o secuencia:

In [None]:
pd.value_counts(obj.values, sort=False)

*isin() * realiza un verificación de pertenencia a un conjunto vectorizado y puede ser útil para filtrar un conjunto de datos a un subconjunto de valores en una serie o columna en un DataFrame:

In [None]:
obj

In [None]:
mask = obj.isin(['b', 'c'])
mask

In [None]:
obj[mask]

Index.get_indexer le da una matriz de índice de una matriz de valores posiblemente no distintos en otra matriz de valores distintos:

In [None]:
to_match = pd.Series(['c', 'a', 'b', 'b', 'c', 'a'])
unique_vals = pd.Series(['c', 'b', 'a'])
pd.Index(unique_vals).get_indexer(to_match)