## Pandas (Operating on Data)


In [1]:
import numpy as np
import pandas as pd # librería de pandas

In [2]:
pd.__version__ #versión de pandas

'0.23.0'

### Ufuncs: Index Preservation

Pandas está diseñado para trabajar con Numpy, y las funciones ufunc de numpy funcionarán en los objetos Series y DataFrame.

In [3]:
rng = np.random.RandomState(42)

In [4]:
ser = pd.Series(rng.randint(0,10,4))

In [5]:
ser

0    6
1    3
2    7
3    4
dtype: int64

In [6]:
df = pd.DataFrame(rng.randint(0,10, (3,4)), columns=['A','B','C','D'])

In [7]:
df

Unnamed: 0,A,B,C,D
0,6,9,2,6
1,7,4,3,7
2,7,2,5,4


###### Ufuncs: Index Alignment

En operaciones binarias en dos Series o un DataFrame, Pandas alineará los indices en el proceso de ejecutar la operación. Esto es bastante conveniente cuando trabajamos con datos incompletos.

In [8]:
area = pd.Series({'Alaska': 1723337, 'Texas': 695662, 'California': 423967}, name='area')

In [9]:
area

Alaska        1723337
Texas          695662
California     423967
Name: area, dtype: int64

In [10]:
population = pd.Series({'California': 2382371823, 'Texas': 282728, 'New York': 83298323}, name='population')

In [11]:
population

California    2382371823
Texas             282728
New York        83298323
Name: population, dtype: int64

In [12]:
# combinamos las dos Series, dividiendo la población por el área
population / area

Alaska                NaN
California    5619.238816
New York              NaN
Texas            0.406416
dtype: float64

El resultado es la unión de los índices de las dos Series, que puede
determinarse a partir de una operación aritmética de los dos índices

In [13]:
area.index | population.index

Index(['Alaska', 'California', 'New York', 'Texas'], dtype='object')

Un item que no este en cualquiera de las dos series genera un valor NaN(Not a Number)

#### Index Alignment in DataFrame

Mapeo entre Python Operators y Pandas Methods

+    add()
-    sub(), subtract()
*    mul(), multiply()
/    truediv(), div(), divide()
//   floordir()
%    mod()
**   pow()


In [14]:
A = pd.Series([2,4,6], index=[0,1,2])
B = pd.Series([1,3,5], index=[1,2,3])

A + B

0    NaN
1    5.0
2    9.0
3    NaN
dtype: float64

In [15]:
A.add(B, fill_value=0) 
# A + B, si no encuentra el match, pone el valor del índice 0

0    2.0
1    5.0
2    9.0
3    5.0
dtype: float64

In [25]:
A = pd.DataFrame(rng.randint(0,20,(2,2)), index=list('AB'))
B = pd.DataFrame(rng.randint(0,10,(3,3)), index=list('BAC'))

In [26]:
A

Unnamed: 0,0,1
A,19,2
B,4,18


In [27]:
B

Unnamed: 0,0,1,2
B,6,4,8
A,6,1,3
C,8,1,9


In [30]:
A + B # sumamos los dos DataFrames

Unnamed: 0,0,1,2
A,25.0,3.0,
B,10.0,22.0,
C,,,


Todos aquellos items que no están en los dos df, se marcan con NaN

In [29]:
A.add(B, fill_value=12)

Unnamed: 0,0,1,2
A,25.0,3.0,15.0
B,10.0,22.0,20.0
C,20.0,13.0,21.0


In [31]:
A

Unnamed: 0,0,1
A,19,2
B,4,18


In [50]:
A.stack().mean()

10.75

In [53]:
(19 + 4 + 2 + 18) /4


10.75

#### Operaciones entre Series y DataFrame

Cuando realizamos operaciones entre Series y DataFrame los índices y las columnas permanecerán también alineados. Son operaciones similares entre una array numpy unidimensional y otro bidimensional.

Tener en cuenta las normas del BroadCasting

In [66]:
A = rng.randint(0,10,(3,4))

In [67]:
A

array([[1, 7, 3, 1],
       [5, 5, 9, 3],
       [5, 1, 9, 1]])

In [68]:
A - A[0]

array([[ 0,  0,  0,  0],
       [ 4, -2,  6,  2],
       [ 4, -6,  6,  0]])

In [69]:
df = pd.DataFrame(A, columns=list('QRST'))

In [70]:
df - df.iloc[0]

Unnamed: 0,Q,R,S,T
0,0,0,0,0
1,4,-2,6,2
2,4,-6,6,0


In [71]:
df

Unnamed: 0,Q,R,S,T
0,1,7,3,1
1,5,5,9,3
2,5,1,9,1


In [72]:
df['R']

0    7
1    5
2    1
Name: R, dtype: int64

In [73]:
df.subtract(df['R'], axis=0)

Unnamed: 0,Q,R,S,T
0,-6,0,-4,-6
1,0,0,4,-2
2,4,0,8,0


In [74]:
halfrow = df.iloc[0, ::2]

In [75]:
halfrow

Q    1
S    3
Name: 0, dtype: int64

In [76]:
df - halfrow

Unnamed: 0,Q,R,S,T
0,0.0,,0.0,
1,4.0,,6.0,
2,4.0,,6.0,
