# Pandas: A Data Analysis Library
http://pandas.pydata.org/pandas-docs/stable/10min.html#min

http://pandas.pydata.org/pandas-docs/stable/tutorials.html

In [1]:
import pandas as pd
from IPython.display import display # para que al imprimir tablas con print() salgan bonitas
import numpy as np
import matplotlib.pyplot as plt

Se crea una serie pasando una lista de valores. Por default pandas crea un índice entero:

In [2]:
s = pd.Series([1,3,5,np.nan, 6,8], dtype=np.float32)
s

0    1.0
1    3.0
2    5.0
3    NaN
4    6.0
5    8.0
dtype: float32

Para crear un 'DataFrame' se entrega un 'numpy array', con un índice de 'datatimes' y columnas con etiquetas:

In [3]:
dates = pd.date_range('20170101', periods = 6, freq='W-MON')
display(dates)

DatetimeIndex(['2017-01-02', '2017-01-09', '2017-01-16', '2017-01-23',
               '2017-01-30', '2017-02-06'],
              dtype='datetime64[ns]', freq='W-MON')

In [4]:
df = pd.DataFrame(np.random.randn(6,4), index = dates, columns = list('ABCD'))
df

Unnamed: 0,A,B,C,D
2017-01-02,-0.184179,1.21766,0.845276,-1.250314
2017-01-09,0.764393,0.456547,-0.514377,0.134011
2017-01-16,-0.862578,-0.008425,-0.608595,-1.371383
2017-01-23,1.102178,0.356732,0.281495,-1.102584
2017-01-30,-1.006635,-0.721469,0.583044,-0.313334
2017-02-06,-0.533001,0.274498,1.267834,-1.274356


Crear un 'dataframe' pasando un diccionario de objetos que pueden ser convertidos a una serie

In [5]:
df2 = pd.DataFrame({'A': 1.,
                   'B': pd.Timestamp('20170713'),
                   'C': pd.Series(1,index=list(range(4)),dtype='float32'),
                   'D': np.array([3]*4, dtype='int32'),
                   'E': pd.Categorical(["test","train","test","train"]),
                   'F': 'foo'})

df2

Unnamed: 0,A,B,C,D,E,F
0,1.0,2017-07-13,1.0,3,test,foo
1,1.0,2017-07-13,1.0,3,train,foo
2,1.0,2017-07-13,1.0,3,test,foo
3,1.0,2017-07-13,1.0,3,train,foo


Con 'dtype' específicos

## Viendo los datos

Ver la parte superior o inferior de una tabla

In [6]:
df.head()

Unnamed: 0,A,B,C,D
2017-01-02,-0.184179,1.21766,0.845276,-1.250314
2017-01-09,0.764393,0.456547,-0.514377,0.134011
2017-01-16,-0.862578,-0.008425,-0.608595,-1.371383
2017-01-23,1.102178,0.356732,0.281495,-1.102584
2017-01-30,-1.006635,-0.721469,0.583044,-0.313334


In [7]:
df.tail(3)

Unnamed: 0,A,B,C,D
2017-01-23,1.102178,0.356732,0.281495,-1.102584
2017-01-30,-1.006635,-0.721469,0.583044,-0.313334
2017-02-06,-0.533001,0.274498,1.267834,-1.274356


Mostrar el índice, las columnas, los datos e información adicional

In [8]:
display(df.index)
display(df.columns)
display(df.values)
display(df.shape)
display(df.count())
df.info()

DatetimeIndex(['2017-01-02', '2017-01-09', '2017-01-16', '2017-01-23',
               '2017-01-30', '2017-02-06'],
              dtype='datetime64[ns]', freq='W-MON')

Index(['A', 'B', 'C', 'D'], dtype='object')

array([[-0.18417853,  1.21765962,  0.84527625, -1.25031383],
       [ 0.76439288,  0.45654691, -0.51437733,  0.13401058],
       [-0.86257809, -0.00842522, -0.60859463, -1.37138326],
       [ 1.10217773,  0.3567324 ,  0.28149456, -1.10258396],
       [-1.00663476, -0.72146949,  0.58304441, -0.3133343 ],
       [-0.53300063,  0.27449818,  1.26783376, -1.27435646]])

(6, 4)

A    6
B    6
C    6
D    6
dtype: int64

<class 'pandas.core.frame.DataFrame'>
DatetimeIndex: 6 entries, 2017-01-02 to 2017-02-06
Freq: W-MON
Data columns (total 4 columns):
A    6 non-null float64
B    6 non-null float64
C    6 non-null float64
D    6 non-null float64
dtypes: float64(4)
memory usage: 240.0 bytes


Viendo un resumen de los datos:

In [9]:
df.describe()

Unnamed: 0,A,B,C,D
count,6.0,6.0,6.0,6.0
mean,-0.11997,0.26259,0.309113,-0.862994
std,0.870414,0.632551,0.748698,0.621489
min,-1.006635,-0.721469,-0.608595,-1.371383
25%,-0.780184,0.062306,-0.315409,-1.268346
50%,-0.35859,0.315615,0.432269,-1.176449
75%,0.52725,0.431593,0.779718,-0.510647
max,1.102178,1.21766,1.267834,0.134011


Trasponiendo los datos

In [10]:
df.T

Unnamed: 0,2017-01-02 00:00:00,2017-01-09 00:00:00,2017-01-16 00:00:00,2017-01-23 00:00:00,2017-01-30 00:00:00,2017-02-06 00:00:00
A,-0.184179,0.764393,-0.862578,1.102178,-1.006635,-0.533001
B,1.21766,0.456547,-0.008425,0.356732,-0.721469,0.274498
C,0.845276,-0.514377,-0.608595,0.281495,0.583044,1.267834
D,-1.250314,0.134011,-1.371383,-1.102584,-0.313334,-1.274356


In [11]:
df.describe().T

Unnamed: 0,count,mean,std,min,25%,50%,75%,max
A,6.0,-0.11997,0.870414,-1.006635,-0.780184,-0.35859,0.52725,1.102178
B,6.0,0.26259,0.632551,-0.721469,0.062306,0.315615,0.431593,1.21766
C,6.0,0.309113,0.748698,-0.608595,-0.315409,0.432269,0.779718,1.267834
D,6.0,-0.862994,0.621489,-1.371383,-1.268346,-1.176449,-0.510647,0.134011


In [12]:
df.T.describe().T

Unnamed: 0,count,mean,std,min,25%,50%,75%,max
2017-01-02,4.0,0.157111,1.109904,-1.250314,-0.450712,0.330549,0.938372,1.21766
2017-01-09,4.0,0.210143,0.547307,-0.514377,-0.028086,0.295279,0.533508,0.764393
2017-01-16,4.0,-0.712745,0.566618,-1.371383,-0.989779,-0.735586,-0.458552,-0.008425
2017-01-23,4.0,0.159455,0.91929,-1.102584,-0.064525,0.319113,0.543094,1.102178
2017-01-30,4.0,-0.364599,0.692874,-1.006635,-0.792761,-0.517402,-0.08924,0.583044
2017-02-06,4.0,-0.066256,1.09137,-1.274356,-0.71834,-0.129251,0.522832,1.267834


Ordenando por ejes:

In [13]:
df.sort_index(axis=0, ascending=False)

Unnamed: 0,A,B,C,D
2017-02-06,-0.533001,0.274498,1.267834,-1.274356
2017-01-30,-1.006635,-0.721469,0.583044,-0.313334
2017-01-23,1.102178,0.356732,0.281495,-1.102584
2017-01-16,-0.862578,-0.008425,-0.608595,-1.371383
2017-01-09,0.764393,0.456547,-0.514377,0.134011
2017-01-02,-0.184179,1.21766,0.845276,-1.250314


In [14]:
df.sort_values(by='C', ascending=False).sort_index(axis=1, ascending=False)

Unnamed: 0,D,C,B,A
2017-02-06,-1.274356,1.267834,0.274498,-0.533001
2017-01-02,-1.250314,0.845276,1.21766,-0.184179
2017-01-30,-0.313334,0.583044,-0.721469,-1.006635
2017-01-23,-1.102584,0.281495,0.356732,1.102178
2017-01-09,0.134011,-0.514377,0.456547,0.764393
2017-01-16,-1.371383,-0.608595,-0.008425,-0.862578


In [15]:
df

Unnamed: 0,A,B,C,D
2017-01-02,-0.184179,1.21766,0.845276,-1.250314
2017-01-09,0.764393,0.456547,-0.514377,0.134011
2017-01-16,-0.862578,-0.008425,-0.608595,-1.371383
2017-01-23,1.102178,0.356732,0.281495,-1.102584
2017-01-30,-1.006635,-0.721469,0.583044,-0.313334
2017-02-06,-0.533001,0.274498,1.267834,-1.274356


## Selección

Obtener una columa sola

In [16]:
df['D']

2017-01-02   -1.250314
2017-01-09    0.134011
2017-01-16   -1.371383
2017-01-23   -1.102584
2017-01-30   -0.313334
2017-02-06   -1.274356
Freq: W-MON, Name: D, dtype: float64

In [17]:
df.A

2017-01-02   -0.184179
2017-01-09    0.764393
2017-01-16   -0.862578
2017-01-23    1.102178
2017-01-30   -1.006635
2017-02-06   -0.533001
Freq: W-MON, Name: A, dtype: float64

Usando [ ] podemos sacar tajadas (filas)

In [18]:
df[0:3]

Unnamed: 0,A,B,C,D
2017-01-02,-0.184179,1.21766,0.845276,-1.250314
2017-01-09,0.764393,0.456547,-0.514377,0.134011
2017-01-16,-0.862578,-0.008425,-0.608595,-1.371383


In [19]:
df['20170103':'20170205']

Unnamed: 0,A,B,C,D
2017-01-09,0.764393,0.456547,-0.514377,0.134011
2017-01-16,-0.862578,-0.008425,-0.608595,-1.371383
2017-01-23,1.102178,0.356732,0.281495,-1.102584
2017-01-30,-1.006635,-0.721469,0.583044,-0.313334


## Seleccionado por etiquetas:

Para obtener una sección usando etiquetas, y una selección multi-eje:

In [20]:
dates[0]

Timestamp('2017-01-02 00:00:00', freq='W-MON')

In [21]:
df.loc[dates[0]]

A   -0.184179
B    1.217660
C    0.845276
D   -1.250314
Name: 2017-01-02 00:00:00, dtype: float64

In [22]:
df.loc[:,['A','B']]

Unnamed: 0,A,B
2017-01-02,-0.184179,1.21766
2017-01-09,0.764393,0.456547
2017-01-16,-0.862578,-0.008425
2017-01-23,1.102178,0.356732
2017-01-30,-1.006635,-0.721469
2017-02-06,-0.533001,0.274498


Mostrando un corte por etiqueta, especificando los puntos de término:

In [23]:
df.loc['20170102':'20170204',['A','B']]

Unnamed: 0,A,B
2017-01-02,-0.184179,1.21766
2017-01-09,0.764393,0.456547
2017-01-16,-0.862578,-0.008425
2017-01-23,1.102178,0.356732
2017-01-30,-1.006635,-0.721469


Reduciendo la dimensión del objeto entregado:

In [24]:
df.loc['20170102',['A','B']]

A   -0.184179
B    1.217660
Name: 2017-01-02 00:00:00, dtype: float64

Para obtener un valor escalar

In [25]:
%timeit df.loc[dates[0],'A']

16.2 µs ± 423 ns per loop (mean ± std. dev. of 7 runs, 100000 loops each)


Para obtener rápido acceso a un escalar 

In [26]:
%timeit df.at[dates[0],'A']

12.6 µs ± 467 ns per loop (mean ± std. dev. of 7 runs, 100000 loops each)


## Selección por posición

Se selecciona la posición de los indices entregados

In [27]:
df

Unnamed: 0,A,B,C,D
2017-01-02,-0.184179,1.21766,0.845276,-1.250314
2017-01-09,0.764393,0.456547,-0.514377,0.134011
2017-01-16,-0.862578,-0.008425,-0.608595,-1.371383
2017-01-23,1.102178,0.356732,0.281495,-1.102584
2017-01-30,-1.006635,-0.721469,0.583044,-0.313334
2017-02-06,-0.533001,0.274498,1.267834,-1.274356


In [28]:
df.iloc[3]

A    1.102178
B    0.356732
C    0.281495
D   -1.102584
Name: 2017-01-23 00:00:00, dtype: float64

Cortes usando enteros actúa igual que numpy

In [29]:
df.iloc[3:5,0:2]

Unnamed: 0,A,B
2017-01-23,1.102178,0.356732
2017-01-30,-1.006635,-0.721469


Una lista de posiciones enteras:

In [30]:
df.iloc[[1,2,4],[0,2]]

Unnamed: 0,A,C
2017-01-09,0.764393,-0.514377
2017-01-16,-0.862578,-0.608595
2017-01-30,-1.006635,0.583044


Cortes explícitos de filas y columnas:

In [31]:
df.iloc[1:3,:]

Unnamed: 0,A,B,C,D
2017-01-09,0.764393,0.456547,-0.514377,0.134011
2017-01-16,-0.862578,-0.008425,-0.608595,-1.371383


In [32]:
df.iloc[:,1:3]

Unnamed: 0,B,C
2017-01-02,1.21766,0.845276
2017-01-09,0.456547,-0.514377
2017-01-16,-0.008425,-0.608595
2017-01-23,0.356732,0.281495
2017-01-30,-0.721469,0.583044
2017-02-06,0.274498,1.267834


Para acceder a un valor explícito

In [33]:
df.iloc[1,1]

0.4565469125054163

Para obtener rápido acceso a un escalar:

In [34]:
df.iat[1,1]

0.4565469125054163

## Indices booleanos
Usando los valores de una columna para extraer datos, cuando una condición se satisface:


In [35]:
df

Unnamed: 0,A,B,C,D
2017-01-02,-0.184179,1.21766,0.845276,-1.250314
2017-01-09,0.764393,0.456547,-0.514377,0.134011
2017-01-16,-0.862578,-0.008425,-0.608595,-1.371383
2017-01-23,1.102178,0.356732,0.281495,-1.102584
2017-01-30,-1.006635,-0.721469,0.583044,-0.313334
2017-02-06,-0.533001,0.274498,1.267834,-1.274356


In [36]:
df.A>0

2017-01-02    False
2017-01-09     True
2017-01-16    False
2017-01-23     True
2017-01-30    False
2017-02-06    False
Freq: W-MON, Name: A, dtype: bool

In [37]:
df[df.A>0]

Unnamed: 0,A,B,C,D
2017-01-09,0.764393,0.456547,-0.514377,0.134011
2017-01-23,1.102178,0.356732,0.281495,-1.102584


Se usa la función 'isin()' para filtrar:

In [38]:
df2 = df.copy()
df2['E']=['one','one','two','three','four','three']
df2

Unnamed: 0,A,B,C,D,E
2017-01-02,-0.184179,1.21766,0.845276,-1.250314,one
2017-01-09,0.764393,0.456547,-0.514377,0.134011,one
2017-01-16,-0.862578,-0.008425,-0.608595,-1.371383,two
2017-01-23,1.102178,0.356732,0.281495,-1.102584,three
2017-01-30,-1.006635,-0.721469,0.583044,-0.313334,four
2017-02-06,-0.533001,0.274498,1.267834,-1.274356,three


In [39]:
df2.E.isin(['two','four'])

2017-01-02    False
2017-01-09    False
2017-01-16     True
2017-01-23    False
2017-01-30     True
2017-02-06    False
Freq: W-MON, Name: E, dtype: bool

In [40]:
df2[df2.E.isin(['two','four'])]

Unnamed: 0,A,B,C,D,E
2017-01-16,-0.862578,-0.008425,-0.608595,-1.371383,two
2017-01-30,-1.006635,-0.721469,0.583044,-0.313334,four


## Advanced Indexing

In [41]:
df2

Unnamed: 0,A,B,C,D,E
2017-01-02,-0.184179,1.21766,0.845276,-1.250314,one
2017-01-09,0.764393,0.456547,-0.514377,0.134011,one
2017-01-16,-0.862578,-0.008425,-0.608595,-1.371383,two
2017-01-23,1.102178,0.356732,0.281495,-1.102584,three
2017-01-30,-1.006635,-0.721469,0.583044,-0.313334,four
2017-02-06,-0.533001,0.274498,1.267834,-1.274356,three


In [42]:
df2.filter(items = ['A','D'])

Unnamed: 0,A,D
2017-01-02,-0.184179,-1.250314
2017-01-09,0.764393,0.134011
2017-01-16,-0.862578,-1.371383
2017-01-23,1.102178,-1.102584
2017-01-30,-1.006635,-0.313334
2017-02-06,-0.533001,-1.274356


In [43]:
df2.filter(like = '-01', axis=0)

Unnamed: 0,A,B,C,D,E
2017-01-02,-0.184179,1.21766,0.845276,-1.250314,one
2017-01-09,0.764393,0.456547,-0.514377,0.134011,one
2017-01-16,-0.862578,-0.008425,-0.608595,-1.371383,two
2017-01-23,1.102178,0.356732,0.281495,-1.102584,three
2017-01-30,-1.006635,-0.721469,0.583044,-0.313334,four


In [44]:
df2.filter(regex = '2017-01-0[29]', axis=0)

Unnamed: 0,A,B,C,D,E
2017-01-02,-0.184179,1.21766,0.845276,-1.250314,one
2017-01-09,0.764393,0.456547,-0.514377,0.134011,one


In [45]:
df2.select(lambda x: x > pd.Timestamp('2017-01-23'))

  """Entry point for launching an IPython kernel.


Unnamed: 0,A,B,C,D,E
2017-01-30,-1.006635,-0.721469,0.583044,-0.313334,four
2017-02-06,-0.533001,0.274498,1.267834,-1.274356,three


In [46]:
df2.select(lambda x: x > 'B', axis=1)

  """Entry point for launching an IPython kernel.


Unnamed: 0,C,D,E
2017-01-02,0.845276,-1.250314,one
2017-01-09,-0.514377,0.134011,one
2017-01-16,-0.608595,-1.371383,two
2017-01-23,0.281495,-1.102584,three
2017-01-30,0.583044,-0.313334,four
2017-02-06,1.267834,-1.274356,three


In [47]:
df2.where(df2 > 0)

Unnamed: 0,A,B,C,D,E
2017-01-02,,1.21766,0.845276,,one
2017-01-09,0.764393,0.456547,,0.134011,one
2017-01-16,,,,,two
2017-01-23,1.102178,0.356732,0.281495,,three
2017-01-30,,,0.583044,,four
2017-02-06,,0.274498,1.267834,,three


In [48]:
df2.where(df2 < 0)

Unnamed: 0,A,B,C,D,E
2017-01-02,-0.184179,,,-1.250314,one
2017-01-09,,,-0.514377,,one
2017-01-16,-0.862578,-0.008425,-0.608595,-1.371383,two
2017-01-23,,,,-1.102584,three
2017-01-30,-1.006635,-0.721469,,-0.313334,four
2017-02-06,-0.533001,,,-1.274356,three


In [49]:
df2.query('A > B')

Unnamed: 0,A,B,C,D,E
2017-01-09,0.764393,0.456547,-0.514377,0.134011,one
2017-01-23,1.102178,0.356732,0.281495,-1.102584,three


In [50]:
df2.query('C**2 > A**2 + B**2 ')

Unnamed: 0,A,B,C,D,E
2017-02-06,-0.533001,0.274498,1.267834,-1.274356,three


In [51]:
df2.query('A > B and B > C')

Unnamed: 0,A,B,C,D,E
2017-01-09,0.764393,0.456547,-0.514377,0.134011,one
2017-01-23,1.102178,0.356732,0.281495,-1.102584,three


## Configurando

Setear una nueva columna alinea automáticamente los datos por sus índices:

In [52]:
s1 = pd.Series([1,2,3,4,5,6], index=pd.date_range('20170101', periods = 6, freq='W-MON'))
display(s1)
df['F'] = s1

2017-01-02    1
2017-01-09    2
2017-01-16    3
2017-01-23    4
2017-01-30    5
2017-02-06    6
Freq: W-MON, dtype: int64

In [53]:
df

Unnamed: 0,A,B,C,D,F
2017-01-02,-0.184179,1.21766,0.845276,-1.250314,1
2017-01-09,0.764393,0.456547,-0.514377,0.134011,2
2017-01-16,-0.862578,-0.008425,-0.608595,-1.371383,3
2017-01-23,1.102178,0.356732,0.281495,-1.102584,4
2017-01-30,-1.006635,-0.721469,0.583044,-0.313334,5
2017-02-06,-0.533001,0.274498,1.267834,-1.274356,6


Seteando valores por etiqueta:

In [54]:
df.at[dates[0],'A']=0

Seteando valores por posición:

In [55]:
df.iat[0,1]=0

In [56]:
df

Unnamed: 0,A,B,C,D,F
2017-01-02,0.0,0.0,0.845276,-1.250314,1
2017-01-09,0.764393,0.456547,-0.514377,0.134011,2
2017-01-16,-0.862578,-0.008425,-0.608595,-1.371383,3
2017-01-23,1.102178,0.356732,0.281495,-1.102584,4
2017-01-30,-1.006635,-0.721469,0.583044,-0.313334,5
2017-02-06,-0.533001,0.274498,1.267834,-1.274356,6


Seteando valores usando un 'numpy array' y mostramos el resultado

In [57]:
df.loc[:,'D'] = np.array([5] * len(df))

df

Unnamed: 0,A,B,C,D,F
2017-01-02,0.0,0.0,0.845276,5,1
2017-01-09,0.764393,0.456547,-0.514377,5,2
2017-01-16,-0.862578,-0.008425,-0.608595,5,3
2017-01-23,1.102178,0.356732,0.281495,5,4
2017-01-30,-1.006635,-0.721469,0.583044,5,5
2017-02-06,-0.533001,0.274498,1.267834,5,6


In [58]:
df['D'] = np.array([6] * len(df))

In [59]:
df

Unnamed: 0,A,B,C,D,F
2017-01-02,0.0,0.0,0.845276,6,1
2017-01-09,0.764393,0.456547,-0.514377,6,2
2017-01-16,-0.862578,-0.008425,-0.608595,6,3
2017-01-23,1.102178,0.356732,0.281495,6,4
2017-01-30,-1.006635,-0.721469,0.583044,6,5
2017-02-06,-0.533001,0.274498,1.267834,6,6


Una operación 'where' para setear:

In [60]:
df2 = df.copy()
df2[df2>0] = -df2
df2

Unnamed: 0,A,B,C,D,F
2017-01-02,0.0,0.0,-0.845276,-6,-1
2017-01-09,-0.764393,-0.456547,-0.514377,-6,-2
2017-01-16,-0.862578,-0.008425,-0.608595,-6,-3
2017-01-23,-1.102178,-0.356732,-0.281495,-6,-4
2017-01-30,-1.006635,-0.721469,-0.583044,-6,-5
2017-02-06,-0.533001,-0.274498,-1.267834,-6,-6


## NaN

Pandas usa primariamente el valor 'np.nan' para representar datos faltantes. 

Reindexar permite cambiar/añadir/borrar el índice de un eje expecífico. Esto entrega una copia de los datos

In [61]:
df1 = df.reindex(index=dates[0:4], columns=list(df.columns)+['E'])
df1.loc[dates[0]:dates[1],'E']=1
df1

Unnamed: 0,A,B,C,D,F,E
2017-01-02,0.0,0.0,0.845276,6,1,1.0
2017-01-09,0.764393,0.456547,-0.514377,6,2,1.0
2017-01-16,-0.862578,-0.008425,-0.608595,6,3,
2017-01-23,1.102178,0.356732,0.281495,6,4,


Eliminando las filas que tienen datos faltantes:

In [62]:
df1.dropna(how='any')

Unnamed: 0,A,B,C,D,F,E
2017-01-02,0.0,0.0,0.845276,6,1,1.0
2017-01-09,0.764393,0.456547,-0.514377,6,2,1.0


Rellenando los datos faltantes

In [63]:
df1.fillna(value=-100)

Unnamed: 0,A,B,C,D,F,E
2017-01-02,0.0,0.0,0.845276,6,1,1.0
2017-01-09,0.764393,0.456547,-0.514377,6,2,1.0
2017-01-16,-0.862578,-0.008425,-0.608595,6,3,-100.0
2017-01-23,1.102178,0.356732,0.281495,6,4,-100.0


Para obtener los valores booleanos cuando hay NaN

In [64]:
pd.isnull(df1)

Unnamed: 0,A,B,C,D,F,E
2017-01-02,False,False,False,False,False,False
2017-01-09,False,False,False,False,False,False
2017-01-16,False,False,False,False,False,True
2017-01-23,False,False,False,False,False,True


In [65]:
df1.replace(np.nan, 'Null')

Unnamed: 0,A,B,C,D,F,E
2017-01-02,0.0,0.0,0.845276,6,1,1
2017-01-09,0.764393,0.456547,-0.514377,6,2,1
2017-01-16,-0.862578,-0.008425,-0.608595,6,3,Null
2017-01-23,1.102178,0.356732,0.281495,6,4,Null


In [66]:
df1.replace(6, 5.999999)

Unnamed: 0,A,B,C,D,F,E
2017-01-02,0.0,0.0,0.845276,5.999999,1,1.0
2017-01-09,0.764393,0.456547,-0.514377,5.999999,2,1.0
2017-01-16,-0.862578,-0.008425,-0.608595,5.999999,3,
2017-01-23,1.102178,0.356732,0.281495,5.999999,4,


In [67]:
df1

Unnamed: 0,A,B,C,D,F,E
2017-01-02,0.0,0.0,0.845276,6,1,1.0
2017-01-09,0.764393,0.456547,-0.514377,6,2,1.0
2017-01-16,-0.862578,-0.008425,-0.608595,6,3,
2017-01-23,1.102178,0.356732,0.281495,6,4,


In [68]:
df1.replace(6, 5.999999, inplace=True)

In [69]:
df1

Unnamed: 0,A,B,C,D,F,E
2017-01-02,0.0,0.0,0.845276,5.999999,1,1.0
2017-01-09,0.764393,0.456547,-0.514377,5.999999,2,1.0
2017-01-16,-0.862578,-0.008425,-0.608595,5.999999,3,
2017-01-23,1.102178,0.356732,0.281495,5.999999,4,


## Stats

efectuando estadísticas descriptivas

In [70]:
df.mean()

A   -0.089274
B    0.059647
C    0.309113
D    6.000000
F    3.500000
dtype: float64

Misma operación para el otro eje:

In [71]:
df.mean(axis=1)

2017-01-02    1.569055
2017-01-09    1.741312
2017-01-16    1.504080
2017-01-23    2.348081
2017-01-30    1.970988
2017-02-06    2.601866
Freq: W-MON, dtype: float64

Operando con objetos que tienen diferente dimensionalidad necesita un alineamiento. En adición, pandas automaticamente difunde (broadcasts) en las dimensiones especificadas

In [72]:
s = pd.Series([1,3,5,np.nan, 6 ,8], index=dates).shift(2)
display(s)

2017-01-02    NaN
2017-01-09    NaN
2017-01-16    1.0
2017-01-23    3.0
2017-01-30    5.0
2017-02-06    NaN
Freq: W-MON, dtype: float64

In [73]:
df.sub(s, axis='index')

Unnamed: 0,A,B,C,D,F
2017-01-02,,,,,
2017-01-09,,,,,
2017-01-16,-1.862578,-1.008425,-1.608595,5.0,2.0
2017-01-23,-1.897822,-2.643268,-2.718505,3.0,1.0
2017-01-30,-6.006635,-5.721469,-4.416956,1.0,0.0
2017-02-06,,,,,


## Iteration

In [74]:
df

Unnamed: 0,A,B,C,D,F
2017-01-02,0.0,0.0,0.845276,6,1
2017-01-09,0.764393,0.456547,-0.514377,6,2
2017-01-16,-0.862578,-0.008425,-0.608595,6,3
2017-01-23,1.102178,0.356732,0.281495,6,4
2017-01-30,-1.006635,-0.721469,0.583044,6,5
2017-02-06,-0.533001,0.274498,1.267834,6,6


In [75]:
for column in df.iteritems():
    print(type(column), len(column), column[0], type(column[1]))
    display(column[1])

<class 'tuple'> 2 A <class 'pandas.core.series.Series'>


2017-01-02    0.000000
2017-01-09    0.764393
2017-01-16   -0.862578
2017-01-23    1.102178
2017-01-30   -1.006635
2017-02-06   -0.533001
Freq: W-MON, Name: A, dtype: float64

<class 'tuple'> 2 B <class 'pandas.core.series.Series'>


2017-01-02    0.000000
2017-01-09    0.456547
2017-01-16   -0.008425
2017-01-23    0.356732
2017-01-30   -0.721469
2017-02-06    0.274498
Freq: W-MON, Name: B, dtype: float64

<class 'tuple'> 2 C <class 'pandas.core.series.Series'>


2017-01-02    0.845276
2017-01-09   -0.514377
2017-01-16   -0.608595
2017-01-23    0.281495
2017-01-30    0.583044
2017-02-06    1.267834
Freq: W-MON, Name: C, dtype: float64

<class 'tuple'> 2 D <class 'pandas.core.series.Series'>


2017-01-02    6
2017-01-09    6
2017-01-16    6
2017-01-23    6
2017-01-30    6
2017-02-06    6
Freq: W-MON, Name: D, dtype: int64

<class 'tuple'> 2 F <class 'pandas.core.series.Series'>


2017-01-02    1
2017-01-09    2
2017-01-16    3
2017-01-23    4
2017-01-30    5
2017-02-06    6
Freq: W-MON, Name: F, dtype: int64

In [76]:
for name,serie in df.iteritems():
    display(serie)

2017-01-02    0.000000
2017-01-09    0.764393
2017-01-16   -0.862578
2017-01-23    1.102178
2017-01-30   -1.006635
2017-02-06   -0.533001
Freq: W-MON, Name: A, dtype: float64

2017-01-02    0.000000
2017-01-09    0.456547
2017-01-16   -0.008425
2017-01-23    0.356732
2017-01-30   -0.721469
2017-02-06    0.274498
Freq: W-MON, Name: B, dtype: float64

2017-01-02    0.845276
2017-01-09   -0.514377
2017-01-16   -0.608595
2017-01-23    0.281495
2017-01-30    0.583044
2017-02-06    1.267834
Freq: W-MON, Name: C, dtype: float64

2017-01-02    6
2017-01-09    6
2017-01-16    6
2017-01-23    6
2017-01-30    6
2017-02-06    6
Freq: W-MON, Name: D, dtype: int64

2017-01-02    1
2017-01-09    2
2017-01-16    3
2017-01-23    4
2017-01-30    5
2017-02-06    6
Freq: W-MON, Name: F, dtype: int64

In [77]:
for row in df.iterrows():
    print(type(row), len(row), row[0], type(row[1]))
    display(row[1])

<class 'tuple'> 2 2017-01-02 00:00:00 <class 'pandas.core.series.Series'>


A    0.000000
B    0.000000
C    0.845276
D    6.000000
F    1.000000
Name: 2017-01-02 00:00:00, dtype: float64

<class 'tuple'> 2 2017-01-09 00:00:00 <class 'pandas.core.series.Series'>


A    0.764393
B    0.456547
C   -0.514377
D    6.000000
F    2.000000
Name: 2017-01-09 00:00:00, dtype: float64

<class 'tuple'> 2 2017-01-16 00:00:00 <class 'pandas.core.series.Series'>


A   -0.862578
B   -0.008425
C   -0.608595
D    6.000000
F    3.000000
Name: 2017-01-16 00:00:00, dtype: float64

<class 'tuple'> 2 2017-01-23 00:00:00 <class 'pandas.core.series.Series'>


A    1.102178
B    0.356732
C    0.281495
D    6.000000
F    4.000000
Name: 2017-01-23 00:00:00, dtype: float64

<class 'tuple'> 2 2017-01-30 00:00:00 <class 'pandas.core.series.Series'>


A   -1.006635
B   -0.721469
C    0.583044
D    6.000000
F    5.000000
Name: 2017-01-30 00:00:00, dtype: float64

<class 'tuple'> 2 2017-02-06 00:00:00 <class 'pandas.core.series.Series'>


A   -0.533001
B    0.274498
C    1.267834
D    6.000000
F    6.000000
Name: 2017-02-06 00:00:00, dtype: float64

In [78]:
for frame in df.itertuples():
    print(type(frame), len(frame))
    display(frame)

<class 'pandas.core.frame.Pandas'> 6


Pandas(Index=Timestamp('2017-01-02 00:00:00', freq='W-MON'), A=0.0, B=0.0, C=0.8452762492881571, D=6, F=1)

<class 'pandas.core.frame.Pandas'> 6


Pandas(Index=Timestamp('2017-01-09 00:00:00', freq='W-MON'), A=0.7643928844954572, B=0.4565469125054163, C=-0.5143773336613648, D=6, F=2)

<class 'pandas.core.frame.Pandas'> 6


Pandas(Index=Timestamp('2017-01-16 00:00:00', freq='W-MON'), A=-0.8625780910661207, B=-0.008425215245027777, C=-0.6085946313181256, D=6, F=3)

<class 'pandas.core.frame.Pandas'> 6


Pandas(Index=Timestamp('2017-01-23 00:00:00', freq='W-MON'), A=1.102177727856182, B=0.35673239949483515, C=0.28149455977698146, D=6, F=4)

<class 'pandas.core.frame.Pandas'> 6


Pandas(Index=Timestamp('2017-01-30 00:00:00', freq='W-MON'), A=-1.006634757624771, B=-0.7214694938585339, C=0.5830444065623392, D=6, F=5)

<class 'pandas.core.frame.Pandas'> 6


Pandas(Index=Timestamp('2017-02-06 00:00:00', freq='W-MON'), A=-0.5330006302691899, B=0.27449818096063566, C=1.2678337588209498, D=6, F=6)

## Apply

Aplicando funciones a los datos:

In [79]:
df

Unnamed: 0,A,B,C,D,F
2017-01-02,0.0,0.0,0.845276,6,1
2017-01-09,0.764393,0.456547,-0.514377,6,2
2017-01-16,-0.862578,-0.008425,-0.608595,6,3
2017-01-23,1.102178,0.356732,0.281495,6,4
2017-01-30,-1.006635,-0.721469,0.583044,6,5
2017-02-06,-0.533001,0.274498,1.267834,6,6


In [80]:
df.apply(np.cumsum)

Unnamed: 0,A,B,C,D,F
2017-01-02,0.0,0.0,0.845276,6,1
2017-01-09,0.764393,0.456547,0.330899,12,3
2017-01-16,-0.098185,0.448122,-0.277696,18,6
2017-01-23,1.003993,0.804854,0.003799,24,10
2017-01-30,-0.002642,0.083385,0.586843,30,15
2017-02-06,-0.535643,0.357883,1.854677,36,21


In [81]:
df.apply(np.cumsum, axis=1)

Unnamed: 0,A,B,C,D,F
2017-01-02,0.0,0.0,0.845276,6.845276,7.845276
2017-01-09,0.764393,1.22094,0.706562,6.706562,8.706562
2017-01-16,-0.862578,-0.871003,-1.479598,4.520402,7.520402
2017-01-23,1.102178,1.45891,1.740405,7.740405,11.740405
2017-01-30,-1.006635,-1.728104,-1.14506,4.85494,9.85494
2017-02-06,-0.533001,-0.258502,1.009331,7.009331,13.009331


In [82]:
df.apply(lambda x: x.max()-x.min())

A    2.108812
B    1.178016
C    1.876428
D    0.000000
F    5.000000
dtype: float64

In [83]:
df.apply(lambda x: x.max()-x.min(), axis=1)

2017-01-02    6.000000
2017-01-09    6.514377
2017-01-16    6.862578
2017-01-23    5.718505
2017-01-30    7.006635
2017-02-06    6.533001
Freq: W-MON, dtype: float64

In [84]:
df.applymap(lambda x: '%.2f' % x)

Unnamed: 0,A,B,C,D,F
2017-01-02,0.0,0.0,0.85,6.0,1.0
2017-01-09,0.76,0.46,-0.51,6.0,2.0
2017-01-16,-0.86,-0.01,-0.61,6.0,3.0
2017-01-23,1.1,0.36,0.28,6.0,4.0
2017-01-30,-1.01,-0.72,0.58,6.0,5.0
2017-02-06,-0.53,0.27,1.27,6.0,6.0


In [85]:
df['A'].map(lambda x: x**2)

2017-01-02    0.000000
2017-01-09    0.584296
2017-01-16    0.744041
2017-01-23    1.214796
2017-01-30    1.013314
2017-02-06    0.284090
Freq: W-MON, Name: A, dtype: float64

## Histogramas

In [86]:
s = pd.Series(np.random.randint(0,7,size=100))
s

0     6
1     5
2     2
3     4
4     3
5     2
6     6
7     3
8     4
9     5
10    1
11    6
12    2
13    6
14    1
15    0
16    5
17    6
18    1
19    5
20    0
21    1
22    0
23    2
24    3
25    0
26    6
27    0
28    5
29    6
     ..
70    2
71    4
72    5
73    2
74    1
75    2
76    2
77    4
78    0
79    1
80    2
81    1
82    4
83    0
84    6
85    4
86    3
87    0
88    6
89    6
90    2
91    2
92    2
93    1
94    1
95    5
96    5
97    1
98    2
99    1
Length: 100, dtype: int64

In [87]:
s.value_counts()

2    21
6    16
5    16
0    16
3    11
1    11
4     9
dtype: int64

## Métodos strings

Las series están equipadas con un conjunto de métodos de procesamiento de strings, en el atributo 'str' que hace fácil de operar en cada elemento del arreglo, como en el código que sigue.

Notemos que el 'pattern-matching' en 'str' usa 'expresiones regulares' por defecto

In [88]:
s = pd.Series(['A','B','C','Aaba','Baca', np.nan, 'CABA', 'dog','cat'])
s

0       A
1       B
2       C
3    Aaba
4    Baca
5     NaN
6    CABA
7     dog
8     cat
dtype: object

In [89]:
s.str.upper()

0       A
1       B
2       C
3    AABA
4    BACA
5     NaN
6    CABA
7     DOG
8     CAT
dtype: object

## Merge

### Concatenar

pandas provee varias facilidades para combinar juntos objetos Series, DataFrames y Panel con varios objetos de conjuntos lógicos para indexar y relacionar en el caso de operaciones tipo 'join/merge'

Concatenando objetos juntos con 'concat()'

In [90]:
df = pd.DataFrame(np.random.randn(10, 4))
display(df)

Unnamed: 0,0,1,2,3
0,-0.271792,1.347135,-0.999509,0.444248
1,1.814462,-0.359471,-0.028828,0.128021
2,-0.362344,-0.134687,0.513607,1.43006
3,-0.992022,-0.030774,0.990826,0.341506
4,0.534961,2.162975,-0.521434,0.389157
5,0.27864,0.208257,-0.372119,-1.322937
6,0.477985,-0.204157,-0.18092,0.44946
7,-1.324551,-0.899976,-0.252504,-1.176925
8,0.910283,-0.110858,0.622313,1.664206
9,-0.167266,0.724511,-0.829522,0.289051


In [91]:
pieces = [df[7:], df[3:7], df[:3]]

In [92]:
pieces[0]

Unnamed: 0,0,1,2,3
7,-1.324551,-0.899976,-0.252504,-1.176925
8,0.910283,-0.110858,0.622313,1.664206
9,-0.167266,0.724511,-0.829522,0.289051


In [93]:
pieces[1]

Unnamed: 0,0,1,2,3
3,-0.992022,-0.030774,0.990826,0.341506
4,0.534961,2.162975,-0.521434,0.389157
5,0.27864,0.208257,-0.372119,-1.322937
6,0.477985,-0.204157,-0.18092,0.44946


In [94]:
pieces[2]

Unnamed: 0,0,1,2,3
0,-0.271792,1.347135,-0.999509,0.444248
1,1.814462,-0.359471,-0.028828,0.128021
2,-0.362344,-0.134687,0.513607,1.43006


In [95]:
pd.concat?

In [96]:
pd.concat(pieces).sort_index()

Unnamed: 0,0,1,2,3
0,-0.271792,1.347135,-0.999509,0.444248
1,1.814462,-0.359471,-0.028828,0.128021
2,-0.362344,-0.134687,0.513607,1.43006
3,-0.992022,-0.030774,0.990826,0.341506
4,0.534961,2.162975,-0.521434,0.389157
5,0.27864,0.208257,-0.372119,-1.322937
6,0.477985,-0.204157,-0.18092,0.44946
7,-1.324551,-0.899976,-0.252504,-1.176925
8,0.910283,-0.110858,0.622313,1.664206
9,-0.167266,0.724511,-0.829522,0.289051


In [97]:
s1 = pd.Series(['a', 'b'])
s2 = pd.Series(['c', 'd'])
dff = pd.concat([s1, s2])
dff

0    a
1    b
0    c
1    d
dtype: object

In [98]:
pd.concat([s1, s2], ignore_index=True)

0    a
1    b
2    c
3    d
dtype: object

In [99]:
pd.concat([s1, s2], keys=['s1', 's2',])

s1  0    a
    1    b
s2  0    c
    1    d
dtype: object

In [100]:
pd.concat([s1, s2], keys=['s1', 's2'], names=['Series name', 'Row ID'])

Series name  Row ID
s1           0         a
             1         b
s2           0         c
             1         d
dtype: object

In [101]:
df1 = pd.DataFrame([['a', 1], ['b', 2]], columns=['letter', 'number'])
df2 = pd.DataFrame([['c', 3], ['d', 4]], columns=['letter', 'number'])
df3 = pd.DataFrame([['c', 3, 'cat'], ['d', 4, 'dog']], columns=['letter', 'number', 'animal'])
df4 = pd.DataFrame([['bird', 'polly'], ['monkey', 'george']], columns=['animal', 'name'])
display(df1, df2, df3, df4)

Unnamed: 0,letter,number
0,a,1
1,b,2


Unnamed: 0,letter,number
0,c,3
1,d,4


Unnamed: 0,letter,number,animal
0,c,3,cat
1,d,4,dog


Unnamed: 0,animal,name
0,bird,polly
1,monkey,george


In [102]:
pd.concat([df1, df2])

Unnamed: 0,letter,number
0,a,1
1,b,2
0,c,3
1,d,4


In [103]:
pd.concat([df1, df3])

of pandas will change to not sort by default.

To accept the future behavior, pass 'sort=False'.


  """Entry point for launching an IPython kernel.


Unnamed: 0,animal,letter,number
0,,a,1
1,,b,2
0,cat,c,3
1,dog,d,4


In [104]:
pd.concat([df1, df3], join="inner")

Unnamed: 0,letter,number
0,a,1
1,b,2
0,c,3
1,d,4


In [105]:
pd.concat([df1, df4], axis=1)

Unnamed: 0,letter,number,animal,name
0,a,1,bird,polly
1,b,2,monkey,george


In [106]:
df5 = pd.DataFrame([1], index=['a'])
df6 = pd.DataFrame([2], index=['a'])
display(df5, df6)

Unnamed: 0,0
a,1


Unnamed: 0,0
a,2


In [107]:
pd.concat([df5, df6])

Unnamed: 0,0
a,1
a,2


In [108]:
pd.concat([df5, df6], verify_integrity=True)

ValueError: Indexes have overlapping values: Index(['a'], dtype='object')

### Juntando

Merge estilo SQL:

In [109]:
left = pd.DataFrame({'key': ['foo','foo'], 'lval': [1,2]})
right = pd.DataFrame({'key': ['foo','foo'], 'rval': [4,5]})
display(left)
display(right)

Unnamed: 0,key,lval
0,foo,1
1,foo,2


Unnamed: 0,key,rval
0,foo,4
1,foo,5


In [110]:
pd.merge(left, right, on='key')

Unnamed: 0,key,lval,rval
0,foo,1,4
1,foo,1,5
2,foo,2,4
3,foo,2,5


In [111]:
pd.merge(left, right, on='key', how='right')

Unnamed: 0,key,lval,rval
0,foo,1,4
1,foo,2,4
2,foo,1,5
3,foo,2,5


In [112]:
pd.merge(right, left, on='key')

Unnamed: 0,key,rval,lval
0,foo,4,1
1,foo,4,2
2,foo,5,1
3,foo,5,2


Otro ejemplo que puede ser dado es:

In [113]:
left = pd.DataFrame({'key': ['foo', 'bar', 'foo', 'bar'], 'lval': [0, 1, 2, 3]})
right = pd.DataFrame({'key': ['foo', 'bar', 'bar'], 'rval': [4, 5, 6]})
display(left)
display(right)

Unnamed: 0,key,lval
0,foo,0
1,bar,1
2,foo,2
3,bar,3


Unnamed: 0,key,rval
0,foo,4
1,bar,5
2,bar,6


In [114]:
pd.merge(left, right, on='key')

Unnamed: 0,key,lval,rval
0,foo,0,4
1,foo,2,4
2,bar,1,5
3,bar,1,6
4,bar,3,5
5,bar,3,6


In [115]:
pd.merge(left, right, on='key', how='left')

Unnamed: 0,key,lval,rval
0,foo,0,4
1,bar,1,5
2,bar,1,6
3,foo,2,4
4,bar,3,5
5,bar,3,6


Join estilo SQL

In [116]:
caller = pd.DataFrame({'key': ['K0', 'K1', 'K2', 'K3', 'K4', 'K5'], 
                       'A': ['A0', 'A1', 'A2', 'A3', 'A4', 'A5']})
caller

Unnamed: 0,key,A
0,K0,A0
1,K1,A1
2,K2,A2
3,K3,A3
4,K4,A4
5,K5,A5


In [117]:
other = pd.DataFrame({'key': ['K0', 'K1', 'K2'], 
                      'B': ['B0', 'B1', 'B2']})
other

Unnamed: 0,key,B
0,K0,B0
1,K1,B1
2,K2,B2


In [118]:
caller.join(other, lsuffix='_caller', rsuffix='_other')

Unnamed: 0,key_caller,A,key_other,B
0,K0,A0,K0,B0
1,K1,A1,K1,B1
2,K2,A2,K2,B2
3,K3,A3,,
4,K4,A4,,
5,K5,A5,,


In [119]:
caller

Unnamed: 0,key,A
0,K0,A0
1,K1,A1
2,K2,A2
3,K3,A3
4,K4,A4
5,K5,A5


In [120]:
caller.set_index('key')

Unnamed: 0_level_0,A
key,Unnamed: 1_level_1
K0,A0
K1,A1
K2,A2
K3,A3
K4,A4
K5,A5


In [121]:
caller.set_index('key').join(other.set_index('key'))

Unnamed: 0_level_0,A,B
key,Unnamed: 1_level_1,Unnamed: 2_level_1
K0,A0,B0
K1,A1,B1
K2,A2,B2
K3,A3,
K4,A4,
K5,A5,


In [122]:
caller.join(other.set_index('key'), on='key')

Unnamed: 0,key,A,B
0,K0,A0,B0
1,K1,A1,B1
2,K2,A2,B2
3,K3,A3,
4,K4,A4,
5,K5,A5,


### Adjuntando

Adjuntando filas a un dataframe

In [123]:
df = pd.DataFrame(np.random.randn(8,4), columns=['A','B','C','D'])
df

Unnamed: 0,A,B,C,D
0,0.53566,-1.009225,-1.066291,-1.222489
1,1.109264,1.483535,-1.507618,2.588238
2,-0.367418,-1.033336,0.880477,-0.248847
3,3.478306,1.388818,-0.313162,-1.098142
4,-0.643407,0.427007,0.443386,-1.434867
5,0.011443,-1.481003,-0.806794,-0.977461
6,-1.865295,0.358569,0.526833,0.357174
7,1.214147,1.088818,-1.140088,0.469255


In [124]:
s = df.iloc[3]
s

A    3.478306
B    1.388818
C   -0.313162
D   -1.098142
Name: 3, dtype: float64

In [125]:
df.append(s, ignore_index=True)

Unnamed: 0,A,B,C,D
0,0.53566,-1.009225,-1.066291,-1.222489
1,1.109264,1.483535,-1.507618,2.588238
2,-0.367418,-1.033336,0.880477,-0.248847
3,3.478306,1.388818,-0.313162,-1.098142
4,-0.643407,0.427007,0.443386,-1.434867
5,0.011443,-1.481003,-0.806794,-0.977461
6,-1.865295,0.358569,0.526833,0.357174
7,1.214147,1.088818,-1.140088,0.469255
8,3.478306,1.388818,-0.313162,-1.098142


In [126]:
new = {'A': 0, 'B': 1, 'C': 2, 'D': 3}
df.append(new, ignore_index=True)

Unnamed: 0,A,B,C,D
0,0.53566,-1.009225,-1.066291,-1.222489
1,1.109264,1.483535,-1.507618,2.588238
2,-0.367418,-1.033336,0.880477,-0.248847
3,3.478306,1.388818,-0.313162,-1.098142
4,-0.643407,0.427007,0.443386,-1.434867
5,0.011443,-1.481003,-0.806794,-0.977461
6,-1.865295,0.358569,0.526833,0.357174
7,1.214147,1.088818,-1.140088,0.469255
8,0.0,1.0,2.0,3.0


### Agrupando

Por 'group by' nos referimos a un proceso que envuelve uno o más pasos.
- Dividiendo ('Splitting') los datos en grupos dado cierto criterio
- Aplicando ('Applying') una función a cada grupo independientemente.
- Combinando ('Combining') el resultado dentro de una estructura de datos

In [127]:
df = pd.DataFrame({'A' : ['foo', 'bar', 'foo', 'bar','foo', 'bar', 'foo', 'foo'],
                   'B' : ['one', 'one', 'two', 'three', 'two', 'two', 'one', 'three'],
                   'C' : np.random.randn(8),
                   'D' : np.random.randn(8)})
df

Unnamed: 0,A,B,C,D
0,foo,one,-1.128961,-0.631962
1,bar,one,1.50015,0.033741
2,foo,two,-0.955543,-1.758183
3,bar,three,-0.084795,1.644733
4,foo,two,-0.24877,0.865066
5,bar,two,0.521532,-2.183921
6,foo,one,0.366114,0.544913
7,foo,three,1.508761,0.074488


Agrupando y después aplicando la función 'sum' a los grupos resultantes

In [128]:
df.groupby('A').sum()

Unnamed: 0_level_0,C,D
A,Unnamed: 1_level_1,Unnamed: 2_level_1
bar,1.936887,-0.505446
foo,-0.458399,-0.905678


Agrupando por multiples columnas forma un índice jerárquico, al cual se le aplica la función

In [129]:
df.groupby(['A','B']).sum()

Unnamed: 0_level_0,Unnamed: 1_level_0,C,D
A,B,Unnamed: 2_level_1,Unnamed: 3_level_1
bar,one,1.50015,0.033741
bar,three,-0.084795,1.644733
bar,two,0.521532,-2.183921
foo,one,-0.762847,-0.087049
foo,three,1.508761,0.074488
foo,two,-1.204313,-0.893117


## Reshaping

In [130]:
tuples = list(zip(*[['bar', 'bar', 'baz', 'baz',
                      'foo', 'foo', 'qux', 'qux'],
                     ['one', 'two', 'one', 'two',
                      'one', 'two', 'one', 'two']]))
tuples

[('bar', 'one'),
 ('bar', 'two'),
 ('baz', 'one'),
 ('baz', 'two'),
 ('foo', 'one'),
 ('foo', 'two'),
 ('qux', 'one'),
 ('qux', 'two')]

In [131]:
index = pd.MultiIndex.from_tuples(tuples, names=['first', 'second'])
index

MultiIndex(levels=[['bar', 'baz', 'foo', 'qux'], ['one', 'two']],
           labels=[[0, 0, 1, 1, 2, 2, 3, 3], [0, 1, 0, 1, 0, 1, 0, 1]],
           names=['first', 'second'])

In [132]:
df = pd.DataFrame(np.random.randn(8, 2), index=index, columns=['A', 'B'])
df

Unnamed: 0_level_0,Unnamed: 1_level_0,A,B
first,second,Unnamed: 2_level_1,Unnamed: 3_level_1
bar,one,1.265061,-1.207863
bar,two,0.055957,1.087181
baz,one,0.34799,0.633514
baz,two,-0.049938,-0.355799
foo,one,0.39887,0.718285
foo,two,0.252206,-2.428175
qux,one,-0.122677,-0.643131
qux,two,-1.234411,-0.632927


In [133]:
df.T

first,bar,bar,baz,baz,foo,foo,qux,qux
second,one,two,one,two,one,two,one,two
A,1.265061,0.055957,0.34799,-0.049938,0.39887,0.252206,-0.122677,-1.234411
B,-1.207863,1.087181,0.633514,-0.355799,0.718285,-2.428175,-0.643131,-0.632927


In [134]:
df2 = df[:4]
df2

Unnamed: 0_level_0,Unnamed: 1_level_0,A,B
first,second,Unnamed: 2_level_1,Unnamed: 3_level_1
bar,one,1.265061,-1.207863
bar,two,0.055957,1.087181
baz,one,0.34799,0.633514
baz,two,-0.049938,-0.355799


El método 'stack()' comprime un nivel en las columnas del dataframe

In [135]:
stacked = df2.stack()
stacked

first  second   
bar    one     A    1.265061
               B   -1.207863
       two     A    0.055957
               B    1.087181
baz    one     A    0.347990
               B    0.633514
       two     A   -0.049938
               B   -0.355799
dtype: float64

Con un dataframe 'stacked', la operación inversa de 'stack' es 'unstack', el cual por default desapila el último nivel:

In [136]:
stacked.unstack()

Unnamed: 0_level_0,Unnamed: 1_level_0,A,B
first,second,Unnamed: 2_level_1,Unnamed: 3_level_1
bar,one,1.265061,-1.207863
bar,two,0.055957,1.087181
baz,one,0.34799,0.633514
baz,two,-0.049938,-0.355799


In [137]:
stacked.unstack(1)

Unnamed: 0_level_0,second,one,two
first,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
bar,A,1.265061,0.055957
bar,B,-1.207863,1.087181
baz,A,0.34799,-0.049938
baz,B,0.633514,-0.355799


In [138]:
stacked.unstack(0)

Unnamed: 0_level_0,first,bar,baz
second,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
one,A,1.265061,0.34799
one,B,-1.207863,0.633514
two,A,0.055957,-0.049938
two,B,1.087181,-0.355799


In [139]:
stacked.unstack([0,1])

first,bar,bar,baz,baz
second,one,two,one,two
A,1.265061,0.055957,0.34799,-0.049938
B,-1.207863,1.087181,0.633514,-0.355799


## Pivoteando tablas

In [None]:
df = pd.DataFrame({'A' : ['one', 'one', 'two', 'three'] * 3,
                    'B' : ['A', 'B', 'C'] * 4,
                    'C' : ['foo', 'foo', 'foo', 'bar', 'bar', 'bar'] * 2,
                    'D' : np.random.randn(12),
                    'E' : np.random.randn(12)})
df

Se puede pivotear tables desde estos datos fácilmente:

In [None]:
pd.pivot_table(df, values='D', index=['A', 'B'], columns=['C'])

melt corresponde a la operación inversa 

In [None]:
df

In [None]:
pd.melt(df)

In [None]:
pd.melt(df, id_vars=['A', 'B', 'C', 'D'], value_vars=['E'])

In [None]:
pd.melt(df, id_vars=['A', 'B', 'C'], value_vars=['D', 'E'])

## Series de tiempo

panda tiene un simple, poderoso y eficiente funcionalidad y desempeño al realizar operaciones de re-sampleo durante conversión de frecuencia (ejemplo, convirtiendo datos en segundos a datos cada 5 minutos). 

In [None]:
rng = pd.date_range('1/1/2012', periods=100, freq='S')
ts = pd.Series(np.random.randint(0, 500, len(rng)), index=rng)
ts

In [None]:
ts.index[1:] - ts.index[:-1]

In [None]:
ts.plot()

In [None]:
aux= ts.resample('10s')
aux.sum()

Representación en zona de tiempo (Time zone)

In [None]:
rng = pd.date_range('3/6/2012 00:00', periods=5, freq='D')
ts = pd.Series(np.random.randn(len(rng)), rng)
display(ts)
ts_utc = ts.tz_localize('UTC')
ts_utc

Convirtiendo a otra zona horaria:

In [None]:
ts_utc.tz_convert('US/Eastern')

Convirtiendo entre representaciones de lapso de tiempo 

In [None]:
rng = pd.date_range('1/1/2012', periods=5, freq='M')
ts = pd.Series(np.random.randn(len(rng)), index=rng)
display(ts)
ps = ts.to_period()
display(ps)
ps.to_timestamp()

Convirtiendo entre periodos y lapsos de tiempo permite usar ciertas funciones aritméticas convenientes. EN el siguiente ejemplo, se convierte una frecuencia trimestral con fin de año en noviembre a las 9am de el fin del mes siguiendo el fin del trimestre.

In [None]:
prng = pd.period_range('1990Q1', '2000Q4', freq='Q-NOV')
ts = pd.Series(np.random.randn(len(prng)), prng)
ts

In [None]:
ts.index = (prng.asfreq('M', 'e') + 1).asfreq('H', 's') + 9
ts.head()

In [None]:
rng1 = pd.date_range('1/1/2012', periods=5, freq='S')
rng2 =pd.date_range('1/1/2012', periods=5, freq='M')

In [None]:
rng1

In [None]:
rng2

In [None]:
rng1 - rng2

## Categórico (Categorical)
Desde la versión 0.15 pandas incluye datos categoricos en DataFrame.

In [None]:
df = pd.DataFrame({"id":[1,2,3,4,5,6], "raw_grade":['a', 'b', 'b', 'a', 'a', 'e']})
df["raw_grade"]

Convirtiendo los grados en crudo a datos de tipo categórico

In [None]:
df["grade"] = df["raw_grade"].astype("category")
df["grade"]

Cambiar el nombre de las categorías a nombres con más sentido (asignar a 'series.cat.categories' está en su lugar!)

In [None]:
df["grade"].cat.categories = ["very good", "good", "very bad"]

In [None]:
df

Reordenar las categorias y simultáneamente añadir las categorías faltantes (métodos bajo 'Series.cat' devuelven una nueva 'serie' por default)

In [None]:
df["grade"] = df["grade"].cat.set_categories(["very bad", "bad", "medium", "good", "very good"])
df["grade"]

Al ordenar se hace por orden en las categorías, no por orden léxico:

In [None]:
df.sort_values(by="grade")

Agrupando por una columna categórica muestra también categorías vacías:

In [None]:
df.groupby("grade").size()

## Graficando

In [None]:
ts = pd.Series(np.random.randn(1000), index=pd.date_range('1/1/2000', periods=1000))

ts = ts.cumsum()
ts.plot()
plt.show()

En un 'DataFrame', 'plot()' es una conveniencia para graficar todas las columnas con etiquetas: 

In [None]:
df = pd.DataFrame(np.random.randn(1000, 4), index=ts.index,
                   columns=['A', 'B', 'C', 'D'])
df = df.cumsum()

df.plot()
plt.legend(loc='best')
plt.show()

In [None]:
df[['A','B']].plot()
plt.legend()

In [None]:
df.plot()

In [None]:
plt.plot(df)
plt.tight_layout()

## Obteniendo datos - Exportando datos

### CSV
Escribiendo un archivo CSV:

In [None]:
df.to_csv('nombrearchivo.csv')

Leyendo desde un archivo CSV:

In [None]:
pd.read_csv('nombrearchivo.csv', index_col=0)

### HDF5
Leyendo y escribiendo HDFStores:

Escribiendo en un HDF5:

In [None]:
df.to_hdf('nombrearchivo.h5','df')

Leyendo desde un HDF5:

In [None]:
pd.read_hdf('nombrearchivo.h5','df')

### Excel

Escribiendo un archivo Excel:


In [None]:
df.to_excel('foo.xlsx', sheet_name='Sheet1')

Leyendo un archivo Excel:

In [None]:
pd.read_excel('foo.xlsx', 'Sheet1', index_col=None, na_values=['NA'])

# Pandas Chapters

## Capítulo 1: leyendo datos desde un CSV

En este capítulo se leerán datos de un archivo CSV usando la función 'read_csv' de pandas. Por defecto, la función asume que los datos vienen separados por comas.

Vamos a mirar datos ciclistas de Montreal, y se pueden ver los datos usados en la página http://donnees.ville.montreal.qc.ca/dataset/velos-comptage

En este dataset se muestra cuánta gente estuvo en 7 diferentes ciclovias en Montreal, cada día.

In [None]:
## CHAPTER 1
%matplotlib inline

import pandas as pd

Intentamos leer la tabla:

In [None]:
broken_df = pd.read_csv('bikes.csv')
broken_df[:3]

Está roto el archivo, así que para arreglar el problema, se hará:
 - Cambiar el separador de columnas a ';'
 - Cambiar el encoding a 'latin1' (por defecto es 'utf8')
 - Asignar las fechas a la columna 'Dates'
 - Especificar que nuestras fechas tienen el día primero en vez del mes
 - Dejar el índice en las columnas 'Dates'

In [None]:
fixed_df = pd.read_csv('bikes.csv', sep=';', encoding='latin1', parse_dates=['Date'], dayfirst=True, index_col='Date')
fixed_df

### Seleccionando una columna

Cuando se lee un CSV se tiene un objeto que se denomina 'DataFrame', el cual está hecho de filas y columnas. Puedes obtener las columnas a partir del 'DataFrame' de la misma forma en la que se obtienen los elementos de un diccionario:

In [None]:
fixed_df['Berri 1']

### Graficando una columa

Sólo se debe añadir la función '.plot()' al final!

Así se ve, de una forma no sorprendente, que la gente no usa mucho la bicicleta durante Enero, Febrero y Marzo.

In [None]:
fixed_df['Berri 1'].plot()

También se pueden plotear todas las columnas igual de fácil, y se puede configurar para que la figura sea más grande. Al estar juntos se ven más apretados, pero todas las ciclovias tienen la misma estructura. Si es un mal día para un ciclista, es un mal día en todas partes.

In [None]:
fixed_df.plot(figsize=(15,10))

## Capítulo 2: 

Usaremos un nuevo conjunto de datos para demostrar cómo trabajar con grandes dataset. Este corresponde a un subconjunto de las peticiones de servicio del 311, obtenidos desde NYC Open Data (https://nycopendata.socrata.com/Social-Services/311-Service-Requests-from-2010-to-Present/erm2-nwe9)

In [None]:
import pandas as pd
from IPython.display import display

# Make the graphs a bit prettier, and bigger
pd.set_option('display.width', 5000) 
pd.set_option('display.max_columns', 60) 

In [None]:
complaints = pd.read_csv('311-service-requests.csv')

### Qué hay en ella? (el resumen)

Cuando se mira un gran dataframe, en vez de mostrar el contenido del dataframe, se mostrará un resumen (summary). Este incluye todas las columas y cuántos valores no nulos están en cada columna

¿SI?

In [None]:
complaints

### Seleccionando filas y columnas

Para seleccionar una columna, se indexa con el nombre de la columna, como sigue:


In [None]:
complaints['Complaint Type']

Para obtener las 5 primeras columas, podemos usar una tajada como 'df[:5].
Esta es una gran manera para tener un sentido de qué tipo de información está en el 'dataframe'. 

In [None]:
complaints[:5]

Y se puede combinar para obtener las cinco primeras filas de una columna

In [None]:
complaints['Complaint Type'][:5]

Y no importa en qué orden se realiza:

In [None]:
complaints[:5]['Complaint Type']

### Seleccionando multiples columnas

Qué si queremos saber el tipo de queja (complaint) y la ciudad (borough), pero no el resto de la información?
Pandas hace esto realmente fácil al seleccionar un subconjunto de columnas, sólo se indexa con una lista de las columnas que se quieren:


In [None]:
complaints[['Complaint Type', 'Borough']]

### Cuál es la queja más común?

Esta es una pregunta realmente fácil de resolver. Hay una método '.value_counts()' que podemos usar:

In [None]:
complaints['Complaint Type'].value_counts()

Y si solo queremos el top 10 de las quejas más comunes:


In [None]:
complaint_counts = complaints['Complaint Type'].value_counts()
complaint_counts[:10]

Y podemos graficarlos!!

In [None]:
complaint_counts[:10].plot(kind='bar', figsize=(15,10))

## Capitulo 3

Continuaremos con el dataframe usado en el capítulo anterior

### Seleccionando sólo las quejas por ruido (noise complaints)

Se quiere saber qué ciudad (borough) tiene más quejas por ruido. En primer lugar, vamos a tomar una mirada de la data para ver cómo se ve

In [None]:
complaints[:5]

Para obtener las quejas por ruido, necesitamos encontrar las filas donde la columna 'Complaint type' es 'Noise - Street/Sidewalk'. Vamos a ver cómo hacer eso en el ejemplo que sigue:

In [None]:
noise_complaints = complaints[complaints['Complaint Type'] == 'Noise - Street/Sidewalk']
noise_complaints[:5]

Si se mira a 'noise_complaints' se ve que funcionó y que sólo contiene quejas de ese tipo. Pero cómo funciona?

Vamos a deconstuirlo en dos partes:

In [None]:
complaints['Complaint Type'] == "Noise - Street/Sidewalk"

Este es un gran arreglo de Trues y Falses, uno por cada fila de nuestro dataframe. Cuando nosotros indexamos este dataframe con este arreglo, se obtienen solo las columnas donde hay Trues.

Se puede también combinar una o más condiciones usando el operador '&' como sigue:

In [None]:
# Combinando más de una condición
is_noise = complaints['Complaint Type'] == "Noise - Street/Sidewalk"
in_brooklyn = complaints['Borough'] == "BROOKLYN"
complaints[is_noise & in_brooklyn][:5]

O si solo se quieren unas pocas columnas:

In [None]:
complaints[is_noise & in_brooklyn][['Complaint Type', 'Borough', 'Created Date', 'Descriptor']][:10]

### Una desviación con respecto a los arreglos de Numpy

Por otro lado, para pandas una columna es del tipo 'pd.Series'

In [None]:
pd.Series([1,2,3])

E internamente las series de pandas son arreglos de Numpy. Si se añade '.values' al final de cualquier 'Serie', se obtiene el arreglo de numpy interno

In [None]:
import numpy as np
np.array([1,2,3])

In [None]:
pd.Series([1,2,3]).values

Entonces, esta selección de arreglos binarios es actualmente algo que funciona con cualquier arreglo Numpy

In [None]:
arr = np.array([1,2,3])
arr != 2

In [None]:
arr[arr!=2]

### Entonces, qué ciudad tiene la mayor cantidad de quejas por ruido?


In [None]:
is_noise = complaints['Complaint Type'] == 'Noise - Street/Sidewalk'
noise_complaints = complaints[is_noise]
noise_complaints['Borough'].value_counts()

Es Manhattan! pero qué si lo que queremos es dividir por el total de quejas para hacer que tenga un poco más de sentido? Eso podría ser fácil también:

In [None]:
noise_complaints_counts = noise_complaints['Borough'].value_counts()
complaint_counts = complaints['Borough'].value_counts()
noise_complaints_counts/complaint_counts

Y graficando:

In [None]:
(noise_complaints_counts / complaint_counts).plot(kind='bar')

Es evidente que Manhattan tiene la mayor cantidad de quejas que otros vecindarios.

## Capítulo 4


In [None]:
bikes = pd.read_csv('bikes.csv', sep=';', encoding='latin1', parse_dates=['Date'], dayfirst=True, index_col='Date')
display(bikes)

In [None]:
bikes['Berri 1'].plot()

In [None]:
berri_bikes = bikes[['Berri 1']]
berri_bikes2 = bikes['Berri 1']
display(berri_bikes)
display(berri_bikes2)

In [None]:
display(berri_bikes.index.day)
berri_bikes.index.weekday

In [None]:
berri_bikes['weekday']=berri_bikes.index.weekday
berri_bikes[:5]

In [None]:
berri_bikes.loc[:,1]=berri_bikes.index.weekday
berri_bikes

In [None]:
berri_bikes = berri_bikes.drop([1], axis=1) #berri_bikes.drop([1], axis=1, inplace=True)
display(berri_bikes)

In [None]:
berri_bikes.drop(['weekday'], axis=1)

In [None]:
berri_bikes

In [None]:
weekday_count = berri_bikes.groupby('weekday').aggregate(sum)
weekday_count.index = ['M','T','W','T','F','S','S']
weekday_count

In [None]:
weekday_count.plot(kind='bar')

## Capítulo 5

Ya hemos visto que Pandas se maneja bien con fechas, y también es asombroso trabajando con strings!
Vamos a trabajar con datos climáticos de Montreal en invierno (sí, es frío!!).
Panda tiene todas las operaciones vectorizadas de strings, y vamos a transformar un montón de strings que contienen la palabra 'snow' en vectores de números en un trice.

In [None]:
import pandas as pd
import numpy as np
import matplotlib as plt
from IPython.display import display

Cargamos los datos

In [None]:
# chapter 6

weather_2012 = pd.read_csv('weather_2012.csv', parse_dates=True, index_col='Date/Time')
weather_2012[:5]

### Operaciones strings

Se verá que la columna 'Weather' tiene una descripción en texto del clima que estaba ocurriendo en cada hora. Vamos a asumir que está nevando si la descripción contiene 'snow'

pandas provee funciones strings vectorizadas, para hacer fácil el operar en columnas que contienen texto. Hay muchos ejemplos en la documentación http://pandas.pydata.org/pandas-docs/stable/basics.html#vectorized-string-methods

In [None]:
weather_description = weather_2012['Weather']
is_snowing = weather_description.str.contains('Snow')
is_snowing

No es muy útil, ya que es un vector binario y no es fácil mirarlo

In [None]:
# No muy útil
is_snowing.head() 

In [None]:
is_snowing.plot(style='ro', figsize=(15,10))

In [None]:
is_snowing.astype(int).plot(style='ro', ms=0.5, figsize=(15,10))

### Usando resample para encontrar el mes más nevoso

Si queremos que la temperatura media de cada mes, podemos usar el método 'resample()' de la siguiente forma:

In [None]:
weather_2012['Temp (C)'].resample('M', how=np.median).plot(kind='bar', figsize=(15,10))

Como era de esperarse, Julio y Agosto son los más calientitos (hemisferio norte!!)

Entonces podemos pensar en lo nevoso como un montón de 1s y 0s en vez de 'Trues' y 'Falses':

In [None]:
is_snowing.astype(float)[:10]

Y entonces usar 'resample' para encontrar el porcentaje de tiempo que estuvo nevando en cada mes

In [None]:
is_snowing.astype(float).resample('M', how=np.mean)

In [None]:
is_snowing.astype(float).resample('M', how=np.sum).plot(kind='bar')

Ahora sabemos! En diciembre del 2012 fue el mes más nevoso. También, este gráfico sufiere que la nieve empieza abrupta en noviembre, y se desvanece lentamente en un largo tiempo, con las últimas nieves en Abril o Mayo.

### Ploteando temperatura y nevosidad juntas

También se poueden combinar los dos estadíticos (temperatura y nieve) dentro del dataframe y plotearlas juntas

In [None]:
temperature = weather_2012['Temp (C)'].resample('M', how=np.median)
is_snowing = weather_2012['Weather'].str.contains('Snow')
snowiness = is_snowing.astype(float).resample('M', how=np.mean)

In [None]:
# Nombramos las columnas
temperature.name = 'Temperature'
snowiness.name = 'Snowiness'

Vamos a usar 'concat' nuevamente para combinar los dos estadísticos dentro de un solo dataframe:

In [None]:
stats = pd.concat([temperature, snowiness],axis=1)
stats

In [None]:
stats.plot(kind='bar', figsize=(15,10))

Lo que no funcuiona tan bien porque las escalas están mal. Para solucionar esto, lo plotearemos en dos gráficos separados:

In [None]:
stats.plot(kind='bar',subplots=True,figsize=(15,10))

## Capítulo 6

### Limpiando datos sucios nunca es un juego, pero con pandas es más fácil

Uno de los problemas principales con datos sucios es: cómo sabes si está sucio o si no lo está.

Vamos a usar el conjunto de datos de solicitudes del servicio NYC 311, dado que es grande y pesado

In [None]:
# CHAPTER 7
import pandas as pd

# Make the graphs a bit prettier, and bigger
# Always display all the columns
pd.set_option('display.width', 5000) 
pd.set_option('display.max_columns', 60) 



In [None]:
requests = pd.read_csv('311-service-requests.csv')

Vamos a mirar unas pocas columnas aquí. Ya se sabe desde antes que hay algunos problemas con el 'zip code', así que vamos a mirarlo al principio.

Para tener un sentido de cuándo una columna tiene problemas, se puede usar '.unique()' para mirar todos sus valores. Si es una columna numérica, se mostrará entonces un histograma para obtener un sentido de la distribución.

Cuando se mira a los valores únicos en 'Incident Zip', se vuelve claro rápidamente que es un desastre.

Algunos de los problemas:
 - Algunos han sido asignados como strings, otros como floats
 - Hay algunos nans
 - Algunos de los codigos zip son 29616-0759 o 83
 - Hay algunos valores N/A que pandas no los reconoce, como 'N/A' y 'NO CLUE'
 
Qué podemos hacer:
 - Normalizar 'N/A' y 'NO CLUE' en valores nan regulares
 - Mirar qué pasa con el 83 y decidir qué hacer
 - Convertir todo a string.

In [None]:
requests

In [None]:
requests['Incident Zip'].unique()

In [None]:
requests.duplicated('Incident Zip')

In [None]:
requests.drop_duplicates('Incident Zip', keep='last')

### Fijando los valores nan y solucionando la confusión string/float

Vamos a pasarle la opción 'na_values' a 'pd.read_csv' para limpiar esto un poquito. También podemos especificar que el tipo 'Incident Zip' es un string, no un float.

In [None]:
na_values = ['NO CLUE', 'N/A', '0']
requests = pd.read_csv('311-service-requests.csv', na_values=na_values, dtype={'Incident Zip': str})
requests['Incident Zip'].unique()

### Qué sucede con los guiones?

In [None]:
requests[requests['Incident Zip'].str.contains('-').fillna(False)]['Incident Zip']

In [None]:
rows_with_dashes = requests['Incident Zip'].str.contains('-').fillna(False)
len(requests[rows_with_dashes])

In [None]:
requests[rows_with_dashes]

Una posible forma de borrar los datos faltantes podría ser de la forma:

'requests['Incident Zip'][rows_with_dashes] = np.nan'

Pero resulta que los códigos zips con 9 dígitos es normal. Vamos a mirar los códigos zip de más de 5 dígitos, para ver que están ok, y después truncarlos

In [None]:
long_zip_codes = requests['Incident Zip'].str.len()>5
requests['Incident Zip'][long_zip_codes].unique()

Los cuales lucen adecuados para truncarlos

In [None]:
requests['Incident Zip'] = requests['Incident Zip'].str.slice(0,5)

Hecho.

Aún preocupa la presencia de los códigos de la forma '00000', así que los miraremos

In [None]:
requests[requests['Incident Zip'] == '00000']

Lo cual luce mal, vamos a setear estos zip como nan

In [None]:
zero_zips = requests['Incident Zip']=='00000'
requests['Incident Zip'][zero_zips] = np.nan

Y podemos ver qué hay ahora

In [None]:
unique_zips = requests['Incident Zip'].unique()
unique_zips.astype(float).sort()
unique_zips

Genial!

Esto es mucho más claro. Hay, sin embargo, algo un poco extraño. Después de mirar el código '77056' en googlemaps, está en texas, así que vamos a mirar más cerca:

In [None]:
zips = requests['Incident Zip']
is_close = zips.str.startswith('0') | zips.str.startswith('1')
is_far = ~(is_close.fillna(True).astype(bool))
zips[is_far]

In [None]:
requests[is_far][['Incident Zip', 'Descriptor', 'City']].sort_values('Incident Zip')

Okey, hay solicitudes que vienen desde LA y Houston! Bien saberlo. Filtrando por zipcode es probablemente una mala forma de manejar esto, deberíamos mejor mirar la ciudad en vez.

In [None]:
requests['City'].str.upper().value_counts()

Luce como que hay quejas que son válidas, así que las dejaremos solas.

### Poniendo todo junto

In [None]:
na_values = ['NO CLUE', 'N/A', '0']
requests = pd.read_csv('311-service-requests.csv', 
                       na_values=na_values, 
                       dtype={'Incident Zip': str})
def fix_zip_codes(zips):
    # Truncate everything to length 5 
    zips = zips.str.slice(0, 5)
    
    # Set 00000 zip codes to nan
    zero_zips = zips == '00000'
    zips[zero_zips] = np.nan
    
    return zips

In [None]:
requests['Incident Zip'] = fix_zip_codes(requests['Incident Zip'])

In [None]:
requests['Incident Zip'].unique()

## Capítulo 7

### Analizando UNIX timestamps

No es obio cómo lidiar con Unix timestamps en pandas.

El archivo que usaremos es un popular archivo popular para concursos, el cual está en el sistema en
'/var/log/popularity-contest'.


In [None]:
# CHAPTER 8

popcon = pd.read_csv('popularity-contest', sep=' ', )[:-1]
display(popcon[:5])
popcon.columns = ['atime', 'ctime', 'package-name', 'mru-program', 'tag']
popcon[:5]

In [None]:
popcon.atime

La parte máfica acerca de analizar timestamps en pandas es que los datetimes de numpy ya están guardados como Unix timestamps. Entonces todo lo que necesitamos es decirle a pandas que esos números enteros son actualmente fechas, y no se necesita hacer ninguna conversión.

Vamos a convertir estos 'ints' para empezar:

In [None]:
popcon['atime'] = popcon['atime'].astype(int)
popcon['ctime'] = popcon['ctime'].astype(int)

In [None]:
popcon['atime'] 

Cada arreglo numpy y serie de pandas tiene un 'dtype' -- el cual es usual 'int64', 'float64' o 'object'. Algunos de los tipos de tiempo disponibles son 'datetime64[s]', 'datetime64[ms]' y 'datetime64[us]'. Hay también tipos 'timedelta', similarmente.

Podemos usar la función 'pd.to_datetime' para convertir los números enteros en fechas. Esto es una operación a tiempo constante, es decir, no estamos cambiando ninguno de los datos, sólo cómo pandas piensa acerca de él.

In [None]:
popcon['atime'] = pd.to_datetime(popcon['atime'], unit='s')
popcon['ctime'] = pd.to_datetime(popcon['ctime'], unit='s')

Si miramos al 'dtype' ahora, es '<M8[ns]'. Por lo que puedo decir, 'M8' es el código secreto para 'datetime64'

In [None]:
popcon['atime'].dtype

Entonces ahora podemos mirar nuestro 'atime' y 'ctime' como fechas!

In [None]:
popcon[:5]

Ahora supongamos que queremos mirar todos los paquetes que no son librerias.

Primero, queremos deshacernos de cualquier timestamp 0. Notemos que podemos usar un string para comparar, incluso cuando hay un timestamp en el interior. Esto se puede porque pandas es asombroso.

In [None]:
popcon = popcon[popcon['atime'] >'1970-01-01'] #Se eliminan las fechas con timestamp 0

In [None]:
popcon

Ahora podemos usar las habilidades mágicas de pandas sobre strings para mirar a las colimnas donde el nombre del paquete no contiene 'lib'.

In [None]:
nonlibraries = popcon[~popcon['package-name'].str.contains('lib')]

In [None]:
nonlibraries

In [None]:
nonlibraries.sort_values('ctime',ascending=False)[:10]