## Introducción a Pandas

In [154]:
import numpy as np
import pandas as pd

# Ajustar algunas opciones de Pandas

pd.set_option('display.notebook_repr_html', False)
pd.set_option('display.max_columns', 10)
pd.set_option('display.max_rows', 10)

%matplotlib inline 
import matplotlib.pyplot as plt
pd.options.display.mpl_style = 'default'


In [155]:
print(pd.__version__)

0.17.1


## Series  con el objeto 'Series' de Pandas

In [156]:
Inflación = pd.Series([0.3, 0.33, 0.4, 0.32])
Inflación

0    0.30
1    0.33
2    0.40
3    0.32
dtype: float64

In [157]:
from pandas import DataFrame, Series
Inflación = Series([0.3, 0.33, 0.4, 0.32])
Inflación

0    0.30
1    0.33
2    0.40
3    0.32
dtype: float64

In [158]:
fechas = pd.date_range('2016-01-01', '2016-01-06')
fechas

DatetimeIndex(['2016-01-01', '2016-01-02', '2016-01-03', '2016-01-04',
               '2016-01-05', '2016-01-06'],
              dtype='datetime64[ns]', freq='D')

In [159]:
Inflación = Series([0.3, 0.33, 0.4, 0.32, 0.3, np.nan], index=fechas)
Inflación

2016-01-01    0.30
2016-01-02    0.33
2016-01-03    0.40
2016-01-04    0.32
2016-01-05    0.30
2016-01-06     NaN
Freq: D, dtype: float64

In [160]:
Inflación.head(n=3)

2016-01-01    0.30
2016-01-02    0.33
2016-01-03    0.40
Freq: D, dtype: float64

In [161]:
Inflación.values

array([ 0.3 ,  0.33,  0.4 ,  0.32,  0.3 ,   nan])

In [162]:
Inflación.index

DatetimeIndex(['2016-01-01', '2016-01-02', '2016-01-03', '2016-01-04',
               '2016-01-05', '2016-01-06'],
              dtype='datetime64[ns]', freq='D')

Metodós estadisticos de NumPy pueden ser aplicados a una 'Serie' de Pandas

In [172]:
Inflación.mean()

0.33

In [173]:
Inflación['2016-01-02']

0.33000000000000002

In [174]:
Inflación[1]

0.33000000000000002

In [175]:
len(Inflación)

5

In [180]:
Inflación.size

6

In [181]:
Inflación.count()

5

In [176]:
Inflación.shape

(6,)

In [177]:
Inflación.unique()

array([ 0.3 ,  0.33,  0.4 ,  0.32,   nan])

In [178]:
Inflación.value_counts()


0.30    2
0.32    1
0.40    1
0.33    1
dtype: int64

## Datos con el objeto 'DataFrame' de Pandas

In [184]:
PIB=Series([1.2, 3.3, 2.6, 2.5, 2.5, np.nan], index=fechas)

In [185]:
Datos=DataFrame({'Inflación':Inflación,
                 'PIB':PIB} )

Datos

            Inflación  PIB
2016-01-01       0.30  1.2
2016-01-02       0.33  3.3
2016-01-03       0.40  2.6
2016-01-04       0.32  2.5
2016-01-05       0.30  2.5
2016-01-06        NaN  NaN

In [186]:
Datos['PIB']

2016-01-01    1.2
2016-01-02    3.3
2016-01-03    2.6
2016-01-04    2.5
2016-01-05    2.5
2016-01-06    NaN
Freq: D, Name: PIB, dtype: float64

In [187]:
Datos.PIB

2016-01-01    1.2
2016-01-02    3.3
2016-01-03    2.6
2016-01-04    2.5
2016-01-05    2.5
2016-01-06    NaN
Freq: D, Name: PIB, dtype: float64

In [188]:
Datos['InflaciónGeneral']=Datos['Inflación']
Datos

            Inflación  PIB  InflaciónGeneral
2016-01-01       0.30  1.2              0.30
2016-01-02       0.33  3.3              0.33
2016-01-03       0.40  2.6              0.40
2016-01-04       0.32  2.5              0.32
2016-01-05       0.30  2.5              0.30
2016-01-06        NaN  NaN               NaN

In [189]:
del Datos['Inflación']
Datos

            PIB  InflaciónGeneral
2016-01-01  1.2              0.30
2016-01-02  3.3              0.33
2016-01-03  2.6              0.40
2016-01-04  2.5              0.32
2016-01-05  2.5              0.30
2016-01-06  NaN               NaN

In [191]:
Datos['InflaciónMedellín']=Series([0.35, 0.34, 0.42, 0.4, 0.41, np.nan], index=fechas)
Datos

            PIB  InflaciónGeneral  InflaciónMedellín
2016-01-01  1.2              0.30               0.35
2016-01-02  3.3              0.33               0.34
2016-01-03  2.6              0.40               0.42
2016-01-04  2.5              0.32               0.40
2016-01-05  2.5              0.30               0.41
2016-01-06  NaN               NaN                NaN

In [192]:
Datos['Diferencia']= Datos.InflaciónGeneral - Datos.InflaciónMedellín
Datos

            PIB  InflaciónGeneral  InflaciónMedellín  Diferencia
2016-01-01  1.2              0.30               0.35       -0.05
2016-01-02  3.3              0.33               0.34       -0.01
2016-01-03  2.6              0.40               0.42       -0.02
2016-01-04  2.5              0.32               0.40       -0.08
2016-01-05  2.5              0.30               0.41       -0.11
2016-01-06  NaN               NaN                NaN         NaN

In [227]:
Datos.describe()

            PIB  InflaciónGeneral  InflaciónMedellín  Diferencia
count  5.000000          5.000000           5.000000    5.000000
mean   2.420000          0.330000           0.384000   -0.054000
std    0.759605          0.041231           0.036469    0.041593
min    1.200000          0.300000           0.340000   -0.110000
25%    2.500000          0.300000           0.350000   -0.080000
50%    2.500000          0.320000           0.400000   -0.050000
75%    2.600000          0.330000           0.410000   -0.020000
max    3.300000          0.400000           0.420000   -0.010000

In [242]:
DatosOrdenadosI=Datos.sort_values(by='InflaciónGeneral', ascending=False)
DatosOrdenadosI

            PIB  InflaciónGeneral  InflaciónMedellín  Diferencia
2016-01-03  2.6              0.40               0.42       -0.02
2016-01-02  3.3              0.33               0.34       -0.01
2016-01-04  2.5              0.32               0.40       -0.08
2016-01-01  1.2              0.30               0.35       -0.05
2016-01-05  2.5              0.30               0.41       -0.11
2016-01-06  NaN               NaN                NaN         NaN

In [248]:
DatosOrdenadosI.ix[0]

PIB                  2.60
InflaciónGeneral     0.40
InflaciónMedellín    0.42
Diferencia          -0.02
Name: 2016-01-03 00:00:00, dtype: float64

In [249]:
DatosOrdenadosI.iloc[0]

PIB                  2.60
InflaciónGeneral     0.40
InflaciónMedellín    0.42
Diferencia          -0.02
Name: 2016-01-03 00:00:00, dtype: float64

* `loc` trabaja en las etiquetas en el índice.

* `iloc` funciona en las **_posiciones_** en el índice (de modo que sólo tiene números enteros).

* `ix` general trata de comportarse como loc pero se cambia por comportarse como iLoc si la etiqueta no está en el índice.

Es importante tener en cuenta algunas sutilezas que pueden hacer ix poco complicado de usar:

si el índice es de tipo entero, ix sólo utilizará la indexación basada en la etiqueta y no caer de nuevo a la indexación basada en la posición. Si la etiqueta no está en el índice, se genera un error.

si el índice no contiene sólo números enteros, luego se da un número entero, ix utilizará inmediatamente la indexación basada en la posición más bien que la indexación basada en etiquetas. Sin embargo, si se da ix otro tipo (por ejemplo una cadena), se puede utilizar la indexación basado en etiquetas.

In [200]:
Datos[3:]

            PIB  InflaciónGeneral  InflaciónMedellín  Diferencia
2016-01-04  2.5              0.32               0.40       -0.08
2016-01-05  2.5              0.30               0.41       -0.11
2016-01-06  NaN               NaN                NaN         NaN

In [213]:
Datos.ix[3:, 'InflaciónGeneral':]

            InflaciónGeneral  InflaciónMedellín  Diferencia
2016-01-04              0.32               0.40       -0.08
2016-01-05              0.30               0.41       -0.11
2016-01-06               NaN                NaN         NaN

In [214]:
Datos.ix[3:, 1:]

            InflaciónGeneral  InflaciónMedellín  Diferencia
2016-01-04              0.32               0.40       -0.08
2016-01-05              0.30               0.41       -0.11
2016-01-06               NaN                NaN         NaN

In [215]:
Datos.ix[3:, 3:]

            Diferencia
2016-01-04       -0.08
2016-01-05       -0.11
2016-01-06         NaN

In [219]:
Datos.drop('InflaciónGeneral', axis=1)
# Axis 1 denota columnas

            PIB  InflaciónMedellín  Diferencia
2016-01-01  1.2               0.35       -0.05
2016-01-02  3.3               0.34       -0.01
2016-01-03  2.6               0.42       -0.02
2016-01-04  2.5               0.40       -0.08
2016-01-05  2.5               0.41       -0.11
2016-01-06  NaN                NaN         NaN

In [193]:
Datos.Diferencia[2:4]

2016-01-03   -0.02
2016-01-04   -0.08
Freq: D, Name: Diferencia, dtype: float64

In [194]:
Datos.iloc[2:4]

            PIB  InflaciónGeneral  InflaciónMedellín  Diferencia
2016-01-03  2.6              0.40               0.42       -0.02
2016-01-04  2.5              0.32               0.40       -0.08

In [195]:
Datos.iloc[2:4, 0:2]

            PIB  InflaciónGeneral
2016-01-03  2.6              0.40
2016-01-04  2.5              0.32

In [196]:
Datos.loc['2016-01-03']

PIB                  2.60
InflaciónGeneral     0.40
InflaciónMedellín    0.42
Diferencia          -0.02
Name: 2016-01-03 00:00:00, dtype: float64

In [197]:
Datos[Datos.PIB > 2].any()

PIB                  True
InflaciónGeneral     True
InflaciónMedellín    True
Diferencia           True
dtype: bool

In [198]:
Datos[Datos.PIB > 2]

            PIB  InflaciónGeneral  InflaciónMedellín  Diferencia
2016-01-02  3.3              0.33               0.34       -0.01
2016-01-03  2.6              0.40               0.42       -0.02
2016-01-04  2.5              0.32               0.40       -0.08
2016-01-05  2.5              0.30               0.41       -0.11

In [199]:
Datos[(Datos.PIB > 2) & (Datos.InflaciónGeneral < 0.35)]

            PIB  InflaciónGeneral  InflaciónMedellín  Diferencia
2016-01-02  3.3              0.33               0.34       -0.01
2016-01-04  2.5              0.32               0.40       -0.08
2016-01-05  2.5              0.30               0.41       -0.11