<h3>Tutorial de Pandas.</h3><br/>
<h5>Comencemos con las <strong>series.</strong>   -> s = pd.series(data, index=index)</h5><br/>

In [19]:
import pandas as pd
import numpy as np
# serie con índices automáticos
serie = pd.Series(np.random.randn(5))
print('Serie con índices automáticos: \n{}'.format(serie))
print(type(serie))

Serie con índices automáticos: 
0    0.625840
1    0.463093
2   -0.583003
3    0.662899
4   -0.640773
dtype: float64
<class 'pandas.core.series.Series'>


In [18]:
# serie con índices definidos por mi
serie = pd.Series(np.random.randn(4),
                  index = ['ana','pepe','tomas','nicol'])
print(u'Serie con índices definidos: \n{}'.format(serie))

Serie con índices definidos: 
ana     -1.833435
pepe    -1.457813
tomas   -0.676497
nicol    0.883232
dtype: float64


In [23]:
# serie(serie temporal) con índices que son fechas
serie = pd.Series(np.random.randn(10),
                  index = pd.date_range('2013/01/01', periods = 10))
print(u'Serie temporal con índices de fechas: \n{} '.format(serie))

Serie temporal con índices de fechas: 
2013-01-01    1.507427
2013-01-02   -2.019659
2013-01-03    0.278904
2013-01-04    1.105325
2013-01-05   -2.148531
2013-01-06   -0.010113
2013-01-07   -0.525141
2013-01-08   -0.792528
2013-01-09    0.140275
2013-01-10   -0.073122
Freq: D, dtype: float64 


In [24]:
print(type(np.random.randn(10)))

<class 'numpy.ndarray'>


In [27]:
serie_lista = pd.Series([i*i for i in range(5)])
print('Serie a partir de una lista: \n{}'.format(serie_lista))

dicc = {'cuadrado de {}'.format(i) : i*i for i in range(5)}
serie_dicc = pd.Series(dicc)
print('\nSerie a partir de un diccionario: \n{}'.format(serie_dicc))

serie_serie = pd.Series(serie_dicc.values)
print('\nSerie a partir de los valores de otra (pandas)serie: \n{}'.format(serie_serie))

serie_cte = pd.Series(-999, index = np.arange(5))
print('\nSerie a partir de un valor constante: \n{}'.format(serie_cte))

Serie a partir de una lista: 
0     0
1     1
2     4
3     9
4    16
dtype: int64

Serie a partir de un diccionario: 
cuadrado de 0     0
cuadrado de 1     1
cuadrado de 2     4
cuadrado de 3     9
cuadrado de 4    16
dtype: int64

Serie a partir de los valores de otra (pandas)serie: 
0     0
1     1
2     4
3     9
4    16
dtype: int64

Serie a partir de un valor constante: 
0   -999
1   -999
2   -999
3   -999
4   -999
dtype: int64


<br/>
<h5>Una serie (Series o TimeSeries) se puede manejar igual que si tuviéramos un numpy array de una dimensión o igual que si tuviéramos un diccionario. Vemos ejemplos de esto:</h5><br/>

In [43]:
serie = pd.Series(np.random.randn(10),
                  index = ['a','b','c','d','e','f','g','h','i','j'])
print('Serie que vamos a usar en este ejemplo: \n{}\n'.format(serie))
# Ejemplos de comportamiento como numpy array
print('Se comporta como un numpy array:')
print('================================')
print('>>serie.max()\n{}'.format(serie.max()))
print('>>serie.sum()\n{}'.format(serie.sum()))
print('>>serie.abs()\n{}'.format(serie.abs()))
print('>>serie[serie > 0.6]\n{}'.format(serie[serie > 0.6]))
#...
print('\n')
# Ejemplos de comportamiento como diccionario
print("Se comporta como un diccionario:")
print("================================")
print(">>serie['a']\n{}".format(serie['a']))
print(">>'a' in serie\n{}".format('a' in serie))
print(">>'z' in serie\n{}".format('z' in serie))

Serie que vamos a usar en este ejemplo: 
a   -3.285580
b   -0.855036
c    1.272985
d   -0.880317
e    1.547123
f   -0.193851
g    1.270352
h    1.398164
i    1.277965
j    1.635940
dtype: float64

Se comporta como un numpy array:
>>serie.max()
1.6359395882427823
>>serie.sum()
3.1877450626134904
>>serie.abs()
a    3.285580
b    0.855036
c    1.272985
d    0.880317
e    1.547123
f    0.193851
g    1.270352
h    1.398164
i    1.277965
j    1.635940
dtype: float64
>>serie[serie > 0.6]
c    1.272985
e    1.547123
g    1.270352
h    1.398164
i    1.277965
j    1.635940
dtype: float64


Se comporta como un diccionario:
>>serie['a']
-3.2855795167470974
>>'a' in serie
True
>>'z' in serie
False


<br/>
<h5><strong>Suma de series</strong></h5>
<h5>Las operaciones se hacen elemento a elemento con los elementos alineados en función del índice. Si se hace, una suma de dos series y en una de las dos no existe un elemento el resultado para ese índice será nan. 
<br/>

In [108]:
serie = pd.Series(np.random.randn(10),
                  index = ['a','b','c','d','e','f','g','h','i','j'])
s1 = serie[1:]  # Serie sin indece a.
s2 = serie[:-1] # Serie sin indice j.
suma = s1 + s2
print('          s1                         s2                  s1 + s2')
print('-----------------------  -----------------------  -----------------------')
for clave in sorted(set( list(s1.keys()) + list(s2.keys()) )):
    s11 = s1.get(clave)
    s22 = s2.get(clave)
    if str(type(s11))=="<class 'NoneType'>": s11='nan'
    if str(type(s22))=="<class 'NoneType'>": s22='nan'

    print('{0:1} {1:20} + {0:1} {2:20} = {0:1} {3:20}'.format(clave,s11,s22,suma.get(clave)))
    
# Un elemento tipo NoneType produce error al intentar imprimirlo con formato, por eso realizamos
# la secuencia de 'if'.

          s1                         s2                  s1 + s2
-----------------------  -----------------------  -----------------------
a nan                  + a  0.48351484454112437 = a                  nan
b -0.06354157829425938 + b -0.06354157829425938 = b -0.12708315658851876
c -0.14699518176255363 + c -0.14699518176255363 = c -0.29399036352510727
d    1.432411223855866 + d    1.432411223855866 = d    2.864822447711732
e  0.25416248133098884 + e  0.25416248133098884 = e   0.5083249626619777
f -0.31705865012233525 + f -0.31705865012233525 = f  -0.6341173002446705
g   2.1866273622039336 + g   2.1866273622039336 = g    4.373254724407867
h  -0.1589327310190406 + h  -0.1589327310190406 = h  -0.3178654620380812
i   1.0331524870929683 + i   1.0331524870929683 = i   2.0663049741859365
j  -0.6329508972509573 + j nan                  = j                  nan


<br/><h5><strong>DataFrame</strong></h5>
<br/>
<h5>Un DataFrame se puede ver como si fuera una tabla con índices para las filas y las columnas.</h5><br/>

In [114]:
df_lista = pd.DataFrame({'a': [11,12,13], 'b': [21,22,23]})
print('DataFrame a partir de un diccionario de listas: \n{}\n'.format(df_lista))

df_np1D = pd.DataFrame({'a': np.arange(3)**2, 'b': np.random.randn(3)})
print('DataFrame a partir de un diccionario de 1D ndarrays: \n{}\n'.format(df_np1D))

df_np2D = pd.DataFrame(np.empty((5,3)),
index = ['primero','segundo','tercero','cuarto','quinto'],
columns = ['velocidad', 'temperatura','presion'])
print('DataFrame a partir de un 2D ndarray: \n{}\n'.format(df_np2D))

df_df = pd.DataFrame(df_np2D, index = ['primero','segundo','tercero'])
df_df.index = ['first','second','third']
print('DataFrame a partir de los valores de otro (pandas)DataFrame: \n{}'.format(df_df))

DataFrame a partir de un diccionario de listas: 
    a   b
0  11  21
1  12  22
2  13  23

DataFrame a partir de un diccionario de 1D ndarrays: 
   a         b
0  0  1.295021
1  1  1.408557
2  4 -0.315138

DataFrame a partir de un 2D ndarray: 
             velocidad    temperatura  presion
primero  6.917324e-310  2.076186e-316      0.0
segundo   0.000000e+00   0.000000e+00      0.0
tercero   0.000000e+00   0.000000e+00      0.0
cuarto    0.000000e+00   0.000000e+00      0.0
quinto    0.000000e+00   0.000000e+00      0.0

DataFrame a partir de los valores de otro (pandas)DataFrame: 
            velocidad    temperatura  presion
first   6.917324e-310  2.076186e-316      0.0
second   0.000000e+00   0.000000e+00      0.0
third    0.000000e+00   0.000000e+00      0.0


AttributeError: 'Index' object has no attribute 'text'