# Estructuras de datos en pandas

En este *notebook* exploraremos las dos principales estructuras de datos en *pandas*: *Series* y *DataFrames*

Algunos *shortcuts* útiles:
* tab --> ofrece sugerencias sobre funciones y atributos 
* shift + tab --> muestra la documentación 
* shift + enter --> run cell

Documentación de *pandas*:  http://pandas.pydata.org/pandas-docs/stable/

Para saber un poco más sobre la idea detrás de pandas: dlr.de/sc/Portaldata/15/Resources/dokumente/pyhpc2011/submissions/pyhpc2011_submission_9.pdf

In [None]:
# Importamos pandas. Por comodidad (y convención) lo renombramos con "pd"
import pandas as pd

------

## Series

Las *Series* de *pandas* son arrays unidimensionales, donde cada elemento tiene un índice o una etiqueta (*label*) asociada

In [None]:
# Creamos una Series. Si no especificamos las etiquetas para sus elementos, pandas automáticamente asigna los índices
s1 = pd.Series([101, 102, 103, 104, 105, 106])
print('s1:'); print(s1)

In [None]:
# También podemos indicar las etiquetas para cada uno de los elementos de la Series
s2 = pd.Series(data=[101,102,103,104,105,106], index=['a', 'b', 'c', 'd', 'e', 'f'])
print('s2:')
print(s2)

In [None]:
# Podemos incluir varios tipos de datos en una misma Series:
s3 = pd.Series(data=[101,'cientodos',103,104,'cientocinco',106], index=['a', 'b', 'c', 'd', 'e', 'f'])
print('s3:\n'); print(s3)
# Notemos cómo el dtype es 'object' --> esto ocurre cuando se tienen tipos mixtos en una misma serie

Hay varias maneras de acceder a los elemntos de una Series...

In [None]:
# Si queremos usar la etiqueta del elementos para obtener su valor:
print(s3['a'])
print(s3.loc['e']) 

In [None]:
# Si queremos usar el ínidice posicional del elemento para acceder a su valor
print(s3[0])
print(s3.iloc[4]) # Ésta manera de obtener los valores será la que usaremos en los DataFrames
# Al igual que en numpy, los índices comienzan en 0

En lo anterior, usamos 'loc' y 'iloc' para acceder a los elementos. *loc* se emplea cuando queremos acceder a los valores con las etiquetas, mientras que *iloc* lo usamos cuando queremos acceder a los valores a partir de sus índices (posición en la Series)

In [None]:
# Para obtener el valor de varios elementos a la vez, se debe emplear una lista de elementos
print(s2.loc[['a', 'b']], '\n')
print(s2.iloc[[0,1]])

La mayoría de la operaciones que vimos en numpy también son válidas en pandas. Nos interesan particularmente las operaciones aritméticas y las que nos permiten filtrar elementos...

In [None]:
# Por ejemplo, multipliquemos y sumemos todos los elementos de una Series:
print(s2*100, '\n')
print(s2+s2)

-----

## DataFrames

Los *DataFrames* de *pandas* son estructuras de datos de dos dimensiones, donde cada elemento tiene dos etiquetas (renglón y columna) asociadas. La etiqueta correspondiente al renglón puede ser simplemente un índice. 

Normalmente los *DataFrames* se alimentan con datos que importamos de otro lugar (archivos csv, archivos txt, archivos JSON, APIs, etc.)

In [None]:
# Hay muchas maneras de crear DataFrames. En este ejemplo, crearemos un DataFrame a partir de un diccionario...

# Primero creamos dos Series
ser01 = pd.Series(data=[1,2,3], index=['alfa', 'beta', 'gamma'])
ser02 = pd.Series(data=[4,5, 6, 7], index=['alfa', 'dseta', 'delta', 'beta'])

# Creamos un diccionario usando las Series
d = {'uno': ser01, 
     'dos': ser02
    }

# Creamos un DataFrame usando el diccionario
df = pd.DataFrame(d)
display(df) 

Al igual que con las Series, las mayoría de las operaciones de NumPy también son válidas cuando estamos trabajando con DataFrames.