# Sección 2 - Estructuras de datos

En esta sección vamos a conocer las estructuras principales de datos existentes en pandas, como son las Series y los DataFrames. Además, trabajaremos con tipos de datos peculiares como pueden ser los timeseries o los timedelta. También aprenderemos a leer y escribir datos con pandas.  

## Lección 1 - Series

In [1]:
import pandas as pd
import numpy as np

La Serie es realmente una matriz unidimensional que puede contener cualquier tipo de datos (enteros, cadenas, floats, objetos de Python, etc.). La serie también posee un índice. Dispone de varios tipos de constructores.

#### Usando un numpy array

In [2]:
valores = np.array([1,2,3,4,5])
serie = pd.Series(valores)
serie

0    1
1    2
2    3
3    4
4    5
dtype: int64

In [3]:
serie.index

RangeIndex(start=0, stop=5, step=1)

In [4]:
serie = pd.Series(valores, index = ['a','b','c','d','e'])
serie

a    1
b    2
c    3
d    4
e    5
dtype: int64

In [5]:
serie.index

Index(['a', 'b', 'c', 'd', 'e'], dtype='object')

#### Usando un diccionario python

In [6]:
d = {'a':1, 'b':2, 'c':3, 'd':4, 'e':5}
serie = pd.Series(d)
serie

a    1
b    2
c    3
d    4
e    5
dtype: int64

Si usamos el diccionario, y además especificamos un indice, los valores se ordenan según el indice ordenado

In [9]:
serie = pd.Series(d, index = ['b','c','a','e','d'])
serie

b    2
c    3
a    1
e    5
d    4
dtype: int64

La serie actúa de manera muy similar a un numpy array y es un argumento válido para la mayoría de las funciones NumPy. 

In [10]:
np.sum(serie)

15

In [11]:
np.max(serie)

5

Podemos consultar los valores especificando un valor del indice. También podemos consultar el tipo de la serie con *dtype* y convertirlo a un numpy array con la función *to_numpy()*

In [12]:
serie

b    2
c    3
a    1
e    5
d    4
dtype: int64

In [13]:
serie['b']

2

In [16]:
serie[0]

2

In [17]:
serie.dtype

dtype('int64')

In [18]:
array = serie.to_numpy()
print(type(array))
array

<class 'numpy.ndarray'>


array([2, 3, 1, 5, 4])

También podemos interpretar el tipo Serie de pandas como un diccionario python, de manera que podemos tanto consultar, como añadir nuevos pares clave-valor a la misma.

In [19]:
serie

b    2
c    3
a    1
e    5
d    4
dtype: int64

In [22]:
serie['e']

5

In [24]:
serie['f'] = 6
serie

b    2
c    3
a    1
e    5
d    4
f    6
dtype: int64

In [25]:
'e' in serie

True

In [26]:
'h' in serie

False

Y como diccionario que se puede considerar, podemos pedir sus claves y sus valores

In [29]:
serie.keys()

Index(['b', 'c', 'a', 'e', 'd', 'f'], dtype='object')

In [33]:
serie.values

array([2, 3, 1, 5, 4, 6])

Cuando hemos trabajado con matrices NumPy, normalmente no era necesario recorrer valor a valor la misma para aplicar una operación. Lo mismo ocurre cuando se trabaja con Series en pandas.

In [34]:
serie

b    2
c    3
a    1
e    5
d    4
f    6
dtype: int64

In [35]:
serie * 2

b     4
c     6
a     2
e    10
d     8
f    12
dtype: int64

In [36]:
serie.keys()

Index(['b', 'c', 'a', 'e', 'd', 'f'], dtype='object')

In [40]:
serie2 = pd.Series(np.random.randint(0,10,6), index = ['b', 'c', 'a', 'e', 'd', 'f'])
serie2

b    2
c    4
a    0
e    7
d    4
f    8
dtype: int64

In [41]:
serie + serie2

b     4
c     7
a     1
e    12
d     8
f    14
dtype: int64

Si algun indice no coincide, se almacena un NaN

In [42]:
serie2['g'] = 10

In [43]:
serie

b    2
c    3
a    1
e    5
d    4
f    6
dtype: int64

In [44]:
serie2

b     2
c     4
a     0
e     7
d     4
f     8
g    10
dtype: int64

In [45]:
serie + serie2

a     1.0
b     4.0
c     7.0
d     8.0
e    12.0
f    14.0
g     NaN
dtype: float64