# Sección 2 - Estructuras de datos

En esta sección vamos a conocer las estructuras principales de datos existentes en pandas, como son las Series y los DataFrames. Además, trabajaremos con tipos de datos peculiares como pueden ser los timeseries o los timedelta. También aprenderemos a leer y escribir datos con pandas.  

## Lección 1 - Series

In [1]:
import pandas as pd
import numpy as np

La Serie es realmente una matriz unidimensional que puede contener cualquier tipo de datos (enteros, cadenas, floats, objetos de Python, etc.). La serie también posee un índice. Dispone de varios tipos de constructores.

#### Usando un numpy array

In [2]:
valores = np.array([1,2,3,4,5])
serie = pd.Series(valores)
serie

0    1
1    2
2    3
3    4
4    5
dtype: int64

In [3]:
serie.index

RangeIndex(start=0, stop=5, step=1)

In [4]:
serie = pd.Series(valores, index = ['a','b','c','d','e'])
serie

a    1
b    2
c    3
d    4
e    5
dtype: int64

In [5]:
serie.index

Index(['a', 'b', 'c', 'd', 'e'], dtype='object')

#### Usando un diccionario python

In [6]:
d = {'a':1, 'b':2, 'c':3, 'd':4, 'e':5}
serie = pd.Series(d)
serie

a    1
b    2
c    3
d    4
e    5
dtype: int64

Si usamos el diccionario, y además especificamos un indice, los valores se ordenan según el indice ordenado

In [9]:
serie = pd.Series(d, index = ['b','c','a','e','d'])
serie

b    2
c    3
a    1
e    5
d    4
dtype: int64

La serie actúa de manera muy similar a un numpy array y es un argumento válido para la mayoría de las funciones NumPy. 

In [10]:
np.sum(serie)

15

In [11]:
np.max(serie)

5

Podemos consultar los valores especificando un valor del indice. También podemos consultar el tipo de la serie con *dtype* y convertirlo a un numpy array con la función *to_numpy()*

In [12]:
serie

b    2
c    3
a    1
e    5
d    4
dtype: int64

In [13]:
serie['b']

2

In [16]:
serie[0]

2

In [17]:
serie.dtype

dtype('int64')

In [18]:
array = serie.to_numpy()
print(type(array))
array

<class 'numpy.ndarray'>


array([2, 3, 1, 5, 4])

También podemos interpretar el tipo Serie de pandas como un diccionario python, de manera que podemos tanto consultar, como añadir nuevos pares clave-valor a la misma.

In [19]:
serie

b    2
c    3
a    1
e    5
d    4
dtype: int64

In [22]:
serie['e']

5

In [24]:
serie['f'] = 6
serie

b    2
c    3
a    1
e    5
d    4
f    6
dtype: int64

In [25]:
'e' in serie

True

In [26]:
'h' in serie

False

Y como diccionario que se puede considerar, podemos pedir sus claves y sus valores

In [29]:
serie.keys()

Index(['b', 'c', 'a', 'e', 'd', 'f'], dtype='object')

In [33]:
serie.values

array([2, 3, 1, 5, 4, 6])

Cuando hemos trabajado con matrices NumPy, normalmente no era necesario recorrer valor a valor la misma para aplicar una operación. Lo mismo ocurre cuando se trabaja con Series en pandas.

In [34]:
serie

b    2
c    3
a    1
e    5
d    4
f    6
dtype: int64

In [35]:
serie * 2

b     4
c     6
a     2
e    10
d     8
f    12
dtype: int64

In [36]:
serie.keys()

Index(['b', 'c', 'a', 'e', 'd', 'f'], dtype='object')

In [40]:
serie2 = pd.Series(np.random.randint(0,10,6), index = ['b', 'c', 'a', 'e', 'd', 'f'])
serie2

b    2
c    4
a    0
e    7
d    4
f    8
dtype: int64

In [41]:
serie + serie2

b     4
c     7
a     1
e    12
d     8
f    14
dtype: int64

Si algun indice no coincide, se almacena un NaN

In [42]:
serie2['g'] = 10

In [43]:
serie

b    2
c    3
a    1
e    5
d    4
f    6
dtype: int64

In [44]:
serie2

b     2
c     4
a     0
e     7
d     4
f     8
g    10
dtype: int64

In [45]:
serie + serie2

a     1.0
b     4.0
c     7.0
d     8.0
e    12.0
f    14.0
g     NaN
dtype: float64

## Lección 2 - DataFrame

In [46]:
import numpy as np
import pandas as pd

Los DataFrame son una estructura de datos bidimensional que admite columnas de diferentes tipos. Podemos entenderlos como una tabla SQL, en el sentido de estar formado por filas y columnas. Generalmente es el objeto de pandas más utilizado. Al igual que Series, DataFrame acepta muchos tipos diferentes de entrada:

#### Usando un diccionario de series

In [56]:
d = {'col1': pd.Series([1., 2., 3., 4.]),
     'col2': pd.Series([4., 3., 2., 1.])}

df = pd.DataFrame(d)
df

Unnamed: 0,col1,col2
0,1.0,4.0
1,2.0,3.0
2,3.0,2.0
3,4.0,1.0


#### Usando directamente un diccionario de valores

In [62]:
d = {'col1': [1., 2., 3., 4.],
     'col2': [4., 3., 2., 1.]}

df = pd.DataFrame(d, index = ['a','b','c','e'])
df

Unnamed: 0,col1,col2
a,1.0,4.0
b,2.0,3.0
c,3.0,2.0
e,4.0,1.0


#### Usando una lista lista de diccionarios

In [66]:
l = [{'col1': 1, 'col2' : 4}, {'col1': 2, 'col2' : 3},  
     {'col1': 3, 'col2' : 2}, {'col1': 4, 'col2' : 1, 'col3' : 3}]

df = pd.DataFrame(l, index = ['a','b','c','e'])
df

Unnamed: 0,col1,col2,col3
a,1,4,
b,2,3,
c,3,2,
e,4,1,3.0


Como podéis observar, los dataframes están formados por un conjunto de series. Por ello, poseen una características muy similares a ellas, y podemos consultarlos o modificarlos de la misma manera. 

In [67]:
df

Unnamed: 0,col1,col2,col3
a,1,4,
b,2,3,
c,3,2,
e,4,1,3.0


In [68]:
# Recupero la columna con []
df['col2']

a    4
b    3
c    2
e    1
Name: col2, dtype: int64

In [70]:
type(df['col2'])

pandas.core.series.Series

In [69]:
df['col4'] = df['col1'] + df['col2']
df

Unnamed: 0,col1,col2,col3,col4
a,1,4,,5
b,2,3,,5
c,3,2,,5
e,4,1,3.0,5


In [71]:
# Elimino columnas con del
del df['col3']
df

Unnamed: 0,col1,col2,col4
a,1,4,5
b,2,3,5
c,3,2,5
e,4,1,5


In [73]:
df.insert(0, 'col0', df['col4'] + df['col2'])
df

Unnamed: 0,col0,col1,col2,col4
a,9,1,4,5
b,8,2,3,5
c,7,3,2,5
e,6,4,1,5


Para acabar con esta lección, también debéis conocer el método *assign*, el cual nos permite crear una nueva columna en el dataframe

In [74]:
df = df.assign(col3 = 3)
df

Unnamed: 0,col0,col1,col2,col4,col3
a,9,1,4,5,3
b,8,2,3,5,3
c,7,3,2,5,3
e,6,4,1,5,3


## Leccion 3 - Lectura y escritura

In [75]:
import numpy as np
import pandas as pd

Cuando trabajamos con pandas, es habitual que tengamos que leer un fichero de datos, bien sea en formato CSV, JSON, o similar. Luego, una vez tenemos los resultados deseados, solemos volcar esos resultados a un fichero. Pandas nos proporciona una serie de métodos de entrada / salida para estos fines.

In [79]:
from pathlib import Path
data_path = Path('./data')

### Lectura

#### read_csv

In [81]:
dataset = pd.read_csv(data_path / 'dataset.csv', sep = ',')
dataset.head()

Unnamed: 0,Number,City,Gender,Age,Income,Illness
0,1,Dallas,Male,41,40367.0,No
1,2,Dallas,Male,54,45084.0,No
2,3,Dallas,Male,42,52483.0,No
3,4,Dallas,Male,40,40941.0,No
4,5,Dallas,Male,46,50289.0,No


In [82]:
pd.read_csv(data_path / 'dataset.csv', sep = ',', usecols=['Gender','Age']).head()


Unnamed: 0,Gender,Age
0,Male,41
1,Male,54
2,Male,42
3,Male,40
4,Male,46


In [96]:
dataset.head(100).to_json(data_path / 'dataset_records.json', orient='records')

In [97]:
ds = pd.read_json(data_path / 'dataset_index.json', orient='index')
ds.head()

Unnamed: 0,Number,City,Gender,Age,Income,Illness
0,1,Dallas,Male,41,40367,No
1,2,Dallas,Male,54,45084,No
2,3,Dallas,Male,42,52483,No
3,4,Dallas,Male,40,40941,No
4,5,Dallas,Male,46,50289,No


In [98]:
ds = pd.read_json(data_path / 'dataset_records.json', orient='index')
ds.head()

AttributeError: 'list' object has no attribute 'values'

In [99]:
ds = pd.read_json(data_path / 'dataset_records.json', orient='records')
ds.head()

Unnamed: 0,Number,City,Gender,Age,Income,Illness
0,1,Dallas,Male,41,40367,No
1,2,Dallas,Male,54,45084,No
2,3,Dallas,Male,42,52483,No
3,4,Dallas,Male,40,40941,No
4,5,Dallas,Male,46,50289,No


#### read_fwf

In [108]:
widths = [1, 6, 4, 2, 7, 2]
ds_fijo = pd.read_fwf(data_path / 'dataset_fijo', widths=widths, header = None)
ds_fijo.columns = ['Number', 'City', 'Gender', 'Age', 'Income', 'Illness']
ds_fijo

Unnamed: 0,Number,City,Gender,Age,Income,Illness
0,1,Dallas,Male,41,40367.0,No
1,2,Dallas,Male,54,45084.0,No
2,3,Dallas,Male,42,52483.0,No
3,4,Dallas,Male,40,40941.0,No
4,5,Dallas,Male,46,50289.0,No


#### read_parquet

In [114]:
ds_parquet = pd.read_parquet(data_path / 'dataset.parquet', engine='pyarrow')
ds_parquet.head()

Unnamed: 0,Number,City,Gender,Age,Income,Illness
0,1,Dallas,Male,41,40367.0,No
1,2,Dallas,Male,54,45084.0,No
2,3,Dallas,Male,42,52483.0,No
3,4,Dallas,Male,40,40941.0,No
4,5,Dallas,Male,46,50289.0,No


Fijaros como el fichero en formato parquet ocupa 1.7 MB mientras que en CSV ocupa 5.7 MB

### Escritura

In [115]:
df_to_write = dataset.head(100)
df_to_write.head()

Unnamed: 0,Number,City,Gender,Age,Income,Illness
0,1,Dallas,Male,41,40367.0,No
1,2,Dallas,Male,54,45084.0,No
2,3,Dallas,Male,42,52483.0,No
3,4,Dallas,Male,40,40941.0,No
4,5,Dallas,Male,46,50289.0,No


#### to_csv

In [116]:
df_to_write.to_csv(data_path / 'df_to_write.csv', index = False, sep = '#', header = False)

#### to_json

In [117]:
df_to_write.to_json(data_path / 'df_to_write.json', orient = 'split')

#### to_parquet

In [120]:
df_to_write.to_parquet(data_path / 'df_to_write.parquet', engine = 'pyarrow')

Apache Parquet proporciona una serialización binaria particionada en columnas para los dataframes. Está diseñado para hacer que la lectura y escritura de los DF sea eficiente.

Para poder escribir en formato parquet, necesitamos instalar la dependencia *pyarrow*. Lo podemos instalar facilmente con conda