# Nuevas estructuras de datos

PANDAs = PANel DAta Structure

`pandas` introduce tres nuevos tipos de estructura de datos:

* `Series` : Es una estructura de datos de 1D, como si fuera un vector de datos con índices.

* `DataFrame` : Es una estructura de datos de 2D, como si fuera un diccionario de `Series`.

* `Panel` : Es una estructura de datos de nD (con $n \ge 3$), como si fuera un diccionario de `DataFrame`s.

![](imgs/Estructuras.png)

(imagen extraída de [aquí](https://github.com/jonathanrocher/pandas_tutorial/blob/master/analyzing_and_manipulating_data_with_pandas_manual.pdf))

In [1]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
%matplotlib inline

In [2]:
s = pd.Series()

In [3]:
df = pd.DataFrame()

In [4]:
p = pd.Panel()

In [5]:
print(s, df, p, sep = '\n' * 2)

Series([], dtype: float64)

Empty DataFrame
Columns: []
Index: []

<class 'pandas.core.panel.Panel'>
Dimensions: 0 (items) x 0 (major_axis) x 0 (minor_axis)
Items axis: None
Major_axis axis: None
Minor_axis axis: None


# `Series`

Una `Series` es un array indexado:

• Un NumPy array mapea un rango de números enteros a valores.


• Una `Series` mapea un grupo arbitrario de etiquetas a valores.


• Una `Series` se puede ver también como un diccionario especializado donde todos los valores poseen el mismo tipo y se encuentran almacenados de forma eficiente.

In [6]:
s = pd.Series({'a' : 1000, 'b' : 2000, 'c' : 3000, 'd' : 4000})

In [7]:
s['b']

2000

Para acceder a las etiquetas se usa el atributo `s.index` mientras que para acceder a los valores se usa el atributo `s.values` (NumPy array).

In [8]:
help(pd.Series)

Help on class Series in module pandas.core.series:

class Series(pandas.core.base.IndexOpsMixin, pandas.core.strings.StringAccessorMixin, pandas.core.generic.NDFrame)
 |  One-dimensional ndarray with axis labels (including time series).
 |  
 |  Labels need not be unique but must be any hashable type. The object
 |  supports both integer- and label-based indexing and provides a host of
 |  methods for performing operations involving the index. Statistical
 |  methods from ndarray have been overridden to automatically exclude
 |  missing data (currently represented as NaN)
 |  
 |  Operations between Series (+, -, /, *, **) align values based on their
 |  associated index values-- they need not be the same length. The result
 |  index will be the sorted union of the two indexes.
 |  
 |  Parameters
 |  ----------
 |  data : array-like, dict, or scalar value
 |      Contains data stored in Series
 |  index : array-like or Index (1d)
 |      Values must be unique and hashable, same length

In [9]:
lista = [1,10,100,1000]
dicc = {'a': 1, 'b': 10, 'c': 100, 'd': 1000}

In [10]:
# creación a partir de una lista
s1 = pd.Series(data = lista, index = ['a','b','c','d'], name = 'Mi Serie')

In [11]:
# creación a partir de un diccionario
s2 = pd.Series(data = dicc, name = 'Mi Serie')

In [12]:
# cread s3 a partir de un numpy array




In [13]:
s1

a       1
b      10
c     100
d    1000
Name: Mi Serie, dtype: int64

In [14]:
s2

a       1
b      10
c     100
d    1000
Name: Mi Serie, dtype: int64

In [15]:
s1.index

Index(['a', 'b', 'c', 'd'], dtype='object')

In [16]:
s1.values

array([   1,   10,  100, 1000])

In [17]:
# Acceder a un elemento, como si fuera un diccionario
s1['a']

1

In [18]:
# Acceder a un elemento como si fuera un numpy array
s1[0]

1

In [19]:
s1[0:3]

a      1
b     10
c    100
Name: Mi Serie, dtype: int64

In [20]:
s1['a':'c']

a      1
b     10
c    100
Name: Mi Serie, dtype: int64

In [21]:
# Se pueden añadir nuevos elementos como si fuera un diccionario
s1['e'] = 10000

In [22]:
s1

a        1
b       10
c      100
d     1000
e    10000
Name: Mi Serie, dtype: int64

In [23]:
s2

a       1
b      10
c     100
d    1000
Name: Mi Serie, dtype: int64

In [24]:
# Podemos hacer operaciones como si fueran numpy arrays
s1 / 10

a       0.1
b       1.0
c      10.0
d     100.0
e    1000.0
Name: Mi Serie, dtype: float64

In [25]:
# Alineamiento de índices, las operaciones se hacen vía índice
s1 + s2

a       2.0
b      20.0
c     200.0
d    2000.0
e       NaN
Name: Mi Serie, dtype: float64

# `DataFrame`

Un `DataFrame` puede considerarse que es como un diccionario de `Series` que comparten índices comunes:

• `Dataframes` tienen índices para filas (index) y columnas (columns).


• Cada columna puede poseer un tipo de dato diferente.


• Añadir nuevas columnas es 'barato'.

In [26]:
df = pd.DataFrame(np.random.randn(10, 3), columns = ['col1', 'col2', 'col3'])

In [27]:
df

Unnamed: 0,col1,col2,col3
0,-0.881338,-0.261047,0.583899
1,0.30769,-0.552396,-0.876651
2,-0.640928,-1.58523,0.173165
3,1.62079,-0.052152,1.712885
4,0.067138,0.412657,-0.266347
5,0.884076,2.062507,-1.176782
6,0.185355,0.693184,0.52394
7,0.764943,1.586537,-0.632929
8,-0.946668,-0.227235,0.641065
9,-0.248247,-1.80143,-0.704629


Pensad en un `DataFrame` como en una 'pestaña' (hoja) de una hoja de cálculos, o en una tabla en una Base de Datos SQL.

In [28]:
help(pd.DataFrame)

Help on class DataFrame in module pandas.core.frame:

class DataFrame(pandas.core.generic.NDFrame)
 |  Two-dimensional size-mutable, potentially heterogeneous tabular data
 |  structure with labeled axes (rows and columns). Arithmetic operations
 |  align on both row and column labels. Can be thought of as a dict-like
 |  container for Series objects. The primary pandas data structure
 |  
 |  Parameters
 |  ----------
 |  data : numpy ndarray (structured or homogeneous), dict, or DataFrame
 |      Dict can contain Series, arrays, constants, or list-like objects
 |  index : Index or array-like
 |      Index to use for resulting frame. Will default to np.arange(n) if
 |      no indexing information part of input data and no index provided
 |  columns : Index or array-like
 |      Column labels to use for resulting frame. Will default to
 |      np.arange(n) if no column labels are provided
 |  dtype : dtype, default None
 |      Data type to force, otherwise infer
 |  copy : boolean, de

In [29]:
# Cread un dataframe a partir de s1 y s2



In [30]:
# Cread un dataframe a partir de un diccionario de numpy arrays



In [31]:
# Se puede acceder a una columna (una Series) como si accediéramos a la clave de un diccionario
df['col1']

0   -0.881338
1    0.307690
2   -0.640928
3    1.620790
4    0.067138
5    0.884076
6    0.185355
7    0.764943
8   -0.946668
9   -0.248247
Name: col1, dtype: float64

In [32]:
# Podemos acceder a los índices como si fuera una Series
df.index

RangeIndex(start=0, stop=10, step=1)

In [33]:
# Además, podemos acceder a las columnas
df.columns

Index(['col1', 'col2', 'col3'], dtype='object')

# `Panel`

Se puede ver como un diccionario de `DataFrame`s. 

Para no sobrecargar el vistazo que vamos a hacer a `pandas` no hablaremos más sobre `Panel`es ya que es una estructura de datos que se usa menos en la práctica.

In [34]:
help(pd.Panel)

Help on class Panel in module pandas.core.panel:

class Panel(pandas.core.generic.NDFrame)
 |  Represents wide format panel data, stored as 3-dimensional array
 |  
 |  Parameters
 |  ----------
 |  data : ndarray (items x major x minor), or dict of DataFrames
 |  items : Index or array-like
 |      axis=0
 |  major_axis : Index or array-like
 |      axis=1
 |  minor_axis : Index or array-like
 |      axis=2
 |  dtype : dtype, default None
 |      Data type to force, otherwise infer
 |  copy : boolean, default False
 |      Copy data from inputs. Only affects DataFrame / 2d ndarray input
 |  
 |  Method resolution order:
 |      Panel
 |      pandas.core.generic.NDFrame
 |      pandas.core.base.PandasObject
 |      pandas.core.base.StringMixin
 |      builtins.object
 |  
 |  Methods defined here:
 |  
 |  __add__(self, other)
 |      # work only for scalars
 |  
 |  __and__(self, other)
 |      # work only for scalars
 |  
 |  __div__ = __truediv__(self, other)
 |  
 |  __eq__(self, o