# Estructuras de datos

El pilar básico de la librería <b>pandas</b>, al igual que como ocurría con <b>numpy</b>, son las estructuras de datos que pone a nuestra disposición.<br/>
En este caso, dispondremos de dos estructuras de datos relacionadas, pero con su funcionamiento específico:<br/>
<ul>
<li><b>Series:</b> Para información unidimensional.</li>
<li><b>DataFrame:</b> Para información tabular.</li>
</ul>

Son estructuras muy similares a las ofrecidas por R: vectores (con nombre) y data.frame.

## Utilización básica de elementos de pandas

Al igual que en NumPy, pandas no pertenece al core de Python, por lo que SIEMPRE habrá que importarlo en un programa antes de poder usarlo.

In [1]:
import numpy as np
import pandas as pd

## Series

Una serie es una estructura de datos unidimensional que contiene:<br/>
<ul>
<li>Un array de datos: que pueden tener cualquier tipo de dato de los ofrecidos por NumPy.</li>
<li>Un array de etiquetas/<i>labels</i>: asociando una etiqueta a cada dato del array anterior y que se denomina <b>índice</b>, aunque no es obligatorio que el desarrollador especifique el mismo.</li>
</ul>

### Creación de Series

Para la creación de Series contamos con una función "constructor" (Series) que puede recibir, principalmente, los siguientes parámetros:<br/>
<ul>
<li><b>data:</b> Es obligatorio, contiene los datos que queremos cargar en la Serie y podrá ser un valor escalar, una secuencia de Python o un ndarray unidimensional de NumPy.</li>
<li><b>index:</b> Es opcional, contiene las etiquetas que queremos asignar a los valores de la Serie y podrá ser una secuencia de Python o un ndarray unidimensional de NumPy. En caso de no suministrarse el valor por defecto es np.arange(0, tam_datos).</li>
<li><b>dtype:</b> Que podrá ser cualquier tipo de dato de NumPy.</li>
</ul>

In [None]:
# Serie desde escalar
serie = pd.Series(5)
serie

In [None]:
# Serie desde secuencia
serie = pd.Series([1, 2, 3, 4, 5], dtype=np.string_)
serie

In [None]:
# Serie desde ndarray
array = np.array([2, 4, 6, 8, 10])
serie = pd.Series(array)
serie

In [None]:
# Serie con índice preestablecido
serie = pd.Series([1, 2, 3, 4, 5], index=['a', 'b', 'c', 'd', 'e'])
serie

In [None]:
# Serie desde diccionario (establece el índice desde las claves)
serie = pd.Series({'a': 1, 'b': 2, 'c': 3, 'd': 4, 'e': 5}, dtype=np.float64)
serie

### Elementos de una Serie

Disponemos de dos atributos para recuperar los datos y el índice de una Serie de forma independiente.

In [None]:
serie = pd.Series([1, 2, 3, 4, 5], index=['a', 'b', 'c', 'd', 'e'], dtype=np.float64)

In [None]:
# Valores de una serie
serie.values

In [None]:
# Índice de una serie
serie.index

Los índices son inmutables, lo que impide que cambiemos un valor de índice de forma independiente. Sin embargo, podemos modificar un índice completo por otro.

In [None]:
serie = pd.Series([1, 2, 3, 4, 5], index=['a', 'b', 'c', 'd', 'e'], dtype=np.float64)

In [None]:
# Modificar un elemento del índice de una serie
serie.index[0] = 4

In [None]:
# Modificar el índice de una serie
serie.index = ['f', 'g', 'h', 'i', 'j']
serie

## DataFrame

Un DataFrame es una estructura tabular (bidimensional) de información con las siguientes propiedades:<br/>
<ul>
<li>Está compuesta por una serie ordenada de filas y una serie ordenada de columnas.</li>
<li>Tiene, por tanto, un índice para las filas y otro para las columnas.</li>
<li>Cada columna puede tener un tipo de NumPy diferente.</li>
<li>Puede ser visto, por tanto, como un diccionario de Series, todas ellas compartiendo el mismo índice.</li>
</ul>

### Creación de DataFrames

Para la creación de DataFrames contamos con una función "constructor" (DataFrame) que puede recibir, principalmente, los siguientes parámetros:<br/>
<ul>
<li><b>data:</b> Es obligatorio, contiene los datos que queremos cargar en el DataFrmae y podrá ser un diccionario de Series, un diccionario de secuencias, un ndarray bidimensional, una Serie y otro DataFrame.</li>
<li><b>index:</b> Es opcional, contiene las etiquetas que queremos asignar a las filas del DataFrame y podrá ser una secuencia de Python o un ndarray unidimensional de NumPy. En caso de no suministrarse el valor por defecto es np.arange(0, num_filas).</li>
<li><b>columns:</b> Es opcional, contiene las etiquetas que queremos asignar a las columnas del DataFrame y podrá ser una secuencia de Python o un ndarray unidimensional de NumPy. En caso de no suministrarse el valor por defecto es np.arange(0, num_columnas).</li>
<li><b>dtype:</b> Es opcional, fijará el tipo de todas las columnas y podrá ser cualquier tipo de dato de NumPy.</li>
</ul>

<b>IMPORTANTE:</b> Si el tamaño de cada columna no coincide, se creara un DataFrame lo suficientemente grande como para contener al mayor y se asignará NaN en los huecos.

In [None]:
# DataFrame desde diccionario de secuencias
dataframe = pd.DataFrame({'var1': [1, 2, 3], 'var2': ['uno', 'dos', 'tres'], 'var3': [1.0, 2.0, 3.0]})
dataframe

In [None]:
# DataFrame desde diccionario de series
dataframe = pd.DataFrame({'var1': pd.Series([1, 2, 3], dtype=np.float64), 'var2': pd.Series(['a', 'b'])})
dataframe

In [None]:
# DataFrame desde ndarray con índices para filas y columnas
dataframe = pd.DataFrame(np.arange(16).reshape(4, 4), index=['f1', 'f2', 'f3', 'f4'], columns=['c1', 'c2', 'c3', 'c4'])
dataframe

In [None]:
# DataFrame desde ndarray con índices para filas y columnas con tipo fijo para todas
dataframe = pd.DataFrame(np.arange(16).reshape(4,4), dtype=np.int32)
dataframe

### Elementos de un DataFrame

Disponemos de tres atributos para recuperar los datos, el índice y las columnas de un DataFrmae de forma independiente.

In [None]:
dataframe = pd.DataFrame({'var1': [1, 2, 3], 'var2': ['uno', 'dos', 'tres'], 'var3': [1.0, 2.0, 3.0]})

In [None]:
# Valores de un DataFrame
dataframe.values

In [None]:
# Índice de un DataFrame
dataframe.index

In [None]:
# Columnas de un DataFrame
dataframe.columns

De nuevo, los índices (tanto el de filas como el de columnas) son inmutables, pero de nuevo, se pueden modificar de forma completa.

In [None]:
dataframe = pd.DataFrame({'var1': [1, 2, 3], 'var2': ['uno', 'dos', 'tres'], 'var3': [1.0, 2.0, 3.0]})

In [None]:
# Modificar un elemento del índice de filas de un dataframe
dataframe.index[0] = 4

In [None]:
# Modificar un elemento del índice de columnas de un dataframe
dataframe.columns[0] = 4

In [None]:
# Modificar el índice de filas de un dataframe
dataframe.index = ['f1', 'f2', 'f3']
dataframe

In [None]:
# Modificar el índice de filas de un dataframe
dataframe.columns = ['c1', 'c2', 'c3']
dataframe