# 1.- Pandas: Estructuras de datos

El pilar básico de la librería pandas, al igual que como ocurría con numpy, son las estructuras de datos que pone a nuestra disposición.
En este caso, dispondremos de **dos estructuras de datos** relacionadas, pero con su funcionamiento específico:<br/>
<ul>
<li><b>Series:</b> Para información unidimensional.</li>
<li><b>DataFrame:</b> Para información tabular.</li>
</ul>

# Importación de pandas

Al igual que en NumPy, pandas no pertenece al core de Python, por lo que **SIEMPRE habrá que importarlo** en un programa antes de poder usarlo.

In [22]:
import pandas as pd
import numpy as np

# Series

Una serie es una estructura de datos **unidimensional** que contiene:<br/>

- Un **array** de datos: que pueden tener **cualquier tipo de dato de los ofrecidos por NumPy**.

- Un **array de etiquetas**/<i>labels</i>: **asociando una etiqueta a cada dato del array anterior y que se denomina índice**, aunque no es obligatorio que el desarrollador especifique el mismo.


## Creación de Series

Para la creación de Series contamos con una **función** "constructor" (**Series**) que puede recibir, principalmente, los **siguientes parámetros**:

- **data**: Es **obligatorio**, contiene los datos que queremos cargar en la Serie y podrá ser un valor escalar, una secuencia de Python o un ndarray unidimensional de NumPy.

- **index**: Es **opcional**, contiene las etiquetas que queremos asignar a los valores de la Serie y podrá ser una secuencia de Python o un ndarray unidimensional de NumPy. En caso de no suministrarse el valor por defecto es np.arange(0, tam_datos).

- **dtype**: Que podrá ser cualquier tipo de dato de NumPy.


In [23]:
# Serie desde escalar
serie = pd.Series(5)
serie

0    5
dtype: int64

In [24]:
# Serie desde secuencia
serie = pd.Series([1, 2, 3, 4, 5]) 
serie

0    1
1    2
2    3
3    4
4    5
dtype: int64

In [6]:
# Serie desde ndarray
array = np.array([2, 4, 6, 8, 10])
serie = pd.Series(array)
serie

0     2
1     4
2     6
3     8
4    10
dtype: int32

In [25]:
# Serie con índice preestablecido
serie = pd.Series([1, 2, 3, 4, 5], index=['a', 'b', 'c', 'd', 'e'])
serie

a    1
b    2
c    3
d    4
e    5
dtype: int64

In [27]:
# Serie desde diccionario (establece el índice desde las claves)
serie = pd.Series({'a': 1, 'b': 2, 'c': 3, 'd': 4, 'e': 5}, dtype=np.float64)
serie

a    1.0
b    2.0
c    3.0
d    4.0
e    5.0
dtype: float64

## Elementos de una Serie: 'values' e 'index'

Disponemos de dos atributos para **recuperar** los **datos y el índice** de una Serie de forma independiente.

In [28]:
serie = pd.Series([1, 2, 3, 4, 5], index=['a', 'b', 'c', 'd', 'e'], dtype=np.float64)

In [29]:
# Valores de una serie
serie.values

array([1., 2., 3., 4., 5.])

In [30]:
# Índice de una serie
serie.index

Index(['a', 'b', 'c', 'd', 'e'], dtype='object')

### Modificación de un índice completo por otro.

In [31]:
serie = pd.Series([1, 2, 3, 4, 5], index=['a', 'b', 'c', 'd', 'e'], dtype=np.float64)

In [32]:
# No se puede odificar un elemento del índice 
serie.index[0] = 4

TypeError: Index does not support mutable operations

In [33]:
# Modificar el índice completo de una serie
serie.index = ['f', 'g', 'h', 'i', 'j']
serie

f    1.0
g    2.0
h    3.0
i    4.0
j    5.0
dtype: float64

# DataFrame

Un DataFrame es una **estructura** tabular (**bidimensional**) de información con las siguientes **propiedades**:<br/>

- Está compuesta por una **serie ordenada de filas y una serie ordenada de columnas.**

- Tiene, por tanto, **un índice para las filas y otro para las columnas**.

- **Cada columna puede tener un tipo diferente**.

## Creación de DataFrames

Para la creación de DataFrames contamos con una **función** "constructor" (**DataFrame**) que puede recibir, principalmente, los siguientes parámetros:


- **data**: Es **obligatorio**, contiene los datos que queremos cargar en el DataFrame y podrá ser un diccionario de Series, un diccionario de secuencias, un ndarray bidimensional, una Serie y otro DataFrame.

- **index**: Es **opcional**, contiene las **etiquetas que queremos asignar a las filas** del DataFrame y podrá ser una secuencia de Python o un ndarray unidimensional de NumPy. En caso de no suministrarse el valor por defecto es np.arange(0, num_filas).

- **columns**: Es **opcional**, contiene las **etiquetas que queremos asignar a las columnas** del DataFrame y podrá ser una secuencia de Python o un ndarray unidimensional de NumPy. En caso de no suministrarse el valor por defecto es np.arange(0, num_columnas).

- **dtype**: Es **opcional**, fijará el tipo de todas las columnas y podrá ser cualquier tipo de dato de NumPy.


NOTA: Si el tamaño de cada columna no coincide, se creara un DataFrame lo suficientemente grande como para contener al mayor y se asignará NaN en los huecos.

In [34]:
# DataFrame desde diccionario de secuencias
dataframe = pd.DataFrame({'var1': [1, 2,3], 'var2': ['uno', 'dos', 'tres'], 'var3': [1.0, 2.0, 3.0]})
dataframe

Unnamed: 0,var1,var2,var3
0,1,uno,1.0
1,2,dos,2.0
2,3,tres,3.0


In [17]:
# DataFrame desde ndarray con índices para filas y columnas
dataframe = pd.DataFrame(np.arange(16).reshape(4, 4), index=['f1', 'f2', 'f3', 'f4'], columns=['c1', 'c2', 'c3', 'c4'])
dataframe

Unnamed: 0,c1,c2,c3,c4
f1,0,1,2,3
f2,4,5,6,7
f3,8,9,10,11
f4,12,13,14,15


## Elementos de un DataFrame: 'values', 'index' y 'columns'

Disponemos de tres atributos para **recuperar los datos, el índice y las columnas** de un DataFrmae de forma independiente.

In [39]:
dataframe = pd.DataFrame({'var1': [1, 2, 3], 'var2': ['uno', 'dos', 'tres'], 'var3': [1.0, 2.0, 3.0]})

In [40]:
# Valores de un DataFrame
dataframe.values

array([[1, 'uno', 1.0],
       [2, 'dos', 2.0],
       [3, 'tres', 3.0]], dtype=object)

In [37]:
# También se pueden extraer los valores de una columna específica.
dataframe['var2'].values

array(['a', 'b', nan], dtype=object)

In [41]:
# Índice de un DataFrame
dataframe.index

RangeIndex(start=0, stop=3, step=1)

In [42]:
# Columnas de un DataFrame
dataframe.columns

Index(['var1', 'var2', 'var3'], dtype='object')

De nuevo, los **índices** (tanto el de filas como el de columnas) son **inmutables**, pero de nuevo, **se pueden modificar de forma completa**.

In [43]:
dataframe = pd.DataFrame({'var1': [1, 2, 3], 'var2': ['uno', 'dos', 'tres'], 'var3': [1.0, 2.0, 3.0]})
dataframe

Unnamed: 0,var1,var2,var3
0,1,uno,1.0
1,2,dos,2.0
2,3,tres,3.0


In [44]:
# Modificar un elemento del índice de filas de un dataframe
dataframe.index[0] = 4

TypeError: Index does not support mutable operations

In [45]:
# Modificar un elemento del índice de columnas de un dataframe
dataframe.columns[0] = 4

TypeError: Index does not support mutable operations

In [46]:
# Modificar el índice de filas de un dataframe
dataframe.index = ['f1', 'f2', 'f3']
dataframe

Unnamed: 0,var1,var2,var3
f1,1,uno,1.0
f2,2,dos,2.0
f3,3,tres,3.0


In [47]:
# Modificar el índice de filas de un dataframe
dataframe.columns = ['c1', 'c2', 'c3']
dataframe

Unnamed: 0,c1,c2,c3
f1,1,uno,1.0
f2,2,dos,2.0
f3,3,tres,3.0


In [48]:
dataframe.rename(columns = {'c1': 'col1','c2': 'col2','c3': 'col3'}, inplace = True)

In [49]:
dataframe

Unnamed: 0,col1,col2,col3
f1,1,uno,1.0
f2,2,dos,2.0
f3,3,tres,3.0
