## *01. Estructuras de datos*

En Python, las estructuras de datos son objetos que permiten almacenar y organizar datos de manera eficiente. Algunas de las estructuras de datos más comunes en Python incluyen:

* Listas: una colección ordenada y mutable de elementos, donde cada elemento puede ser cualquier tipo de objeto. Las listas se pueden modificar agregando, eliminando o cambiando elementos.

* Tuplas: una colección ordenada e inmutable de elementos, donde cada elemento puede ser cualquier tipo de objeto. Las tuplas no se pueden modificar después de ser creadas.

* Conjuntos: una colección desordenada y mutable de elementos únicos, donde cada elemento puede ser cualquier tipo de objeto. Los conjuntos se pueden modificar agregando o eliminando elementos.

* Diccionarios: una colección desordenada y mutable de pares clave-valor, donde cada clave es única y se utiliza para acceder a su correspondiente valor. Los diccionarios se pueden modificar agregando, eliminando o cambiando pares clave-valor.

Además de estas estructuras de datos básicas, Python también cuenta con otras estructuras más avanzadas, como:
* Arreglos: es una estructura de datos de array multidimensional que se utiliza para almacenar y manipular datos numéricos en Python. Los arrays de `NumPy` son similares a las listas de Python, pero proporcionan muchas más funciones y operaciones optimizadas para el procesamiento de datos numéricos.

* Dataframe: es una estructura de datos tabular bidimensional que se utiliza para almacenar y manipular datos en un entorno de análisis de datos. Está diseñado para trabajar con datos estructurados y se puede pensar como una tabla de datos similar a una hoja de cálculo de **Excel** o una tabla en una **base de datos**.

#### **Carga de librerías**
Generalmente, para importar cualquier librería escribimos la palabra ***import*** seguida del nombre de la librería y, además, le ponemos un alias para después utilizarla con mayor comodidad.

En esta clase, importaremos `pandas` junto a la librería `numpy`, que utilizaremos en ejemplos más abajo.

In [1]:
import numpy as np
import pandas as pd

### *Estructuras de datos de Pandas*
Las estructuras de datos típicas de pandas son las *Series* y los *DataFrames* (en esta clase los escribiremos así, aunque es habitual encontrarlos escritos directamente como *Series* y *Dataframes*).

### *Series*
Un objeto de tipo Serie es una estructura unidimensional que contiene una secuencia de datos, es decir, es un objeto similar a una lista de valores. Además, también contiene una secuencia de etiquetas asociadas a los datos, que actúan como un índice. La forma general de crear una Serie es la siguiente:

In [None]:
# pd.Series(data, index)

Donde:
- *data* puede ser una lista de valores, un diccionario de Python, un ndarray (matriz de NumPy), un valor escalar... 
- *index* es una lista de etiquetas para el eje.

#### *Creación de una Serie a partir de una lista de valores*

In [2]:
lista_valores = ['Manzanas', 'Cerezas', 'Naranjas']

serie1 = pd.Series(data = lista_valores,
                   index = None)
serie1

0    Manzanas
1     Cerezas
2    Naranjas
dtype: object

En el ejemplo anterior, como no se ha especificado un índice concreto, pandas crea por defecto un índice con números enteros:
- El registro 0 es Manzanas
- El registro 1 es Cerezas
- El registro 2 es Naranjas

Si quieres especificar otro índice distinto, puedes hacerlo así:

In [3]:
pd.Series(data = lista_valores, 
          index = ['Fruta1', 'Fruta2', 'Fruta3'])

Fruta1    Manzanas
Fruta2     Cerezas
Fruta3    Naranjas
dtype: object

#### *Creación de una Serie a partir de un diccionario*

In [4]:
pd.Series(data = {
    'valor1': 1,
    'valor2': 2,
    'valor3': 3
})

valor1    1
valor2    2
valor3    3
dtype: int64

### *DataFrames*
Un `DataFrame` es una estructura de datos de dos dimensiones: en esencia, es una tabla con filas y columnas, en la cual las columnas tienen un nombre y las filas tienen un índice. 

Un DataFrame se puede crear a partir de diversos elementos:
- Un diccionario de ndarrays de 1 dimensión, listas, diccionarios o Series
- Un ndarray de 2 dimensiones
- Otro DataFrame

#### *Creación de un DataFrame a partir de un diccionario de Series*
En el ejemplo a continuación, se crean dos Series que después se utilizan para construir un DataFrame.

In [5]:
productos = pd.Series(['Manzanas', 'Cerezas', 'Naranjas'])
productos

0            Manzanas
1             Cerezas
2    Naranjas de zumo
dtype: object

In [6]:
precios = pd.Series([0.99, 2.95, 0.79])
precios

0    0.99
1    2.95
2    0.79
dtype: float64

Una vez guardadas las dos Series en dos variables, podemos crear un DataFrame a partir de ellas. Para ello, utilizamos el constructor pd.DataFrame, que contiene un diccionario con el nombre que queremos que tengan las columnas como clave y las Series anteriores como valores:

In [7]:
frutas_df = pd.DataFrame({'Producto': productos,
                          'Precio': precios})
frutas_df

Unnamed: 0,Producto,Precio
0,Manzanas,0.99
1,Cerezas,2.95
2,Naranjas de zumo,0.79


In [8]:
frutas_df.columns

Index(['Producto', 'Precio'], dtype='object')

In [9]:
frutas_df.index

RangeIndex(start=0, stop=3, step=1)

In [10]:
frutas_df.shape

(3, 2)

In [11]:
frutas_df.values

array([['Manzanas', 0.99],
       ['Cerezas', 2.95],
       ['Naranjas de zumo', 0.79]], dtype=object)

En esencia, una `Serie` se puede considerar como una columna de un `DataFrame`.

#### *Creación de un DataFrame a partir de un diccionario de listas*

El mismo DataFrame del ejemplo anterior también se puede construir de manera muy simple mediante un diccionario que tiene como claves los nombres de las variables (que serán los nombres de las columnas) y como valores las listas que contienen los datos de cada variable:

In [12]:
pd.DataFrame({'Producto': ['Manzanas', 'Cerezas', 'Naranjas'],
              'Precio': [0.99, 2.95, 0.79]})

Unnamed: 0,Producto,Precio
0,Manzanas,0.99
1,Cerezas,2.95
2,Naranjas,0.79


Como ves, un objeto de tipo DataFrame puede contener variables de todo tipo: int (números enteros), string (cadenas de texto), etc. Para comprobar los tipos de las variables de un DataFrame, se utiliza la siguiente propiedad:

In [13]:
frutas_df.dtypes

Producto     object
Precio      float64
dtype: object

#### *Creación de un DataFrame a partir de un diccionario de múltiples estructuras*

El siguiente ejemplo muestra cómo se construye un DataFrame mediante un diccionario con diversos tipos de variables:

Como puedes ver, hemos creado cada columna a partir de una estructura diferente:
- Columna 1: un valor constante de tipo Timestamp, que se repetirá tantas veces como valores tenga la columna más larga del DataFrame.
- Columna 2: una Serie formada por el valor constante 10 (de tipo float32) repetido 6 veces, ya que queremos que el DataFrame tenga 6 filas.
- Columna 3: un valor constante de tipo float64 (lo indicamos al poner un punto a la derecha del número), que se repetirá tantas veces como valores tenga la columna más larga del DataFrame.
- Columna 4: una variable categórica con 6 categorías (queremos que el DataFrame tenga 6 filas).
- Columna 5: un valor constante de tipo string, que se repetirá tantas veces como valores tenga la columna más larga del DataFrame.
- Columna 6: un array de numpy formado por el valor 2 (de tipo int32) repetido 6 veces.

In [14]:
df = pd.DataFrame({
    'Columna 1': pd.Timestamp('2023-03-07'),
    'Columna 2': pd.Series(10, index=list(range(6)), dtype='float32'),
    'Columna 3': 5.,
    'Columna 4': pd.Categorical([f'Valor {num}' for num in range(1, 7)]),
    'Columna 5': 'Valor',
    'Columna 6': np.array([2]*6, dtype = 'int32')
})

df

Unnamed: 0,Columna 1,Columna 2,Columna 3,Columna 4,Columna 5,Columna 6
0,2023-03-07,10.0,5.0,Valor 1,Valor,2
1,2023-03-07,10.0,5.0,Valor 2,Valor,2
2,2023-03-07,10.0,5.0,Valor 3,Valor,2
3,2023-03-07,10.0,5.0,Valor 4,Valor,2
4,2023-03-07,10.0,5.0,Valor 5,Valor,2
5,2023-03-07,10.0,5.0,Valor 6,Valor,2


Comprobemos los tipos de las columnas del DataFrame que acabamos de crear:

In [15]:
df.dtypes

Columna 1    datetime64[ns]
Columna 2           float32
Columna 3           float64
Columna 4          category
Columna 5            object
Columna 6             int32
dtype: object

---
---