# Introducción a Pandas

Pandas es una librería que proporciona estructuras de datos y herramientas de análisis de datos de alto rendimiento y fáciles de usar. La estructura de datos principal que proporciona la librería es el DataFrame, que puede considerarse como una tabla o una hoja de cálculo con nombres de columna, etiquetas de fila, columnas y filas. Proporciona una funciones muy optmizadas para manipular grandes conjuntos de datos.

## Instalación e importación de la librería

Para instalar Pandas simplemente debemos utilizar el gestor de paquetes de Python: pip o pip3. 

```console
$ pip3 install pandas
```

Una vez instalada, podemos importarla en nuestro código. Suele ser habitual abreviar la librería como *pd* tal y como se indica a continuación:

In [1]:
import pandas as pd

## Estructuras de datos en Pandas

La librería Pandas, de manera genérica, contiene las siguientes estructuras de datos: 

+ *Series*: Array de una dimensión
+ *DataFrame*: Se corresponde con una tabla
+ *Panel*: Siminar a un diccionario de DataFrames

### Estructura de datos Series

#### Creación

In [2]:
pd.Series([2, 4, 6, 8, 10])

0     2
1     4
2     6
3     8
4    10
dtype: int64

También podemos crear objetos Series a partir de un diccionario de Python. Esta vez, la serie creada contará con las claves del diccionario como índice de la serie, en vez de ser la posición de la lista como ocurría al crear una Serie a partir de listas de Python

In [3]:
alturas = {"Diego": 178, "Juan": 181, "Julia": 165, "Andrea": 162}
pd.Series(alturas)

Diego     178
Juan      181
Julia     165
Andrea    162
dtype: int64

Incluso podemos crear un objeto Series a partir de un diccionario pero utilizando sólo algunos de los elementos del diccionario:

In [4]:
pd.Series(alturas, index=["Juan", "Julia"])

Juan     181
Julia    165
dtype: int64

Podemos también crear un objeto Series a partir de un escalar

In [5]:
pd.Series(3, ["a", "b", "c"])

a    3
b    3
c    3
dtype: int64

#### Acceso a los elementos de un objeto Series

Cada elemento de un objeto Series tiene un identificador único que se denomina *index label*. 
La ventaja que plantea este objeto Series radica en que podemos acceder mediante el índice que define el diccionario y también por la posición o índice numérico de la serie tal y cómo se muestra a continuación: 

In [6]:
s = pd.Series([2, 3, 4, 5, 7], index=["a", "b", "c", "d", "f"])
print(s["b"])
print(s[1])

3
3


Por convención, es recomendable acceder a los elementos de un objeto Series mediante los atributos *loc* e *iloc* en vez de utilizar la convención representada en el bloque anterior, aunque a efectos prácticos es equivalente. Por tanto, utilizaremos *loc* para acceder al elemento a través de su índice o atributo y utilizaremos *iloc* para acceder al elemento a través de su índice numérico o su posición en el objeto. 

In [7]:
print(s.loc["b"])
print(s.iloc[1])

3
3


Hacer uso de iloc nos permite hacer también las típicas operaciones de slicing como:

In [8]:
print(s.iloc[1:3])

b    3
c    4
dtype: int64


#### Operacions aritméticas con Series

Podemos utilizar todas las funciones universales que nos ofrece la librería *NumPy* para realizar operaciones con objetos de Pandas, como por ejemplo:

In [9]:
import numpy as np

print(np.sum(s))
print(np.max(s))

21
7


Además, también contamos con todas las operaciones aritméticas básicas de suma, resta, multiplicación y división. En este caso se comportan de la misma forma que hemos visto con la estructura *array*. Es decir, las operaciones se realizan elemento a elemento. 

In [10]:
series_a = pd.Series([1, 2, 3, 4]) 
series_b = pd.Series([2, 3, 4, 5]) 

print(f"series_a: \n{series_a}")
print()
print(f"series_b: \n{series_b}")
print()
print(f"Add: \n{series_a + series_b}")
print()
print(f"Sub: \n{series_a - series_b}")
print()
print(f"Mul: \n{series_a * series_b}")

series_a: 
0    1
1    2
2    3
3    4
dtype: int64

series_b: 
0    2
1    3
2    4
3    5
dtype: int64

Add: 
0    3
1    5
2    7
3    9
dtype: int64

Sub: 
0   -1
1   -1
2   -1
3   -1
dtype: int64

Mul: 
0     2
1     6
2    12
3    20
dtype: int64


### Estructura de datos DataFrame

#### Creación de un objeto DataFrame

A partir de objetos series

In [11]:
personas = {
    "peso": pd.Series([84, 90, 59, 66], ["Santiago", "Pedro", "Ana", "Julia"]),
    "altura": pd.Series({"Santiago": 183, "Pedro": 186, "Ana": 177, "Julia":165}),
    "edad": pd.Series([23, 22, 24], ["Santiago", "Pedro", "Ana"])    
}

pd.DataFrame(personas)

Unnamed: 0,peso,altura,edad
Ana,59,177,24.0
Julia,66,165,
Pedro,90,186,22.0
Santiago,84,183,23.0


El objeto DataFrame es muy parecido al objeto Series, de hecho la diferencia radica en la dimensión de trabajo, ya que el objeto Series representa un estructura de una dimensión, mientras que el DataFrame representa una estructura de dos dimensiones. Además, como se puede observar en la salida anterior, trabajar con DataFrames facilita mucho la comprensión de los datos.

Podemos también crear un objeto DataFrame a partir de objetos Series pero únicamente con ciertas columnas e índices:

In [12]:
pd.DataFrame(personas, columns=["altura", "peso"], index=["Pedro", "Santiago"])

Unnamed: 0,altura,peso
Pedro,186,90
Santiago,183,84


También podemos crear un DataFrame a partir de listas anidadas de Python. En este caso es necesario indicar el nombre de las columnas y de las filas o índices

In [13]:
data = [[180, 20, 70],
        [171, 21, 81]]
pd.DataFrame(data, columns=["altura", "edad", "peso"], index=["Pedro", "Santiago"])

Unnamed: 0,altura,edad,peso
Pedro,180,20,70
Santiago,171,21,81


También podemos crear objetos de tipo DataFrame a partir de diccionarios de Python sin necesidad de convertirlos previamente a un objeto de tipo Series. 

In [14]:
data = {"altura": {"Pedro": 180, "Santiago": 171}, 
        "peso": {"Pedro": 70, "Santiago": 81},
        "edad": {"Pedro": 20, "Santiago": 21}}
pd.DataFrame(data)

Unnamed: 0,altura,peso,edad
Pedro,180,70,20
Santiago,171,81,21


También es muy habitual cargar datos de un fichero de disco en formato csv, json, xml o html. Para ello, simplemente tenemos que llamar a la función read_csv, read_json, read_xml o read_html respectivamente indicando la ruta del fichero. En el siguiente ejemplo vamos a cargar y visualizar un fichero csv y, además, vamos a indicar cual va a ser la columna de indexación para facilitar las búsquedas y accesos por el nombre de la persona como teníamos en los ejemplos previos.  

In [15]:
df = pd.read_csv("personas.csv", index_col="nombre")
display(df)

Unnamed: 0_level_0,edad,altura,peso
nombre,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Juan,34,175,70
Maria,28,165,60
Carlos,22,180,75
Elena,45,160,58
Pedro,31,170,68
Sara,29,163,55


#### Acceso a los elementos del DataFrame

Para acceder a las columnas del DataFrame hay que utilizar la siguiente sintaxis

In [16]:
df["edad"]

nombre
Juan      34
Maria     28
Carlos    22
Elena     45
Pedro     31
Sara      29
Name: edad, dtype: int64

Para acceder a un subconjunto del DataFrame con varias columnas podemos hacerlo como se muestra a continuación:

In [17]:
df[["peso", "edad"]]

Unnamed: 0_level_0,peso,edad
nombre,Unnamed: 1_level_1,Unnamed: 2_level_1
Juan,70,34
Maria,60,28
Carlos,75,22
Elena,58,45
Pedro,68,31
Sara,55,29


Esta estructura de datos también nos permite combinar los métodos anteriores con expresiones booleanas para obtener un subconjunto del DataFrame evaluado con nuestra expresión

In [18]:
df[df["peso"] > 70]

Unnamed: 0_level_0,edad,altura,peso
nombre,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Carlos,22,180,75


Al igual que ocurría con el objeto Series, podemos acceder a la fila a través del índice utilizando el atributo loc. Si queremos acceder a la fila en función del índice de posición podemos también utilizar el atributo iloc.

In [19]:
print(df.loc["Pedro"])
print()
print(df.iloc[4])

edad       31
altura    170
peso       68
Name: Pedro, dtype: int64

edad       31
altura    170
peso       68
Name: Pedro, dtype: int64


De la misma forma también que para el objeto Series, podemos realizar operaciones de slice como:

In [20]:
df.iloc[1:3]

Unnamed: 0_level_0,edad,altura,peso
nombre,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Maria,28,165,60
Carlos,22,180,75


#### Consultas avanzadas sobre DataFrames

Podemos utilizar la función query para realizar consultas más avanzadas en nuestro DataFrame con un lenguaje muy sencillo. Por ejemplo:

In [21]:
df.query("altura >= 165 and peso >= 70")

Unnamed: 0_level_0,edad,altura,peso
nombre,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Juan,34,175,70
Carlos,22,180,75


#### Modificar un DataFrame

Este objeto es mutable, lo que implica que se puede modificar. Pandas ofrece multiples funciones para modificar este objeto, entre las cuales podemos añadir y borrar columnas, filas, etc.

Podemos añadir columnas de forma muy sencilla, por ejemplo:

In [22]:
df["sexo"] = ["H", "M", "H", "M", "H", "M"]
display(df)

Unnamed: 0_level_0,edad,altura,peso,sexo
nombre,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
Juan,34,175,70,H
Maria,28,165,60,M
Carlos,22,180,75,H
Elena,45,160,58,M
Pedro,31,170,68,H
Sara,29,163,55,M


Incluso también podemos añadir columnas calculadas a partir de datos existentes en el propio DataFrame. Por ejemplo, si queremos calcular el año de nacimiento a partir de la edad de la persona.

In [23]:
df["nacimiento"] = 2023 - df["edad"]
display(df)

Unnamed: 0_level_0,edad,altura,peso,sexo,nacimiento
nombre,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
Juan,34,175,70,H,1989
Maria,28,165,60,M,1995
Carlos,22,180,75,H,2001
Elena,45,160,58,M,1978
Pedro,31,170,68,H,1992
Sara,29,163,55,M,1994


Es importante destacar que este tipo de operaciones es mucho más eficiente que si las intenamos hacer a partir de bucles.

Si queremos eliminar una columna existente del DataFrame, simplemente debemos utilizar la palabra reservada del de python indicando la columna que deseamos borrar.

In [24]:
del df["sexo"]
display(df)

Unnamed: 0_level_0,edad,altura,peso,nacimiento
nombre,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
Juan,34,175,70,1989
Maria,28,165,60,1995
Carlos,22,180,75,2001
Elena,45,160,58,1978
Pedro,31,170,68,1992
Sara,29,163,55,1994


#### Evaluación del dataframe

El objeto DataFrame tiene una función muy potente que nos permite evaluar una instancia de forma muy eficiente. Por ejemplo, podemos dividir la altura 

In [25]:
df.eval("altura / 2")

nombre
Juan      87.5
Maria     82.5
Carlos    90.0
Elena     80.0
Pedro     85.0
Sara      81.5
Name: altura, dtype: float64

También podemos guardar ese resultado en el propio DataFrame como una nueva columna, utilizando el parámetro inplace:

In [26]:
df.eval("media_altura = altura / 2", inplace=True)
display(df)

Unnamed: 0_level_0,edad,altura,peso,nacimiento,media_altura
nombre,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
Juan,34,175,70,1989,87.5
Maria,28,165,60,1995,82.5
Carlos,22,180,75,2001,90.0
Elena,45,160,58,1978,80.0
Pedro,31,170,68,1992,85.0
Sara,29,163,55,1994,81.5


Incluso podemos hacer uso de variables con la función eval.

In [27]:
corte_altura = 175
df.eval("altura >= @corte_altura")

nombre
Juan       True
Maria     False
Carlos     True
Elena     False
Pedro     False
Sara      False
Name: altura, dtype: bool

También podemos aplicar funciones externas utilizando la función apply

In [28]:
def foo(x):
    return x + 2

df["peso"].apply(foo)

nombre
Juan      72
Maria     62
Carlos    77
Elena     60
Pedro     70
Sara      57
Name: peso, dtype: int64

#### Guardar el DataFrame y otras operaciones

In [29]:
df_copy = df.copy()

In [30]:
df.to_csv("df_personas.csv")
df.to_html("df_personas.html")
df.to_json("df_personas.json")