# 5. Librería Pandas

Hoy en día, una de los entornos más simples y más sencillos de utilizar es el framework de Pandas (enlace a la documentación: https://pandas.pydata.org/docs/). Este framework está construido sobre NumPy y contiene una gran variedad de clases y funciones para leer, transformar y manipular datos procedentes de una o más fuentes y con diversos formatos.

## Clase Series

Una serie es una estructura de datos unidimensional de un único tipo de datos. Las series admiten funciones de agrupación que permiten extraer información general sobre los datos contenidos. Enlace a la documentación : https://pandas.pydata.org/docs/reference/api/pandas.Series.html

In [2]:
import pandas as pd
import numpy as np
from datetime import date

In [3]:
# Creacion de una serie
serie = pd.Series(['a','b','c'])
serie

0    a
1    b
2    c
dtype: object

In [7]:
# También es posible crear una serie a partir de un diccionario siendo la clave el nombre del índice asociado correspondiente.
ts = pd.Series({date(2021,9,6) : 10, date(2021,9,13) : 15, date(2021,9,20): 15})
ts

2021-09-06    10
2021-09-13    15
2021-09-20    15
dtype: int64

## Clase DataFrame

Un DataFrame es una estructura de datos ordenada, de dos dimensiones (filas y columnas) y es una de las formas más simples y sencillas de realizar los procesos de lectura y transformacion de los datos . Cada columna de un dataframe es una serie, lo que permite una gran variedad de opciones para manipular los datos. Enlace a la documentación: https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.html

In [12]:
# Definir un dataframe a partir de los atributos iniciales 
df = pd.DataFrame(data = [[date(2021,9,6),1,'a'],[date(2021,9,13),2,'b'],[date(2021,9,20),3,'c']], 
                  columns = ["timestamp","integers","strings"])
df

Unnamed: 0,timestamp,integers,strings
0,2021-09-06,1,a
1,2021-09-13,2,b
2,2021-09-20,3,c


In [11]:
# Establecer una columna como indice
df.set_index("timestamp") # No almacena la informacion dentro de df

# df.set_index("timestamp", inplace = True) # Si almacena la información dentro de df

Unnamed: 0_level_0,integers,strings
timestamp,Unnamed: 1_level_1,Unnamed: 2_level_1
2021-09-06,1,a
2021-09-13,2,b
2020-09-20,3,c


In [13]:
# Tambien es posible definir un DataFrame desde 0 a partir de sus columnas
df2 = pd.DataFrame()
df2["timestamp"] = [date(2021,9,6),date(2021,9,13),date(2021,9,20)]
df2["integers"] = [1,2,3]
df2["strings"] = ['a','b','c']

df2

Unnamed: 0,timestamp,integers,strings
0,2021-09-06,1,a
1,2021-09-13,2,b
2,2021-09-20,3,c


In [16]:
# Comparamos que las dos estructuras sean iguales
df == df2

Unnamed: 0,timestamp,integers,strings
0,True,True,True
1,True,True,True
2,True,True,True


In [17]:
# Pasar de dataframe a numpy array (2 dimensional)

df.values

array([[datetime.date(2021, 9, 6), 1, 'a'],
       [datetime.date(2021, 9, 13), 2, 'b'],
       [datetime.date(2021, 9, 20), 3, 'c']], dtype=object)

## Lectura de datos

Los conjuntos de datos pueden encontrarse en diferentes formatos y entradas, vamos a ver aquí algunos de los más básicos y simples. Para poder pasar de un fichero de datos a un dataframe, deberemos especificar cual es la ruta de acceso. Esta ruta puede ser de dos formas, absoluta o relativa.

## Lectura de ficheros en formato csv

In [3]:
df = pd.read_csv("../../Datos/iris.csv")
# Leer los 5 primeras filas
df.head()

Unnamed: 0,sepal.length,sepal.width,petal.length,petal.width,variety
0,5.1,3.5,1.4,0.2,Setosa
1,4.9,3.0,1.4,0.2,Setosa
2,4.7,3.2,1.3,0.2,Setosa
3,4.6,3.1,1.5,0.2,Setosa
4,5.0,3.6,1.4,0.2,Setosa


Enlace a la documentación de esta función: https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.read_csv.html

## Lectura de ficheros en formato JSON

In [73]:
df_json = pd.read_json("../../Datos/iris.json")
df_json.head()
# import json

Unnamed: 0,sepal_length,sepal_width,petal_length,petal_width,variety
0,5.1,3.5,1.4,0.2,Setosa
1,4.9,3.0,1.4,0.2,Setosa
2,4.7,3.2,1.3,0.2,Setosa
3,4.6,3.1,1.5,0.2,Setosa
4,5.0,3.6,1.4,0.2,Setosa


https://pandas.pydata.org/pandas-docs/version/1.1.3/reference/api/pandas.read_json.html

## Lectura de ficheros en formato Excel

In [79]:
df_excel = pd.read_excel("../../Datos/iris.xlsx")
df_excel.head()

Unnamed: 0,sepal.length,sepal.width,petal.length,petal.width,variety
0,5.1,3.5,1.4,0.2,Setosa
1,4.9,3.0,1.4,0.2,Setosa
2,4.7,3.2,1.3,0.2,Setosa
3,4.6,3.1,1.5,0.2,Setosa
4,5.0,3.6,1.4,0.2,Setosa


https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.read_excel.html

### Funciones más básicas para dataframes

In [4]:
# Cambiar el nombre de las columnas
df.columns = [x.replace(".","_") for x in df.columns]
df

Unnamed: 0,sepal_length,sepal_width,petal_length,petal_width,variety
0,5.1,3.5,1.4,0.2,Setosa
1,4.9,3.0,1.4,0.2,Setosa
2,4.7,3.2,1.3,0.2,Setosa
3,4.6,3.1,1.5,0.2,Setosa
4,5.0,3.6,1.4,0.2,Setosa
...,...,...,...,...,...
145,6.7,3.0,5.2,2.3,Virginica
146,6.3,2.5,5.0,1.9,Virginica
147,6.5,3.0,5.2,2.0,Virginica
148,6.2,3.4,5.4,2.3,Virginica


In [5]:
# Tipos de las columnas
df.dtypes

sepal_length    float64
sepal_width     float64
petal_length    float64
petal_width     float64
variety          object
dtype: object

In [7]:
# Comprobar el número de NAs

df.isna().sum()

sepal_length    0
sepal_width     0
petal_length    0
petal_width     0
variety         0
dtype: int64

In [41]:
# Obtener una descripción de las columnas, solo numéricas
df.describe()

Unnamed: 0,sepal_length,sepal_width,petal_length,petal_width
count,150.0,150.0,150.0,150.0
mean,5.843333,3.057333,3.758,1.199333
std,0.828066,0.435866,1.765298,0.762238
min,4.3,2.0,1.0,0.1
25%,5.1,2.8,1.6,0.3
50%,5.8,3.0,4.35,1.3
75%,6.4,3.3,5.1,1.8
max,7.9,4.4,6.9,2.5


In [28]:
# Conteo de apariciones por categoría
df["variety"].value_counts()

Setosa        50
Virginica     50
Versicolor    50
Name: variety, dtype: int64

In [42]:
# Filtros a traves de una columna
df[df["sepal_length"] >= df["sepal_length"].mean()]

Unnamed: 0,sepal_length,sepal_width,petal_length,petal_width,variety
50,7.0,3.2,4.7,1.4,Versicolor
51,6.4,3.2,4.5,1.5,Versicolor
52,6.9,3.1,4.9,1.5,Versicolor
54,6.5,2.8,4.6,1.5,Versicolor
56,6.3,3.3,4.7,1.6,Versicolor
...,...,...,...,...,...
145,6.7,3.0,5.2,2.3,Virginica
146,6.3,2.5,5.0,1.9,Virginica
147,6.5,3.0,5.2,2.0,Virginica
148,6.2,3.4,5.4,2.3,Virginica


In [44]:
# Localizar un elemento dentro de un dataframe, forma fila-columna
df.loc[148,"sepal_length"]

6.2

In [9]:
# Localizar un elemento, forma índice
df.iloc[19]

sepal_length       5.1
sepal_width        3.8
petal_length       1.5
petal_width        0.3
variety         Setosa
Name: 19, dtype: object

In [33]:
# Obtener información agrupada 
df.groupby("variety")["sepal_length"].mean()

variety
Setosa        5.006
Versicolor    5.936
Virginica     6.588
Name: sepal_length, dtype: float64

In [35]:
# Agrupar varias columnas con funciones diferentes
df.groupby("variety").agg({"petal_length": np.median, "petal_width": np.max})

Unnamed: 0_level_0,petal_length,petal_width
variety,Unnamed: 1_level_1,Unnamed: 2_level_1
Setosa,1.5,0.6
Versicolor,4.35,1.8
Virginica,5.55,2.5


### Operaciones vectoriales

In [10]:
# Suma de dos columnas

df["sepal_length"] / df["petal_length"] # Equivalentemente con restas multiplicaciones y divisiones

# Esta operacion se realiza componente a componente

0      3.642857
1      3.500000
2      3.615385
3      3.066667
4      3.571429
         ...   
145    1.288462
146    1.260000
147    1.250000
148    1.148148
149    1.156863
Length: 150, dtype: float64

In [50]:
# Otras operaciones por filas

df["petal_width"].map(lambda x: int(x) if x > 1.5 else x) 

0      0.2
1      0.2
2      0.2
3      0.2
4      0.2
      ... 
145    2.0
146    1.0
147    2.0
148    2.0
149    1.0
Name: petal_width, Length: 150, dtype: float64

In [61]:
# Aplicar una funcion vectorial por filas

df.apply(lambda row: 5*row["petal_length"] + 6*row["petal_width"], axis = 1)

# axis = 0 indica indice (operación por columnas)
# axis = 1 indica columna (operacion por filas)

0       8.2
1       8.2
2       7.7
3       8.7
4       8.2
       ... 
145    39.8
146    36.4
147    38.0
148    40.8
149    36.3
Length: 150, dtype: float64

https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.apply.html

## Otras funciones

In [65]:
# Cambiar el tipo de una columna

df["sepal_width"].astype(str).iloc[0]

'3.5'

In [None]:
# Eliminar registros duplicados
df.drop_duplicates()

# Eliminar una columna
df.drop("sepal_width", axis = 1)