# **Obtención y preparación de datos**
# OD07. Introducción a Pandas

## <font color='orange'>**¿Para qué nos sirve Pandas?**</font>

Para poder manipular grandes sets de datos numéricos, tablas y series de tiempo. Trabajar con múltiples formatos de archivos de datos como csv o xls. Crear DataFrames que podremos manipular y analizar sin preocuparnos por el performance de nuestras aplicaciones, todo esto muy fácil y rápido. Además, **Pandas es la librería de software libre para manipulación de datos con Python más usada en Análisis y Ciencia de Datos**.

## <font color='orange'>**¿Qué haremos con lo que aprendamos de Pandas?**</font>

Construiremos un **sistema experto para el apoyo a la toma de decisiones basado en Lógica Difusa** que nos permitirá crear un entrenador virtual para seleccionar a los jugadores que formarán parte del equipo. El sistema experto que implementaremos tiene más o menos la siguiente estructura:

<img src='https://drive.google.com/uc?export=view&id=1iTK2BL9H1XZS0YfHPT2fAh370fKN_zNT' width="500" align="center" style="margin-right: 20px">

Un sistema similar (pero a gran escala), basado en lógica difusa y modelos bayesianos es Akinator, pueden jugar un rato en el siguiente link: <a href="https://es.akinator.com/">Akinator</a>.

## <font color='blue'>**Introducción a Pandas**</font>

La librería **pandas** proporciona estructuras de datos y funciones de alto nivel que permiten trabajar con datos estructurados de manera muy cómoda. Estas estructuras y funciones son, normalmente, de las más usadas en análisis de datos.

<img src='https://drive.google.com/uc?export=view&id=1cc63iaYdq6YzJDdUWyWDFZ4YzeB2lBa2' width="300" align="center" style="margin-right: 20px">

Los principales objetos ofrecidos por pandas son el **dataframe**, estructura tabular bidimensional, y la **serie**, ambas basadas en el array multidimensional de NumPy. Aun cuando NumPy ofrece una muy conveniente y eficiente estructura para el almacenamiento de datos, el `ndarray`, éste presenta importantes limitaciones cuando, durante un análisis, se hace necesaria más flexibilidad a la hora de aplicar etiquetas a nuestros datos, gestionar valores inexistentes, realizar agrupaciones por etiquetas, etc., limitaciones que son resueltas por las estructuras de más alto nivel ofrecidas por pandas.

La documentación oficial está disponible en el sitio we oficial de <a href="https://pandas.pydata.org/">pandas</a>.

Esta librería se importa habitualmente con el alias `pd`:

In [1]:
import pandas as pd

## <font color='blue'>**Estructuras de datos en pandas: Series**</font>

Las **series** son estructuras unidimensionales que contenienen un array de datos (de cualquier tipo soportado por NumPy) y un array de etiquetas que van asociadas a los datos, llamado índice (*index* en inglés):

In [2]:
ventas = pd.Series([15, 12, 21, 38], index = ["Ene", "Feb", "Mar", "Abr"])
ventas

Unnamed: 0,0
Ene,15
Feb,12
Mar,21
Abr,38


Los elementos de la serie pueden extraerse con el nombre de la serie y, entre corchetes, el índice (posición) del elemento o su etiqueta (si la tiene):

In [3]:
ventas[0]

  ventas[0]


15

In [4]:
ventas["Ene"]

15

In [5]:
ventas = pd.Series([15, 12, 21, 38])
ventas

Unnamed: 0,0
0,15
1,12
2,21
3,38


Las etiquetas que forman el índice no necesitan ser diferentes. Pueden ser de cualquier tipo (numérico, textos, tuplas, etc.) siempre que sea posible aplicar la función *hash* sobre ellas.

**Nota: La función hash devuelve el valor hash del objeto cedido como parámetro -si tiene uno-. Los valores hash son enteros. Los valores numéricos que, al ser comparados, devuelven el valor True tienen el mismo valor hash asociado, incluso si son de distinto tipo.**

La relación entre una etiqueta y un valor se mantendrá, salvo que lo modifiquemos explícitamente. Esto quiere decir que, filtrar una serie o eliminar un elemento de la serie, por ejemplo, no va a modificar las etiquetas asignadas a cada valor.

Los índices de las etiquetas son inmutables, es decir, aun cuando es posible asignar a una serie un nuevo conjunto de etiquetas a través del atributo *index*, intentar modificar un único valor del index v a devolver un error.

Al igual que ocurre con el array NumPy, una serie pandas solo puede contener datos de un mismo tipo. En la imagen anterior puede apreciarse el índice a la izquierda ("Ene", "Feb" y "Mar") y los datos a la derecha (15, 12 y 21). El tipo de la serie, accesible a través del atributo `dtype`, coincide con el tipo de los datos que contiene:

In [6]:
ventas.dtype

dtype('int64')

Podemos acceder a los objetos que contienen los índices y los valores a través de los atributos `index` y `values` de la serie, respectivamente:

In [7]:
ventas.index

RangeIndex(start=0, stop=4, step=1)

In [8]:
list(ventas.values)[3]

38

La serie tiene un atributo `name`, atributo que también encontramos en el índice. Una vez los hemos fijado, se muestran junto con la estructura al imprimir la serie:

In [9]:
ventas.name

In [10]:
ventas

Unnamed: 0,0
0,15
1,12
2,21
3,38


In [11]:
ventas.index.name = "Meses"
ventas

Unnamed: 0_level_0,0
Meses,Unnamed: 1_level_1
0,15
1,12
2,21
3,38


El atributo `axes` da acceso a una lista con los ejes de la serie (solo contiene un elemento al tratarse de una estructura unidimensional):

In [12]:
ventas.axes

[RangeIndex(start=0, stop=4, step=1, name='Meses')]

El atributo `shape` nos devuelve el tamaño de la serie:

In [13]:
ventas.shape

(4,)

El listado completo de los atributos de las series lo pueden encontrar en la documentación oficial de pandas, <a href="https://pandas.pydata.org/pandas-docs/stable/reference/series.html">aquí</a>.

## <font color='blue'>**Estructuras de datos en pandas: Dataframes**</font>

Los **dataframes** son estructuras tabulares de datos orientadas a columnas,
con etiquetas tanto en filas como en columnas:

In [14]:
ventas = pd.DataFrame({
    "Entradas": [41, 32, 56, 18],
    "Salidas": [17, 54, 6, 78],
    "Valoración": [66, 54, 49, 66],
    "Límite": ["No", "Si", "No", "No"],
    "Cambio": [1.43, 1.16, -0.67, 0.77]
    },
    index = ["Ene", "Feb", "Mar", "Abr"]
    )
ventas

Unnamed: 0,Entradas,Salidas,Valoración,Límite,Cambio
Ene,41,17,66,No,1.43
Feb,32,54,54,Si,1.16
Mar,56,6,49,No,-0.67
Abr,18,78,66,No,0.77


Para crear el dataframe anterior hemos usado el constructor **pd.DataFrame** y le hemos pasado un diccionario y una lista: las claves del diccionario serán los nombres de las columnas, sus valores, los valores de las columnas, y los valores de la lista se convertirán en las etiquetas de filas.

Una columna solo puede contener un tipo de datos, pero cada columna del dataframe puede contener un tipo de datos diferente. Podemos acceder a los tipos de las columnas con el atributo `dtypes`:

In [15]:
print(type(ventas), '\n')
ventas.dtypes

<class 'pandas.core.frame.DataFrame'> 



Unnamed: 0,0
Entradas,int64
Salidas,int64
Valoración,int64
Límite,object
Cambio,float64


Las etiquetas de filas y de columnas -los índices- son accesibles a través de los atributos `index` y `columns`, respectivamente:

In [16]:
ventas.index

Index(['Ene', 'Feb', 'Mar', 'Abr'], dtype='object')

In [17]:
ventas.columns

Index(['Entradas', 'Salidas', 'Valoración', 'Límite', 'Cambio'], dtype='object')

In [18]:
# En ambos casos podemos extraer los valores aplicando la función 'list'
list(ventas.columns)

['Entradas', 'Salidas', 'Valoración', 'Límite', 'Cambio']

La nomenclatura usada por pandas puede resultar un tanto confusa en lo que se refiere a los índices: tanto la estructura que contiene las etiquetas de filas como la que contiene las etiquetas de columnas son objetos de tipo *Index* (mayúscula), pero, como se ha comentado, el índice de filas se denomina también *index* (minúsculas), y el de columna, *columns*.

Además, el nombre de "indice" se aplica normalmente a la referencia de un dato en una estructura según su posición. Por ejemplo, en la lista $m = ["a", "b"]$, el índice del primer elemento es el número o valor que, añadido entre corchetes tras el nombre de la lista, nos permite acceder al elemento. Así, el índice del elemento "a" en la lista mencionada es 0, y el índice del elemento "b" es 1, lo que no es del todo coherente con el concepto de "índice" de una estructura pandas cuando lo especificamos explícitamente.

Para evitar esta confusión, a lo largo de esta documentación hablaremos normalmente de _"índices"_ (en plural) para referirnos a estas dos estructuras (de filas y columnas), de _"índice"_ (en singular) para referirnos al índice de etiquetas del eje vertical, y de _"índice de columnas"_ y de _"índice de filas"_ siempre que sea necesario remarcar a cuál estamos refiriéndonos.

El __eje 0__ es el correspondiente al índice de filas (eje vertical) y el __eje 1__ al índice de columnas (eje horizontal). Como puede verse en los ejemplos anteriores, ambos índices son de tipo _"objeto"_ (ya se ha comentado que, concretamente, son objetos de tipo Index).

El atributo axes devuelve una lista con los ejes de la estructura (dos, al tratarse de una estructura bidimensional):

In [19]:
ventas.index.name = "Meses"
ventas.columns.name = "Métricas"
ventas

Métricas,Entradas,Salidas,Valoración,Límite,Cambio
Meses,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
Ene,41,17,66,No,1.43
Feb,32,54,54,Si,1.16
Mar,56,6,49,No,-0.67
Abr,18,78,66,No,0.77


De forma semejante a como ocurría con las series, el atributo `values` de un dataframe nos permite acceder a los valores del dataframe, con formato `array` NumPy 2d.

In [20]:
ventas.values

array([[41, 17, 66, 'No', 1.43],
       [32, 54, 54, 'Si', 1.16],
       [56, 6, 49, 'No', -0.67],
       [18, 78, 66, 'No', 0.77]], dtype=object)

Este array tendrá un tipo u otro en función de los tipos de las columnas del dataframe, acomodándose de forma que englobe a todos ellos.

Y un dataframe también tiene un atributo `shape` que nos informa de su dimensionalidad y del número de elementos en cada dimensión. Podemos ver en el siguiente ejemplo que el dataframe ventas tiene 4 filas y 5 columnas:

In [21]:
ventas.shape

(4, 5)

Información adicional sobre los dataframes en la página de la documentación oficial de pandas, <a href="https://pandas.pydata.org/pandas-docs/stable/reference/frame.html">aquí</a>.