<img src="https://marketing4ecommerce.net/wp-content/uploads/2015/09/logo-iebs.jpg" style="float:right" width="400">

# Introducción a los lenguajes de programación

## Estructuras de datos en Python

### Javier Cózar


[**Pandas**](http://pandas.pydata.org) es una librería para manipular datos estructurados.

Para ello permite definir una estructura tabular llamada __DataFrame__ que nos permite realizar operaciones sobre datos definiendo columnas, que generalmente representan variables y filas, que generalmente representan casos.

||col2|col3|
|-|-|-|
|**idx1**|val1|val2|
|**idx2**|val3|val4|




Para empezar, debemos asegurarnos de que pandas esta instalado e importarlo.

`! pip install pandas`

In [None]:
import pandas as pd

## DataFrames

### Creación mediante listas

Existen _múltiples formas_ de crear un objeto `DataFrame` a partir de otros objetos como colecciones, diccionarios, etc. Éstas son útiles, por ejemplo,  a la hora de construir el `DataFrame` a partir de datos procedentes de fuentes heterogéneas. 

Lo más directo es organizar listas como si fuesen casos de una tabla.

In [None]:
ventas = [('Álvaro', 22.5, 'Queso'),
         ('Benito', 14.5, 'Vino'),
         ('Fernando', 50, 'Jamón'),
         ('Martín', 20.0, 'Aceite'),
         ('Hernán',pd.NA, pd.NA)]

columnas = ['Nombre', 'Precio', 'Producto']
indice = ['Tienda 1', 'Tienda 1', 'Tienda 2', 'Tienda 3','Tienda 3']

df_compras = pd.DataFrame.from_records(
    ventas, 
    columns=columnas, 
#     index=indice
)

df_compras

Podemos ver que jupyter y pandas interoperan muy cómodamente ya que nos permiten dibujar la tabla de manera gráfica en la libreta.

In [None]:
ventas = [
    {'nombre': 'Alvaro', 'precio': 10, 'producto': 'queso'},
    {'nombre': 'Benito', 'precio': 20, 'producto': 'vino'}
]

df_compras = pd.DataFrame.from_records(
    ventas, 
#     columns=columnas, 
#     index=indice
)

df_compras

### Creación mediante ficheros

Lo más habitual es crear un dataframe a partir de un fichero de datos, ya que es la forma natural en la que nos encontraremos los datos en nuestras aplicaciones.

Pandas proporciona funciones muy flexibles que permiten leer objetos `DataFrame` desde diversas fuentes de datos, como archivos csv, excel, JSON, HDF5, HTML, fuentes SQL, o incluso el portapapeles del sistema ([documentación](http://pandas.pydata.org/pandas-docs/version/0.20/io.html)). 


Uno de los formatos más habituales son los ficheros separados por comas o __csv__.

En la carpeta `data/` podéis encontrar el fichero `titanic`, que representa un problema de machine learning clásico.

Vamos a intentar cargarlo con pandas.

Para ello utilizaremos la función `read_csv()`. El parámetro `index_col` permite especificar si alguna de las columnas ha de ser utilizada como índice del `DataFrame`.

<div class="alert alert-block alert-info">
<i class="fa fa-info-circle" aria-hidden="true"></i>
Si el resultado de mostrar los datos es muy grande prueba a reducir la celda con ctrl+o o pinchando en el lateral
</div>

In [None]:
df = pd.read_csv('Titanic.csv')

df

## Filas y columnas

Para trabajar con un dataframe solemos utilizar las columnas a modo de variables y las filas como casos que toman valores para cada variable.

Tenemos funciones para manipular los datos de distinta forma.

Lo primero exploremos las dimensiones del data frame.

Para ello podemos utilzar `shape`, `len` o `size`. Esta última es peligrosa porque puede malinterpretarse.

In [None]:
# Dimensiones de la tabla filas X columnas
df.shape

In [None]:
# Casos o filas en el dataframe
len(df)

In [None]:
# Total de datos filas multiplicado por columas
df.size

### Acceso a filas

Generalmente no suele ser necesario acceder a filas concretas del dataframe, ya que nuestro objetivo suele ser trabajar estadísticamente con los datos. Si desea hacerse, es posible utilizar la funcion `loc`, a la cual se le puede pasar el valor de un índice o una lista de valores.

__Importante__: La función loc usa corchetes y no paréntesis.

In [None]:
# Un unico elemento, en forma de objeto
df.loc[1]

In [None]:
# Un unico elemento, la lista preserva la tabla
df.loc[[1]]

In [None]:
# Un subconjunto de los datos
df.loc[[1,3,5,6,8,4]]

### Muestreo

Cuando estamos evaluando operaciones en datos muy grandes, no queremos que se imprima la tabla entera por pantalla como en el caso anterior. Por ello podemos utilizar funciones de muestreo para poder obtener unicamente un subconjunto de los datos.

In [None]:
# Muestra n registros en orden
df.head(5)

In [None]:
# Muestra n registros aleatoriamente
df.sample(5)

### Acceso a columnas

Podemos obtener el nombre de las columnas, proyectar un subconjunto de ellas u obtener una única columna como un vector

In [None]:
# Obtener el nombre de las columnas
df.columns

<div class="alert alert-block alert-info">
<i class="fa fa-info-circle" aria-hidden="true"></i>
El objeto de tipo index es un tipo interno de pandas que se utiliza para operaciones avanzadas.
</div>

Podemos obtener un subconjunto de columnas a modo de indexación mediante el nombre.

In [None]:
df[['Age', 'Sex']].head()

Por último podemos acceder a una columna individual como si fuese un vector de especial `numpy`, encapsulado en un tipo de pandas llamado `Series`.

In [None]:
df.Age

In [None]:
df['Age']

In [None]:
type(df['Age'])

Las series permiten operaciones vectorizadas como en el caso de los vectores vistos anteriormente.

Su propósito es poder realizar operaciones entre columnas, para poder calcular nuevos valores o hacer comprobaciones.

## Modificación de un DataFrame

El acceso de para escritura es similar del acceso para lectura. Cuando se escriben varias posiciones, las dimensiones de los conjuntos de elementos a ambos lados de la asignación han de ser similares (salvo en el caso en que se asignen escalares).

No obstante, no suele ser habitual cambiar valores individuales de un dataframe, sino que generalmente se suelen realizar operacioens reproducibles que afecten a todos los datos o transformaciones estadísticas.

El caso más habitual es el de añadir una columna. Para eso basta con asignar una serie o un literal a un nuevo nombre de columna.

In [None]:
# Una columna literal
df['Nueva'] = 1

In [None]:
df.columns

In [None]:
df.head()

Se puede modificar una columna ya existente realizando una operación sobre la misma.

In [None]:
df['Nueva'] = df['Nueva'] * 2

In [None]:
df.head()

También podemos combinar varias columnas

In [None]:
df['Nueva'] = df['Age'] + df['Nueva']

In [None]:
df.head()

### Renombrado de columnas

Pueden renombrarse mediante el método `rename()`. Lo más habitual es tomar como argumento un diccionario con las correspondencias.

In [None]:
df = df.rename(columns = {'Nueva': 'Vieja'})
df.head()

### Reordenación de columnas

Para reordenar columnas podemos utilizar el método de selección anterior, simplemente cambiando el orden.

In [None]:
df = df[['Name', 'Vieja', 'PClass', 'Age', 'Sex', 'Survived', 'SexCode']]
df.sample(10)

### Eliminación

Para eliminar filas o columnas se utiliza el método `drop`. Este método utiliza un parámetro muy común en pandas llamado `axis` que nos indica filas cuando vale 0 y columnas cuando vale 1.

Para eliminar colimmnas hay que indicar el nombre de la columna y el eje correcto.

In [None]:
df = df.drop('Vieja', axis=1)

In [None]:
df.head()

## Selección y ordenación de datos

Lo más habitual a la hora de trabajar con pandas es hacer operaciones de búsqueda y transformaciones sobre todos los datos del dataframe. Muy inspirado a cómo se trabaja con una tabla de una base de datos relacional o a la de una hoja de cálculo.

Lo más básico es reordenar y filtrar los datos, para lo que tenemos una serie de funciones muy potentes.

La mayoría de las veces basta con usar el propio indexado del dataframe utilizando valores booleanos conforme a condiciones.

Aprovechando que hemos visto que las columnas de un dataframe son vectores, podemos aplicar operaciones de comparación vectorizaas para tranformarlas en índices booleanos.

In [None]:
df.head().Age

In [None]:
df.head().Age > 25

Este vector lo podemos utilizar como índice para filtrar los datos a través del atributo `loc`. Si lo escribimos todo junto queda bastante expresivo.

In [None]:
df.loc[df.Age > 25].sample(10)

Podemos comprobar como tenemos menos filas tras el filtro

In [None]:
print(len(df))
print(len(df.loc[df.Age > 25]))

Otra operación habitual es la de reordenar los datos conforme a los valores de una o varias columnas. Para ello utilizamos `sort_values`, que puede ser ascendente o descendiente.

In [None]:
df.sort_values(['Age', 'PClass'], ascending=[False, True]).head()

La gestión de los valores perdidos es muy importante al analizar un DataFrame. Disponemos de dos funciónes muy útiles para filtrar o para rellenar valores perdidos.

In [None]:
# La función isna() detecta cuando un valor es un `na` o no. Se puede usar para filtrar
df.loc[df.Age.isna()].head()

In [None]:
# La función fillna() se utiliza para rellenar los valores perdidos con un determinado valor
df["Age"] = df["Age"].fillna(df.Age.mean())
df.loc[df.Age.isna()].head()

### Agregación

Pandas permite agregar los datos de un dataframe para calcular estadísticos descriptivos.

Empezaremos por uan operación muy habitual como la media, que como vamos a comprobar solo actua sobre variavbles numéricas.

In [None]:
df.mean()

Es importante destacar que el resultado es una serie, es decir, un vector y no un dataframe. Tenemos un gran número de funciones disponibles que actuan distinto en función del tipo de la columna.

In [None]:
# Desviación estandar
df.std()

In [None]:
# Maximo, las string se ordenan alfabeticamente
df.max()

In [None]:
# Suma, las strings se concatenan, sin mucho uso
df.sum()

### Descripción del data frame y los datos

La función `info` ofrece datos sobre el almacenamiento del dataframe y sus columnas.

In [None]:
df.info()

Podemos comprobar que los tipos numéricos corresponden con los de numpy. Los tipos object son tipos internos de python, en la mayoría de los casos hacen referencia a tipos `string`.

La función `describe()` devuelve diversa información con respecto a las columnas. Esta información varía según el tipo de datos. Además, se puede especificar sobre qué columnas se aplica la función con los parámetros `include` \ `exclude`.

La siguiente llamada incluye todas las columnas. Puede apreciarse que para las numéricas muestra unos datos, y para las no numéricas otros. 

In [None]:
# Por defecto solo muestra numéricas
df.describe()

In [None]:
# Los string tienen otros parámetros descriptivos
df.describe(include='object')

### Múltiples agregaciones

Podemos invocar múltiples agregaciones mediante la función `agg`, pasando una lsita de funciones.

In [None]:
df.agg(['max', 'min'])

Podemos especificar operaciones de agregación diferentes para cada columna:

In [None]:
df.agg({"Name": "nunique", "Age": "min", "Survived": "mean"})

## Agrupamiento (groupby)

La función `groupby()` permite agrupar los datos del `DataFrame` según valores de su índice o columnas. Esto nos permite calcular agregaciones discriminando por grupos.

In [None]:
df.groupby('Sex')

El resultado de un dataframe agrupado es del tipo `DataFrameGroupBy`, un formato no legible pero que agrupara las agregaciones que invoquemos.

In [None]:
df.groupby('Sex').sum()

Lo más importante es darnos cuenta de que el índice de la tabla ha cambiado, pasando a ser la variable `Sex`.

## Combinación de DataFrames

La funcionalidad relativa a combinación de `DataFrame` y `Series` es completa y compleja, ya que una de las funcionalidades más potentes de _Pandas_ es la de herramienta para la agregación de datos de distintas fuentes. La documentación oficial de la librería ilustra con ejemplos la mayoría de casos de uso ([documentación](https://pandas.pydata.org/pandas-docs/stable/merging.html)).

Para ilustrar los ejemplos, se utilizarán estos tres `DataFrame`. 

In [None]:
pos1_df = pd.DataFrame([{'Nombre': 'Diego Costa', 'Posición': 'Delantero', 'País':'Brasil'},
                        {'Nombre': 'Sergio Ramos', 'Posición': 'Defensa', 'País':'España'},
                        {'Nombre': 'Gerard Piqué', 'Posición': 'Defensa', 'País':'España'},
                        {'Nombre': 'Cristiano Ronaldo', 'Posición': 'Delantero', 'País':'Portugal'}])

pos2_df = pd.DataFrame([{'Nombre': 'Leo Messi', 'Posición': 'Delantero', 'País':'Argentina'},
                        {'Nombre': 'Luca Modric', 'Posición': 'Centrocampista', 'País':'Croacia'},
                        {'Nombre': 'Saúl Ñíguez', 'Posición': 'Centrocampista', 'País':'España'},
                        {'Nombre': 'Kareem Benzema', 'Posición': 'Delantero', 'País':'Francia'}])

eqp_df = pd.DataFrame([{'Nombre': 'Diego Costa',  'Equipo': 'Atlético de Madrid', 'País':'España'},
                       {'Nombre': 'Cristiano Ronaldo','Equipo': 'Juventus', 'País':'Italia'},
                       {'Nombre': 'Leo Messi','Equipo': 'FC Barcelona', 'País':'España'},
                       {'Nombre': 'Koke','Equipo': 'Atlético de Madrid', 'País':'España'}])

display(pos1_df)
print()
display(pos2_df)
print()
display(eqp_df)

### Concat

Es la función más sencilla. Permite añadir a un `DataFrame` las filas de otro u otros `Dataframe`. Como resultado, genera un nuevo `DataFrame`.

In [None]:
pd.concat([pos1_df, pos2_df])

También es de gran utilidad a la hora de leer ficheros divididos en secciones (por ejemplo, por fechas).

In [None]:
# usamos un comprehension list para leer todos los ficheros csv y generar una lista de DataFrames
pd.concat([pd.read_csv(f'{year}-baby-names-raw.csv') for year in range(2014, 2016)])

### Merge

Esta función permite unir las columnas de ___dos___ `DataFrame`.Ppermite especificar el modo en que se lleva a cabo esa unión mediante funcionalidades propias de lenguajes de bases de datos relacionales como SQL. Éstas se caracterizan, a _grosso modo_, por establecer una relación entre los dos conjuntos de datos que es función de una columna (que puede o no ser el índice).

La función `merge()` acepta numerosos argumentos ([documentación](https://pandas.pydata.org/pandas-docs/stable/generated/pandas.DataFrame.merge.html)) que rigen la unión. Algunos de los más importantes son:

* `left`, `right`. Son argumentos posicionales que se refieren a los dos `DataFrame` que son unidos. 
* `left_index`, `right_index`. Determinan si los índices respectivos se usan como claves de unión.
* `on`, `left_on`, `right_on`. Determinan qué columnas (si no se usan índices) son utilizadas como claves de unión. `on` se utiliza cuando las columnas aparecen en ambos `DataFrame`.
* `how`. Determina qué elementos se incluyen en la unión. Puede tomar los valores `left`, `right`, `outer`, e `inner` según se consideren, respectivamente, los índices del primer `DataFrame`, del segundo, la unión, o la intersección de ambos.  

Además, admite otros parámetros de utilidad a la hora de presentar el conjunto de datos resultante de la unión.

* `suffixes`. Es una lista de `Strings` (dos). Cuando existen columnas comunes en ambos `DataFrame`, y no son utilizadas como clave de unión, permite identificarlas en el `DataFrame` resultante. Para ello, añade cada `String` al nombre de la columna correspondiente según incluya los valores de uno u otro `DataFrame`.  
* `indicator`. Añade una columna, denominada `_merge` con información sobre el origen de cada fila (un `DataFrame` concreto o los dos.
* `validate`. Es un `String` que permite determinar si se cumple una determinada relación entre las claves de unión. Puede tomar los valores `1:1`, `1:m`, `m:1` y `m:m`.

En la siguiente celda se lleva a cabo la unión entre los dos `DataFrame` definidos anteriormente en función del nombre del jugador, y considerando la unión de todas las filas. Como la columna _País_ aparece en ambos `DataFrame`, se añade también un sufijo para determinar la correspondencia en el `DataFrame` resultante.

In [None]:
print('DataFrame izquierdo:')
display(pos1_df)

print('DataFrame derecho:')
display(eqp_df)

print('Unión:')
pd.merge(pos1_df,eqp_df, how='inner', on='Nombre', suffixes=['_jug','_equ'])  # Equivalente