# Pandas

* Pandas es un paquete de Python que implementa ciertos tipos de datos, construidos sobre `numpy`
* Los tipos básicos de Pandas son
    * Series: 1 dimensión
        * Un array 1D con etiquetas en sus ejes.
    * DataFrames: 2 dimensiones
        * Datos en formato tabular, con etiquetas en sus ejes.
    * Un DataFrame son datos tabulares (tablas)

In [None]:
import numpy
import pandas

## Series de datos

* Array 1D con etiquetas en sus ejes.
* De forma general se crean de la forma
```python
pandas.Series(data, index=index)
```

In [None]:
# Ejemplo

s = pandas.Series(range(0, 100, 10))
s

In [None]:
s.values  # Array 1D

In [None]:
type(s.values)

In [None]:
s.index  # Etiquetas. Puesto que no hemos indicado nada, el índice es numérico

In [None]:
# Indexing, slicing
s[5]

In [None]:
s[5:7]

* La particularidad de las `Series`, es que sus ejes están etiquetados, luego podemos indicar el índice que queramos.

In [None]:
pandas.Series([1, 2, 3, 4, 5],
              index=["uno", "dos", "tres", "cuatro", "cinco"])

* Lo que nos permite crear `Series` a través de diccionarios

In [None]:
edad = {
    "maria": 25,
    "pedro": 76,
    "arturo": 80,
    "rosa": 19,
}

pandas.Series(edad)

## DataFrame

* Un DataFrame es una representación de datos, de forma tabular, con etiquetas en los índices.
* Se pueden crear de varias maneras

In [None]:
# A través de una Serie

edad = {
    "maria": 25,
    "pedro": 76,
    "arturo": 80,
    "rosa": 19,
}

edad = pandas.Series(edad)

personas = pandas.DataFrame(edad, columns=["edad"])
personas

In [None]:
# A través de varias Series

edad = {
    "maria": 25,
    "pedro": 76,
    "arturo": 80,
    "rosa": 19,
}

edad = pandas.Series(edad)

altura = {
    "maria": 1.75,
    "pedro": 1.90,
    "arturo": 1.68,
    "rosa": 1.65,
}

altura = pandas.Series(altura)

personas = pandas.DataFrame({"edad": edad, "altura": altura})
personas

In [None]:
# A través de un diccionario

datos = {
    "altura": [1.75, 1.90, 1.68, 1.65],
    "edad": [25, 76, 80, 19],
}

nombres = ["maria", "pedro", "arturo", "rosa"]

personas = pandas.DataFrame(datos, index=nombres)
personas

In [None]:
# A través de un diccionario

datos = {
    "altura": [1.75, 1.90, 1.68, 1.65],
    "edad": [25, 76, 80, 19],
    "nombres": ["maria", "pedro", "arturo", "rosa"],
}


personas = pandas.DataFrame(datos)
print(personas)
personas = personas.set_index("nombres")
personas

In [None]:
# A través de una lista de diccionarios

datos = [
    {'altura': 1.75, 'edad': 25},
    {'altura': 1.9, 'edad': 76},
    {'altura': 1.68, 'edad': 80},
    {'altura': 1.65, 'edad': 19}
]
 
personas = pandas.DataFrame(datos, index=["maria", "pedro", "arturo", "rosa"])
personas 

In [None]:
# Pandas gestiona que algún dato no exista, rellenando con NaN (not a number)

edad = {
    "maria": 25,
    "pedro": 76,
    "arturo": 80,
    "rosa": 19,
    "sebastian": 17
}

edad = pandas.Series(edad)

altura = {
    "maria": 1.75,
    "pedro": 1.90,
    "arturo": 1.68,
    "rosa": 1.65,
}

altura = pandas.Series(altura)

personas = pandas.DataFrame({"edad": edad, "altura": altura})
personas

In [None]:
# A través de un fichero

data = pandas.read_csv("data/populations.txt")
data

In [None]:
# A través de un fichero (esta vez si)

data = pandas.read_csv("data/populations.txt", sep="\t")
data

In [None]:
# A través de un fichero (todavía mejor)

data = pandas.read_csv("data/populations.txt", sep="\t", index_col=0)
data

## Indexing y selección de datos

### Series

* Una `Series` en `pandas` tiene similitudes con un `array` de `numpy` y un diccionario de Python, con lo que podemos realizar operaciones similares.

In [None]:
s = pandas.Series([1, 5, 2, 3, 4, 5],
                  index=["a", "b", "c", "d", "e", "f"])

In [None]:
s["a"]

In [None]:
"a" in s

In [None]:
s.keys()

In [None]:
s.values

In [None]:
# Podemos modificar

s["a"] = 10

In [None]:
# Añadir

s["z"] = 20
s

In [None]:
s["a": "d"]

In [None]:
# Al igual que en numpy, podemos indexar a partir de otro array/lista

s[["a", "d"]]

In [None]:
# Y también a través de un array de booleanos

s[s > 3]

* Peligro: las series tienen índices implícitos (Python, orden de los elementos) y explícitos (proporcionados por nosotros.
* Si ambos índices son enteros, puede ser una fuente de confusión.
* EJemplo

In [None]:
s = pandas.Series(["a", "b", "c", "d", "e", "f"],
                  index=[1, 3, 5, 7, 9, 11])
s

In [None]:
s[3]  # 'b', índice explícito cuando se accede a un elemento

In [None]:
s[3:5]  # ['d', 'e'], índice implícito de Python

* Para solucionar estas ambiguedades, Pandas ofrece dos interfaces para los índices explícitos e implícitos: `.loc` y `.iloc`

In [None]:
s.loc[3]  # Explícito

In [None]:
s.loc[3:5]  # Explícito

In [None]:
s.iloc[3]  # Implícito

In [None]:
s.iloc[3:5]  # Implícito

### DataFrame

* Para simplificar, podemos considerar un DataFrame como un diccionario de Series (columnas)

In [None]:
# Pandas gestiona que algún dato no exista, rellenando con NaN (not a number)

edad = {
    "maria": 25,
    "pedro": 76,
    "arturo": 80,
    "rosa": 19,
    "marta": 33,
    "juan": 77,
    "sebastian": 17
}

edad = pandas.Series(edad)

altura = {
    "maria": 1.75,
    "pedro": 1.90,
    "arturo": 1.68,
    "rosa": 1.65,
    "marta": 1.70,
    "juan": 1.84,
}

altura = pandas.Series(altura)

peso = {
    "maria": 62,
    "pedro": 122,
    "arturo": 75,
    "rosa": 64,
    "marta": 55,
    "juan": 70,
}

peso = pandas.Series(peso)

personas = pandas.DataFrame({"edad": edad, "altura": altura, "peso": peso})
personas

In [None]:
# Puedo acceder a las columnas directamente

personas["edad"]

In [None]:
# O bien 

personas.edad

In [None]:
# Tambien podemos añadir y realizar operaciones element-wise

personas["imc"] = personas["peso"] / (personas["altura"]**2)
personas

* *Pero*, la estructura de un DataFrame son Series, que en esencia son arrays.
* Se puede acceer al array a través del atributo `.values`.

In [None]:
personas.values

In [None]:
# Accedo a la fila 0

personas.values[0]

In [None]:
# Accedo a la columna 0

personas.values[:, 0]

* Un DataFrame también tiene índices explícitos e implícitos, a los que se accede también a través de `.iloc` y `.loc`.

In [None]:
personas.iloc[1:4]  # Indice implícito

In [None]:
personas.iloc[1:4, 2:4]  # Indice implícito

In [None]:
personas.loc["maria": "rosa"]  # Indice explícito

In [None]:
personas.loc["maria": "rosa", "peso": "imc"]  # Indice explícito

* Esto nos permite utilizar todas las formas de indexing de `numpy`!

In [None]:
personas.loc[personas["imc"] > 25]

## Plotting

In [None]:
import matplotlib
%matplotlib inline

In [None]:
personas[["imc", "peso"]].plot(kind="bar", figsize=(15,10))

In [None]:
data.plot(figsize=(15,10))