# Pandas

El paquete **pandas** es la herramienta más importante a disposición de los científicos y analistas de datos que trabajan en Python en la actualidad. Las poderosas herramientas de aprendizaje automático y visualización pueden llamar toda la atención, pero pandas es la columna vertebral de la mayoría de los proyectos de datos.

En Computación y Ciencia de datos, pandas es una biblioteca de software escrita como extensión de NumPy para manipulación y análisis de datos para el lenguaje de programación Python. Esta librería ofrece dos de las estructuras más usadas en Data Science: la estructura **Series** y el **DataFrame**. 

## Instalación

En una consola o terminal, ejecutar el siguiente comando:
```bash
pip install pandas
```

## Importar pandas a nuestro código

In [None]:
import pandas as pd
import numpy as np

## Series y DataFrames

Una **Series** es esencialmente una columna y un **DataFrame** es una tabla multidimensional formada por una _colección de Series_.

<img src="https://storage.googleapis.com/lds-media/images/series-and-dataframe.width-1200.png">

## Series

`Series(data=lista, index=indices, dtype=tipo)`: Devuelve un objeto de tipo Series con los datos de la lista lista, las filas especificados en la lista indices y el tipo de datos indicado en tipo. 

### Indice implícito

In [None]:
s = pd.Series(['Matemáticas', 'Historia', 'Economía', 'Programación', 'Inglés'], dtype='string')
print(s)

In [None]:
print(s[2])

In [None]:
print(s[1:3])

### Indice explícito

In [None]:
s = pd.Series([15,12,21], index = ["Ene", "Feb", "Mar"])
print(s)

In [None]:
print(s["Feb"])

### Series a partir de un diccionario

In [None]:
s = pd.Series({'Matemáticas': 6.0,  'Economía': 4.5, 'Programación': 8.5})
print(s)

In [None]:
print(s[1:3])

In [None]:
print(s['Economía'])

In [None]:
print(s[['Programación', 'Matemáticas']])

### Filtrar la serie

In [None]:
print(s > 5)

In [None]:
print(s[s > 5])

Las etiquetas que forman el índice no necesitan ser diferentes. Pueden ser de cualquier tipo (numérico, textos, tuplas...) siempre que sea posible aplicar la función hash sobre ellas.

hash : https://www.interactivechaos.com/python/function/hash

Es de destacar que el lazo entre una etiqueta y un valor se mantendrá salvo que lo modifiquemos explícitamente. Esto quiere decir que filtrar una serie o eliminar un elemento de la serie, por ejemplo, no va a modificar las etiquetas asignadas a cada valor.

Otro comentario importante es al respecto de la inmutabilidad del índice de etiquetas: aun cuando es posible asignar a una serie un nuevo conjunto de etiquetas a través del atributo index, intentar modificar un único valor del index va a devolver un error.

In [None]:
print(s.dtype)

Podemos acceder a los objetos que contienen los índices y los valores a través de los atributos **index** y **values** de la serie, respectivamente:

In [None]:
print(s)

In [None]:
print(s.index)

In [None]:
print(s.values)

La serie tiene, además, un atributo name, atributo que también encontramos en el índice. Una vez los hemos fijado, se muestran junto con la estructura al imprimir la serie:

In [None]:
s.name = "Notas"
print(s.name)

In [None]:
print(s)

In [None]:
s.index.name = "Materias"
print(s)

El atributo **axes** nos da acceso a una lista con los ejes de la serie (solo contiene un elemento al tratarse de una estructura unidimensional):

In [None]:
print(s.axes)

In [None]:
print(s.shape)

Para ver mas atributos de las Series se puede consultar la documentación de pandas: https://pandas.pydata.org/pandas-docs/stable/reference/series.html

### Funciones útiles

In [None]:
s = pd.Series([1, 2, 2, 3, 3, 3, 4, 4, 4, 4])
print(s)

In [None]:
print("Numero de elementos:", s.size)
print("Indices:", s.index)
print("Contar elementos:", s.count())
print("Sumar valores:", s.sum())

In [None]:
# Suma acumulada
print(s.cumsum())

In [None]:
# Conteo de valores
print(s.value_counts())

In [None]:
# cantidad porcentual de valores
print(s.value_counts(normalize=True))

In [None]:
print("Valor mínimo:", s.min())
print("Valor máximo:", s.max())
print("Valor promedio:", s.mean())
print("Media:", s.median())
print("Desviación estándar:", s.std())

In [None]:
print(s.describe(), "\n")

### Aplicar funciones a series
Método `apply(function)`

In [None]:
s = pd.Series(['a', 'b', 'c'])
print(s)

In [None]:
print(s.apply(str.upper))

In [None]:
print(s.apply(lambda x : str(x) + "123"))

## DataFrames 

`DataFrame(data=diccionario, index=filas, columns=columnas, dtype=tipos)`: Devuelve un objeto del tipo DataFrame cuyas columnas son las listas contenidas en los valores del diccionario diccionario, los nombres de filas indicados en la lista filas, los nombres de columnas indicados en la lista columnas y los tipos indicados en la lista tipos.

In [None]:
datos = {
    'nombre' : ['María', 'Luis', 'Carmen', 'Antonio'],
    'edad' : [18, 22, 20, 21],
    'grado' : ['Economía', 'Medicina', 'Arquitectura', 'Economía'],
    'correo' : ['maria@gmail.com', 'luis@yahoo.es', 'carmen@gmail.com', 'antonio@gmail.com']
}
df = pd.DataFrame(datos)
print(df)

In [None]:
df = pd.DataFrame([['María', 18], ['Luis', 22], ['Carmen', 20]], columns=['Nombre', 'Edad']);
print(df)

Las etiquetas de filas y de columnas -los índices- son accesibles a través de los atributos index y columns, respectivamente:

In [None]:
print(df.index)

In [None]:
print(df.columns)

In [None]:
print(df.axes)

Para ver más información sobre DataFrame se puede consultar la documentación de pandas: https://pandas.pydata.org/pandas-docs/stable/reference/frame.html

In [None]:
unidades_2015 = {"Ag":2, "Au":5, "Cu":3, "Pt":2}
unidades_2016 = {"Ag":4, "Au":6, "Cu":7, "Pt":2}
unidades_2017 = {"Ag":3, "Au":2, "Cu":4, "Pt":1}

unidades = pd.DataFrame([unidades_2015, unidades_2016, unidades_2017],
                       index = [2015, 2016, 2017])
print(unidades)

In [None]:
unidades_2015 = {"Ag":2, "Au":5, "Cu":3, "Pt":2}
unidades_2016 = {"Ag":4, "Au":6, "Cu":7, "Pt":2}
unidades_2017 = {"Ag":3, "Pb":2, "Cu":4, "Pt":1}

unidades = pd.DataFrame([unidades_2015, unidades_2016, unidades_2017],
                       index = [2015, 2016, 2017])
print(unidades)

Leyendo datos desde archivo csv

In [None]:
df = pd.read_csv('https://raw.githubusercontent.com/asalber/manual-python/master/datos/colesterol.csv')
print(df)

In [None]:
print(df.loc[2, 'colesterol'])

In [None]:
print(df.loc[:3, ('colesterol','peso')])

In [None]:
print(df['colesterol'])

In [None]:
print(df.describe())

Agregar una nueva serie al DataFrame

In [None]:
df['diabetes'] = pd.Series([False, False, True, False, True])
print(df)


### Aplicar funciones

In [None]:
print(df['altura'].apply(lambda x : x * 100))

### Agrupar datos

In [None]:
print(df.groupby('sexo').groups)

In [None]:
print(df.groupby(['sexo','edad']).groups)

Aplicar función de agregación a valores de grupos

In [None]:
print(df.groupby('sexo').agg(np.mean))

### Operaciones de preparación de datos

In [None]:
datos = {
    'nombre':['María', 'Luis', 'Carmen'],
    'edad':[18, 22, 20],
    'Matemáticas':[8.5, 7, 3.5],
    'Economía':[8, 6.5, 5],
    'Programación':[6.5, 4, 9]}
df = pd.DataFrame(datos)
print(df)

In [None]:
df1 = df.melt(id_vars=['nombre', 'edad'], var_name='asignatura', value_name='nota')
print(df1)

In [None]:
print(df1.pivot(index=['nombre', 'edad'], columns='asignatura', values='nota'))

In [None]:
print(df1.pivot(index='nombre', columns='asignatura', values='nota'))