# Pandas

El paquete **pandas** es la herramienta más importante a disposición de los científicos y analistas de datos que trabajan en Python en la actualidad. Las poderosas herramientas de aprendizaje automático y visualización pueden llamar toda la atención, pero pandas es la columna vertebral de la mayoría de los proyectos de datos.

En Computación y Ciencia de datos, pandas es una biblioteca de software escrita como extensión de NumPy para manipulación y análisis de datos para el lenguaje de programación Python. Esta librería ofrece dos de las estructuras más usadas en Data Science: la estructura **Series** y el **DataFrame**. 

## Instalación

En una consola o terminal, ejecutar el siguiente comando:
```bash
pip install pandas
```

## Importar pandas a nuestro código

In [1]:
import pandas as pd
import numpy as np

## Series y DataFrames

Una **Series** es esencialmente una columna y un **DataFrame** es una tabla multidimensional formada por una _colección de Series_.

<img src="https://storage.googleapis.com/lds-media/images/series-and-dataframe.width-1200.png">

## Series

`Series(data=lista, index=indices, dtype=tipo)`: Devuelve un objeto de tipo Series con los datos de la lista lista, las filas especificados en la lista indices y el tipo de datos indicado en tipo. 

### Indice implícito

In [2]:
s = pd.Series(['Matemáticas', 'Historia', 'Economía', 'Programación', 'Inglés'], dtype='string')
print(s)

0     Matemáticas
1        Historia
2        Economía
3    Programación
4          Inglés
dtype: string


In [3]:
print(s.dtype)

string


In [4]:
print(s[2])

Economía


In [5]:
print(s[1:3])#pide un rango devuelve una serie con indices

1    Historia
2    Economía
dtype: string


In [None]:
s1 = s[1:3]


### Indice explícito

In [6]:
s = pd.Series([15,12,21], index = ["Ene", "Feb", "Mar"])
print(s)

Ene    15
Feb    12
Mar    21
dtype: int64


In [16]:
print(s[["Feb", "Ene"]])

KeyError: "None of [Index(['Feb', 'Ene'], dtype='object')] are in the [index]"

In [9]:
print(s[2])#las series son consultadas por el indice la condicion  elemento

21


### Series a partir de un diccionario

In [12]:
s = pd.Series({'Matemáticas': 6.0,  'Economía': 4.6, 'Programación': 8.5})
print(s)

Matemáticas     6.0
Economía        4.5
Programación    8.5
dtype: float64


In [13]:
print(s[1:3])

Economía        4.5
Programación    8.5
dtype: float64


In [14]:
print(s['Economía'])

4.5


In [15]:
print(s[['Programación', 'Matemáticas']])

Programación    8.5
Matemáticas     6.0
dtype: float64


### Filtrar la serie

In [20]:
print(s > 6)

Matemáticas     False
Economía        False
Programación     True
dtype: bool


In [19]:
print(s[s > 6])

Programación    8.5
dtype: float64


Las etiquetas que forman el índice no necesitan ser diferentes. Pueden ser de cualquier tipo (numérico, textos, tuplas...) siempre que sea posible aplicar la función hash sobre ellas.

hash : https://www.interactivechaos.com/python/function/hash

Es de destacar que el lazo entre una etiqueta y un valor se mantendrá salvo que lo modifiquemos explícitamente. Esto quiere decir que filtrar una serie o eliminar un elemento de la serie, por ejemplo, no va a modificar las etiquetas asignadas a cada valor.

Otro comentario importante es al respecto de la inmutabilidad del índice de etiquetas: aun cuando es posible asignar a una serie un nuevo conjunto de etiquetas a través del atributo index, intentar modificar un único valor del index va a devolver un error.

In [21]:
print(s.dtype)

float64


Podemos acceder a los objetos que contienen los índices y los valores a través de los atributos **index** y **values** de la serie, respectivamente:

In [22]:
print(s)

Matemáticas     6.0
Economía        4.5
Programación    8.5
dtype: float64


In [23]:
print(s.index)#lista con los valores

Index(['Matemáticas', 'Economía', 'Programación'], dtype='object')


In [24]:
print(s.values)#devuelev right numpy con los valores

[6.  4.5 8.5]


La serie tiene, además, un atributo name, atributo que también encontramos en el índice. Una vez los hemos fijado, se muestran junto con la estructura al imprimir la serie:

In [26]:
s.name = "Notas"
print(s)

Matemáticas     6.0
Economía        4.5
Programación    8.5
Name: Notas, dtype: float64


In [27]:
print(s)

Matemáticas     6.0
Economía        4.5
Programación    8.5
Name: Notas, dtype: float64


In [28]:
s.index.name = "Materias"
print(s)

Materias
Matemáticas     6.0
Economía        4.5
Programación    8.5
Name: Notas, dtype: float64


El atributo **axes** nos da acceso a una lista con los ejes de la serie (solo contiene un elemento al tratarse de una estructura unidimensional):

In [29]:
print(s.axes)

[Index(['Matemáticas', 'Economía', 'Programación'], dtype='object', name='Materias')]


In [30]:
print(s.shape)#cuantos datos tiene

(3,)


Para ver mas atributos de las Series se puede consultar la documentación de pandas: https://pandas.pydata.org/pandas-docs/stable/reference/series.html

### Funciones útiles

In [33]:
s = pd.Series([1, 2, 2, 3, None, 3, 3, 4, 4, 4, 4])
print(s)

0     1.0
1     2.0
2     2.0
3     3.0
4     NaN
5     3.0
6     3.0
7     4.0
8     4.0
9     4.0
10    4.0
dtype: float64


In [34]:
print("Numero de elementos:", s.size)
print("Indices:", s.index)
print("Contar elementos:", s.count())
print("Sumar valores:", s.sum())

Numero de elementos: 11
Indices: RangeIndex(start=0, stop=11, step=1)
Contar elementos: 10
Sumar valores: 30.0


In [35]:
# Suma acumulada
print(s.cumsum())

0      1.0
1      3.0
2      5.0
3      8.0
4      NaN
5     11.0
6     14.0
7     18.0
8     22.0
9     26.0
10    30.0
dtype: float64


In [36]:
# Conteo de valores
print(s.value_counts())

4.0    4
3.0    3
2.0    2
1.0    1
dtype: int64


In [37]:
# cantidad porcentual de valores
print(s.value_counts(normalize=True))

4.0    0.4
3.0    0.3
2.0    0.2
1.0    0.1
dtype: float64


In [39]:
print("Valor mínimo:", s.min())
print("Valor máximo:", s.max())
print("Valor promedio:", s.mean())
print("Mediana:", s.median())
print("Desviación estándar:", s.std())

Valor mínimo: 1.0
Valor máximo: 4.0
Valor promedio: 3.0
Mediana: 3.0
Desviación estándar: 1.0540925533894598


In [40]:
print(s.describe(), "\n")

count    10.000000
mean      3.000000
std       1.054093
min       1.000000
25%       2.250000
50%       3.000000
75%       4.000000
max       4.000000
dtype: float64 



### Aplicar funciones a series
Método `apply(function)`

In [41]:
s = pd.Series(['a', 'b', 'c'])
print(s)

0    a
1    b
2    c
dtype: object


In [42]:
print(s.apply(str.upper))

0    A
1    B
2    C
dtype: object


In [44]:
print(s.apply(lambda x : x.upper() + "123"))

0    A123
1    B123
2    C123
dtype: object


## DataFrames 

`DataFrame(data=diccionario, index=filas, columns=columnas, dtype=tipos)`: Devuelve un objeto del tipo DataFrame cuyas columnas son las listas contenidas en los valores del diccionario diccionario, los nombres de filas indicados en la lista filas, los nombres de columnas indicados en la lista columnas y los tipos indicados en la lista tipos.

In [None]:
datos = {
    'nombre' : ['María', 'Luis', 'Carmen', 'Antonio'],
    'edad' : [18, 22, 20, 21],
    'grado' : ['Economía', 'Medicina', 'Arquitectura', 'Economía'],
    'correo' : ['maria@gmail.com', 'luis@yahoo.es', 'carmen@gmail.com', 'antonio@gmail.com']
}
df = pd.DataFrame(datos)
print(df)

In [None]:
df = pd.DataFrame([['María', 18], ['Luis', 22], ['Carmen', 20]], columns=['Nombre', 'Edad']);
print(df)

Las etiquetas de filas y de columnas -los índices- son accesibles a través de los atributos index y columns, respectivamente:

In [None]:
print(df.index)

In [None]:
print(df.columns)

In [None]:
print(df.axes)

Para ver más información sobre DataFrame se puede consultar la documentación de pandas: https://pandas.pydata.org/pandas-docs/stable/reference/frame.html

In [None]:
unidades_2015 = {"Ag":2, "Au":5, "Cu":3, "Pt":2}
unidades_2016 = {"Ag":4, "Au":6, "Cu":7, "Pt":2}
unidades_2017 = {"Ag":3, "Au":2, "Cu":4, "Pt":1}

unidades = pd.DataFrame([unidades_2015, unidades_2016, unidades_2017],
                       index = [2015, 2016, 2017])
print(unidades)

In [None]:
unidades_2015 = {"Ag":2, "Au":5, "Cu":3, "Pt":2}
unidades_2016 = {"Ag":4, "Au":6, "Cu":7, "Pt":2}
unidades_2017 = {"Ag":3, "Pb":2, "Cu":4, "Pt":1}

unidades = pd.DataFrame([unidades_2015, unidades_2016, unidades_2017],
                       index = [2015, 2016, 2017])
print(unidades)

Leyendo datos desde archivo csv

In [None]:
df = pd.read_csv('https://raw.githubusercontent.com/asalber/manual-python/master/datos/colesterol.csv')
print(df)

In [None]:
print(df.loc[2, 'colesterol'])

In [None]:
print(df.loc[:3, ('colesterol','peso')])

In [None]:
print(df['colesterol'])

In [None]:
print(df.describe())

Agregar una nueva serie al DataFrame

In [None]:
df['diabetes'] = pd.Series([False, False, True, False, True])
print(df)


### Aplicar funciones

In [None]:
print(df['altura'].apply(lambda x : x * 100))

### Agrupar datos

In [None]:
print(df.groupby('sexo').groups)

In [None]:
print(df.groupby(['sexo','edad']).groups)

Aplicar función de agregación a valores de grupos

In [None]:
print(df.groupby('sexo').agg(np.mean))

### Operaciones de preparación de datos

In [None]:
datos = {
    'nombre':['María', 'Luis', 'Carmen'],
    'edad':[18, 22, 20],
    'Matemáticas':[8.5, 7, 3.5],
    'Economía':[8, 6.5, 5],
    'Programación':[6.5, 4, 9]}
df = pd.DataFrame(datos)
print(df)

In [None]:
df1 = df.melt(id_vars=['nombre', 'edad'], var_name='asignatura', value_name='nota')
print(df1)

In [None]:
print(df1.pivot(index=['nombre', 'edad'], columns='asignatura', values='nota'))

In [None]:
print(df1.pivot(index='nombre', columns='asignatura', values='nota'))