# Pandas
-----------------------------------

**Gabriel Ruiz Martinez**

[ORCID](https://orcid.org/0000-0001-6651-7836) | [Scopus](https://www.scopus.com/authid/detail.uri?authorId=57188985692) | [Posgrado IMTA](http://posgrado.imta.edu.mx/index.php/2-inicio/168-semblanza-curricular-dr-gabriel-ruiz-martinez)

Tecnólogo del Agua | Subcoordinación de Posgrado y Educación Continua.

[Instituto Mexicano de Tecnología del Agua](https://www.gob.mx/imta).

------------------------------------

## Introducción.
Pandas es una paquete de alto desempeño y código abierto para efectuar el análisis de datos con Python. Su aparición se remonta al año 2008 y fue desarrollado por Wes McKinney. Con el paso de los años, Pandas se ha convertido de-facto en el paquete estándar de Python para analizar datos.

Las principales características que tiene Pandas son las siguientes:
- Puede procesar una gran variedad de datos en diferentes formatos, como series de tiempos, datos tabulares heterogéneos y datos matriciales.
- Facilita la carga o importación de datos a partir de varias fuentes, como por ejemplo, CSV, DB/SQL, XLSX, etc.
- Puede manejar un sinfín de operaciones en conjuntos o bases de datos: selección por indexación (slicing), filtrar, unir, agrupar, reordenar, reconfigurar (re-shaping).
- Puede manipular datos perdidos de acuerdo a condiciones que fija el usuario o desarrollador, por ejemplo: ignorar, convertir a 0, etc.
- Su integración con otros paquetes, e.g. SciPy, Matplotlib, Scikit-learn, es muy buena.
- Tiene un rápido desempeño y puede acelerar sus procesos aun más, usando Cython (extensiones de C para Python).
- Por medio de los objetos Series y Dataframes puede representar datos de una manera fácil, conscisa y de una forma natural, tal como lo requiere el análisis de datos. Lo anterior en Java, C, C++ requiere muchas líneas de programación, ya que estos lenguajes no fueron desarrollados para el análisis de datos.
- Su interfaz de programación de aplicaciones (API) al ser clara y conscisa permite que el usuario se concentre más en el análisis de la información y no preocuparse en escribir código para realizar el procesamiento de los datos. Por ejemplo, para leer un archivo CSV y almacenar los datos en un DataFrame, se requieren de dos líneas de código; mientras que la misma tarea en Java, C, C++ puede necesitar más líneas de código o llamar librerías no estandar para dichos lenguajes de programación.

# Series

En Pandas, las Series son arreglos unidimensionales de datos indexados y pueden crearse a partir de una lista de valores.

![Tomado de The pandas development team](series.png)


In [1]:
# Importación del paquete
import pandas as pd

In [2]:
datos = pd.Series([1992, 1994, 1995, 1999, 2000, 2001])
datos

0    1992
1    1994
2    1995
3    1999
4    2000
5    2001
dtype: int64

Una de las características de las Series se relaciona a la combinación de una secuencia de valores con una secuencia explícita de índices; las cuales que podemos accesar con los atributos de `values` e `index`. 

In [3]:
datos.values

array([1992, 1994, 1995, 1999, 2000, 2001], dtype=int64)

In [4]:
# index nos proporciona un objeto arreglo
datos.index

RangeIndex(start=0, stop=6, step=1)

Usamos la indexación para poder accesar a los datos, para asociar el índice de los datos lo hacemos con la notación de Python de corchetes.

In [5]:
datos[0]

1992

In [6]:
datos[1:3]

1    1994
2    1995
dtype: int64

In [7]:
datos[:]

0    1992
1    1994
2    1995
3    1999
4    2000
5    2001
dtype: int64

In [8]:
datos[0:-1]

0    1992
1    1994
2    1995
3    1999
4    2000
dtype: int64

In [9]:
datos[:4]

0    1992
1    1994
2    1995
3    1999
dtype: int64

In [10]:
datos[0:5:2]

0    1992
2    1995
4    2000
dtype: int64

Los índices de los valores de una Serie en Pandas se pueden definir de manera explícita.

In [11]:
Datos = pd.Series([0, 0.25, 0.5, 0.75, 1.0], index=['A', 'B', 'C', 'D', 'E'])
Datos

A    0.00
B    0.25
C    0.50
D    0.75
E    1.00
dtype: float64

In [12]:
Datos[1]

  Datos[1]


0.25

In [13]:
Datos['A']

0.0

In [14]:
Datos['A':'E':2]

A    0.0
C    0.5
E    1.0
dtype: float64

También podemos usar índices no secuenciales.

In [15]:
Datos1 = pd.Series([ 0.25, 0.5, 0.75, 1.0 ], index=[2, 5, 3, 7])
Datos1

2    0.25
5    0.50
3    0.75
7    1.00
dtype: float64

In [16]:
Datos1[7]

1.0

Creando una Series a partir de un diccionario.

In [17]:
reg_dict = {'Leon': 345, 'Claire':78, 'Ryu':456, 'Ken':90, 'Cammy':1000}
reg_dict

{'Leon': 345, 'Claire': 78, 'Ryu': 456, 'Ken': 90, 'Cammy': 1000}

In [18]:
reg = pd.Series(reg_dict, name='Clientes')
reg

Leon       345
Claire      78
Ryu        456
Ken         90
Cammy     1000
Name: Clientes, dtype: int64

Podemos hacer el "slicing" como lo hemos venido realizando:

In [19]:
reg['Leon':'Ryu']

Leon      345
Claire     78
Ryu       456
Name: Clientes, dtype: int64

In [20]:
pd.Series([2, 4, 6, 8, 10, 12])

0     2
1     4
2     6
3     8
4    10
5    12
dtype: int64

In [21]:
pd.Series(345, index=[10, 20, 30, 40, 50])

10    345
20    345
30    345
40    345
50    345
dtype: int64

In [22]:
pd.Series({2:'a', 1:'b', 3:'c'})

2    a
1    b
3    c
dtype: object

In [23]:
reg_dict = {'Leon': 345, 'Claire':78, 'Ryu':456, 'Ken':90, 'Cammy':1000}
reg = pd.Series(reg_dict, name='Clientes')
reg

Leon       345
Claire      78
Ryu        456
Ken         90
Cammy     1000
Name: Clientes, dtype: int64

In [24]:
reg.describe()

count       5.000000
mean      393.800000
std       376.082704
min        78.000000
25%        90.000000
50%       345.000000
75%       456.000000
max      1000.000000
Name: Clientes, dtype: float64

In [25]:
reg1 = pd.Series(['Vega', 'Akuma', 'Barog', 'Akuma'])
reg1

0     Vega
1    Akuma
2    Barog
3    Akuma
dtype: object

In [26]:
reg1.describe()

count         4
unique        3
top       Akuma
freq          2
dtype: object

# Dataframes
Así como una Serie puede identificarse como un arreglo unidimensional con índices explícitos, un Dataframe puede entenderse como arreglo bidimensional con índices explícitos de filas y columnas. Puedes visualizar un Dataframe como un objeto que tiene una secuencia de series alineadas, entendiendo que por "alineadas" nos referimos que comparten el mismo índice.

![Tomado de The pandas development team](dataframes.png)

In [27]:
interes = {'Leon':10, 'Claire':13, 'Ryu':9, 'Ken':16, 'Cammy':14}
inter = pd.Series(interes)
inter

Leon      10
Claire    13
Ryu        9
Ken       16
Cammy     14
dtype: int64

In [28]:
clientes = pd.DataFrame({'Cuenta':reg, 'Intereses': inter})
clientes

Unnamed: 0,Cuenta,Intereses
Leon,345,10
Claire,78,13
Ryu,456,9
Ken,90,16
Cammy,1000,14


In [29]:
clientes.index

Index(['Leon', 'Claire', 'Ryu', 'Ken', 'Cammy'], dtype='object')

In [30]:
clientes.columns

Index(['Cuenta', 'Intereses'], dtype='object')

In [31]:
clientes['Cuenta']

Leon       345
Claire      78
Ryu        456
Ken         90
Cammy     1000
Name: Cuenta, dtype: int64

Dataframe a partir de una serie

In [32]:
clientes1 = pd.DataFrame(reg, columns=['Clientes'])
clientes1

Unnamed: 0,Clientes
Leon,345
Claire,78
Ryu,456
Ken,90
Cammy,1000


Dataframes a partir de diccionarios.

In [33]:
datosIn = [{'a':i, 'b':2*i} for i in range(3)]
pd.DataFrame(datosIn)

Unnamed: 0,a,b
0,0,0
1,1,2
2,2,4


In [34]:
pd.DataFrame([{'a': 3.1416, 'b': 9.81}, {'b': 3, 'c': 4}])

Unnamed: 0,a,b,c
0,3.1416,9.81,
1,,3.0,4.0


Hasta este momento, te habrás dado cuenta que las Series y los Dataframes contienen índices explícitos que nos permiten ubicar y editar nuestros datos. El índice es una estructura por si sola interesante y que pueden identificarse como un arreglo inmutable o como un conjunto ordenado. Estas identificaciones tienen consecuencias interesantes, en términos de operaciones que podemos hacer con `Index`.

In [35]:
# Construyendo un objeto Index de una lista de enteros
indi = pd.Index([2, 3, 6, 8, 10])
indi

Index([2, 3, 6, 8, 10], dtype='int64')

Índices como arreglos inmutables

In [36]:
indi[1]

3

In [37]:
indi[::2]

Index([2, 6, 10], dtype='int64')

In [38]:
print('El tamaño de indi es: {}'.format(indi.size))

El tamaño de indi es: 5


In [39]:
print('La forma de indi es: {}'.format(indi.shape))

La forma de indi es: (5,)


In [40]:
print(f'El tipo de datos de indi es {indi.dtype}')

El tipo de datos de indi es int64


Identifica que los índices son inmutables.

In [41]:
#indi[1] = 0

Índices como conjunto ordenado

In [42]:
indiceA = pd.Index([1, 3, 5, 7, 9])
indiceB = pd.Index([2, 3, 5, 7, 11])

In [43]:
indiceA.intersection(indiceB)

Index([3, 5, 7], dtype='int64')

In [44]:
indiceA.union(indiceB)

Index([1, 2, 3, 5, 7, 9, 11], dtype='int64')

In [45]:
indiceA.symmetric_difference(indiceB)

Index([1, 2, 9, 11], dtype='int64')

Indexado de datos y selección

In [46]:
datos = pd.Series([1.0, 1.25, 1.50, 1.75, 2], index=['a', 'b', 'c', 'd', 'e'])
datos

a    1.00
b    1.25
c    1.50
d    1.75
e    2.00
dtype: float64

In [47]:
datos['b']

1.25

In [48]:
'a' in datos

True

In [49]:
'x' in datos

False

In [50]:
datos.keys()

Index(['a', 'b', 'c', 'd', 'e'], dtype='object')

In [51]:
datos.items()

<zip at 0x18db3dff540>

In [52]:
list(datos.items())

[('a', 1.0), ('b', 1.25), ('c', 1.5), ('d', 1.75), ('e', 2.0)]

In [53]:
datos['e'] = 3.1416
datos

a    1.0000
b    1.2500
c    1.5000
d    1.7500
e    3.1416
dtype: float64

In [54]:
# Slicing con indices explicitos
datos['a':'c']

a    1.00
b    1.25
c    1.50
dtype: float64

In [55]:
# Slicing con indices implicitos enteros
datos[0:2]

a    1.00
b    1.25
dtype: float64

In [56]:
# Enmascarando
datos[(datos > 1.1) & (datos < 1.70)]

b    1.25
c    1.50
dtype: float64

Identifica que cuando el slicing con índices explícitos (e.g. datos['a':'c']), el índice final se incluye en la selección, mientras que el slicing con índice implicito (e.g. datos[0:2], el índice final es excluido de la selección.

El atributo `loc` te permite indexar y el slicing de la manera explícita, es decir, **cuando usamos la etiqueta del índice**.

In [57]:
datos.loc['c']

1.5

El atributo `iloc` te permite indexar y el slicing de la manera implícita, es decir, **cuando usamos la etiqueta del índice**.

In [58]:
datos.iloc[2]

1.5

Recuerda que una de las reglas del Zen de Python recomienda que lo explícito es mejor que lo implícito. La naturaleza de lo explícito de `loc` y `iloc` es muy útil para mantener limpio y entendible nuestro código, especialmente en el caso de índices enteros, usándolos de manera consistente para prevenir errores debidos a mezclar la convención de indexado/slicing.