# Pandas: Series.

<p xmlns:cc="http://creativecommons.org/ns#" xmlns:dct="http://purl.org/dc/terms/"><a property="dct:title" rel="cc:attributionURL" href="https://github.com/luiggix/HeCompA/tree/main/Tutoriales">Tutoriales</a> by <a rel="cc:attributionURL dct:creator" property="cc:attributionName" href="https://www.macti.unam.mx">Luis M. de la Cruz</a> is licensed under <a href="http://creativecommons.org/licenses/by-sa/4.0/?ref=chooser-v1" target="_blank" rel="license noopener noreferrer" style="display:inline-block;">Attribution-ShareAlike 4.0 International<img style="height:22px!important;margin-left:3px;vertical-align:text-bottom;" src="https://mirrors.creativecommons.org/presskit/icons/cc.svg?ref=chooser-v1"><img style="height:22px!important;margin-left:3px;vertical-align:text-bottom;" src="https://mirrors.creativecommons.org/presskit/icons/by.svg?ref=chooser-v1"><img style="height:22px!important;margin-left:3px;vertical-align:text-bottom;" src="https://mirrors.creativecommons.org/presskit/icons/sa.svg?ref=chooser-v1"></a></p> 

# Objetivos.
Revisar los concepto básicos de Series de la biblioteca Pandas.

# Pandas

- Pandas es "Python Data Analysis Library". El nombre proviene del término *Panel Data* que es un término econométrico para manejar conjuntos de datos multidimensionales.

- Pandas es una biblioteca que provee de herramientas de alto desempeño, fáciles de usar, para manejar estructuras de datos y para su análisis. 

- Pandas es un módulo que reúne las capacidades de Numpy, Scipy y Matplotlib.

- Véase https://pandas.pydata.org/ para más información.


In [1]:
import numpy as np
import pandas as pd

# Series

- Las `Series` son arreglos unidimensionales indexados basados en los arreglos de Numpy.
- Pueden almacenar cualquier tipo de dato: int, floats, strings, Python objects, etc.
- Se pueden ver como una estructura de datos con dos arreglos: uno para los índices y otro para los objetos que contiene.

In [2]:
obj = pd.Series([3,6,9,12])
obj

0     3
1     6
2     9
3    12
dtype: int64

In [3]:
obj.values # Objetos de la serie

array([ 3,  6,  9, 12])

Observa que los valores de la serie están en un arreglo de numpy.

In [4]:
obj.index # Índices de la serie

RangeIndex(start=0, stop=4, step=1)

In [5]:
list(obj.index) # Índices de la serie

[0, 1, 2, 3]

- Comparemos con los array de Numpy

In [6]:
x = np.array([3,6,9,12])
x

array([ 3,  6,  9, 12])

In [7]:
print(type(x))          # Arreglo de numpy
print(type(obj.values)) # Arreglo de numpy
print(type(obj.index))  # RangeIndex
print(type(obj))        # Serie

<class 'numpy.ndarray'>
<class 'numpy.ndarray'>
<class 'pandas.core.indexes.range.RangeIndex'>
<class 'pandas.core.series.Series'>


Podemos definir los índices como queramos:

In [8]:
money = pd.Series([10.0,5.0,2.0,1.0,0.5,0.2,0.1],
                  index=['Diez','Cinco','Dos','Uno','cincuenta','veinte','diez'])
money

Diez         10.0
Cinco         5.0
Dos           2.0
Uno           1.0
cincuenta     0.5
veinte        0.2
diez          0.1
dtype: float64

In [9]:
money['diez'] # Podemos acceder a los objetos de la Serie con el índice

np.float64(0.1)

In [10]:
print('{: .52f}'.format(money['diez']))

 0.1000000000000000055511151231257827021181583404541016


Podemos hacer operaciones booleanas para acceder a secciones de la serie.

In [11]:
money[money > 0.5] 

Diez     10.0
Cinco     5.0
Dos       2.0
Uno       1.0
dtype: float64

Es posible preguntar si un índice está en la Serie

In [12]:
'quarter' in money 

False

Es posible preguntar si un objeto está en la Serie

In [13]:
 0.1 in money.values  

True

## Transformación entre Series y tipos básicos de Python

### `Series` $\rightarrow$ `string`

In [14]:
money_string = money.to_string()
money_string

'Diez         10.0\nCinco         5.0\nDos           2.0\nUno           1.0\ncincuenta     0.5\nveinte        0.2\ndiez          0.1'

In [15]:
print(type(money_string))

<class 'str'>


In [16]:
print('Longitud de la cadena: {}'.format(len(money_string)))

Longitud de la cadena: 125


In [17]:
# se imprime cada elemento de la cadena separados por espacios
for i in money_string:
    print(i, end = ' ')

D i e z                   1 0 . 0 
 C i n c o                   5 . 0 
 D o s                       2 . 0 
 U n o                       1 . 0 
 c i n c u e n t a           0 . 5 
 v e i n t e                 0 . 2 
 d i e z                     0 . 1 

### `Series` $\rightarrow$ `dict`

In [18]:
money_dic = money.to_dict()
money_dic

{'Diez': 10.0,
 'Cinco': 5.0,
 'Dos': 2.0,
 'Uno': 1.0,
 'cincuenta': 0.5,
 'veinte': 0.2,
 'diez': 0.1}

In [19]:
print(type(money_dic))

<class 'dict'>


### `dict` $\rightarrow$ `Series` 

In [20]:
# Podemos transformar un diccionario en una Serie.
pd.Series(money_dic)

Diez         10.0
Cinco         5.0
Dos           2.0
Uno           1.0
cincuenta     0.5
veinte        0.2
diez          0.1
dtype: float64

### `Series` $\rightarrow$ archivo

In [21]:
# Podemos escribir la Serie a un archivo en formato csv
money.to_csv('money.csv')

---
## **<font color="DodgerBlue">Ejercicio 1. </font>**

<font color="DarkBlue">
    
* Crear una serie con sus índices iguales a los nombres de las delegaciones de la Ciudad de México y sus valores iguales al número de habitantes por delegación.

Delegación | Habitantes
-- | --
Azcapotzalco | 400 161
Coyoacán | 608 479
Cuajimalpa de Morelos | 199 224
Gustavo A. Madero | 1 164 477
Iztacalco | 390 348
Iztapalapa | 1 827 868
La Magdalena Contreras | 243 886
Milpa Alta | 137 927
Álvaro Obregón | 749 982
Tláhuac | 361 593
Tlalpan | 677 104
Xochimilco | 415 933
Benito Juárez | 417 416
Cuauhtémoc | 532 553
Miguel Hidalgo | 364 439
Venustiano Carranza | 427 263

- Calcular la suma total de habitantes.
- Imprimir los nombres de las delegaciones con mayor y menor número de habitantes.
- Imprimir los nombres de las delegaciones con más de 400,000 habitantes.

</font>

---

### Lectura de los datos de un archivo: `open()`

In [22]:
# Abrimos el archivo
fdel = open('./delegaciones.csv','r')

# Construimos dos listas vacías
valores = []
indices = []

# Mediante un ciclo leemos la información del archivo
for line in fdel:
    sline = line.split(sep=",") # Separamos cada línea por comas
    indices.append(sline[0])    # Leemos el índice
    valores.append(sline[1])      # Leemos el valor

    
# Imprimimos las listas
print('Índices : \n {} \n'.format(indices))  
print('Valores : \n {} '.format(valores))

Índices : 
 ['Delegación', 'Azcapotzalco', 'Coyoacán', 'Cuajimalpa de Morelos', 'Gustavo A. Madero', 'Iztacalco', 'Iztapalapa', 'La Magdalena Contreras', 'Milpa Alta', 'Álvaro Obregón', 'Tláhuac', 'Tlalpan', 'Xochimilco', 'Benito Juárez', 'Cuauhtémoc', 'Miguel Hidalgo', 'Venustiano Carranza'] 

Valores : 
 ['Habitantes\n', '400161\n', '608479\n', '199224\n', '1164477\n', '390348\n', '1827868\n', '243886\n', '137927\n', '749982\n', '361593\n', '677104\n', '415933\n', '417416\n', '532553\n', '364439\n', '427263\n'] 


Observamos que el primer elemento de cada lista es la descripción de los datos. Ahora transformamos las listas en una serie:

In [23]:
habitantes = pd.Series(valores[1:], index=indices[1:])
habitantes

Azcapotzalco               400161\n
Coyoacán                   608479\n
Cuajimalpa de Morelos      199224\n
Gustavo A. Madero         1164477\n
Iztacalco                  390348\n
Iztapalapa                1827868\n
La Magdalena Contreras     243886\n
Milpa Alta                 137927\n
Álvaro Obregón             749982\n
Tláhuac                    361593\n
Tlalpan                    677104\n
Xochimilco                 415933\n
Benito Juárez              417416\n
Cuauhtémoc                 532553\n
Miguel Hidalgo             364439\n
Venustiano Carranza        427263\n
dtype: object

### Lectura de los datos de un archivo: `read_csv()`

Si tenemos el archivo en formato CSV, entonces es mejor hacer uso de la función `read_csv()`:

In [24]:
fdel = pd.read_csv('./delegaciones.csv')
habitantes = pd.Series(list(fdel.iloc[:,1]),index=list(fdel.iloc[:,0]))
habitantes

Azcapotzalco               400161
Coyoacán                   608479
Cuajimalpa de Morelos      199224
Gustavo A. Madero         1164477
Iztacalco                  390348
Iztapalapa                1827868
La Magdalena Contreras     243886
Milpa Alta                 137927
Álvaro Obregón             749982
Tláhuac                    361593
Tlalpan                    677104
Xochimilco                 415933
Benito Juárez              417416
Cuauhtémoc                 532553
Miguel Hidalgo             364439
Venustiano Carranza        427263
dtype: int64

En general esta última forma es más directa y óptima para leer datos de un archivo en formato CSV.

### `sum()`, `max()`, `min()`

In [25]:
# Suma total de habitantes
habitantes.sum()

np.int64(8918653)

In [26]:
# Cálculo del máximo
habitantes.max()

np.int64(1827868)

In [27]:
# Cálculo del mínimo
habitantes.min()

np.int64(137927)

In [28]:
# Delegación con el mayor número de habitantes
habitantes[habitantes == habitantes.max()]

Iztapalapa    1827868
dtype: int64

In [29]:
# Delegación con el menor número de habitantes
habitantes[habitantes == habitantes.min()]

Milpa Alta    137927
dtype: int64

In [30]:
# Delegaciones con más de 400,000 habitantes
habitantes[habitantes > 400000]

Azcapotzalco            400161
Coyoacán                608479
Gustavo A. Madero      1164477
Iztapalapa             1827868
Álvaro Obregón          749982
Tlalpan                 677104
Xochimilco              415933
Benito Juárez           417416
Cuauhtémoc              532553
Venustiano Carranza     427263
dtype: int64

## Algunas operaciones con series


### Agregar nuevos elementos

Definimos el siguiente diccionario

In [31]:
money_dic = {'Diez': 10.0, 'Cinco': 5.0, 'Dos': 2.0, 'Uno': 1.0, 'cincuenta': 0.5, 'veinte': 0.2, 'diez': 0.1}
money_dic

{'Diez': 10.0,
 'Cinco': 5.0,
 'Dos': 2.0,
 'Uno': 1.0,
 'cincuenta': 0.5,
 'veinte': 0.2,
 'diez': 0.1}

Definimos la lista `etiquetas` con un elemento más: `quarter`. Con esta lista y el diccionario construimos una serie:

In [32]:
etiquetas = ['Diez','Cinco','quarter','Dos','Uno','cincuenta','veinte','diez']
money_q = pd.Series(money_dic, index=etiquetas) # Hay un índice extra.
money_q

Diez         10.0
Cinco         5.0
quarter       NaN
Dos           2.0
Uno           1.0
cincuenta     0.5
veinte        0.2
diez          0.1
dtype: float64

Observa que en el lugar del `quarter` se puso un `NaN` (*Not a Number*) debido a que no tenemos un dato para el `quarter`. Esto sucede muy frecuentemente en muchos conjuntos de datos (*dataset*).

Se puede agregar un elemento definiendo una etiqueta y un valor como sigue

In [33]:
money_q['Cien'] = 100.0 

In [34]:
money_q

Diez          10.0
Cinco          5.0
quarter        NaN
Dos            2.0
Uno            1.0
cincuenta      0.5
veinte         0.2
diez           0.1
Cien         100.0
dtype: float64

Si el elemento ya existe, se cambia el valor por el que se proporciona:

In [35]:
money_q['Cien'] = 110.0 

In [36]:
money_q

Diez          10.0
Cinco          5.0
quarter        NaN
Dos            2.0
Uno            1.0
cincuenta      0.5
veinte         0.2
diez           0.1
Cien         110.0
dtype: float64

### Verificar datos faltantes `isnull` y `notnull`

Podemos verificar si hay datos faltantes (`NaN`) en la serie.

In [37]:
pd.isnull(money_q['quarter'])    

True

In [38]:
pd.notnull(money_q['diez']) 

True

### Eliminar y/o completar datos faltantes `dropna`


In [39]:
money_q.dropna()

Diez          10.0
Cinco          5.0
Dos            2.0
Uno            1.0
cincuenta      0.5
veinte         0.2
diez           0.1
Cien         110.0
dtype: float64

El resultado de `dropna()` es la serie sin elemento `NaN`, pero este resultado debe ser asignado a otra etiqueta, pues no se modifica la serie original:

In [40]:
money_q

Diez          10.0
Cinco          5.0
quarter        NaN
Dos            2.0
Uno            1.0
cincuenta      0.5
veinte         0.2
diez           0.1
Cien         110.0
dtype: float64

In [41]:
money_q_sin_NaN = money_q.dropna()

In [42]:
money_q_sin_NaN

Diez          10.0
Cinco          5.0
Dos            2.0
Uno            1.0
cincuenta      0.5
veinte         0.2
diez           0.1
Cien         110.0
dtype: float64

En vez de eliminar los datos `NaN` también es posible completar su valor:

In [43]:
money_q

Diez          10.0
Cinco          5.0
quarter        NaN
Dos            2.0
Uno            1.0
cincuenta      0.5
veinte         0.2
diez           0.1
Cien         110.0
dtype: float64

In [44]:
money_q.fillna(0.25, inplace = True)

Observa que ahora se usó el parámetro `inplace=True` lo que significa que se modificará la serie original sin crear un nuevo objeto:

In [45]:
money_q

Diez          10.00
Cinco          5.00
quarter        0.25
Dos            2.00
Uno            1.00
cincuenta      0.50
veinte         0.20
diez           0.10
Cien         110.00
dtype: float64

### Operaciones aritméticas entre series

Retomamos la serie `money` definida antes:

In [46]:
money = pd.Series([10.0,5.0,2.0,1.0,0.5,0.2,0.1],
                  index=['Diez','Cinco','Dos','Uno','cincuenta','veinte','diez'])
money

Diez         10.0
Cinco         5.0
Dos           2.0
Uno           1.0
cincuenta     0.5
veinte        0.2
diez          0.1
dtype: float64

In [47]:
money + money # Podemos sumar dos series

Diez         20.0
Cinco        10.0
Dos           4.0
Uno           2.0
cincuenta     1.0
veinte        0.4
diez          0.2
dtype: float64

No importa que las series estén en desorden o que tengan longitud diferente la suma se hará correctamente. Por ejemplo:

In [48]:
print(len(money), len(money_q) )

7 9


In [49]:
print('{}\n'.format(money))
print('{}\n'.format(money_q))

Diez         10.0
Cinco         5.0
Dos           2.0
Uno           1.0
cincuenta     0.5
veinte        0.2
diez          0.1
dtype: float64

Diez          10.00
Cinco          5.00
quarter        0.25
Dos            2.00
Uno            1.00
cincuenta      0.50
veinte         0.20
diez           0.10
Cien         110.00
dtype: float64



In [50]:
money + money_q

Cien          NaN
Cinco        10.0
Diez         20.0
Dos           4.0
Uno           2.0
cincuenta     1.0
diez          0.2
quarter       NaN
veinte        0.4
dtype: float64

Observa que: 
* Se usa `NaN` en los lugares donde las series son diferentes. 
* Las operaciones se hacen elemento por elemento, justo como en un arreglo de numpy. Puedes probar con otro tipo de operaciones: `-`, `*`, `/`, `**`, `np.sin()`, etc.

### Aplicación de funciones

In [51]:
# Construcción de una serie a partir de una cadena
nombre = pd.Series(list('Luis Miguel de la Cruz Salas'))
print(nombre)

0     L
1     u
2     i
3     s
4      
5     M
6     i
7     g
8     u
9     e
10    l
11     
12    d
13    e
14     
15    l
16    a
17     
18    C
19    r
20    u
21    z
22     
23    S
24    a
25    l
26    a
27    s
dtype: object


In [52]:
nombre.unique() # Obtiene los elementos únicos

array(['L', 'u', 'i', 's', ' ', 'M', 'g', 'e', 'l', 'd', 'a', 'C', 'r',
       'z', 'S'], dtype=object)

In [53]:
# Puede contar los objetos que hay en la Serie
nombre.value_counts()

     5
u    3
l    3
a    3
i    2
s    2
e    2
L    1
M    1
g    1
d    1
C    1
r    1
z    1
S    1
Name: count, dtype: int64

In [54]:
# Podemos tener una serie con índices en desorden:
serie = pd.Series(range(5),index=['C','A','B','E','D'])
serie

C    0
A    1
B    2
E    3
D    4
dtype: int64

In [55]:
# La serie se puede ordenar a través de los índices
serie.sort_index()

A    1
B    2
C    0
D    4
E    3
dtype: int64

In [56]:
serie   # Ojo: el ordenamiento no se hizo "in place", es decir no se modificó la serie original

C    0
A    1
B    2
E    3
D    4
dtype: int64

In [57]:
# Aquí creamos una nueva serie ordenada, pero la original prevalece
serie_ordenada = serie.sort_index()

In [58]:
serie_ordenada

A    1
B    2
C    0
D    4
E    3
dtype: int64

In [59]:
serie

C    0
A    1
B    2
E    3
D    4
dtype: int64

In [60]:
# Podemos ordenar la serie "in place", es decir se modifica la serie original
serie.sort_index(inplace=True)
serie

A    1
B    2
C    0
D    4
E    3
dtype: int64

In [61]:
# Se puede ordenar la serie usando los objetos que contiene
serie.sort_values()

C    0
A    1
B    2
E    3
D    4
dtype: int64

In [62]:
# Creamos otra serie con valores e índices desordenados
serie = pd.Series([7,5,2,8,3],index=['C','A','B','E','D'])
serie

C    7
A    5
B    2
E    8
D    3
dtype: int64

In [63]:
# La siguiente función clasifica las entradas de la serie de acuerdo al contenido de su objeto
serie.rank()

C    4.0
A    3.0
B    1.0
E    5.0
D    2.0
dtype: float64

In [64]:
serie.rank(pct=True) # Clasificación en porcentaje

C    0.8
A    0.6
B    0.2
E    1.0
D    0.4
dtype: float64

In [65]:
# Si ordenamos la serie que pasa ¿?:
serie.sort_values()

B    2
D    3
A    5
C    7
E    8
dtype: int64

### La función `apply`
```python
Series.apply(func, conver_dtype=True, args(), **kwds)
```
- La función `func` será aplicada a la serie y regresa un objeto de tipo Series o DataFrame.


In [66]:
s = serie.apply(np.sin)
print(type(s))
s

<class 'pandas.core.series.Series'>


C    0.656987
A   -0.958924
B    0.909297
E    0.989358
D    0.141120
dtype: float64

- Podemos usar funciones lambda

In [67]:
serie

C    7
A    5
B    2
E    8
D    3
dtype: int64

In [68]:
serie.apply(lambda x: x if x > 5 else x**2)

C     7
A    25
B     4
E     8
D     9
dtype: int64