# Pandas: Series

**Objetivo.**
Revisar los concepto básicos de Series de la biblioteca Pandas.

 <p xmlns:cc="http://creativecommons.org/ns#" xmlns:dct="http://purl.org/dc/terms/"><a property="dct:title" rel="cc:attributionURL" href="https://github.com/luiggix/HeCompA/blob/main/02_DataScience/T1_Pandas_Series.ipynb">HeCompA - T1_Pandas_Series</a> by <a rel="cc:attributionURL dct:creator" property="cc:attributionName" href="https://www.macti.unam.mx">Luis M. de la Cruz</a> is licensed under <a href="http://creativecommons.org/licenses/by-sa/4.0/?ref=chooser-v1" target="_blank" rel="license noopener noreferrer" style="display:inline-block;">Attribution-ShareAlike 4.0 International<img style="height:22px!important;margin-left:3px;vertical-align:text-bottom;" src="https://mirrors.creativecommons.org/presskit/icons/cc.svg?ref=chooser-v1"><img style="height:22px!important;margin-left:3px;vertical-align:text-bottom;" src="https://mirrors.creativecommons.org/presskit/icons/by.svg?ref=chooser-v1"><img style="height:22px!important;margin-left:3px;vertical-align:text-bottom;" src="https://mirrors.creativecommons.org/presskit/icons/sa.svg?ref=chooser-v1"></a></p> 


# Introducción

- Pandas es "Python Data Analysis Library". El nombre proviene del término [*Panel Data*](https://en.wikipedia.org/wiki/Panel_data) que es un término econométrico para manejar conjuntos de datos multidimensionales.

- Pandas es una biblioteca que provee de herramientas de alto desempeño, fáciles de usar, para manejar estructuras de datos y para su análisis. 

- Pandas es un módulo que reúne las capacidades de Numpy, Scipy y Matplotlib.

- Véase https://pandas.pydata.org/ para más información.


In [None]:
import numpy as np
import pandas as pd

# Series

- Las `Series` son arreglos unidimensionales indexados basados en los arreglos de Numpy.
- Pueden almacenar cualquier tipo de dato: int, floats, strings, Python objects, etc.
- Se pueden ver como una estructura de datos con dos arreglos: uno para los índices y otro para los objetos que contiene.

| Index | Data |
|---|---|
| 0 | 3 |
| 1 | 6 |
| 2 | 9 |
| 3 | 12 |

In [None]:
obj = pd.Series([3,6,9,12])
obj

In [None]:
obj.values # Objetos de la serie

Observa que los valores de la serie están en un arreglo de numpy.

In [None]:
obj.index # Índices de la serie

In [None]:
list(obj.index) # Índices de la serie

Comparemos con los array de Numpy

In [None]:
x = np.array([3,6,9,12])
x

In [None]:
print(type(x))          # Arreglo de numpy
print(type(obj.values)) # Arreglo de numpy
print(type(obj.index))  # RangeIndex
print(type(obj))        # Serie

Podemos definir los índices como queramos:

In [None]:
money = pd.Series([10.0,5.0,2.0,1.0,0.5,0.2,0.1],
                  index=['Diez','Cinco','Dos','Uno','cincuenta','veinte','diezc'])
money

In [None]:
money['diezc'] # Podemos acceder a los objetos de la Serie con el índice

In [None]:
print('{: .52f}'.format(money['diezc']))

Podemos hacer operaciones booleanas para acceder a secciones de la serie.

In [None]:
money[money > 0.5] # Obtiene todos los elementos que tienen valores mayores a 0.5

Es posible preguntar si un **índice** está en la Serie

In [None]:
'quarter' in money 

Es posible preguntar si un **objeto** está en la Serie

In [None]:
 0.1 in money.values  

## Transformación entre Series y tipos básicos de Python

### `Series` $\rightarrow$ `string`

In [None]:
money_string = money.to_string()
money_string

In [None]:
print(type(money_string))

In [None]:
print('Longitud de la cadena: {}'.format(len(money_string)))

In [None]:
# se imprime cada elemento de la cadena separados por espacios
for i in money_string:
    print(i, end = ' ')

### `Series` $\rightarrow$ `dict`

In [None]:
money_dic = money.to_dict()
money_dic

In [None]:
print(type(money_dic))

### `dict` $\rightarrow$ `Series` 

In [None]:
# Podemos transformar un diccionario en una Serie.
pd.Series(money_dic)

### `Series` $\rightarrow$ archivo

In [None]:
# Podemos escribir la Serie a un archivo en formato csv
money.to_csv('money.csv')

<div class="alert alert-success">

## **Ejercicio 1.**

<font color="DarkBlue">
    
Crear una serie con sus índices iguales a los nombres de las alcaldías de la Ciudad de México y sus valores iguales al número de habitantes por delegación.

Alcaldía | Habitantes
-- | --
Azcapotzalco | 400 161
Coyoacán | 608 479
Cuajimalpa de Morelos | 199 224
Gustavo A. Madero | 1 164 477
Iztacalco | 390 348
Iztapalapa | 1 827 868
La Magdalena Contreras | 243 886
Milpa Alta | 137 927
Álvaro Obregón | 749 982
Tláhuac | 361 593
Tlalpan | 677 104
Xochimilco | 415 933
Benito Juárez | 417 416
Cuauhtémoc | 532 553
Miguel Hidalgo | 364 439
Venustiano Carranza | 427 263

1. Calcular la suma total de habitantes.
2. Imprimir los nombres de las delegaciones con mayor y menor número de habitantes.
3. Imprimir los nombres de las delegaciones con más de 400,000 habitantes.
4. Graficar los datos usando la función `pd.plot()` de la biblioteca Pandas.
5. Calcular las siguientes medidas de tendencia central.
    * Media : $\bar{x} = \frac{1}{n} \sum_{i=1}^n x_i$.
    * Media Armónica: $H = \frac{n}{ \sum_{i=1}^n \frac{1}{x_i}}$.
    * Media Geométrica: $G = \sqrt[n]{\prod_{i=1}^n x_i}$.
6. Calculas las siguientes medidas de variabilidad.
    * Varianza: $\sigma^2 = \frac{1}{n-1} \sum_{i}^{n}(x_i - \bar{x})^2$.
    * Desviación estándar: $s = \sqrt{\frac{1}{n-1} \sum_{i}^{n}(x_i - \bar{x})^2}$.

</font>
</div>

### Lectura de los datos de un archivo: `open()`

In [None]:
# Abrimos el archivo
fdel = open('./delegaciones.csv','r')

# Construimos dos listas vacías
valores = []
indices = []

# Mediante un ciclo leemos la información del archivo
for line in fdel:
    sline = line.split(sep=",") # Separamos cada línea por comas
    indices.append(sline[0])    # Leemos el índice
    valores.append(sline[1])      # Leemos el valor

    
# Imprimimos las listas
print('Índices : \n {} \n'.format(indices))  
print('Valores : \n {} '.format(valores))

Observamos que el primer elemento de cada lista es la descripción de los datos. Ahora transformamos las listas en una serie:

In [None]:
habitantes = pd.Series(valores[1:], index=indices[1:])
habitantes

### Lectura de los datos de un archivo: `read_csv()`

Si tenemos el archivo en formato CSV, entonces es mejor hacer uso de la función `read_csv()`:

In [None]:
fdel = pd.read_csv('./delegaciones.csv')
habitantes = pd.Series(list(fdel.iloc[:,1]),
                       list(fdel.iloc[:,0]))
habitantes

En general esta última forma es más directa y óptima para leer datos de un archivo en formato CSV.

### `sum()`, `max()`, `min()`

In [None]:
# Suma total de habitantes
habitantes.sum()

In [None]:
# Cálculo del máximo
habitantes.max()

In [None]:
# Cálculo del mínimo
habitantes.min()

In [None]:
# Delegación con el mayor número de habitantes
habitantes[habitantes == habitantes.max()]

In [None]:
# Delegación con el menor número de habitantes
habitantes[habitantes == habitantes.min()]

In [None]:
# Delegaciones con más de 400,000 habitantes
habitantes[habitantes > 400000]

## Algunas operaciones con series


### Agregar nuevos elementos

Definimos el siguiente diccionario

In [None]:
money_dic = {'Diez': 10.0, 'Cinco': 5.0, 'Dos': 2.0, 'Uno': 1.0, 'cincuenta': 0.5, 'veinte': 0.2, 'diez': 0.1}
money_dic

Definimos la lista `etiquetas` con un elemento más: `quarter`. Con esta lista y el diccionario construimos una serie:

In [None]:
etiquetas = ['Diez','Cinco','quarter','Dos','Uno','cincuenta','veinte','diez']
money_q = pd.Series(money_dic, index=etiquetas) # Hay un índice extra.
money_q

Observa que en el lugar del `quarter` se puso un `NaN` (*Not a Number*) debido a que no tenemos un dato para el `quarter`. Esto sucede muy frecuentemente en muchos conjuntos de datos (*dataset*).

Se puede agregar un elemento definiendo una etiqueta y un valor como sigue

In [None]:
money_q['Cien'] = 100.0 

In [None]:
money_q

Si el elemento ya existe, se cambia el valor por el que se proporciona:

In [None]:
money_q['Cien'] = 110.0 

In [None]:
money_q

### Verificar datos faltantes `isnull` y `notnull`

Podemos verificar si hay datos faltantes (`NaN`) en la serie.

In [None]:
pd.isnull(money_q['quarter'])    

In [None]:
pd.notnull(money_q['diez']) 

### Eliminar y/o completar datos faltantes `dropna`


In [None]:
money_q.dropna()

El resultado de `dropna()` es la serie sin elemento `NaN`, pero este resultado debe ser asignado a otra etiqueta, pues no se modifica la serie original:

In [None]:
money_q

In [None]:
money_q_sin_NaN = money_q.dropna()

In [None]:
money_q_sin_NaN

En vez de eliminar los datos `NaN` también es posible completar su valor:

In [None]:
money_q

In [None]:
money_q.fillna(0.25, inplace = True)

Observa que ahora se usó el parámetro `inplace=True` lo que significa que se modificará la serie original sin crear un nuevo objeto:

In [None]:
money_q

### Operaciones aritméticas entre series

Retomamos la serie `money` definida antes:

In [None]:
money = pd.Series([10.0,5.0,2.0,1.0,0.5,0.2,0.1],
                  index=['Diez','Cinco','Dos','Uno','cincuenta','veinte','diez'])
money

In [None]:
money + money # Podemos sumar dos series

No importa que las series estén en desorden o que tengan longitud diferente la suma se hará correctamente. Por ejemplo:

In [None]:
print(len(money), len(money_q) )

In [None]:
print('{}\n'.format(money))
print('{}\n'.format(money_q))

In [None]:
money + money_q

Observa que: 
* Se usa `NaN` en los lugares donde las series son diferentes. 
* Las operaciones se hacen elemento por elemento, justo como en un arreglo de numpy. Puedes probar con otro tipo de operaciones: `-`, `*`, `/`, `**`, `np.sin()`, etc.

### Aplicación de funciones

In [None]:
# Construcción de una serie a partir de una cadena
nombre = pd.Series(list('Luis Miguel de la Cruz Salas'))
print(nombre)

In [None]:
nombre.unique() # Obtiene los elementos únicos

In [None]:
# Puede contar los objetos que hay en la Serie
nombre.value_counts()

In [None]:
# Podemos tener una serie con índices en desorden:
serie = pd.Series(range(5),index=['C','A','B','E','D'])
serie

In [None]:
# La serie se puede ordenar a través de los índices
serie.sort_index()

In [None]:
serie   # Ojo: el ordenamiento no se hizo "in place", es decir no se modificó la serie original

In [None]:
# Aquí creamos una nueva serie ordenada, pero la original prevalece
serie_ordenada = serie.sort_index()

In [None]:
serie_ordenada

In [None]:
serie

In [None]:
# Podemos ordenar la serie "in place", es decir se modifica la serie original
serie.sort_index(inplace=True)
serie

In [None]:
# Se puede ordenar la serie usando los objetos que contiene
serie.sort_values()

In [None]:
# Creamos otra serie con valores e índices desordenados
serie = pd.Series([7,5,2,8,3],index=['C','A','B','E','D'])
serie

In [None]:
# La siguiente función clasifica las entradas de la serie de acuerdo al contenido de su objeto
serie.rank()

In [None]:
serie.rank(pct=True) # Clasificación en porcentaje

In [None]:
# Si ordenamos la serie que pasa ¿?:
serie.sort_values()

### La función `apply`
```python
Series.apply(func, conver_dtype=True, args(), **kwds)
```
- La función `func` será aplicada a la serie y regresa un objeto de tipo Series o DataFrame.


In [None]:
s = serie.apply(np.sin)
print(type(s))
s

- Podemos usar funciones lambda

In [None]:
serie

In [None]:
serie.apply(lambda x: x if x > 5 else x**2)