# Manipulación de datos con Pandas

<center> <img src="https://drive.google.com/uc?export=view&id=1INS1MCIbEfjzFle1JNV5l7KftHlUyyBk" alt="image info" width="400"/> </center>

* Biblioteca diseñada para análisis y manipulación de datos.
* El nombre viene de **PANel DAta**, que es un término común para conjuntos de datos multidimensionales usualmente utilizados en estadística.
* Construida sobre NumPy.
* Implementa muchas operaciones de datos que pueden resultar familiares a usuarios de bases de datos o hojas de cálculo.

Pandas se importa como cualquier módulo ya visto.

In [None]:
import numpy as np
import pandas as pd #pd es una convención
pd.__version__

In [None]:
?pd

* Los datos en Pandas se manejan a través de dos importantes objetos o estructuras: **Series** y **DataFrame**.
* Ambas estructuras pueden ser vistas como versiones *mejoradas* de estructuras NumPy.

# Series

* Una serie es un arreglo **unidimensional** de datos indexados. 
* Los valores que se guardan en esta estructura tienen un índice, tal y como en el caso de las listas y los arreglos.
* La creación de una serie se basa en el comando:

```
pd.Series(estructura_de_datos,index=lista_de_indices)
```
## Series a partir de listas


In [None]:
[10,20.45,3,'cuatro',True,6.0]

In [None]:
s1 = pd.Series([10,20.45,3,'cuatro',True,6.0]) #El índice por defecto empezará en cero
s1

Como se puede observar, una serie de Pandas engloba tanto a una secuencia de valores como una secuencia de índices.

In [None]:
s1.values #Tipo de dato, arreglos de NumPy

In [None]:
s1.index

## Series a partir de diccionarios

Si se usa un diccionario para construir la serie, las llaves se toman como índices y los valores los números de la serie.

In [None]:
dicc = {'a':1,'b':2,'c':3}
s2 = pd.Series(dicc)
s2

In [None]:
s2.index

Con **index**, se puede cambiar el orden en que se insertan los datos en la serie.

In [None]:
s3 = pd.Series(dicc,index=['c','a','b'])
s3

* Para acceder a un dato específico de la serie, hay que acceder al índice del mismo como con arreglos y listas.
* Al igual que con estas estructuras, a las series se les puede hacer *slicing*.

In [None]:
print(s3['b'], s3[2], s3[-1])

**La diferencia entre un objeto Series de Pandas y un array de NumPy es la presencia de los índices.** En NumPy los índices están implícitamente definidos y son números enteros, en Pandas Series los índices se pueden definir además explícitamente.

En Pandas Series también podemos indexar y manipular como si se tratara de la estructura original.

In [None]:
codigos = pd.Series({'San José':1,'Alajuela':2,'Cartago':3,'Heredia':4}) #Creamos una serie a partir de un diccionario

In [None]:
'Guanacaste' not in codigos #Buscamos por índice

In [None]:
codigos.keys() #Imprimimos las claves del diccionario original

In [None]:
list(codigos.items()) #Lista de elementos con los pares clave-valor del diccionario

In [None]:
codigos['Guanacaste'] = 5 #Añadimos un nuevo elemento como en los diccionarios
codigos

## Filtrando datos por índice y a partir de condicionales

Podemos usar una "máscara" para encontrar ciertos elementos en nuestros datos.

In [None]:
mask = (codigos>2) & (codigos<=5) #Máscara, simplemente una condición

codigos[mask] #Devuelve elementos de la serie que cumplen

También podemos elegir los elementos por índice.

In [None]:
consulta = (codigos==1)

codigos[consulta]

In [None]:
codigos[1]

# DataFrame

* A grandes rasgos, el DataFrame es una tabla de datos.
* A diferencia de los *ndarrays* de NumPy, se pueden tener distintos tipos de datos **en las columnas**.
* Cada columna es un objeto de tipo Pandas Series.
* Las filas se identifican con un **índice** y las columnas con una **etiqueta**.

## Creando un DataFrame vacío

In [None]:
empt_df = pd.DataFrame()
empt_df

## DataFrame a partir de estructuras de datos

Los DataFrame se pueden crear también a partir de listas, diccionarios o incluso arreglos.

In [None]:
cod_df = pd.DataFrame(np.array([['San José',1],['Alajuela',2],['Cartago',3]])) #A partir de una lista
cod_df

Cuando no se indican los nombres de las columnas ni los índices, las etiquetas por defecto serán números consecutivos empezando por 0, al igual que los índices.

In [None]:
cod_df_dicc = pd.DataFrame({'Nombre':['San José','Alajuela','Cartago'],'Codigo':[1,2,3]}) #A partir de un diccionario
cod_df_dicc

Creando el DataFrame de la forma anterior, obtenemos los nombres de las columnas a partir de las claves del diccionario.

## Asignando el nombre a las columnas y las filas

* Al crear el DataFrame, las etiquetas se pueden asignar usando el parámetro **columns**.
* Los índices también se pueden asignar con **index**.

In [None]:
cod_df_names = pd.DataFrame([['Heredia',4],['Guanacaste',5],['Puntarenas',6]],columns=['Nombre','Código'],index=['P1','P2','P3'])
cod_df_names

**columns** e **index** son atributos que pueden ser cambiados incluso después de haber creado el DataFrame.

In [None]:
cod_df #No tenía nombres asignados en filas ni columnas

In [None]:
cod_df.columns = ['Name','Code']
cod_df

Además, podemos realizar operaciones con estos atributos, que devuelven estructuras iterables.

In [None]:
cod_df.index

In [None]:
cod_df.index = ['P' + str(i) for i in cod_df.index]
cod_df

## DataFrames a partir de Series

In [None]:
s1 = pd.Series(['Carmen','Merced','Hospital'],index=[0,1,2])
s2 = pd.Series([10101,10102,10104],index=[0,1,3],dtype=object)

In [None]:
cod_distritos = pd.DataFrame({'Distrito':s1,'Código':s2})
cod_distritos

Notemos que el índice donde se inserta el dato se respeta. Los datos faltantes se rellenan como valores **NaN** o *Not a Number*.

# Trabajando los datos con Pandas

## ¿Cómo cargar datos desde un archivo?

* Con Pandas se pueden cargar datos desde diversos tipos de archivos, incluyendo hojas de Microsoft Excel. Pueden consultar más [aquí](https://pandas.pydata.org/pandas-docs/stable/user_guide/io.html).
* Se debe indicar el *path* o dirección del archivo, así como el delimitador de los datos o el nombre de la hoja en algunos casos.
* **read_csv()** es una función que permite cargar datos desde un archivo **.csv** y guardarlos en un objeto de Pandas.

Usaremos esta función para cargar un archivo con los datos de un estudio de detección de enfermedades del corazón en pacientes. Las variables que contiene este set de datos son:

* Edad.
* Sexo (H o M).
* Tipo de dolor de pecho (escala 0-3).
* Presión sanguínea en reposo.
* Colesterol sérico (en mg/dL).
* Niveles de azúcar en ayunas mayores a > 120 mg/dL (1 = Sí, 0 = No).
* Ritmo cardíaco máximo.
* Presencia de una enfermedad del corazón (escala 0-4).

In [None]:
import pandas as pd
datosPacientes = pd.read_csv('pacientesCorazon.csv')
datosPacientes

* La primera fila es tomada como las etiquetas. 
* En bases de datos donde no tenemos los nombres de las columnas en los archivos, el parámetro **names** nos permite asignar los nombres.  

In [None]:
nombres_columnas = ['edad', 'sexo', 'tipoDolor', 'presionReposo', 'colesterolSerico','azucarAyunas', 'latidosMax','presencia']

In [None]:
datosPacientesSN = pd.read_csv('pacientesCorazonSN.csv',names = nombres_columnas)
datosPacientesSN

A veces los delimitadores son distintos, esto también debemos indicarlo.

In [None]:
datosPacientesPC = pd.read_csv('pacientesCorazonPC.csv') #Los datos no se leerán correctamente
datosPacientesPC

In [None]:
datosPacientesPC = pd.read_csv('pacientesCorazonPC.csv',delimiter=';') #Los datos sí se leerán correctamente
datosPacientesPC

* Si no se desea usar la fila de encabezados, **header** es un parámetro que indica cuántas filas ocupan estos, por lo que se usa para omitir las etiquetas. 
* Cuando header = None, las etiquetas serán números establecidos por defecto.

In [None]:
datosPacientesSN = pd.read_csv('pacientesCorazon.csv',header= None)
datosPacientesSN 

Como lo hacíamos con NumPy, también es posible omitir tantas filas como se quiera con el parámetro **skiprows**.

In [None]:
pd.read_csv?

In [None]:
datosPacientesSN = pd.read_csv('pacientesCorazon.csv',header=None,skiprows=1) 
datosPacientesSN

## Funciones que "exploran" los datos

Pandas está ideado para el mandejo de bases de datos muy grandes, por lo que tiene algunas utilidades para su observación.

In [None]:
datosPacientes.head(5) #Imprime las dos primeras filas del DataFrame

In [None]:
datosPacientes.tail(3) #Imprime las tres ultimas filas del DataFrame

Por facilidad de lectura, las etiquetas se imprimen siempre.

También podemos "muestrear" a partir del DataFrame.

In [None]:
datosPacientes.sample(5) #Muestreo aleatorio, devuelve la cantidad de elementos solicitada

## Modificación de los datos

### Adición de filas y columnas

In [None]:
datosPacientes['No.Seguro'] = pd.Series(np.random.random(303)*(1e9)) #Agrega una columna
datosPacientes

La función **append()** permite agregar filas, incluso otro DataFrame.

In [None]:
nuevoPaciente = {'edad':64, 'sexo':'M', 'tipoDolor':2, 'presionReposo':120, 'colesterolSerico':325,'azucarAyunas':0, 
                 'latidosMax':175,'presencia':1,'No.Seguro':839082631} #Crea un nuevo paciente

datosPacientes.append(nuevoPaciente,ignore_index=True) #Agrega el paciente al set de datos

datosPacientes.tail(1)

#### ¿Por qué no se añadió el nuevo paciente?

append() devuelve **un nuevo DataFrame**, lo que implica que si no se captura en una variable, se pierde.

In [None]:
datosPacientes = datosPacientes.append(nuevoPaciente,ignore_index=True)
datosPacientes.tail(1)

Ahora agregaremos el registro de diez pacientes más como un DataFrame.

In [None]:
nuevosPacientes = pd.read_csv('nuevosPacientes.csv') #Base de datos con nuevos pacientes

datosPacientes = datosPacientes.append(nuevosPacientes,ignore_index=True)

datosPacientes.tail(11)

#### ¿Para qué es el parámetro **ignore_index**?

In [None]:
datosPacientes = datosPacientes.append(nuevosPacientes) #Se conservan los índices del DataFrame agregado
datosPacientes.tail(20)

### Eliminación de filas y columnas

El comando **del** sirve para borrar columnas.

In [None]:
del datosPacientes['No.Seguro']
datosPacientes

La función **drop()** permite borrar filas y columnas.

In [None]:
datosPacientes = datosPacientes.drop([0]) #Borrará todo lo que está en el índice 0
datosPacientes.head(5)

In [None]:
datosPacientes.tail(10)

In [None]:
datosPacientes = datosPacientes.drop(['edad','sexo'],axis=1) #Borra las columnas indicadas, axis=1 implica columnas
datosPacientes

## <font color='purple'>**Ejercicio**</font>

Con los datos que trabajó del modelo SIR, realice lo siguiente:

* Cargue los datos en un DataFrame de Pandas.
* Utilice algún método de los vistos para añadir los nombres a las columnas. Deberá nombrarlas "Susceptibles", "Infectados" y "Recuperados".
* Cree una columna adicional que corresponda al valor del tiempo. Use los valores de los datos de tiempo que obtuvo en la solución del ejercicio del modelo SIR con SciPy.
* Renombre los índices de su set de datos con "t=" y consecuentemente el número original del índice. Es decir, si el índice es 0, el nuevo índice será "t=0".
* Utilice una función de Pandas para observar los últimos datos que generó en la solución, ¿podría decirse que para el día 20 la enfermedad está controlada?

In [None]:
import pandas as pd
datosPacientes = pd.read_csv('pacientesCorazon.csv')
datosPacientes

nuevosPacientes = pd.read_csv('nuevosPacientes.csv') #Base de datos con nuevos pacientes
datosPacientes = datosPacientes.append(nuevosPacientes)



## Localización de datos y selección de datos

* Las filas de un DataFrame pueden seleccionarse con un índice, al igual que con otras estructuras de datos.
* Las columnas se seleccionan con el nombre de la etiqueta y se indican como una lista.

In [None]:
datosPacientes[0:2] #Slicing por posición iniciando en 0 (indexación implícita)

In [None]:
datosPacientes[0:2][['latidosMax','presencia']]


Para evitar confusiones entre indexación implícita y explícita en el caso de los índices enteros, Pandas ofrece algunos atributos espaciales de indexación.

### loc

**loc** sirve para buscar en un DataFrame por etiqueta o por el índice de la columna index. Es decir, **loc** indexa y hace slicing referenciando a los **índices explícitos** de la estructura.

In [None]:
cod_df_names = pd.DataFrame([['Heredia',4],['Guanacaste',5],['Puntarenas',6]],columns=['Nombre','Código'],index=['P1','P2','P3'])
cod_df_names

In [None]:
cod_df_names.loc['P2']

In [None]:
datosPacientes.loc[1,'presionReposo'] #Busca filas cuyo índice sea 1 y la columna sea presionReposo

In [None]:
datosPacientes.loc[200:205,'presionReposo':] #Slicing con loc

### iloc

Permite localizar las filas y las columnas por posición. Es decir, **iloc** indexa y hace slicing referenciando a los índices ímplicitos de la estructura usando indexación estilo Python.

In [None]:
datosPacientes.head(5)

In [None]:
datosPacientes.iloc[0,0] #Devuelve el valor en la primera fila, primera columna

In [None]:
datosPacientes.iloc[0:3,0:4]

In [None]:
datosPacientes.head(5).iloc[-1] #Podemos usar la indexacion negativa como lo hacemos normalmente con Python

Si analizamos el objeto que nos devuelve iloc, nos damos cuenta de que puede ser una serie.

In [None]:
isinstance(datosPacientes.iloc[3], pd.Series) #Es una serie

In [None]:
isinstance(datosPacientes.iloc[[3]], pd.Series) #Doble [] es un DataFrame

### Selección a través de condicionales

In [None]:
datosPacientes['presionReposo'] > 150 #Devuelve un listado de booleanos, evaluando en cada índice la condición

Crearemos un DataFrame nuevo solamente con los pacientes con un nivel de azúcar en ayunas elevado (mayor que 120 mg/dL).

In [None]:
azucarAlta = datosPacientes[datosPacientes['azucarAyunas'] == 1] #Crea un nuevo DataFrame con las filas que cumplen esta condición
azucarAlta

Evaluemos además los casos con colesterol sérico alto (mayor a 200 mg/dL).

In [None]:
azCol = datosPacientes[(datosPacientes['azucarAyunas'] == 1) & (datosPacientes['colesterolSerico'] > 200)] 
azCol

## <font color='purple'>**Ejercicio**</font>

* Localice las entradas con índice (explícito) 2.
* Del DataFrame que obtenga, borre la entrada del paciente con menor presión sanguínea en reposo.

## Ordenando y uniendo sets de datos

### Ordenamiento

* **sort_values()** permite organizar los datos por columna.
* El parámetro **by** sirve para indicar las columnas por las cuales se quiere ordenar los datos.

In [None]:
datosPacientes.sort_values(by=['colesterolSerico']) #Ordena los datos de forma ascendente

In [None]:
datosPacientes.sort_values(by=['colesterolSerico'],ascending=False) #Ordena los datos de forma descendente

La segunda columna es el "criterio" para ordenar valores repetidos.

In [None]:
datosPacientes.sort_values(by=['colesterolSerico','latidosMax'],ascending=False)

### Unión

Pandas, a través de la operación merge(), nos brinda la capacidad de manejar datos de forma relacional. Los tipos de unión que permite hacer Pandas tienen los siguientes criterios:

* Unión uno a uno
* Unión muchos a uno
* Unión muchos a muchos

#### Unión uno a uno

Es similar a realizar concatenación de columnas.


In [None]:
empleados = pd.DataFrame({'Empleado': ['Carlos', 'Daniel', 'Mónica', 'Karla', 'Ricardo'],
'Unidad': ['CNCA', 'LANOTEC', 'CENIBiot', 'FunCeNAT', 'CNCA']})
empleados


In [None]:
usuarios = pd.DataFrame({'Empleado': ['Daniel', 'Karla', 'Ricardo', 'Mónica','Carlos'],
'Matrícula': ['cr2004', 'cr2007', 'cr2007', 'cr2010','cr2018']})
usuarios

In [None]:
autosEmpleados = pd.merge(empleados, usuarios)
autosEmpleados

* La función merge() reconoce que existe una columna igual en cada DataFrame y automáticamente la utiliza como llave para la unión.

* Noten que el orden de los registros no se mantiene y por lo general descarta el índice.

#### Unión muchos a uno

* Es el caso en el que la columna de referencia de uno de los DataFrame contenga valores duplicados.
* Para este tipo de unión, esos registros se van a mantener de manera apropiada.

In [None]:
jefes =  pd.DataFrame({'Jefe': ['Esteban', 'Jose', 'Randall', 'Cinthya'],
'Unidad': ['CNCA', 'LANOTEC', 'CENIBiot', 'FunCeNAT']})
jefes

In [None]:
cenat = pd.merge(autosEmpleados, jefes)
cenat

#### Unión muchos a muchos

Es el caso en el que ambas columnas llave contengan valores duplicados.

In [None]:
habilidades = pd.DataFrame({'Unidad': ['FunCeNAT', 'FunCeNAT', 'CNCA', 'CNCA', 'LANOTEC', 'LANOTEC', 'CENIBiot','CENIBiot'],
'Habilidades': ['Administración', 'Hojas de cálculo', 'Coding', 'HPC', 'Nanotecnología',
           'Materiales', 'Análisis genómico', 'Bioinformática']})
habilidades

In [None]:
cenat = pd.merge(cenat,habilidades)
cenat

#### Otras funciones como **join()** y **concat()** también funcionan a la hora de unir datos. Se pueden consultar [aquí](https://pandas.pydata.org/pandas-docs/stable/user_guide/merging.html).

## Manejo de datos faltantes

* En aplicaciones reales, tenemos que lidiar con conjuntos de datos que poseen múltiples datos faltantes.
* NaN es un valor especial de punto flotante definido en el standard IEEE. 
* Normalmente se presentan problemas con estos valores, pues si operamos sobre ellos los resultados se verán afectados.

In [None]:
import numpy as np

In [None]:
1 + np.nan

In [None]:
0*np.nan

In [None]:
values = np.array([4, 5, np.nan, 7, 8])

print(values.sum(), values.min(), values.mean())

## Operaciones con datos faltantes

info() nos devuelve información de cuántos son valores faltantes en nuestras columnas. 

In [None]:
datosPacientesNan = pd.read_csv('pacientesCorazonNaN.csv')
datosPacientesNan.info()

### Eliminando datos faltantes

Los valores NaN no deben ser tomados en cuenta para hacer cálculos en Pandas. **dropna()** elimina las filas o las columnas donde existan datos faltantes. El parámetro **how** puede ser **any** o **all**, es decir, no es posible eliminar solo valores faltantes individualmente.

In [None]:
datosPacientesNan_drop = datosPacientesNan.dropna() #Por defecto, eliminará todas las filas donde exista un valor faltante
datosPacientesNan_drop.info()

In [None]:
datosPacientesNan_dropC = datosPacientesNan.dropna(axis='columns') #Por defecto, eliminará todas las columnas donde exista un valor faltante
datosPacientesNan_dropC.info()

In [None]:
datosPacientesNan.dropna(how='any').head(20) #Borra la fila si al menos un valor en ella es NaN

In [None]:
datosPacientesNan.dropna(how='all').head(20) #Borra la fila si todos los valores en ella son NaN

In [None]:
datosPacientesNan.dropna(axis='rows', thresh=7).head(20) #Especifica un mínimo de valores no nulos para conservar la fila o columna

**reset_index()** es una función que reinicia los índices empezando desde cero. Así podemos "limpiar" los índices de nuestro set de datos.

In [None]:
datosPacientesNan.dropna().reset_index().head(20)

#### ¿Cómo identificar los elementos faltantes en una columna especifica?

isna() devuelve una lista de booleanos, resultado de evaluar la función en cada fila.

In [None]:
datosPacientesNan[:15]['presionReposo'].isna() #Indica los índices de la columna donde hay valores NaN

### Rellenando datos faltantes

**fillna()** no elimina las filas, sino que sustituye el dato faltante con un dato deseado. El parámetro que recibe esta función es el dato con el que se rellenarán los NaN.

In [None]:
datosPacientesNan['presionReposo']= datosPacientesNan['presionReposo'].fillna('nd')
datosPacientesNan.head(15)

## Operaciones de reducción y agrupamiento

### Reducción

Existen varias funciones que realizan cálculos básicos sobre los DataFrame, entre ellas están:

| Función | Resultado |
| :---: | :---: |
|sum()| Suma todos los datos|
|count()| Cuenta todos los datos|
|min()| Devuelve el valor mínimo|
|max()| Devuelve el valor máximo|
|mean()| Calcula la media de los datos|
|median()| Determina la mediana de los datos|

In [None]:
datosPacientes = pd.read_csv('pacientesCorazon.csv')
datosPacientes

In [None]:
datosPacientes.mean() #Media de los datos por columna

In [None]:
datosPacientes['latidosMax'].median() #Mediana de los datos de una columna

In [None]:
datosPacientes['presencia'].mode() #Moda

El método describe() nos da una serie de estadísticos básicos de nuestro DataFrame.

In [None]:
datosPacientes.describe()

## <font color='purple'>**Ejercicio**</font>

Analice los resultados del modelo SIR, ¿cuándo se alcanzó el pico de la epidemia?

#### Histogramas y otros plots

Pandas posee métodos de ploteo muy básicos para analizar los datos de manera rápida. Podemos hacer:

* Histogramas.
* Gráficos de barras.
* Boxplots.
* Densidad (kde).
* Dispersión.
* Pastel.

In [None]:
datosPacientes['presionReposo'].plot.hist()

### Agrupamiento

* **groupby()** es un método que permite agrupar datos según un criterio.
* Una vez agrupados, el resultado se obtiene haciendo una operación de reducción.

Supongamos que queremos saber la edad promedio de las personas según cada tipo de dolor de pecho.

In [None]:
gruposDolor = datosPacientes.groupby(['tipoDolor'])
gruposDolor[['edad']].mean()

Veamos si hombres o mujeres tienden a tener el azúcar más alto en ayunas.

In [None]:
datosPacientes.groupby(['sexo'])[['azucarAyunas']].sum()

## <font color='purple'>**Con groupby(), ¿cómo averiguamos cuán propensa está una persona con nivel alto de azúcar a padecer una enfermedad del corazón?**</font>

# Guardando datos con Pandas

* **to_csv()** permite guardar los datos de un DataFrame en un archivo csv.
* Al igual que para leer los datos, se necesita indicar la dirección donde será guardado el archivo.
* Se puede elegir un delimitador, por defecto es ",".

In [None]:
datosPacientesO = datosPacientes[datosPacientes['presencia']==4]
datosPacientesO

In [None]:
datosPacientesO.to_csv('pacientesO.csv',sep=';')

In [None]:
!cat pacientesO.csv