# <span style="color:RoyalBlue">Introducción a librerías básicas para uso científico</span>



## <span style="color:CornflowerBlue">**Pandas**</span>

[Pandas](https://pandas.pydata.org) es una biblioteca muy popular para manipulación de datos. Permite sistematizar mediante funciones la conversión de un archivo en los tipos de datos que Python maneja.

<img src="https://upload.wikimedia.org/wikipedia/commons/thumb/e/ed/Pandas_logo.svg/1200px-Pandas_logo.svg.png" width=600px>

## Inicio

El primer requisito, como con las demás bibliotecas es su importación

In [1]:
import pandas as pd

## Creación de datos

Esta biblioteca tiene dos objetos básicos: **DataFrames** y **Series**

### DataFrames
Se puede ver a un DataFrame como una estructura tabular.

La carga manual de DataFrames se puede hacer de la siguiente forma:

In [2]:
pd.DataFrame({'Si': [50, 21], 'No': [131, 142]})

Unnamed: 0,Si,No
0,50,131
1,21,142


En ese ejemplo se puede ver que se ingresan los datos por columnas. La sintaxis involucra un diccionario Python cuyas "claves" son los nombres de las columnas (*Si* y *No* en este ejemplo), y cuyos "valores" se especifican con una lista. 

Si bien en el ejemplo los elementos son de tipo *int*, la estructura admite otros tipos de datos (*float*, *str*, etc.)


Las etiquetas que se muestran como nombre de la filas también se pueden elegir. En el caso que no se especifiquen esos nombres, como en el ejemplo anterior, el constructor asigna por defecto un valor entero ascendente desde 0 (0, 1, 2, 3, ...).

La lista de etiquetas para los nombres de las filas utilizadas en un DataFrame se conoce como Índice. Podemos asignarle valores usando un parámetro de índice en el constructor: 

In [3]:
pd.DataFrame({'Edad': ['Joven', 'Anciano'], 
              'Peso': [62, 58]},
             index=['Paciente A', 'Paciente B'])

Unnamed: 0,Edad,Peso
Paciente A,Joven,62
Paciente B,Anciano,58


### Series
Si un DataFrame es una tabla, una Serie es una lista. Y de hecho se puede crear una con una lista: 

In [4]:
pd.Series([1, 2, 3, 4, 5])

0    1
1    2
2    3
3    4
4    5
dtype: int64

Una Serie es, en esencia, una sola columna de un DataFrame. Por lo tanto se puede asignar etiquetas de fila de la misma manera que antes, usando el parámetro de índice. Una serie no tiene un nombre de columna, solo tiene un nombre general: 

In [5]:
pd.Series([30, 35, 40], index=['Paciente A', 'Paciente B', 'Paciente C'], name='Pacientes')

Paciente A    30
Paciente B    35
Paciente C    40
Name: Pacientes, dtype: int64

## Lectura de Archivos de Datos

Si bien se pueden crear DataFrames o Series a mano, en la práctica estos datos en general se importan desde archivos.

Los datos se pueden almacenar usando distintos formatos. El más básico es el de archivos CSV (*Comma-Separated Values*), que como indica su nombre contiene valores separados por coma: 

In [6]:
diabetes_data = pd.read_csv("../data/diabetes.csv")

Se puede usar el atributo *shape* para conocer la dimensión del DataFrame


In [7]:
diabetes_data.shape

(768, 10)

Es decir, el DataFrame tiene 769 registros organizados en 9 columnas.

Podemos examinar el contenido del DataFrame resultante usando el comando head(), que muestra las primeras cinco filas:

In [8]:
diabetes_data.head()

Unnamed: 0.1,Unnamed: 0,Pregnancies,Glucose,BloodPressure,SkinThickness,Insulin,BMI,DiabetesPedigreeFunction,Age,Outcome
0,0,6,148,72.0,35.0,0.0,33.6,0.627,50,1
1,1,1,85,66.0,29.0,0.0,26.6,0.351,31,0
2,2,8,183,64.0,0.0,0.0,23.3,0.672,32,1
3,3,1,89,66.0,23.0,94.0,28.1,0.167,21,0
4,4,0,137,40.0,35.0,168.0,43.1,2.288,33,1


La función pd.read_csv() tiene más de 30 parámetros opcionales que pueden especificar. Por ejemplo, en este conjunto de datos el archivo CSV tiene un índice incorporado, que Pandas no detectó automáticamente. Para hacer que se use esa columna como índice (en lugar de crear uno nuevo desde cero), podemos especificar un *index_col*

In [9]:
diabetes_data = pd.read_csv("../data/diabetes.csv", index_col=0)
diabetes_data.head()

Unnamed: 0,Pregnancies,Glucose,BloodPressure,SkinThickness,Insulin,BMI,DiabetesPedigreeFunction,Age,Outcome
0,6,148,72.0,35.0,0.0,33.6,0.627,50,1
1,1,85,66.0,29.0,0.0,26.6,0.351,31,0
2,8,183,64.0,0.0,0.0,23.3,0.672,32,1
3,1,89,66.0,23.0,94.0,28.1,0.167,21,0
4,0,137,40.0,35.0,168.0,43.1,2.288,33,1


In [10]:
#pd.DataFrame.to_csv("")

## Indexado, Selección y Asignación


Para estas tareas es posible emplear funciones nativas de Python o propias de Pandas.

### Indexado con Funciones Nativas

Pandas soporta los métodos nativos de Python de indexación. Por ejemplo, se puede acceder a la propiedad de un objeto a través de sus atributos. Para el ejemplo previo, se puede acceder a la propiedad *Age* del Dataframe de la siguinte forma :


In [11]:
diabetes_data.Age

0      50
1      31
2      32
3      21
4      33
       ..
763    63
764    27
765    30
766    47
767    23
Name: Age, Length: 768, dtype: int64

Como dijimos que el DataFrame era un diccionario de Python, se puede usar el indexado de diccionarios para obtener los valores deseados:

In [12]:
diabetes_data['Age']

0      50
1      31
2      32
3      21
4      33
       ..
763    63
764    27
765    30
766    47
767    23
Name: Age, Length: 768, dtype: int64

Esas son dos formas de seleccionar una Serie específica de un DataFrame.
Ninguna es mejor o peor desde el punto de vista sintáctico, pero el operador de indexación [] tiene la ventaja que puede manejar nombres de columnas con caracteres reservados (por ejemplo, si tuviéramos una columna con nombre blood.pressure, no se podría acceder a su contenido haciendo diabetes_data.blood.pressure, pero sí haciendo diabetes_data[blood.pressure].

Para conseguir un valor específico de la serie se puede usar el operador de indexación [] una vez más: 

In [13]:
diabetes_data['Age'][0]

50

### Indexado en Pandas

Si bien se puede emplear los métodos anteriores para el acceso a DataFrames, en general al trabajar con Pandas se recomienda emplear los métodos de acceso propios de esta biblioteca: *loc* e *iloc* ya que están omptimizados

#### Indexación basada en índices

Con este método los datos se seleccionan a partir de sus posiciones numéricas.
Por ejemplo si se quiere seleccionar la primera fila:

In [14]:
diabetes_data.iloc[0]

Pregnancies                   6.000
Glucose                     148.000
BloodPressure                72.000
SkinThickness                35.000
Insulin                       0.000
BMI                          33.600
DiabetesPedigreeFunction      0.627
Age                          50.000
Outcome                       1.000
Name: 0, dtype: float64

Tanto en *loc* como en *iloc* el primer identificador corresponde a las filas y el segundo a las columnas. Este es el orden opuesto al que emplea Python nativo, en donde se indica primero la columna, luego la fila. 
Es decir que para recuperar la primera columna se haría:

In [15]:
diabetes_data.iloc[:, 0]

0       6
1       1
2       8
3       1
4       0
       ..
763    10
764     2
765     5
766     1
767     1
Name: Pregnancies, Length: 768, dtype: int64

#### Indexación basada en etiquetas

En este paradigma, es el valor del índice de datos, no su posición, lo que importa.
Por ejemplo, para obtener la primera fila de registros, haríamos lo siguiente: 

In [16]:
diabetes_data.loc[0, 'Age']

50

Si se quisiera seleccionar un subconjunto de atributos del DataFrame se podría hacer:

In [17]:
#diabetes_data.loc[:, ['Age', 'BMI']]
diabetes_data.loc[:, ['Age', 'Pregnancies', 'BMI']]

Unnamed: 0,Age,Pregnancies,BMI
0,50,6,33.6
1,31,1,26.6
2,32,8,23.3
3,21,1,28.1
4,33,0,43.1
...,...,...,...
763,63,10,32.9
764,27,2,36.8
765,30,5,26.2
766,47,1,30.1


Sin embargo este método en versiones recientes de Pandas falla en caso que algunas de las columnas elegidas tengan valores faltantes. En ese caso se recomienda usar el método reindex:


In [18]:
diabetes_data.reindex(columns = ['Age', 'Pregnancies', 'BMI'])


Unnamed: 0,Age,Pregnancies,BMI
0,50,6,33.6
1,31,1,26.6
2,32,8,23.3
3,21,1,28.1
4,33,0,43.1
...,...,...,...
763,63,10,32.9
764,27,2,36.8
765,30,5,26.2
766,47,1,30.1


Al  momento de optar entre *loc* e *iloc* se debe saber que ambos métodos tienen esquemas de indexado diferentes.
iloc utiliza el esquema de indexado de la *stdlib* de Python, donde el primer elemento del rango está incluído y el último excluído. Por ejemplo 0:10 va a seleccionar entre 0, 1, ..., 9, mientras que iloc indexa de manera inclusiva y 0:10, es decir, los elementos 0, 1, ..., 10.

Esa diferencia resulta particularmente confusa cuando el índice del DataFrame es una lista numérica simple, ej: 0, 1, ..., 1000. En ese caso df.iloc [0:1000] devolverá 1000 elementos, mientras que df.loc [0:1000] devolverá 1001.

### Selección condicional

Es posible aprovechar la funcionalidad de *loc* para filtrar los datos, seleccionando los casos que se correspondan con una condición específica, por ejemplo personas de más de 50 años:

In [19]:
diabetes_data.loc[diabetes_data.Age > 50]

Unnamed: 0,Pregnancies,Glucose,BloodPressure,SkinThickness,Insulin,BMI,DiabetesPedigreeFunction,Age,Outcome
8,2,197,70.0,45.0,543.0,30.5,0.158,53,1
9,8,125,96.0,,,,0.232,54,1
12,10,139,80.0,,,27.1,1.441,57,0
13,1,189,60.0,23.0,846.0,30.1,0.398,59,1
14,5,166,72.0,19.0,175.0,25.8,0.587,51,1
...,...,...,...,...,...,...,...,...,...
719,5,97,76.0,27.0,0.0,35.6,0.378,52,1
734,2,105,75.0,0.0,0.0,23.3,0.560,53,0
757,0,123,72.0,0.0,0.0,36.3,0.258,52,1
759,6,190,92.0,0.0,0.0,35.5,0.278,66,1


Si además quisiéramos excluir a todas aquellas personas que tuvieron menos de 4 embarazos se podría hacer:

In [20]:
diabetes_data.loc[(diabetes_data.Age > 50) & (diabetes_data.Pregnancies >= 4)]

Unnamed: 0,Pregnancies,Glucose,BloodPressure,SkinThickness,Insulin,BMI,DiabetesPedigreeFunction,Age,Outcome
9,8,125,96.0,,,,0.232,54,1
12,10,139,80.0,,,27.1,1.441,57,0
14,5,166,72.0,19.0,175.0,25.8,0.587,51,1
24,11,143,94.0,33.0,146.0,36.6,0.254,51,1
28,13,145,82.0,19.0,110.0,22.2,0.245,57,0
...,...,...,...,...,...,...,...,...,...
684,5,136,82.0,0.0,0.0,0.0,0.640,69,0
717,10,94,72.0,18.0,0.0,23.1,0.595,56,0
719,5,97,76.0,27.0,0.0,35.6,0.378,52,1
759,6,190,92.0,0.0,0.0,35.5,0.278,66,1


Pandas viene con algunos selectores condicionales incorporados. Vamos a ver dos de ellos

El primero es *isin*, que permite seleccionar datos cuyo valor "está en" una lista de valores. Por ejemplo, se puede seleccionar los registros de pacientes con 3 o 4 embarazos: 


In [21]:
diabetes_data.loc[diabetes_data.Pregnancies.isin([3, 4])]

Unnamed: 0,Pregnancies,Glucose,BloodPressure,SkinThickness,Insulin,BMI,DiabetesPedigreeFunction,Age,Outcome
6,3,78,50.0,32.0,88.0,31.0,0.248,26,1
10,4,110,92.0,,,37.6,0.191,30,0
20,3,126,88.0,41.0,235.0,39.3,0.704,27,0
31,3,158,76.0,36.0,245.0,31.6,0.851,28,1
32,3,88,58.0,11.0,54.0,24.8,0.267,22,0
...,...,...,...,...,...,...,...,...,...
735,4,95,60.0,32.0,0.0,35.4,0.284,28,0
741,3,102,44.0,20.0,94.0,30.8,0.400,26,0
748,3,187,70.0,22.0,200.0,36.4,0.408,36,1
750,4,136,70.0,0.0,0.0,31.2,1.182,22,1


O entre 3 y 6 embarazos

El segundo es *isnull* (y su complemento *notnull*), que permiten recuperar valores que están (o no están) vacíos (NaN). Por ejemplo, para filtrar los casos que no se conozca la presión arterial haríamos:

In [22]:
diabetes_data.loc[diabetes_data.BloodPressure.isnull()]

Unnamed: 0,Pregnancies,Glucose,BloodPressure,SkinThickness,Insulin,BMI,DiabetesPedigreeFunction,Age,Outcome
7,10,115,,,,35.3,0.134,29,0


### Asignación

Habiendo visto los modos de indexación, la asignación de valores es sencilla.
Por ejemplo se puede asignar un valor constante de la siguiente forma:

In [23]:
diabetes_data.loc[(diabetes_data.Pregnancies >= 2)] = 2
diabetes_data.loc[(diabetes_data.Pregnancies == 1)] = 1
diabetes_data.loc[(diabetes_data.Pregnancies < 1)] = 0
diabetes_data['Pregnancies']

0      2
1      1
2      2
3      1
4      0
      ..
763    2
764    2
765    2
766    1
767    1
Name: Pregnancies, Length: 768, dtype: int64

O mediante un iterable de valores:

In [24]:
diabetes_data['index_backwards'] = range(len(diabetes_data), 0, -1)
diabetes_data['index_backwards']

0      768
1      767
2      766
3      765
4      764
      ... 
763      5
764      4
765      3
766      2
767      1
Name: index_backwards, Length: 768, dtype: int32

### Manipulación de datos

Pandas presenta múltiples métodos para reestructurar datos contenidos en DataFrames.

Por ejemplo, si quisiéramos eliminar una columna que no resulte de interés para el análisis, podríamos usar el indexado como se mostró previamente. Otra opción es emplear el método drop: 

In [25]:
diabetes_data.drop?
diabetes_data




Unnamed: 0,Pregnancies,Glucose,BloodPressure,SkinThickness,Insulin,BMI,DiabetesPedigreeFunction,Age,Outcome,index_backwards
0,2,2,2.0,2.0,2.0,2.0,2.0,2,2,768
1,1,1,1.0,1.0,1.0,1.0,1.0,1,1,767
2,2,2,2.0,2.0,2.0,2.0,2.0,2,2,766
3,1,1,1.0,1.0,1.0,1.0,1.0,1,1,765
4,0,0,0.0,0.0,0.0,0.0,0.0,0,0,764
...,...,...,...,...,...,...,...,...,...,...
763,2,2,2.0,2.0,2.0,2.0,2.0,2,2,5
764,2,2,2.0,2.0,2.0,2.0,2.0,2,2,4
765,2,2,2.0,2.0,2.0,2.0,2.0,2,2,3
766,1,1,1.0,1.0,1.0,1.0,1.0,1,1,2


In [26]:
diabetes_data.drop(columns=['SkinThickness'], axis=1, inplace= True)
diabetes_data.head(10)


Unnamed: 0,Pregnancies,Glucose,BloodPressure,Insulin,BMI,DiabetesPedigreeFunction,Age,Outcome,index_backwards
0,2,2,2.0,2.0,2.0,2.0,2,2,768
1,1,1,1.0,1.0,1.0,1.0,1,1,767
2,2,2,2.0,2.0,2.0,2.0,2,2,766
3,1,1,1.0,1.0,1.0,1.0,1,1,765
4,0,0,0.0,0.0,0.0,0.0,0,0,764
5,2,2,2.0,2.0,2.0,2.0,2,2,763
6,2,2,2.0,2.0,2.0,2.0,2,2,762
7,2,2,2.0,2.0,2.0,2.0,2,2,761
8,2,2,2.0,2.0,2.0,2.0,2,2,760
9,2,2,2.0,2.0,2.0,2.0,2,2,759


En la operación anterior se indicó como argumento la columna a remover, el parámetro axis indica si la operación se hace a nivel de filas (*axis=0*) o columnas, mientras que el parámetro inplace permite seleccionar si se quiere que la función devuelva una copia del DataFrame resultante (*inplace = false*), que es el valor por defecto, o que la operación se efectúe sobre el dato original.  