# Pre-procesamiento de datos con Pandas

Este tutorial es una adaptación al español de los materiales del curso [Quantitative Neuroscience](http://www.compneurosci.com/NSCI801.html) desarrollado por Gunnar Blohm y Joe Nashed en la [Universidad de Queens](https://www.queensu.ca/). 

## Arreglos

Para el manejo de datos cuantitativos Python cuenta con una estructura llamada `array` que está disponible en el paquete `NumPy`.  

Un array o arreglo se entiende como una matriz de elementos organizados en filas y columnas. 

### Crear una matriz NumPy

La forma más sencilla de crear un arreglo en Numpy es usar listas. Puedes convertir una lista de Python en un arreglo de numpy utilizando el objeto `np.array`.

Antes de hacerlo, debes importar el paquete usando la expresión `import`:

>import numpy as np

In [5]:
import numpy as np

myList = [1, 9, 8, 3]

numpy_array_from_list = np.array(myList)

print(numpy_array_from_list)
print(type(myList))
print(type(numpy_array_from_list))

[1 9 8 3]
<class 'list'>
<class 'numpy.ndarray'>


### Operaciones matemáticas en un arreglo 

Puedes realizar operaciones matemáticas como sumas, restas, divisiones y multiplicaciones en un arreglo. La sintaxis es el nombre de la matriz seguido de la operación (+, -, *, /) seguida del operando.

In [6]:
numpy_array_from_list + 10

array([11, 19, 18, 13])

### Forma del arreglo

Puedes comprobar la forma del arreglo llamando al objeto `shape` precedido por el nombre del arreglo. De la misma manera, puedes verificar su tipo con dtypes.

In [7]:
a = np.array([1, 2, 3])
print(a)
print(a.shape)
print(a.dtype)

[1 2 3]
(3,)
int64


### Arreglo de 2 dimensiones y Arreglo de 3 dimensiones

Puedes agregar una dimensión incorporando una coma "," al momento de definir el arreglo. Ten en cuenta que la expresión completa debe estar entre corchetes [].

In [9]:
# 2 dimensiones
d = np.array([[7, 8, 9], [10, 11, 12]])
print(d)
print(d.shape)

[[ 7  8  9]
 [10 11 12]]
(2, 3)


In [77]:
# 3 dimensiones
d = np.array([[[1, 2, 3], [4, 5, 6]], [[7, 8, 9], [10, 11, 12]]])
print(d)
print(d.shape)

[[[ 1  2  3]
  [ 4  5  6]]

 [[ 7  8  9]
  [10 11 12]]]
(2, 2, 3)


### ¿Qué es np.zeros y np.ones?

Puede crear un arreglo lleno de ceros o unos usando los comandos np.zeros y np.ones respectivamente.

In [10]:
# unos
A = np.ones((2, 3))
print(A)
# ceros
B = np.zeros((3, 4))
print(B)

[[1. 1. 1.]
 [1. 1. 1.]]
[[0. 0. 0. 0.]
 [0. 0. 0. 0.]
 [0. 0. 0. 0.]]


### Cambiar la forma de los datos

En algunas ocasiones, es necesario cambiar la forma de los datos de ancho a largo. Puedes utilizar la función de `reshape` para esto:

In [14]:
e = np.array([(1, 2, 3), (4, 5, 6)])
print(e)
e.reshape(3, 2)

[[1 2 3]
 [4 5 6]]


array([[1, 2],
       [3, 4],
       [5, 6]])

### ¡EXTRAER INFORMACIÓN DE ARREGLOS ES BÁSICAMENTE ES IGUAL QUE EN LAS LISTAS!

Ten en cuenta que al tratar con más de una dimensión, debes considerar un índice para cada dimensión. 

Por ejemplo, para un arreglo de 2 dimensiones, se contará con un índice para las filas y otro para las columnas. Siempre en ese orden. 

Veamos un ejemplo:

In [27]:
print(e)

print(e[0])
print(e[1])

[[1 2 3]
 [4 5 6]]
[1 2 3]
[4 5 6]


In [30]:
print(e)

print(e[:, 0])
print(e[:, 1])
print(e[:, 2])

[[1 2 3]
 [4 5 6]]
[1 4]
[2 5]
[3 6]


In [37]:
print(e)

print(e[0, 0])
print(e[0, 1])
print(e[1, 1])

[[1 2 3]
 [4 5 6]]
5


La diferencia clave entre un arreglo y una lista es que los arreglos están diseñadas para manejar operaciones vectorizadas, mientras que una lista de Python no lo está.

Eso significa que **si aplicas una función, se realiza en cada elemento del arreglo, en lugar de en todo el objeto de la matriz**.

Supongamos que desea agregar el número 2 a cada elemento de la lista. La forma intuitiva de hacerlo es algo como esto:

In [39]:
# e es un arreglo definido previamente
D = e + 2
print(D)

[[3 4 5]
 [6 7 8]]


In [47]:
# odd es una lista
odd = [1, 3, 5]
# odd + 2  # esta operación genera un error

## Dataframes

### ¿Qué son los DataFrames de Pandas?

Aquellos que están familiarizados con R conocen los DataFrames como una forma de almacenar datos en cuadrículas rectangulares que pueden visualizarse fácilmente. Cada fila de estas cuadrículas corresponde a medidas o valores de una instancia, mientras que cada columna es un vector que contiene datos para una variable específica. 

Se trata de un set de datos organizado en forma tabular, tal como los que hemos trabajado al momento de analizar una base de datos usando los paquetes estadísticos tradicionales. Esto significa que las filas de DataFrame no necesitan contener, pero pueden contener, el mismo tipo de valores: pueden ser numéricos, de caracteres, lógicos, etc.

### Creando DataFrames

Obviamente, hacer tus DataFrames es tu primer paso en casi cualquier cosa que quieras hacer cuando se trata de manipular datos en Python. A veces, querrás comenzar desde cero, pero también puedes convertir otras estructuras de datos, como listas o arreglos de NumPy, a Pandas DataFrames. Veamos un ejemplo:

In [48]:
import pandas as pd

data = np.array([[1, 2], [3, 4]])
col = ["Col1", "Col2"]
idx = ["Primero", "Segundo"]

df = pd.DataFrame(data=data, columns=col, index=idx)

print(df)

         Col1  Col2
Primero     1     2
Segundo     3     4


### Operaciones fundamentales de DataFrame

Ahora que has colocado tus datos en una estructura Pandas DataFrame más conveniente, ¡es hora de empezar a trabajar! Esta primera sección te guiará a través de los primeros pasos para trabajar con DataFrames en Python. Cubrirá las operaciones básicas que puedes realizar en tu DataFrame recién creado: agregar, seleccionar, eliminar, renombrar, … ¡Lo que sea!

#### Seleccionar un índice o columna

In [50]:
# Using `iloc[]`
print("usando iloc: ", df.iloc[0][0])

# Using `loc[]`
print("usando loc: ", df.loc["Primero"]["Col2"])

# Using `at[]`
print("usando at: ", df.at["Primero", "Col2"])

# Using `iat[]`
print("usando iat: ", df.iat[0, 0])

usando iloc:  1
usando loc:  2
usando at:  2
usando iat:  1


In [52]:
# The most common for columns
print(df["Col1"])
print(df["Col2"])

Primero    1
Segundo    3
Name: Col1, dtype: int64
Primero    2
Segundo    4
Name: Col2, dtype: int64


#### ¿Cómo seleccionamos solo los datos, las columnas o el índice?

In [58]:
# get values
vals = df.values
print("estos son los valores", vals)

# get columns
cls = df.columns.values
print("estos son los valores de las columnas ", cls)

# get columns
idx = df.index.values
print("estos son los valores de los índices", idx)

estos son los valores [[1 2]
 [3 4]]
estos son los valores de las columnas  ['Col1' 'Col2']
estos son los valores de los índices ['Primero' 'Segundo']


¡Desde aquí son posibles todas las mismas operaciones realizadas en listas y matrices!

### Importar datos desde archivos externos

Con Pandas tenemos la posibilidad de importar archivos provenientes de otras plataformas como Microsoft Excel o SPSS con las que se opera en el flujo cotidiano de una investigación. Para ello contamos una familia de funciones dedicadas que se llaman `read`.

#### Archivos CSV

Partamos por el caso más simple: los archivos CSV.

In [60]:
sw = pd.read_csv(
    "https://raw.githubusercontent.com/gastonstat/matrix4sl/master/data/starwars.csv"
)
sw

Unnamed: 0,name,gender,height,weight,eyecolor,haircolor,skincolor,homeland,born,died,jedi,species,weapon
0,Anakin Skywalker,male,1.88,84.0,blue,blond,fair,Tatooine,41.9BBY,4ABY,yes_jedi,human,lightsaber
1,Padme Amidala,female,1.65,45.0,brown,brown,light,Naboo,46BBY,19BBY,no_jedi,human,unarmed
2,Luke Skywalker,male,1.72,77.0,blue,blond,fair,Tatooine,19BBY,unk_died,yes_jedi,human,lightsaber
3,Leia Organa,female,1.5,49.0,brown,brown,light,Alderaan,19BBY,unk_died,no_jedi,human,blaster
4,Qui-Gon Jinn,male,1.93,88.5,blue,brown,light,unk_planet,92BBY,32BBY,yes_jedi,human,lightsaber
5,Obi-Wan Kenobi,male,1.82,77.0,bluegray,auburn,fair,Stewjon,57BBY,0BBY,yes_jedi,human,lightsaber
6,Han Solo,male,1.8,80.0,brown,brown,light,Corellia,29BBY,unk_died,no_jedi,human,blaster
7,Sheev Palpatine,male,1.73,75.0,blue,red,pale,Naboo,82BBY,10ABY,no_jedi,human,force-lightning
8,R2-D2,male,0.96,32.0,,,,Naboo,33BBY,unk_died,no_jedi,droid,unarmed
9,C-3PO,male,1.67,75.0,,,,Tatooine,112BBY,3ABY,no_jedi,droid,unarmed


En caso queramos visualizar solo las primeras entradas de nuestra base de datos, podemos utilizar el método `head()`:

In [64]:
sw.head(5)

Unnamed: 0,name,gender,height,weight,eyecolor,haircolor,skincolor,homeland,born,died,jedi,species,weapon
0,Anakin Skywalker,male,1.88,84.0,blue,blond,fair,Tatooine,41.9BBY,4ABY,yes_jedi,human,lightsaber
1,Padme Amidala,female,1.65,45.0,brown,brown,light,Naboo,46BBY,19BBY,no_jedi,human,unarmed
2,Luke Skywalker,male,1.72,77.0,blue,blond,fair,Tatooine,19BBY,unk_died,yes_jedi,human,lightsaber
3,Leia Organa,female,1.5,49.0,brown,brown,light,Alderaan,19BBY,unk_died,no_jedi,human,blaster
4,Qui-Gon Jinn,male,1.93,88.5,blue,brown,light,unk_planet,92BBY,32BBY,yes_jedi,human,lightsaber


Puede ocurrir que al momento de importar los datos, necesites especificar el tipo de delimitador:

In [91]:
davis_data = pd.read_csv(
    "https://socialsciences.mcmaster.ca/jfox/Books/Applied-Regression-3E/datasets/Davis.txt",
    sep=r"\s{1,}",
    engine="python",
)
davis_data.head()

Unnamed: 0,sex,weight,height,reportedWeight,reportedHeight
1,M,77,182,77.0,180.0
2,F,58,161,51.0,159.0
3,F,53,161,54.0,158.0
4,M,68,177,70.0,175.0
5,F,59,157,59.0,155.0


Puede que en algunos casos sea necesario especificar el signo que se utiliza para separar los decimales. En ese caso, se puede añadir el argumento `decimal` al método `read_csv`.

#### Archivos de Microsoft Excel

De manera similar, podemos emplear la función dedicada:

In [69]:
robot_data = pd.read_excel(
    "https://github.com/renatoparedes/IntroPythonInvestigacionPsicologia/raw/master/AnalisisdeDatosCuantitativos/robot_data.xlsx"
)
robot_data.head()

Unnamed: 0,Participante,Sexo,Edad,Ocupacion,Va_Waving,Va_Pointing,Va_Negacion,Va_Explicar,Va_Tristeza,Va_Nodding,...,Int_Nodding,Atr_Velocidad,Atr_Interes,Atr_Expresiv,Atr_Entendib,GS_ANTRO,GS_ANIM,GS_LIKEAB,GS_INTELL,GS_SAFETY
0,1,1,﻿1,1,4,1,2,2,2,3,...,1,4,2,5,6,2.8,3.333333,4.2,4.4,2.333333
1,2,1,﻿1,1,4,3,2,5,3,4,...,1,4,5,3,3,2.6,2.833333,3.2,3.2,2.333333
2,3,1,﻿1,1,5,2,1,3,2,3,...,1,3,3,3,5,2.8,2.666667,3.0,3.2,3.0
3,4,1,﻿2,3,5,5,5,5,4,4,...,1,6,6,6,6,4.0,3.333333,4.6,3.0,2.666667
4,5,1,﻿2,3,5,5,5,5,4,4,...,1,6,6,6,6,4.0,3.333333,4.6,3.0,2.666667


#### Archivos de IBM SPSS

Los archivos de SPSS pueden ser leidos por Pandas, pero solo si estos se encuentran en el repositorio local (no pueden emplearse URLs como en los casos anteriores). 

Al trabajar con Google Colab, hace falta cargar el archivo deseado a la nube. Además se requiere instalar manualmente la librería `pyreadstat`.

In [93]:
#!pip install pyreadstat

Veamos un ejemplo:

> Requiere cargar el archivo ["euthan.sav"](https://github.com/renatoparedes/EstadisticaYPsicologiaMatematica/raw/main/AFE/euthan.sav) en el repositorio local. 

In [65]:
euthan = pd.read_spss("euthan.sav")
euthan.head()

Unnamed: 0,e1,e2,e3,e4,e5,e6,e7,e8,e9,e10,e11,e12
0,5.0,5.0,3.0,4.0,5.0,5.0,4.0,4.0,5.0,5.0,3.0,3.0
1,3.0,4.0,2.0,3.0,4.0,4.0,3.0,3.0,4.0,2.0,2.0,3.0
2,5.0,5.0,1.0,4.0,5.0,5.0,4.0,4.0,5.0,5.0,5.0,4.0
3,4.0,5.0,1.0,4.0,5.0,5.0,5.0,5.0,3.0,5.0,3.0,3.0
4,3.0,4.0,4.0,3.0,3.0,4.0,4.0,4.0,3.0,4.0,3.0,4.0


Pandas cuenta con varios otros métodos para leer tipos especiales de archivos, los cuales pueden encontrarse en la [documentación](https://pandas.pydata.org/pandas-docs/stable/reference/io.html). 

Lo sugerido es utilizar read_csv siempre que sea posible. Es decir, siempre que podamos acceder al archivo original con el software de origen y exportarlo en formato .csv.

### Reorganización de datos

Muchas veces contamos con datos que necesitamos reordenar para hacer los análisis estadísticos que deseamos. 

Las operaciones más comunes suelen ser transponer filas y columnas y generar agrupamientos.


#### Unpivot

Consiste en pasar de formato ancho a formato largo. Dicho de otro modo, pasar de acumular la información en varias columnas a varias filas.

Veamos un ejemplo:

In [70]:
intent = robot_data[
    [
        "Participante",
        "Int_Waving",
        "Int_Pointing",
        "Int_Negacion",
        "Int_Explicar",
        "Int_Tristeza",
        "Int_Nodding",
    ]
]
intent.head()

Unnamed: 0,Participante,Int_Waving,Int_Pointing,Int_Negacion,Int_Explicar,Int_Tristeza,Int_Nodding
0,1,1,1,1,1,1,1
1,2,1,0,0,1,1,1
2,3,1,0,1,1,1,1
3,4,1,1,1,1,1,1
4,5,1,1,1,1,1,1


En esta tabla contamos con participantes que fueron evaluados en 5 condiciones experimentales, en las que se registraron respuestas de 0 y 1 (errores y aciertos). 

Podemos pasar de este formato ancho a un formato a largo empleando el método `melt`:

In [76]:
melt_intent = pd.melt(
    intent, value_name="Guess", var_name="Gesture", id_vars="Participante"
)
melt_intent

Unnamed: 0,Participante,Gesture,Guess
0,1,Int_Waving,1
1,2,Int_Waving,1
2,3,Int_Waving,1
3,4,Int_Waving,1
4,5,Int_Waving,1
...,...,...,...
199,30,Int_Nodding,0
200,31,Int_Nodding,1
201,32,Int_Nodding,1
202,33,Int_Nodding,1


Este método nos permite tomar los valores de las columnas y representarlos en una sola denominada `Guess`. Para ello, empareja cada valor de esta nueva columna con los de la variable `Gesture`, la cual registra los nombres de las condiciones experimentales. 

Para identificar a cada participante, el método considera el argumento `id_vars`.  

### Pivot

Podemos hacer el proceso inverso: transformar los datos de formato largo a formato ancho. Es decir, pasar de acumular los datos en varias filas a varias columnas. 

Para pasar a formato ancho, podemos emplear el método `pivot`:

In [79]:
new_intent = pd.pivot(
    melt_intent, columns="Gesture", values="Guess", index="Participante"
)
new_intent

Gesture,Int_Explicar,Int_Negacion,Int_Nodding,Int_Pointing,Int_Tristeza,Int_Waving
Participante,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
1,1,1,1,1,1,1
2,1,0,1,0,1,1
3,1,1,1,0,1,1
4,1,1,1,1,1,1
5,1,1,1,1,1,1
6,1,1,1,1,1,1
7,1,1,1,1,1,1
8,1,1,1,1,1,1
9,1,1,1,1,1,1
10,0,1,1,0,1,1


### Group by

Una operación groupby implica una combinación de división del objeto, aplicación de una función y combinación de los resultados. Esto puede utilizarse para agrupar grandes cantidades de datos y calcular operaciones sobre estos grupos.

Para ilustrar, retomemos nuestro ejemplo de Star Wars:

In [98]:
sw

Unnamed: 0,name,gender,height,weight,eyecolor,haircolor,skincolor,homeland,born,died,jedi,species,weapon
0,Anakin Skywalker,male,1.88,84.0,blue,blond,fair,Tatooine,41.9BBY,4ABY,yes_jedi,human,lightsaber
1,Padme Amidala,female,1.65,45.0,brown,brown,light,Naboo,46BBY,19BBY,no_jedi,human,unarmed
2,Luke Skywalker,male,1.72,77.0,blue,blond,fair,Tatooine,19BBY,unk_died,yes_jedi,human,lightsaber
3,Leia Organa,female,1.5,49.0,brown,brown,light,Alderaan,19BBY,unk_died,no_jedi,human,blaster
4,Qui-Gon Jinn,male,1.93,88.5,blue,brown,light,unk_planet,92BBY,32BBY,yes_jedi,human,lightsaber
5,Obi-Wan Kenobi,male,1.82,77.0,bluegray,auburn,fair,Stewjon,57BBY,0BBY,yes_jedi,human,lightsaber
6,Han Solo,male,1.8,80.0,brown,brown,light,Corellia,29BBY,unk_died,no_jedi,human,blaster
7,Sheev Palpatine,male,1.73,75.0,blue,red,pale,Naboo,82BBY,10ABY,no_jedi,human,force-lightning
8,R2-D2,male,0.96,32.0,,,,Naboo,33BBY,unk_died,no_jedi,droid,unarmed
9,C-3PO,male,1.67,75.0,,,,Tatooine,112BBY,3ABY,no_jedi,droid,unarmed


Podemos agrupar a los personajes de acuerdo a sus características como género, especie y arma:

In [80]:
sw.groupby("gender").size()

gender
female     2
male      18
dtype: int64

In [85]:
sw.groupby("species").size()

species
dathomirian     1
droid           2
ewok            1
human          12
hutt            1
kaleesh         1
wookiee         1
yoda            1
dtype: int64

In [101]:
sw.groupby("weapon").size()

weapon
blaster            5
bowcaster          1
force-lightning    1
lightsaber         7
slugthrower        1
spear              1
unarmed            4
dtype: int64

En todos estos ejemplos, hemos optado por devolver el tamaño de cada grupo. Para ello se agregó el método `size()` al finalizar la llamada al método `groupby`.

Una vez que tenemos los datos agrupados podemos aplicar otro tipo de operaciones, tales como sumas, promedios, varianzas, entre otras. Los resultados dependerán del tipo de variable con el que se cuente. 

#### Tablas de contingencia

Una operación asociada es la creación de tablas de contingencia, muy empleadas en la estadística de variables categóricas. 

Para calcular una tabla de contingencia, podemos partir de un Data Frame en formato largo y aplicar el método `crosstab`.

Veamos un ejemplo:

In [102]:
melt_intent

Unnamed: 0,Participante,Gesture,Guess
0,1,Int_Waving,1
1,2,Int_Waving,1
2,3,Int_Waving,1
3,4,Int_Waving,1
4,5,Int_Waving,1
...,...,...,...
199,30,Int_Nodding,0
200,31,Int_Nodding,1
201,32,Int_Nodding,1
202,33,Int_Nodding,1


In [103]:
contingency = pd.crosstab(melt_intent["Gesture"], m_intent["Guess"])
contingency

Guess,0,1
Gesture,Unnamed: 1_level_1,Unnamed: 2_level_1
Int_Explicar,4,30
Int_Negacion,4,30
Int_Nodding,1,33
Int_Pointing,11,23
Int_Tristeza,15,19
Int_Waving,0,34


Para saber más sobre pandas, puedes revisar la [documentación](https://pandas.pydata.org/pandas-docs/stable/reference/general_functions.html) disponible en internet. 

Además, puedes revisar el "Pandas Cheat Sheet" disponible en PAIDEIA.