### Pre-procesamiento de datos (Pre-processing data)
Tambien conocido como  Data Cleaning o Data Cleansing.

Este proceso involucra detectar, eliminar, corregir o transformar cualquier anomalia, perturbacion o irrelevancia en los datos.


## Arreglos
Para el manejo de datos cuantitativos Python cuenta con una estructura llamada `array` que está disponible en el paquete `NumPy`.  

Un array o arreglo se entiende como una matriz de elementos organizados en filas y columnas. 

### Crear una matriz NumPy

La forma más sencilla de crear un arreglo en Numpy es usar listas. Puedes convertir una lista de Python en un arreglo de numpy utilizando el objeto `np.array`.

Antes de hacerlo, debes importar el paquete usando la expresión `import`:

>import numpy as np

In [1]:
import numpy as np
myList = [1,5,3,2]
numpy_array_from_list = np.array(myList)
print(numpy_array_from_list)
print(type(myList))
print(type(numpy_array_from_list))

[1 5 3 2]
<class 'list'>
<class 'numpy.ndarray'>


## 

### operaciones matematicas en un arreglo

Se puede realizar operaciones matematicas como sumas, restas, divisiones y multiplicaciones en un arreglo. La sintaxis es el nombre de la matriz seguido de la operacion (+, -, *, /) seguidas del operado

In [2]:
numpy_array_from_list + 100

array([101, 105, 103, 102])

### Forma del arraglo
Puedes comprobar la forma del arreglo llamado al objeto `shape` precedido por el nombre del arreglo. De la misma mnera, puedes verificar su tipo con dtypes.

El tipo indicado al usar el metodo `dtype` esta dado por los datos dentro de la matriz, si todos son enteros la repuesta sera int64 pero con solo uno que sea float por ejemplo el tipo de dato de la matriz sera float64, el codigo del tipo cambia tomando en cuenta todos los tipos.

In [7]:
a = np.array([1,2,3,1.33,"?"])
print(a)
print(a.shape)
print(a.dtype)

['1' '2' '3' '1.33' '?']
(5,)
<U32


In [8]:
d = np.array([[1,2,3],[10,11,12]])
print(d)
print(d.shape)

[[ 1  2  3]
 [10 11 12]]
(2, 3)


### np.zeros y np.ones
Puedes crear un arreglo lleno de ceros o unos usando los comandos np.zeros y np.ones respectivamente.

In [10]:
# unos
A = np.ones((2,3))
print(A)
# ceros
B = np.zeros((3,4))
print(B)

[[1. 1. 1.]
 [1. 1. 1.]]
[[0. 0. 0. 0.]
 [0. 0. 0. 0.]
 [0. 0. 0. 0.]]


### Cambiar la forma de los datos
El algunos ocasiones, es necesario cambiar la forma de los datos de ancho a largo. Puedes utilizar la funcion `reshape` para esto:

In [11]:
e = np.array([(1,2,3),(4,5,6)])
print(e)
e.reshape(3,2)

[[1 2 3]
 [4 5 6]]


array([[1, 2],
       [3, 4],
       [5, 6]])

### Extraer informacion de arreglos es basicamente igual que en las listas
Al tratar con mas de una dimension, se debe considerar un indice para cada dimension


In [15]:
print("matris completa ")
print(e)
print("elementos")
print(e[0])
print(e[1])

matris completa 
[[1 2 3]
 [4 5 6]]
elementos
[1 2 3]
[4 5 6]


In [16]:
print("matris completa ")
print(e)
print("elementos")
print(e[:, 0])
print(e[:, 1])
print(e[:, 2])

matris completa 
[[1 2 3]
 [4 5 6]]
elementos
[1 4]
[2 5]
[3 6]


In [17]:
print("matris completa ")
print(e)
print("elementos")
print(e[0,0])
print(e[0,1])
print(e[1,1])

matris completa 
[[1 2 3]
 [4 5 6]]
elementos
1
2
5


La diferencia clave entre un arreglo y una lista es que los arreglos estan diseñados para mejar opearciones vectoriales, mientras que una lista de Python no lo esta.

Esto significa que si aplicas una funcion, se realiza en cada elemento del arreglo, en luga de en todo el objeto de la matriz.


In [18]:
# e es un arreglo definido previamente
D = e + 2
print(D)
  

[[3 4 5]
 [6 7 8]]


In [19]:
# odd es una lista
dd = [1,3,5]
# odd + 2 esta operacion genera un error

## Dataframe

Que son los DataFrames de Pandas?

Los DataFrames son una forma de almacenar datos en cuadriculas rectangulares que pueden visualizarse facilmente. Cada fila de estas cuadriculas corresponde a medidas o valores de una instancia, mientras que cada columna es un vector que contiene datos para una variable especifica.

Se trata de un set de dtatos organizado en forma tabular, esto significa que las filas de DataFrame no necesitn contener, pero pueden contener, el mismo tipo de valores: pueden ser numericos, de caracteres, logicos, etc.

In [6]:
import pandas as pd
import numpy as np
data = np.array([[1,2],[3,4]])
col = ["Col1", "Col2"]
idx = ["Primero","Segundo"]
df = pd.DataFrame(data=data, columns=col, index=idx)
print(df)

         Col1  Col2
Primero     1     2
Segundo     3     4


## Operaciones fundamentales de DataFrame
Operaciones basicas en un DataFrame: agregar, seleccionar, elminar, renombrar, etc

In [7]:
# Using iloc[]
print("usando iloc", df.iloc[0][0])
#usando loc[]
print("usando loc", df.loc["Primero"]["Col2"])
# Using at[]
print("usando at: ", df.at["Primero","Col2"])
# using iat[]
print("Usando iat", df.iat[0,0])

usando iloc 1
usando loc 2
usando at:  2
Usando iat 1


  print("usando iloc", df.iloc[0][0])


In [8]:
# The most common for columns
print(df["Col1"])
print(df["Col2"])

Primero    1
Segundo    3
Name: Col1, dtype: int64
Primero    2
Segundo    4
Name: Col2, dtype: int64


In [9]:
# get values
vals = df.values
print("estos son los valores", vals)
# get columns
cls = df.columns.values
print("estos son los valores de las columnas", cls)
# get columns
idx = df.index.values
print("estos son los valores de los indices ", idx)

estos son los valores [[1 2]
 [3 4]]
estos son los valores de las columnas ['Col1' 'Col2']
estos son los valores de los indices  ['Primero' 'Segundo']


## Importar datos desde archivos externos
Con Pandas podemos importar archivos provenientes de otras plataformas como Microsoft Excel o SPSS con las que se opera en el flujo cotidiano de una investigacion 

In [2]:
import pandas as pd
sw = pd.read_csv(
    "https://raw.githubusercontent.com/gastonstat/matrix4sl/master/data/starwars.csv"
)
sw

Unnamed: 0,name,gender,height,weight,eyecolor,haircolor,skincolor,homeland,born,died,jedi,species,weapon
0,Anakin Skywalker,male,1.88,84.0,blue,blond,fair,Tatooine,41.9BBY,4ABY,yes_jedi,human,lightsaber
1,Padme Amidala,female,1.65,45.0,brown,brown,light,Naboo,46BBY,19BBY,no_jedi,human,unarmed
2,Luke Skywalker,male,1.72,77.0,blue,blond,fair,Tatooine,19BBY,unk_died,yes_jedi,human,lightsaber
3,Leia Organa,female,1.5,49.0,brown,brown,light,Alderaan,19BBY,unk_died,no_jedi,human,blaster
4,Qui-Gon Jinn,male,1.93,88.5,blue,brown,light,unk_planet,92BBY,32BBY,yes_jedi,human,lightsaber
5,Obi-Wan Kenobi,male,1.82,77.0,bluegray,auburn,fair,Stewjon,57BBY,0BBY,yes_jedi,human,lightsaber
6,Han Solo,male,1.8,80.0,brown,brown,light,Corellia,29BBY,unk_died,no_jedi,human,blaster
7,Sheev Palpatine,male,1.73,75.0,blue,red,pale,Naboo,82BBY,10ABY,no_jedi,human,force-lightning
8,R2-D2,male,0.96,32.0,,,,Naboo,33BBY,unk_died,no_jedi,droid,unarmed
9,C-3PO,male,1.67,75.0,,,,Tatooine,112BBY,3ABY,no_jedi,droid,unarmed


En caso de querer visualizar solo las primeras entradas de nuestra base de datos, podemos utilizar el metodo `head()`

In [3]:
sw.head(5)

Unnamed: 0,name,gender,height,weight,eyecolor,haircolor,skincolor,homeland,born,died,jedi,species,weapon
0,Anakin Skywalker,male,1.88,84.0,blue,blond,fair,Tatooine,41.9BBY,4ABY,yes_jedi,human,lightsaber
1,Padme Amidala,female,1.65,45.0,brown,brown,light,Naboo,46BBY,19BBY,no_jedi,human,unarmed
2,Luke Skywalker,male,1.72,77.0,blue,blond,fair,Tatooine,19BBY,unk_died,yes_jedi,human,lightsaber
3,Leia Organa,female,1.5,49.0,brown,brown,light,Alderaan,19BBY,unk_died,no_jedi,human,blaster
4,Qui-Gon Jinn,male,1.93,88.5,blue,brown,light,unk_planet,92BBY,32BBY,yes_jedi,human,lightsaber


para el caso en el que al momento de importar los datos, necesite  especificar el tipo de delimitados

In [None]:
davis_data = pd.read_csv(
    "https://socialsciences.mcmaster.ca/jfox/Books/Applied-Regression-3E/datasets/Davis.txt",
    sep=r"\s{1,}",
    engine="python",
)
davis_data.head()

Puede  que en algunos casos sea necesario especificar el signo que se utiliza para separar los decimales. En es caso, se puede añadir el argumento `decimal` al metodo `read_csv`

## Arvhicos de Microsoft Excel

In [None]:
robot_data = pd.read_excel(
    "https://github.com/renatoparedes/IntroPythonInvestigacionPsicologia/raw/master/AnalisisdeDatosCuantitativos/robot_data.xlsx"
)
robot_data.head()

## Archivos de IBM SPSS
Los archivos de SPSS pueden ser leido por pandas, pero solo si estos se encuentran en el repositorio local (no pueden emplearse URLs como en los casos anteriores)
Al trabajar con Google Clolab, hace falta cargar el archivo deseado a la nube. Ademas se requiere instalar manualmente la libreria `pyreadstat`

In [None]:
#! pip install pyreadstat
euthan = pd.read_spss("euthan.sav")
euthan.head()

## Reorganizacion de datos
Las operaciones mas comunes suelen ser transponer filas y columnas y generar agrupamientos

## Unpivot
Consiste en pasar de formato ancho a formato largo. Dicho de otro modo, pasar de acumular la informacion en varias columnas a varias filas.

In [None]:
intent = robot_data[
    [
        "Participante",
        "Int_Waving",
        "Int_Pointing",
        "Int_Negacion",
        "Int_Explicar",
        "Int_Tristeza",
        "Int_Nodding",
    ]
]
intent.head()

Podemos pasar de este formrato ancho a un formato a largo empleando el metodo `metl`

In [None]:
melt_intent = pd.melt(
    intent, value_name="Guess", var_name="Gesture", id_vars="Participante"
)
melt_intent

Este metodo nos permiet tomar los valores de las columnas y representarlos en una sola denominada `Guess`. Para ello, empareja cada valor de eseta nueva columna con los de la variable `Guesture`,  la cual registra los nombre delas condiciones experimentales.

Para identificar acada participante, el metodo considera el argumento `id_vars`.

## Pivot
Podemos hacer el proceso inverso: transformar los datos de formato largo a formato ancho. Es dicir, pasar de acumular los datos en varias filas a varias columnas.

Para pasar a formato ancho, podemmos emplear el metodo `pivot`

In [None]:
new_intent = pd.pivot(
    melt_intent, columns="Gesture", values="Guess", index="Participante"
)
new_intent

## Group by
Una operacion de groupby implica una combinacion de division del objeto, aplicacion de una funcion y combinacion de los resultados. Esto puede utilizarse para agrupar grandes cantidades de datos y culcular operaciones sobre estos grupos.

In [9]:
sw

Unnamed: 0,name,gender,height,weight,eyecolor,haircolor,skincolor,homeland,born,died,jedi,species,weapon
0,Anakin Skywalker,male,1.88,84.0,blue,blond,fair,Tatooine,41.9BBY,4ABY,yes_jedi,human,lightsaber
1,Padme Amidala,female,1.65,45.0,brown,brown,light,Naboo,46BBY,19BBY,no_jedi,human,unarmed
2,Luke Skywalker,male,1.72,77.0,blue,blond,fair,Tatooine,19BBY,unk_died,yes_jedi,human,lightsaber
3,Leia Organa,female,1.5,49.0,brown,brown,light,Alderaan,19BBY,unk_died,no_jedi,human,blaster
4,Qui-Gon Jinn,male,1.93,88.5,blue,brown,light,unk_planet,92BBY,32BBY,yes_jedi,human,lightsaber
5,Obi-Wan Kenobi,male,1.82,77.0,bluegray,auburn,fair,Stewjon,57BBY,0BBY,yes_jedi,human,lightsaber
6,Han Solo,male,1.8,80.0,brown,brown,light,Corellia,29BBY,unk_died,no_jedi,human,blaster
7,Sheev Palpatine,male,1.73,75.0,blue,red,pale,Naboo,82BBY,10ABY,no_jedi,human,force-lightning
8,R2-D2,male,0.96,32.0,,,,Naboo,33BBY,unk_died,no_jedi,droid,unarmed
9,C-3PO,male,1.67,75.0,,,,Tatooine,112BBY,3ABY,no_jedi,droid,unarmed


Podemos agrupar a los personajes de acuerdo a sus caracteristicas como genero, especie y arma

In [10]:
sw.groupby("gender").size()

gender
female     2
male      18
dtype: int64

In [11]:
sw.groupby("species").size()

species
dathomirian     1
droid           2
ewok            1
human          12
hutt            1
kaleesh         1
wookiee         1
yoda            1
dtype: int64

In [12]:
sw.groupby("weapon").size()

weapon
blaster            5
bowcaster          1
force-lightning    1
lightsaber         7
slugthrower        1
spear              1
unarmed            4
dtype: int64

En todos estos ejemplos, hemos optado por devolver el tamaño de cada grupo. Para ello se agrego el metodo `size()` al finalizar la llamada al metodo `groupby`

Una vez que tenemos los datos agrupados podemos aplicar otro tipo de operaciones, tales como sumas, promedios, varianzas, entre otras. Los resultados dependera del tipo de variable con el que se cuente.