# Data Wrangling - La cirugía de los datos

El **data wrangling**, a veces denominado **data munging**, es el proceso de transformar y mapear datos de un dataset *raw* (en bruto) en otro formato para adecuarlo darle utilidad para una variedad de propósitos posteriores, como el análisis. Un **data wrangler** es una persona que materializa estas operaciones de transformación.

El proceso puede incluir *munging*, visualización de datos, entrenamiento de un modelo estadístico, así como muchos otros usos potenciales. La oscilación de datos como proceso habitualmente sigue un conjunto de pasos generalizados que comienza por la extracción de datos en su forma "cruda" de la fuente de los datos, la división de los datos en bruto mediante algoritmos (por ejemplo, clasificación) o el análisis de los datos en estructuras de datos predefinidas, y finalmente, el almacenamiento del dataset o datasets resultantes en un sistema de almacenamiento para su uso futuro.

In [3]:
import pandas as pd
import os
os.getcwd()

'/Users/carlosdavila/Developer/Anaconda-projects/Curso-ml-python/notebooks'

In [4]:
coursepath = "../../../GitHub/python-ml-course/datasets"
mypath = "/Users/carlosdavila/Developer/Anaconda-projects/Curso-ml-python/datasets"
filename = "customer-churn-model/Customer Churn Model.txt"
fullpath = os.path.join(coursepath, filename)
data = pd.read_csv(fullpath)

In [5]:
data.head()

Unnamed: 0,State,Account Length,Area Code,Phone,Int'l Plan,VMail Plan,VMail Message,Day Mins,Day Calls,Day Charge,...,Eve Calls,Eve Charge,Night Mins,Night Calls,Night Charge,Intl Mins,Intl Calls,Intl Charge,CustServ Calls,Churn?
0,KS,128,415,382-4657,no,yes,25,265.1,110,45.07,...,99,16.78,244.7,91,11.01,10.0,3,2.7,1,False.
1,OH,107,415,371-7191,no,yes,26,161.6,123,27.47,...,103,16.62,254.4,103,11.45,13.7,3,3.7,1,False.
2,NJ,137,415,358-1921,no,no,0,243.4,114,41.38,...,110,10.3,162.6,104,7.32,12.2,5,3.29,0,False.
3,OH,84,408,375-9999,yes,no,0,299.4,71,50.9,...,88,5.26,196.9,89,8.86,6.6,7,1.78,2,False.
4,OK,75,415,330-6626,yes,no,0,166.7,113,28.34,...,122,12.61,186.9,121,8.41,10.1,3,2.73,3,False.


## Crear un subconjunto de datos

La siguiente operación servirá para saber la cantidad de filas que existen de una variable

In [6]:
account_length = data["Account Length"]

In [7]:
account_length.head()

0    128
1    107
2    137
3     84
4     75
Name: Account Length, dtype: int64

El objeto resultante es de tipo "series" (valores de una columna determinada)

In [8]:
type(account_length)

pandas.core.series.Series

Para extraer más de una columna empleamos dos `[[` de apertura y dos `]]` de cierre

In [9]:
subset = data[["Account Length", "Phone", "Eve Charge", "Day Calls"]]

In [10]:
subset.head()

Unnamed: 0,Account Length,Phone,Eve Charge,Day Calls
0,128,382-4657,16.78,110
1,107,371-7191,16.62,123
2,137,358-1921,10.3,114
3,84,375-9999,5.26,71
4,75,330-6626,12.61,113


En este caso obtendremos un objeto del tipo `DataFrame`.

In [11]:
type(subset)

pandas.core.frame.DataFrame

Podemos hacer lo mismo creando un objeto de tipo `list` (entre `[]`) para luego hacer referencia a esas variables de nuevo con `[]`, como se muestra a continuación

In [12]:
desired_columns = ["Account Length", "Phone", "Eve Charge", "Day Calls"]
subset = data[desired_columns]
subset.head()

Unnamed: 0,Account Length,Phone,Eve Charge,Day Calls
0,128,382-4657,16.78,110
1,107,371-7191,16.62,123
2,137,358-1921,10.3,114
3,84,375-9999,5.26,71
4,75,330-6626,12.61,113


In [13]:
type(desired_columns)

list

### Crear un subconjunto con `set`

Una forma sencilla de hacer el subconjunto de datos es mediante el constructor `set`, toma un único parámetro iterable (secuencia - "string", "tuple", etc; o colección - "set", "diccionario", etc.) que es convertido en un `set`

In [17]:
all_columns_list = data.columns.values.tolist()
a = set(desired_columns)
b = set(all_columns_list)
sublist = b-a
sublist = list(sublist)

### Crear un subconjunto con un bucle

Otra forma de hacer la selección es crear manualmente una lista de variables que no quiero, cuando el conjunto de datos que queremos es mayor que este último.

In [18]:
desired_columns = ["Account Length","VMail Message", "Day Calls"]
desired_columns

['Account Length', 'VMail Message', 'Day Calls']

In [20]:
all_columns_list = data.columns.values.tolist()
all_columns_list

['State',
 'Account Length',
 'Area Code',
 'Phone',
 "Int'l Plan",
 'VMail Plan',
 'VMail Message',
 'Day Mins',
 'Day Calls',
 'Day Charge',
 'Eve Mins',
 'Eve Calls',
 'Eve Charge',
 'Night Mins',
 'Night Calls',
 'Night Charge',
 'Intl Mins',
 'Intl Calls',
 'Intl Charge',
 'CustServ Calls',
 'Churn?']

Ahora, si quiero obtener la lista de variables que no deseo, cruzamos las dos listas anteirores con un bucle como se muestra a continuación

In [None]:
sublist = [x for x in all_columns_list if x not in desired_columns]
sublist

Y ahora comprobamos que podemos extrer el subset a partir de estas listas haciendo lo siguiente

In [None]:
subset = data[sublist]
subset.shape

Lo ideal será trabajar con estas herramientas y con el set de variables más pequeño, sobre todo para evitar errores de escritura en el nombre de variables, que puede hacernos perder mucho tiempo.

Podemos obtener lun rango de filas de nuestro dataset escribiendo el rango deseado entre `[]`, operando con `:`.

El límite inferior del rango apraecerá en el resultado, mientras que el límite superior no.

In [None]:
subset[1:25] # el rango podría ser p. ej. `10:35`

In [None]:
data[:8] # es lo mismo que data[1:8]

In [None]:
data[3330:] # toma desde el dato 3330 hasta el último

### Extraer subconjuntos mediante condiciones booleanas

Por ejemplo, para filtrar por "Day Mins" haremos lo siguiente

In [None]:
data1 = data[data["Day Mins"] > 300]
data1.shape

Nótese que `data["Day Mins"]`es un objeto de tipo `series`; y cuando operamos con este con `>300` (operador lógico), se transforma en un objeto con valores booleanos. Es decir, aquellos que cumplen la condición establecida y que, por tanto, tendrán valor `True`.

La condición de igualdad se establecerá con doble signo `==`.

In [None]:
# Filtrado de usuarios de Nueva York ("State" = "NY")
data2 = data[data["State"] == "NY"]
data2.shape # usando función shape para que nos de la dimensión del objeto resultante

Para concatenar condiciones booleanas emplearemos los operadores "AND", escrito como `&`; y "OR", que se escribe con `|`.

In [None]:
##AND>> Usuarios de NY y que hablen al día más de 300 minutos
data3 = data[(data["State"]=="NY") & (data["Day Mins"]>300)]
data3

Si queremos filtrar los usuarios que cumplan las condiciones anteriores de manera no excluyente usaremos `|`. Por la teoría de conjuntos y subconjuntos, la cantidad de filas deberá ser igual a `43 + 83 - 2 = 124`

In [None]:
##OR>> Usuarios que cumplan una condición o la otra de las anteriores
data4 = data[(data["Day Mins"]>300)|(data["State"]=="NY")]
data4.shape

También se puede filtrar con dos variables

In [None]:
# Usuarios que hacen más llamadas por la noche que por el día
data5 = data[data["Day Calls"] < data["Night Calls"]]
data5.shape

In [None]:
# Usuarios de OH que llamen igual o más de noche que de día
data6 = data[(data["State"]=="OH") & (data["Night Mins"]>=data["Day Mins"])]
data6.shape

## Filtrado por filas y columnas a la vez

In [None]:
## Minutos de día, de noche y Longitud de la cuenta de los primeros 50 individuos
desired_columns = ["Day Mins", "Night Mins", "Account Length"]
subset = data[desired_columns][:50]
# primer [] columnas y segundo filas
subset.shape # da 3 columnas y 50 filas

## Método `loc` y método `iloc`

Un método para llamar en un mismo corchete a las filas y las columnas. Este es `ix`, y se serpararán las filas y columnas (en ese orden) a la que queramos acceder por una coma. Es el origen de este tipo de sintaxis. Pero, a la hora de usarlo...

In [None]:
data.ix[2,4]

Python da un mensaje de error de tipo `deprecated`, que quiere decir que la sintaxis está obsoleta. 

En el mensaje de alerta se proponen las alternativas `loc`e `iloc`. Estos son los métodos desarrollados a partir de `ix`, y funcionan de manera similar.

In [None]:
data.iloc[1:10, 3:6] # filas 1-10 y columnas 3-6

Si quisiera acceder a todas las filas y a determinadas columnas, usaremos `:` para el eje del que queramos conocer todos los registros.

In [None]:
data.iloc[:,3:6].shape # Todas las filas para las columnas 3-6

In [None]:
data.iloc[1:10,:].shape # Las filas 0-9 para todas las columnas

Si quisieramos acceder a una lista no consecutiva de filas o columnas crearemos un array dentro de la sintaxis de `iloc` usando valores entre `[]` se parados por `,`.

In [None]:
data.iloc[1:10, [2,5,7]].shape # Filas 0-9 para las columnas 2, 5 y 7

También se puede acceder a las columnas mediante sus nombres. Para esto usaremos `loc`.

In [None]:
data.loc[[1,5,8,36], ["Area Code", "VMail Plan", "Day Mins"]]

Como se indica en el mensaje `deprecated` de antes, las sintaxis `loc` e `iloc` se diferencian en que la primera sirve para el indexado basado en **etiquetas** y la segunda para el indexado basado en **posiciones**.

## Crear una nueva variable

Podremos operar con distintas variables para crear nuevas columnas o variables. A continuación se muestra como hacerlo, creando las variables `Total Mins` y `Total Calls` como se muestra.

In [None]:
data["Total Mins"] = data["Day Mins"] + data["Night Mins"] + data["Eve Mins"]

In [None]:
data["Total Mins"].head()

In [None]:
data["Total Calls"] = data["Day Calls"] + data["Eve Calls"] + data["Night Calls"]
data["Total Calls"].head()

Al crear la variable usando la sintaxis `___nombredataframe___[__nombreVariable__] =` hemos creado la variable al final de nuestro dataset.

In [None]:
data.head()

# Generación de números (pseudo) aleatorios

Propiedad: se presupone que toman distintos valores cada vez que se llama a la función para generarlos.

Son críticos en el análisis predictivo. Permiten simulaciones de modelos probabilísticos multicasos no deterministas.

Se pueden usar para crear "dummy datasets", de datos ficticios, para estudiar distribuciones.

Para hacer un muestreo de datos aleatorio.

Necesitaremos la librería `numpy` para generarlos.

In [14]:
import numpy as np

Por ejemplo, podríamos generar un número aleatorio entero entre 1 y 100 usando la función `random.randint()` en indicando el rango dentro de la última función.

In [26]:
np.random.randint(1,100)

43

La forma más clásica de generar un número aleatorio es usando el intervalo (0,1). Este es más difícil que se repita debido a la gran cantidad de decimales. Se hace de la siguiente manera.

In [32]:
np.random.random()

0.17790052064075546

Como ejericio para practicar la sintaxis, crearemos una función que genere una lista de n números aleatorios enteros dentro del intervalo (a,b). Usaremos la función `range()` que genera un rango que toma valores desde 0 al parámetro que le pasamos a la función (`n`).

In [34]:
range(8)

range(0, 8)

In [39]:
def Randint_list(n, a, b):
    x = [] # Array vacío
    for i in range(n): # para los valores de 0 a n
        x.append(np.random.randint(a,b)) # añade un número aleatorio entre a y b
    return x # devuelve la lista de valores obtenida

In [38]:
Randint_list(10,1,50) # Probamos la función

[48, 45, 42, 37, 6, 3, 19, 23, 14, 28]

Realmente existe un paquete de funciones definidas que cumplen esta función. Se trata de la librería `random`.

In [40]:
import random

In [44]:
random.randrange(0, 100, 7) # El último parámetro indica que los números generados sean múltiplos de 7 + 0

42

Podemos verlo si generamos un loop

In [47]:
for i in range(10):
    print(random.randrange(0, 100, 7))

42
14
63
35
63
84
77
84
63
63


### Shuffling

Otro método muy útil es `shuffle`. Este reordena los valores de un rango (que debemos crear con el método de numpy `arange`, ya que devuelve un array de valores) de manera aleatoria. 

In [67]:
a = np.arange(100)
a

array([ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11, 12, 13, 14, 15, 16,
       17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33,
       34, 35, 36, 37, 38, 39, 40, 41, 42, 43, 44, 45, 46, 47, 48, 49, 50,
       51, 52, 53, 54, 55, 56, 57, 58, 59, 60, 61, 62, 63, 64, 65, 66, 67,
       68, 69, 70, 71, 72, 73, 74, 75, 76, 77, 78, 79, 80, 81, 82, 83, 84,
       85, 86, 87, 88, 89, 90, 91, 92, 93, 94, 95, 96, 97, 98, 99])

In [68]:
np.random.shuffle(a)
a

array([52, 42, 19, 77, 30, 35, 66, 59, 82,  6, 43,  0, 38, 95, 62, 18,  1,
       37,  4, 13, 91, 39, 78, 72, 20, 76, 56, 84, 75, 36,  9, 64, 81, 31,
       23, 47, 32, 44, 41, 49, 63, 94, 87, 93, 46, 45, 85, 14, 86, 29,  2,
       22, 88, 89, 40, 60, 25, 68, 34, 67, 74, 98, 69, 92, 73, 17, 90, 27,
       26,  3,  7, 96, 55,  8, 57, 58, 70, 53, 33, 61, 51, 79, 11, 10, 54,
       65, 15, 97, 21, 28, 24,  5, 50, 80, 99, 83, 71, 48, 16, 12])

### Choice

El método `choice` se emplea para elegir al azar un elemento de todos los dados. Como ejemplo usaremos el dataset que hemos empleado. Tomaremos al azar una de las columnas de la lista de columnas del mismo.

In [69]:
column_list = data.columns.values.tolist()
column_list

['State',
 'Account Length',
 'Area Code',
 'Phone',
 "Int'l Plan",
 'VMail Plan',
 'VMail Message',
 'Day Mins',
 'Day Calls',
 'Day Charge',
 'Eve Mins',
 'Eve Calls',
 'Eve Charge',
 'Night Mins',
 'Night Calls',
 'Night Charge',
 'Intl Mins',
 'Intl Calls',
 'Intl Charge',
 'CustServ Calls',
 'Churn?']

In [70]:
np.random.choice(column_list)

"Int'l Plan"

## Seed

`Seed` es el valor a partir del cual se generan el resto antes de llevar a acabo el experimento. Esto permite hacer reproducibles los resultados, ya que permite retener el valor de los números aleatorios y replicarlo en un análisis de datos posterior. Para esto se fija la semilla de valores aleatorios. 

Para establecer este número usaremos la función `random.seed()` de numpy. Luego comprobaremos con un bucle de generación de números aleatorios como, al fijar la semilla, los números que se generan no cambian.

In [71]:
# Con la semilla fijada podremos ejecutar estas líneas de código y el resultado será siempre el mismo
np.random.seed(2019) 
for i in range(5):
    print(np.random.random())

0.9034822144192743
0.3930805066502425
0.6239699612977534
0.6378774010222266
0.8804990687782621
