# Data Wrangling
El proceso de **data wrangling**, a veces denominado **data munging**, es el proceso de transformar y mapear datos de un dataset *raw* (datos en bruto o datos crudos) en otro formato con la intención de hacerlo más apropiado y valioso para una variedad de propósitos posteriores, como el análisis. Un **data wrangler** es una persona que realiza estas operaciones de transformación.

Lo anterior puede incluir munging, visualización de datos, agregación de datos, entrenamiento de un modelo estadístico, así como muchos otros usos potenciales. La oscilación de datos como proceso generalmente sigue un conjunto de pasos generales que comienzan extrayendo los datos en forma cruda del origen de datos, dividiendo los datos en bruto usando algoritmos (por ejemplo clasificación) o analizando los datos en estructuras de datos predefinidas y finalmente depositar el contenido resultante en un sistema de almacenamiento (o silo) para su uso futuro.

La preparación de datos es importante para poner a punto la construcción del modelado de datos. Este procedimiento limpia y secciona los datos para que el análisis se enfoque en un subconjunto de interés para ciertas tareas específicas.  

In [54]:
import pandas as pd


In [55]:
mainpath = "/home/oscar/Escritorio/misnotebooks/data/"
filename = "Customer Churn Model.txt"
data = pd.read_csv(mainpath + filename)
data.head()

Unnamed: 0,State,Account Length,Area Code,Phone,Int'l Plan,VMail Plan,VMail Message,Day Mins,Day Calls,Day Charge,...,Eve Calls,Eve Charge,Night Mins,Night Calls,Night Charge,Intl Mins,Intl Calls,Intl Charge,CustServ Calls,Churn?
0,KS,128,415,382-4657,no,yes,25,265.1,110,45.07,...,99,16.78,244.7,91,11.01,10.0,3,2.7,1,False.
1,OH,107,415,371-7191,no,yes,26,161.6,123,27.47,...,103,16.62,254.4,103,11.45,13.7,3,3.7,1,False.
2,NJ,137,415,358-1921,no,no,0,243.4,114,41.38,...,110,10.3,162.6,104,7.32,12.2,5,3.29,0,False.
3,OH,84,408,375-9999,yes,no,0,299.4,71,50.9,...,88,5.26,196.9,89,8.86,6.6,7,1.78,2,False.
4,OK,75,415,330-6626,yes,no,0,166.7,113,28.34,...,122,12.61,186.9,121,8.41,10.1,3,2.73,3,False.


## Crear un subconjunto de datos

### Selección de columnas

In [None]:
account_length = data["Account Length"]
account_length.head()

In [None]:
type(account_length)

In [None]:
subset = data[["Account Length", "Phone", "Eve Charge", "Day Calls"]]
subset.head()

In [None]:
type(subset)

In [None]:
desired_columns = ["Account Length", "Phone", "Eve Charge", "Night Calls"]
subset = data[desired_columns]
subset.head()

El uso de **list comprehension** facilita la extracción de columnas deseadas o las complementarias.

In [None]:
no_desired_columns = ["Account Length", "Phone", "Eve Charge", "Day Calls"]
no_desired_columns

In [None]:
all_columns_list = data.columns.tolist()
all_columns_list

In [None]:
sublist = [x for x in all_columns_list if x not in no_desired_columns]
sublist

In [None]:
subset = data[sublist]
subset

### Selección de renglones
Para seleccionar un número específico de renglones de un dataset es importante recordar la forma de especificar los índices de una lista en Python o **slicing**:
- El indexado de una lista comienza con el valor de `0`.
- `list[a:b]` denota los elementos de `list` iniciando en el índice `a ` (incluido) hasta el índice final `b` (excluido).
- `:` significa el todo.

In [None]:
data[0:11]

In [None]:
data[:11]

In [None]:
data[20:61]

In [None]:
data[3320:]

### Selección por criterio en columnas

In [None]:
# Usuarios con "Day Mins" > 300
data1 = data[data["Day Mins"] > 300]
data1.head()

**Nota:** El criterio de selección sobre una columna del dataset devuelve una serie de pandas con valores booleanos. Esta serie de valores booleanos se aplica de nuevo al dataset para extraer los renglones deseados.

In [None]:
type(data["Day Mins"] > 180)

In [None]:
(data["Day Mins"] > 180).head()

In [None]:
data1.shape

In [None]:
# Usuarios pertenecientes al estado "NY"
data2 = data[data["State"]== "NY"]
data2.head()

In [None]:
data2.shape

In [None]:
## Usuarios con Day Mins > 300 y State == NY
data3 = data[(data["Day Mins"] > 300) & (data["State"] == "NY")]
data3.head()

In [None]:
data3.shape

In [None]:
## Usuarios con Day Mins > 300 o State == NY
data4 = data[(data["Day Mins"] > 300) | (data["State"] == "NY")]
data4.shape

In [None]:
## Usuarios con Day Calls < Night Calls
data5 = data[data["Day Calls"] < data["Night Calls"]]
data5.shape
              

In [None]:
## Usuarios con Day Mins < Night Minss
data6 = data[data["Day Mins"] < data["Night Mins"]]
data6.shape

### Selección por columnas y por renglones

In [None]:
# Day Mins, Night Mins, Account Length de los primeros 50 usuarios
data7 = data[["Day Mins", "Night Mins", "Account Length"]][:50]
data7.shape

In [None]:
data7.head()

Un modo de consultar un dataset especificando columnas y renglones a la vez en mediante los métodos `.loc` (para etiqueta) `.iloc` (para índice) de un dataframe de pandas.

In [None]:
# primeras 10 filas y las primeras 3 columnas: "State", "Account Length", "Area Code"
data.iloc[0:10, 0:3]

In [None]:
# todos los renglones de las columnas con índices del 0 a 2
data.iloc[: , 0:3]
# los primeros 10 renglones de todas las columnas
data.iloc[0:10 , :]

In [None]:
# los primeros 10 renglones de las columnas con índices 0, 2, 5
data.iloc[0:10 , [0, 2, 5]]

In [None]:
# los renglones con índices 2, 25,38,45, 57 de las columnas con índices 0, 2, 5
data.iloc[[2, 25, 38, 45, 57] , [0, 2, 5]]

In [None]:
# # los renglones con índices 2, 25,38,45, 57 de las columnas: "State", "Account Length", "Area Code" 
data.loc[[2, 25, 38, 45, 57], ["State", "Account Length", "Area Code"]]

### Añadir columnas
Es posible combinar columnas para añadir una nueva columna en el dataset

In [None]:
data["Total Mins"] = data["Day Mins"] + data["Night Mins"] + data ["Eve Mins"]

In [None]:
data["Total Mins"].head()

In [None]:
data["Total Calls"] = data["Day Calls"] + data["Night Calls"] + data ["Eve Calls"]

In [None]:
data["Total Calls"].head()

In [None]:
data.shape

In [None]:
data.head()

### Generación de números aleatorios
La generación de números aleatorios se realiza de diversas formas. Inicialmente es importante seleccionar una semilla para poder reproducir la secuencia aleatoria durante la construcción de un experimento, esta generación de números aleatorios también se conoce como *generación de números pseudoaleatorios*.
Los números aleatorios son muy importantes para generar distribuciones de probabilidad o para elaborar datos auxiliares (dummies datasets).

In [None]:
import numpy as np

In [None]:
# genera numeros aleatorio entero dentro de un rango dado
np. random.randint(1, 100) #

La forma más clásica de genera un número aleatorio es entre 0 y 1, el número que se generará será un número real. 

In [None]:
np.random.random()

In [None]:
# Función que genera una lista de n números aleatorios enteros
# dentro del intervalo [a , b]
def randint_list (n, a, b):
    x = []
    for i in range(n):
        x.append(np.random.randint(a,b))
    return x

In [None]:
randint_list(25, 1, 50)

El paquete básico de Python `random` facilita la generación de números aleatorios de distintas formas.

In [None]:
import random

In [None]:
# Genera enteros aleatorios entre 0 y 100 con multiplicidad 7 respecto 
# al valor de inicio del rango
random.randrange(1,100, 7) # aleatorio multiplo de 7 + 1

El método `shufle()` desordena o revuelve de forma aleatoria una secuencia de números.

In [None]:
a = np.arange(100)
a

In [None]:
np.random.shuffle(a)
a

El método `choice()` selecciona aleatoreamente un elemento de un conjunto.

In [None]:
data.head()

In [None]:
data.shape

In [None]:
column_list = data.columns.values.tolist()
column_list

In [None]:
np.random.choice(column_list)

La **semilla** con la que se genera una secuencia de números aleatoria es importante para reproducir dicha secuencia en algún otro experimento a realizar.

In [None]:
np.random.seed(2018)
for i in range(5):
    print(np.random.random())