# C:40 Data Wrangling - La cirugía de los datos

    

El __data wrangling__, a veces denominada __data munging__, es el proceso de transformar y mapear datos de un dataset raw (en bruto) en otro formato con la intención de hacerlo más apropiado y valioso para una variedad de propósitos posteriores, como el análisis. Un __data wrangler__ es una persona que realiza estas operaciones de transformación.

Esto puede incluir munging, visualización de datos, agregación de datos, entrenamiento de un modelo estadístico, así como muchos otros usos potenciales. La oscilación de datos como proceso generalmente sigue un conjunto de pasos generales que comienzan extrayendo los datos en forma cruda del origen de datos, dividiendo los datos en bruto usando algoritmos (por ejemplo, clasificación) o analizando los datos en estructuras de datos predefinidas, y finalmente depositando el contenido resultante en un sistema de almacenamiento (o silo) para su uso futuro.


In [1]:
%config IPCompleter.greedy = True #Autocompletado

In [2]:
import pandas as pd
import sys

In [3]:
data = pd.read_csv("../datasets/customer-churn-model/Customer Churn Model.txt")

In [4]:
data.head()

Unnamed: 0,State,Account Length,Area Code,Phone,Int'l Plan,VMail Plan,VMail Message,Day Mins,Day Calls,Day Charge,...,Eve Calls,Eve Charge,Night Mins,Night Calls,Night Charge,Intl Mins,Intl Calls,Intl Charge,CustServ Calls,Churn?
0,KS,128,415,382-4657,no,yes,25,265.1,110,45.07,...,99,16.78,244.7,91,11.01,10.0,3,2.7,1,False.
1,OH,107,415,371-7191,no,yes,26,161.6,123,27.47,...,103,16.62,254.4,103,11.45,13.7,3,3.7,1,False.
2,NJ,137,415,358-1921,no,no,0,243.4,114,41.38,...,110,10.3,162.6,104,7.32,12.2,5,3.29,0,False.
3,OH,84,408,375-9999,yes,no,0,299.4,71,50.9,...,88,5.26,196.9,89,8.86,6.6,7,1.78,2,False.
4,OK,75,415,330-6626,yes,no,0,166.7,113,28.34,...,122,12.61,186.9,121,8.41,10.1,3,2.73,3,False.


# Crear un subconjunto de datos

In [5]:
account_length = data["Account Length"];

In [6]:
#Objeto de tipo series. No es un DataFrame
account_length.head()

0    128
1    107
2    137
3     84
4     75
Name: Account Length, dtype: int64

In [7]:
#Verificar tipo de dato. De tipo Series al solo extraer una sola columna
type(account_length)

pandas.core.series.Series

In [8]:
subset = data[["Account Length", "Phone", "Eve Charge", "Day Calls"]]

In [9]:
subset.head()

Unnamed: 0,Account Length,Phone,Eve Charge,Day Calls
0,128,382-4657,16.78,110
1,107,371-7191,16.62,123
2,137,358-1921,10.3,114
3,84,375-9999,5.26,71
4,75,330-6626,12.61,113


In [10]:
#Tipo Dataframe
type(subset)

pandas.core.frame.DataFrame

In [11]:
desired_columns = ["Account Length", "Phone", "Eve Charge", "Day Calls"]
subset = data[desired_columns]
subset.head()

Unnamed: 0,Account Length,Phone,Eve Charge,Day Calls
0,128,382-4657,16.78,110
1,107,371-7191,16.62,123
2,137,358-1921,10.3,114
3,84,375-9999,5.26,71
4,75,330-6626,12.61,113


In [12]:
#Poco práctico si es que la cantidad de columnas deseadas es muy grande
#Se puede generar un array con las columnas que no deseamos (elegir la lista más pequeña): columnas deseadas > columnas no deseadas

desired_columns = ["Account Length", "VMail Message", "Day Calls"]
desired_columns

['Account Length', 'VMail Message', 'Day Calls']

In [13]:
all_columns_list = data.columns.values.tolist()
all_columns_list

['State',
 'Account Length',
 'Area Code',
 'Phone',
 "Int'l Plan",
 'VMail Plan',
 'VMail Message',
 'Day Mins',
 'Day Calls',
 'Day Charge',
 'Eve Mins',
 'Eve Calls',
 'Eve Charge',
 'Night Mins',
 'Night Calls',
 'Night Charge',
 'Intl Mins',
 'Intl Calls',
 'Intl Charge',
 'CustServ Calls',
 'Churn?']

In [14]:
#Python: List Comprehensions

#Los corchetes [] crean una lista. sublist = []. Los valores que toma esta lista están dentro del corchete, por eso el ciclo
#... for se encuentra dentro de los []. x irá tomando todos los valores que se encuentren en all_columns_list si es que no se
#... encuentran también en desirdesired_columns. El x que se encuentra fuera del ciclo for es lo que se terminará almacenando
#... en la lista sublist. "x" puede ser operado por un número como 2*x o x**2 (elevado a 2), antes de almacenarse en la lista.

sublist = [x for x in all_columns_list if x not in desired_columns]
sublist

['State',
 'Area Code',
 'Phone',
 "Int'l Plan",
 'VMail Plan',
 'Day Mins',
 'Day Charge',
 'Eve Mins',
 'Eve Calls',
 'Eve Charge',
 'Night Mins',
 'Night Calls',
 'Night Charge',
 'Intl Mins',
 'Intl Calls',
 'Intl Charge',
 'CustServ Calls',
 'Churn?']

# C:41 Filtrados alternativos

In [15]:
a = set(desired_columns)
b = set(all_columns_list)
sublist = b-a
sublist = list(sublist)
sublist

['State',
 'Intl Mins',
 'Day Charge',
 'Intl Calls',
 'CustServ Calls',
 'Eve Mins',
 'Eve Calls',
 "Int'l Plan",
 'VMail Plan',
 'Churn?',
 'Phone',
 'Area Code',
 'Day Mins',
 'Night Charge',
 'Intl Charge',
 'Night Mins',
 'Eve Charge',
 'Night Calls']

# C:42 Subconjuntos de filas

In [16]:
data[0:10]

Unnamed: 0,State,Account Length,Area Code,Phone,Int'l Plan,VMail Plan,VMail Message,Day Mins,Day Calls,Day Charge,...,Eve Calls,Eve Charge,Night Mins,Night Calls,Night Charge,Intl Mins,Intl Calls,Intl Charge,CustServ Calls,Churn?
0,KS,128,415,382-4657,no,yes,25,265.1,110,45.07,...,99,16.78,244.7,91,11.01,10.0,3,2.7,1,False.
1,OH,107,415,371-7191,no,yes,26,161.6,123,27.47,...,103,16.62,254.4,103,11.45,13.7,3,3.7,1,False.
2,NJ,137,415,358-1921,no,no,0,243.4,114,41.38,...,110,10.3,162.6,104,7.32,12.2,5,3.29,0,False.
3,OH,84,408,375-9999,yes,no,0,299.4,71,50.9,...,88,5.26,196.9,89,8.86,6.6,7,1.78,2,False.
4,OK,75,415,330-6626,yes,no,0,166.7,113,28.34,...,122,12.61,186.9,121,8.41,10.1,3,2.73,3,False.
5,AL,118,510,391-8027,yes,no,0,223.4,98,37.98,...,101,18.75,203.9,118,9.18,6.3,6,1.7,0,False.
6,MA,121,510,355-9993,no,yes,24,218.2,88,37.09,...,108,29.62,212.6,118,9.57,7.5,7,2.03,3,False.
7,MO,147,415,329-9001,yes,no,0,157.0,79,26.69,...,94,8.76,211.8,96,9.53,7.1,6,1.92,0,False.
8,LA,117,408,335-4719,no,no,0,184.5,97,31.37,...,80,29.89,215.8,90,9.71,8.7,4,2.35,1,False.
9,WV,141,415,330-8173,yes,yes,37,258.6,84,43.96,...,111,18.87,326.4,97,14.69,11.2,5,3.02,0,False.


In [17]:
data[:8] #Es lo mismo que [0:8]

Unnamed: 0,State,Account Length,Area Code,Phone,Int'l Plan,VMail Plan,VMail Message,Day Mins,Day Calls,Day Charge,...,Eve Calls,Eve Charge,Night Mins,Night Calls,Night Charge,Intl Mins,Intl Calls,Intl Charge,CustServ Calls,Churn?
0,KS,128,415,382-4657,no,yes,25,265.1,110,45.07,...,99,16.78,244.7,91,11.01,10.0,3,2.7,1,False.
1,OH,107,415,371-7191,no,yes,26,161.6,123,27.47,...,103,16.62,254.4,103,11.45,13.7,3,3.7,1,False.
2,NJ,137,415,358-1921,no,no,0,243.4,114,41.38,...,110,10.3,162.6,104,7.32,12.2,5,3.29,0,False.
3,OH,84,408,375-9999,yes,no,0,299.4,71,50.9,...,88,5.26,196.9,89,8.86,6.6,7,1.78,2,False.
4,OK,75,415,330-6626,yes,no,0,166.7,113,28.34,...,122,12.61,186.9,121,8.41,10.1,3,2.73,3,False.
5,AL,118,510,391-8027,yes,no,0,223.4,98,37.98,...,101,18.75,203.9,118,9.18,6.3,6,1.7,0,False.
6,MA,121,510,355-9993,no,yes,24,218.2,88,37.09,...,108,29.62,212.6,118,9.57,7.5,7,2.03,3,False.
7,MO,147,415,329-9001,yes,no,0,157.0,79,26.69,...,94,8.76,211.8,96,9.53,7.1,6,1.92,0,False.


In [18]:
data[3320:]

Unnamed: 0,State,Account Length,Area Code,Phone,Int'l Plan,VMail Plan,VMail Message,Day Mins,Day Calls,Day Charge,...,Eve Calls,Eve Charge,Night Mins,Night Calls,Night Charge,Intl Mins,Intl Calls,Intl Charge,CustServ Calls,Churn?
3320,GA,122,510,411-5677,yes,no,0,140.0,101,23.8,...,77,16.69,120.1,133,5.4,9.7,4,2.62,4,True.
3321,VT,60,415,400-2738,no,no,0,193.9,118,32.96,...,110,7.23,210.1,134,9.45,13.2,8,3.56,3,False.
3322,MD,62,408,409-1856,no,no,0,321.1,105,54.59,...,122,22.57,180.5,72,8.12,11.5,2,3.11,4,True.
3323,IN,117,415,362-5899,no,no,0,118.4,126,20.13,...,97,21.19,227.0,56,10.22,13.6,3,3.67,5,True.
3324,WV,159,415,377-1164,no,no,0,169.8,114,28.87,...,105,16.8,193.7,82,8.72,11.6,4,3.13,1,False.
3325,OH,78,408,368-8555,no,no,0,193.4,99,32.88,...,88,9.94,243.3,109,10.95,9.3,4,2.51,2,False.
3326,OH,96,415,347-6812,no,no,0,106.6,128,18.12,...,87,24.21,178.9,92,8.05,14.9,7,4.02,1,False.
3327,SC,79,415,348-3830,no,no,0,134.7,98,22.9,...,68,16.12,221.4,128,9.96,11.8,5,3.19,2,False.
3328,AZ,192,415,414-4276,no,yes,36,156.2,77,26.55,...,126,18.32,279.1,83,12.56,9.9,6,2.67,2,False.
3329,WV,68,415,370-3271,no,no,0,231.1,57,39.29,...,55,13.04,191.3,123,8.61,9.6,4,2.59,3,False.


### Condiciones de set de datos

In [19]:
#Usuarios con "Day Mins" > 330
data1 = data[data["Day Mins"] > 330]
data1

Unnamed: 0,State,Account Length,Area Code,Phone,Int'l Plan,VMail Plan,VMail Message,Day Mins,Day Calls,Day Charge,...,Eve Calls,Eve Charge,Night Mins,Night Calls,Night Charge,Intl Mins,Intl Calls,Intl Charge,CustServ Calls,Churn?
15,NY,161,415,351-7269,no,no,0,332.9,67,56.59,...,97,27.01,160.6,128,7.23,5.4,9,1.46,4,True.
156,OH,83,415,370-9116,no,no,0,337.4,120,57.36,...,116,19.33,153.9,114,6.93,15.8,7,4.27,0,True.
365,CO,154,415,343-5709,no,no,0,350.8,75,59.64,...,94,18.4,253.9,100,11.43,10.1,9,2.73,1,True.
605,MO,112,415,373-2053,no,no,0,335.5,77,57.04,...,109,18.06,265.0,132,11.93,12.7,8,3.43,2,True.
975,DE,129,510,332-6181,no,no,0,334.3,118,56.83,...,104,16.33,191.0,83,8.59,10.4,6,2.81,0,True.
985,NY,64,415,345-9140,yes,no,0,346.8,55,58.96,...,79,21.21,275.4,102,12.39,13.3,9,3.59,1,True.
2594,OH,115,510,348-1163,yes,no,0,345.3,81,58.7,...,106,17.29,217.5,107,9.79,11.8,8,3.19,1,True.


In [20]:
#Usuarios de Nueva York (State = "NY")
data2 = data[data["State"] == "NY"];
data2.shape

(83, 21)

### Condiciones Booleanas

In [21]:
# AND --> &
data3 = data[(data["Day Mins"] > 300) & (data["State"] == "NY")]
data3.shape

(2, 21)

In [22]:
# OR -> |
data4 = data[(data["Day Mins"] > 300) | (data["State"] == "NY")]
data4.shape

(124, 21)

# C43: Subconjuntos loc e iloc

In [28]:
#Minutos de día, de noche y longitud de la Cuenta de los primeros 50 individuos
#El primer corchete se lleva las condiciones de las COLUMNAS, el segundo de las FILAS

subset_first_50 = data[["Day Mins", "Night Mins", "Account Length"]][:50]
subset_first_50.shape

(50, 3)

In [29]:
subset_first_50.head()

Unnamed: 0,Day Mins,Night Mins,Account Length
0,265.1,244.7,128
1,161.6,254.4,107
2,243.4,162.6,137
3,299.4,196.9,84
4,166.7,186.9,75


## Método ix

In [31]:
#El método "ix" nos permite poner en un solo corchete las filas y columnas que deseo.
#... Permite asignar o consultar indices de una fila y una columna en un mismo corchete pero separándolo por una coma.
#... Primero las filas y luego las columnas.

# ix[filas, columnas]

data.ix[:10, 3:6] #Primeras 10 filas, columnas de la 3 a la 6. Toma la columna 3, 4 y 5, parte contando desde la columna 0.

.ix is deprecated. Please use
.loc for label based indexing or
.iloc for positional indexing

See the documentation here:
http://pandas.pydata.org/pandas-docs/stable/indexing.html#ix-indexer-is-deprecated
  import sys


Unnamed: 0,Phone,Int'l Plan,VMail Plan
0,382-4657,no,yes
1,371-7191,no,yes
2,358-1921,no,no
3,375-9999,yes,no
4,330-6626,yes,no
5,391-8027,yes,no
6,355-9993,no,yes
7,329-9001,yes,no
8,335-4719,no,no
9,330-8173,yes,yes


## Método iloc: Acceder por la posición de la columna

In [33]:
#Hay que tener en claro que si queremos acceder a una columna o un fila solamente especificando la posición o el índice
#... de ella se debe utilizar el método "iloc". En caso contrario, cuando se desea buscar una columna por su nombre, usar
#... el método "loc".

data.iloc[:10, 3:6] # Filas de la 0 a la 9, filas de la 3 a la 5
#data.iloc[:, 3:6]   # Todas las filas, filas de la 3 a la 5
#data.iloc[:10, :]   # Primeras 10 filas, todas las columnas

Unnamed: 0,Phone,Int'l Plan,VMail Plan
0,382-4657,no,yes
1,371-7191,no,yes
2,358-1921,no,no
3,375-9999,yes,no
4,330-6626,yes,no
5,391-8027,yes,no
6,355-9993,no,yes
7,329-9001,yes,no
8,335-4719,no,no
9,330-8173,yes,yes


In [34]:
#Si se desean columnas específicas

data.iloc[:10, [2, 5, 7]] #Columnas 2, 5 y 7

Unnamed: 0,Area Code,VMail Plan,Day Mins
0,415,yes,265.1
1,415,yes,161.6
2,415,no,243.4
3,408,no,299.4
4,415,no,166.7
5,510,no,223.4
6,510,yes,218.2
7,415,no,157.0
8,408,no,184.5
9,415,yes,258.6


In [35]:
data.iloc[[1, 5, 8, 20],[2, 5, 7]] #Filas 1, 5 y 8; Columnas 2, 5 y 7.

Unnamed: 0,Area Code,VMail Plan,Day Mins
1,415,yes,161.6
5,510,no,223.4
8,408,no,184.5
20,415,no,155.1


## Método loc: Acceder por nombre de Columna

Una diferencia importante entre ambos métodos es que "__loc__" toma las filas tal cual lo hace el método "__ix__", lo que significa que si deseamos ver las siguientes filas [0:10] estará considerando desde la fila 0 hasta la fila 10. En el método "__iloc__", esto no ocurre. Solo considerará desde la fila 0 hasta la 9, lo que quiere decir es que almacenará 10 filas y no 11 como en el método "__loc__".

In [39]:
#Acceder a una columna especificando el nombre de ella, y no su índice como se hace con "iloc".
# .iloc: basado en posición.
# .loc: basado en etiqueta.

data.loc[[1, 5, 8, 36], ["Area Code", "Day Mins"]]

Unnamed: 0,Area Code,Day Mins
1,415,161.6
5,510,223.4
8,408,184.5
36,408,146.3


## Crear una columna nueva en el DataFrame

In [40]:
data["Total Mins"] = data["Day Mins"] + data["Night Mins"] + data["Eve Mins"];

In [41]:
data["Total Mins"].head()

0    707.2
1    611.5
2    527.2
3    558.2
4    501.9
Name: Total Mins, dtype: float64

In [43]:
data["Total Calls"] = data["Day Calls"] + data["Night Calls"] + data["Eve Calls"];

In [44]:
data["Total Calls"].head()

0    300
1    329
2    328
3    248
4    356
Name: Total Calls, dtype: int64

In [47]:
#Se han agregado las dos nuevas columnas al DataFrame

data.columns.values.tolist()
data.head()

Unnamed: 0,State,Account Length,Area Code,Phone,Int'l Plan,VMail Plan,VMail Message,Day Mins,Day Calls,Day Charge,...,Night Mins,Night Calls,Night Charge,Intl Mins,Intl Calls,Intl Charge,CustServ Calls,Churn?,Total Mins,Total Calls
0,KS,128,415,382-4657,no,yes,25,265.1,110,45.07,...,244.7,91,11.01,10.0,3,2.7,1,False.,707.2,300
1,OH,107,415,371-7191,no,yes,26,161.6,123,27.47,...,254.4,103,11.45,13.7,3,3.7,1,False.,611.5,329
2,NJ,137,415,358-1921,no,no,0,243.4,114,41.38,...,162.6,104,7.32,12.2,5,3.29,0,False.,527.2,328
3,OH,84,408,375-9999,yes,no,0,299.4,71,50.9,...,196.9,89,8.86,6.6,7,1.78,2,False.,558.2,248
4,OK,75,415,330-6626,yes,no,0,166.7,113,28.34,...,186.9,121,8.41,10.1,3,2.73,3,False.,501.9,356


## C44: Generación de números aleatorios

In [48]:
import numpy as np

In [50]:
#Números aleatorios enteros entre 1 y 100

np.random.randint(1,100)

49

In [52]:
#La forma más común es generar números aleatorios entre 0 y 1

np.random.random()

0.48203361912744636

In [56]:
#Función que genera una lista de n números aleatorios enteros dentro del intervalo [a, b]

def randint_list(n, a, b):
    x = [];
    for i in range (n):
        x.append(np.random.randint(a, b));
    return x;

In [58]:
random_number = randint_list(10, 1, 50);
print ("Números aleatorios: ", random_number);

Números aleatorios:  [29, 40, 28, 16, 8, 5, 17, 43, 22, 13]


### Utilización de una librería mejor para números aleatorios

In [59]:
import random

In [60]:
random.randrange(1, 100)

76

In [70]:
#Generar números entre 0 y 100 pero que sean múltiplos de 7

random_number = [];

for i in range (10):
    random_number.append(random.randrange(0, 100, 7));
    
print ("Múltiplos de 7 aleatorios: ", random_number);
    


Múltiplos de 7 aleatorios:  [70, 21, 42, 28, 77, 77, 84, 28, 28, 56]


### Método Shuffling

In [72]:
#a = range(100);

#Generación de un array con números desde el 0 al 99
a = np.arange(100);
a

array([ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11, 12, 13, 14, 15, 16,
       17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33,
       34, 35, 36, 37, 38, 39, 40, 41, 42, 43, 44, 45, 46, 47, 48, 49, 50,
       51, 52, 53, 54, 55, 56, 57, 58, 59, 60, 61, 62, 63, 64, 65, 66, 67,
       68, 69, 70, 71, 72, 73, 74, 75, 76, 77, 78, 79, 80, 81, 82, 83, 84,
       85, 86, 87, 88, 89, 90, 91, 92, 93, 94, 95, 96, 97, 98, 99])

In [74]:
#Shuffle o mezcla

np.random.shuffle(a)
a

array([57, 14, 40, 69, 50, 45, 28, 61, 13, 84, 37, 10, 53, 87, 30,  7, 78,
       35, 90, 56, 34, 32, 92, 27, 86, 68, 18, 81, 43, 75, 51, 19,  3, 65,
       91, 94, 58, 82, 76, 49, 70, 93, 80, 11, 23, 64, 99, 98, 44, 36, 83,
       24,  5, 17, 74, 72, 41, 42, 60, 89, 66, 77, 95, 88,  2, 62, 52, 20,
       21, 33, 26, 31,  9, 29,  4, 12, 22, 16, 25, 55, 96, 67, 59,  1,  6,
       54, 71, 47, 85, 46, 97, 39, 38, 79, 73, 63, 15, 48,  0,  8])

In [75]:
data.head()

Unnamed: 0,State,Account Length,Area Code,Phone,Int'l Plan,VMail Plan,VMail Message,Day Mins,Day Calls,Day Charge,...,Night Mins,Night Calls,Night Charge,Intl Mins,Intl Calls,Intl Charge,CustServ Calls,Churn?,Total Mins,Total Calls
0,KS,128,415,382-4657,no,yes,25,265.1,110,45.07,...,244.7,91,11.01,10.0,3,2.7,1,False.,707.2,300
1,OH,107,415,371-7191,no,yes,26,161.6,123,27.47,...,254.4,103,11.45,13.7,3,3.7,1,False.,611.5,329
2,NJ,137,415,358-1921,no,no,0,243.4,114,41.38,...,162.6,104,7.32,12.2,5,3.29,0,False.,527.2,328
3,OH,84,408,375-9999,yes,no,0,299.4,71,50.9,...,196.9,89,8.86,6.6,7,1.78,2,False.,558.2,248
4,OK,75,415,330-6626,yes,no,0,166.7,113,28.34,...,186.9,121,8.41,10.1,3,2.73,3,False.,501.9,356


In [76]:
column_list = data.columns.values.tolist()

### Método Choice: Elegir una columna al azar

In [81]:
np.random.choice(column_list)

'Phone'

# C45: Semilla / Seeds

__Semillas__: Si queremos mantener los datos aleatorios que acabamos de encontrar para una aplicación posterior, se puede utilizar el método "__seed__". Dicho método nos permite que las funciones __random__ que utilicemos no nos estén generando números aleatorios distintos cada vez que ejecutamos el código. Por ejemplo, si deseamos probar matrices con números aleatorios en cada una de sus casillas en distintos algoritmos, pero queremos manetener los mismos números aleatorios que obtuvimos en el primer algoritmo para el resto de ellos, podemos usar una misma __semilla__ o __seed_ para generarlos.

In [96]:
#El parámetro de "seed" es arbitrario

np.random.seed(2018);

for i in range(5):
    print(np.random.random());

0.8823493117539459
0.10432773786047767
0.9070093335163405
0.3063988986063515
0.446408872427422
