# Data Wrangling: cirugía de datos

El **data wrangling**, a veces denominado **data munging**, es el proceso de transformar y mapear datos de un dataset raw (en bruto) en otro formato con la intención de hacerlo más apropiado y valioso para una variedad de propósitos posteriores, como el análisis. Un **data wrangler** es una persona que realiza estas operaciones de transformación. 

Esto puede incluir munging, visualización de datos, agregación de datos, entrenamiento de un modelo estadístico, así como otros muchos usos potenciales. La oscilación de datos como proceso generalmente sigue un conjunto de pasos generales que comienzan extrayendo los datos en forma cruda del origen de datos, dividiendo los datos en bruto usando algoritmos (por ejemplo, clasificación) o analizando los datos en estructuras de datos predefinidas, y finalmente depositando el contenido resultante en un sistema de almacenamiento (o silo) para su uso futuro.

In [1]:
import pandas as pd

In [4]:
path = "C:/Users/gerar/OneDrive/Documentos/Curso Machine Learning Data Science/python-ml-course-master/datasets"
file = path + "/customer-churn-model/Customer Churn Model.txt"

In [5]:
data = pd.read_csv(file)

In [8]:
data.head(4)

Unnamed: 0,State,Account Length,Area Code,Phone,Int'l Plan,VMail Plan,VMail Message,Day Mins,Day Calls,Day Charge,...,Eve Calls,Eve Charge,Night Mins,Night Calls,Night Charge,Intl Mins,Intl Calls,Intl Charge,CustServ Calls,Churn?
0,KS,128,415,382-4657,no,yes,25,265.1,110,45.07,...,99,16.78,244.7,91,11.01,10.0,3,2.7,1,False.
1,OH,107,415,371-7191,no,yes,26,161.6,123,27.47,...,103,16.62,254.4,103,11.45,13.7,3,3.7,1,False.
2,NJ,137,415,358-1921,no,no,0,243.4,114,41.38,...,110,10.3,162.6,104,7.32,12.2,5,3.29,0,False.
3,OH,84,408,375-9999,yes,no,0,299.4,71,50.9,...,88,5.26,196.9,89,8.86,6.6,7,1.78,2,False.


In [11]:
account_length = data["Account Length"]

In [12]:
account_length.head()

0    128
1    107
2    137
3     84
4     75
Name: Account Length, dtype: int64

In [20]:
# El type es Series al ser una sola columna

type(account_length)


pandas.core.series.Series

In [19]:
# Seleccionar varias columnas del dataset y crear un subset o subconjunto

subset = data[["Account Length", "Phone", "Eve Charge", "Day Calls"]]


In [16]:
subset.head()

Unnamed: 0,Account Length,Phone,Eve Charge,Day Calls
0,128,382-4657,16.78,110
1,107,371-7191,16.62,123
2,137,358-1921,10.3,114
3,84,375-9999,5.26,71
4,75,330-6626,12.61,113


In [21]:
# El type es Data Frame al ser varias columnas

type(subset)

pandas.core.frame.DataFrame

### Columnas deseadas

In [26]:
# Crear una lista de las columnas deseadas para extraerlas y crear subset

desired_columns = ["Account Length", "Phone", "Eve Charge", "Night Calls"]
subset = data[desired_columns]
subset.head()

Unnamed: 0,Account Length,Phone,Eve Charge,Night Calls
0,128,382-4657,16.78,91
1,107,371-7191,16.62,103
2,137,358-1921,10.3,104
3,84,375-9999,5.26,89
4,75,330-6626,12.61,121


In [30]:
# Columnas deseadas
desired_columns = ['Account Length', 'Phone', 'Night Calls']
desired_columns

['Account Length', 'Phone', 'Night Calls']

In [34]:
# Todas las columnas
all_columns_list = data.columns.values.tolist()
all_columns_list

['State',
 'Account Length',
 'Area Code',
 'Phone',
 "Int'l Plan",
 'VMail Plan',
 'VMail Message',
 'Day Mins',
 'Day Calls',
 'Day Charge',
 'Eve Mins',
 'Eve Calls',
 'Eve Charge',
 'Night Mins',
 'Night Calls',
 'Night Charge',
 'Intl Mins',
 'Intl Calls',
 'Intl Charge',
 'CustServ Calls',
 'Churn?']

In [46]:
# Utilizar teoría de conjuntos con bucle para obtener la lista de columnas quitando las 3 deseadas
sublist = [x for x in all_columns_list if x not in desired_columns]
sublist

['State',
 'Area Code',
 "Int'l Plan",
 'VMail Plan',
 'VMail Message',
 'Day Mins',
 'Day Calls',
 'Day Charge',
 'Eve Mins',
 'Eve Calls',
 'Eve Charge',
 'Night Mins',
 'Night Charge',
 'Intl Mins',
 'Intl Calls',
 'Intl Charge',
 'CustServ Calls',
 'Churn?']

In [41]:
# Extraer las columnas no deseadas en caso de necesitarlas
subset = data[sublist]
subset.head()

Unnamed: 0,State,Area Code,Int'l Plan,VMail Plan,VMail Message,Day Mins,Day Calls,Day Charge,Eve Mins,Eve Calls,Eve Charge,Night Mins,Night Charge,Intl Mins,Intl Calls,Intl Charge,CustServ Calls,Churn?
0,KS,415,no,yes,25,265.1,110,45.07,197.4,99,16.78,244.7,11.01,10.0,3,2.7,1,False.
1,OH,415,no,yes,26,161.6,123,27.47,195.5,103,16.62,254.4,11.45,13.7,3,3.7,1,False.
2,NJ,415,no,no,0,243.4,114,41.38,121.2,110,10.3,162.6,7.32,12.2,5,3.29,0,False.
3,OH,408,yes,no,0,299.4,71,50.9,61.9,88,5.26,196.9,8.86,6.6,7,1.78,2,False.
4,OK,415,yes,no,0,166.7,113,28.34,148.3,122,12.61,186.9,8.41,10.1,3,2.73,3,False.


In [45]:
# Otra forma de quitar columnas usando conjuntos (sets)

a = set(desired_columns)
b = set(all_columns_list)
sublist = b-a
sublist = list(sublist)
sublist

['Intl Mins',
 'Area Code',
 "Int'l Plan",
 'Eve Calls',
 'Day Calls',
 'Intl Charge',
 'VMail Plan',
 'Churn?',
 'State',
 'Day Charge',
 'Eve Charge',
 'Eve Mins',
 'CustServ Calls',
 'Night Charge',
 'Intl Calls',
 'VMail Message',
 'Day Mins',
 'Night Mins']

In [50]:
# Se puede hacer lo mismo con filas usando: data[limite inferior: limite superior]
data[0:10]



data[1:7]   # Es lo mismo que data[:7]

Unnamed: 0,State,Account Length,Area Code,Phone,Int'l Plan,VMail Plan,VMail Message,Day Mins,Day Calls,Day Charge,...,Eve Calls,Eve Charge,Night Mins,Night Calls,Night Charge,Intl Mins,Intl Calls,Intl Charge,CustServ Calls,Churn?
1,OH,107,415,371-7191,no,yes,26,161.6,123,27.47,...,103,16.62,254.4,103,11.45,13.7,3,3.7,1,False.
2,NJ,137,415,358-1921,no,no,0,243.4,114,41.38,...,110,10.3,162.6,104,7.32,12.2,5,3.29,0,False.
3,OH,84,408,375-9999,yes,no,0,299.4,71,50.9,...,88,5.26,196.9,89,8.86,6.6,7,1.78,2,False.
4,OK,75,415,330-6626,yes,no,0,166.7,113,28.34,...,122,12.61,186.9,121,8.41,10.1,3,2.73,3,False.
5,AL,118,510,391-8027,yes,no,0,223.4,98,37.98,...,101,18.75,203.9,118,9.18,6.3,6,1.7,0,False.
6,MA,121,510,355-9993,no,yes,24,218.2,88,37.09,...,108,29.62,212.6,118,9.57,7.5,7,2.03,3,False.


In [54]:
# Con rango intermedio
data[10:20]

# Del indicado al último
data[3328:]

Unnamed: 0,State,Account Length,Area Code,Phone,Int'l Plan,VMail Plan,VMail Message,Day Mins,Day Calls,Day Charge,...,Eve Calls,Eve Charge,Night Mins,Night Calls,Night Charge,Intl Mins,Intl Calls,Intl Charge,CustServ Calls,Churn?
3328,AZ,192,415,414-4276,no,yes,36,156.2,77,26.55,...,126,18.32,279.1,83,12.56,9.9,6,2.67,2,False.
3329,WV,68,415,370-3271,no,no,0,231.1,57,39.29,...,55,13.04,191.3,123,8.61,9.6,4,2.59,3,False.
3330,RI,28,510,328-8230,no,no,0,180.8,109,30.74,...,58,24.55,191.9,91,8.64,14.1,6,3.81,2,False.
3331,CT,184,510,364-6381,yes,no,0,213.8,105,36.35,...,84,13.57,139.2,137,6.26,5.0,10,1.35,2,False.
3332,TN,74,415,400-4344,no,yes,25,234.4,113,39.85,...,82,22.6,241.4,77,10.86,13.7,4,3.7,0,False.


## Filas deseadas con condición

In [81]:
# Extraer subconjunto de datos usando una condición
data1 = data[data['Day Mins']>300]      # Valores mayor a 300 de la columns Day Mins
print('Filas, Columnas: ')
data1.shape

Filas, Columnas: 


(43, 21)

In [71]:
# Extraer subconjunto de datos usando una condición de igualdad
data2 = data[data['State'] == 'NY']      # Usuarios de la columna State que sean de New York (NY)
print('Filas, Columnas: ')
data2.shape

Filas, Columnas: 


(83, 21)

In [72]:
# Extraer subconjunto de datos usando una condición booleana
# AND -> &

# Usuarios de la columna Day Mins con más de 3oo minutos y de la columna State que sean de New York (NY)
data3 = data[(data['Day Mins'] > 300) & (data['State'] == 'NY')]
print('Filas, Columnas: ')
data3.shape

Filas, Columnas: 


(2, 21)

In [73]:
# Extraer subconjunto de datos usando una condición booleana
# OR -> |

# Usuarios de la columna Day Mins con más de 300 minutos y de la columna State que sean de New York (NY)
data4 = data[(data['Day Mins'] > 300) | (data['State'] == 'NY')]
print('Filas, Columnas: ')
data4.shape

Filas, Columnas: 


(124, 21)

In [79]:
# Extraer subconjunto de datos usando una condición entre 2 columnas

# Usuarios de la columna Night Mins con valores mayores a los usuarios de la columna Day Mins
data5 = data[data['Night Mins'] > data['Day Mins']]
print('Filas, Columnas: ')
print(data5.shape)
print('Tendencia a llamar más de noche.')

Filas, Columnas: 
(2051, 21)
Tendencia a llamar más de noche.


## Extraer y agregar columnas y filas de distintas formas

In [119]:
# Extraer subset de columnas y filas deseadas
# Day Mins, Night Mins y Account Length de los primeros 50 individuos
subset_first_50 = data[['Day Mins', 'Night Mins', 'Account Length']][:50]
subset_first_50.head()

Unnamed: 0,Day Mins,Night Mins,Account Length
0,265.1,244.7,128
1,161.6,254.4,107
2,243.4,162.6,137
3,299.4,196.9,84
4,166.7,186.9,75


In [120]:
# data.iloc[] es para llamar filas y columnas con número, respectivamente, mediante posiciones
data.iloc[1:10, 3:6]    # Fila de 1 a 10 y columna de 3 a 6

Unnamed: 0,Phone,Int'l Plan,VMail Plan
1,371-7191,no,yes
2,358-1921,no,no
3,375-9999,yes,no
4,330-6626,yes,no
5,391-8027,yes,no
6,355-9993,no,yes
7,329-9001,yes,no
8,335-4719,no,no
9,330-8173,yes,yes


In [121]:
#Todas las filas de la columna 3 a 6
data.iloc[:, 3:6]

#Todas las columnas de la fila 1 a 10
data.iloc[:5,:]

Unnamed: 0,State,Account Length,Area Code,Phone,Int'l Plan,VMail Plan,VMail Message,Day Mins,Day Calls,Day Charge,...,Eve Calls,Eve Charge,Night Mins,Night Calls,Night Charge,Intl Mins,Intl Calls,Intl Charge,CustServ Calls,Churn?
0,KS,128,415,382-4657,no,yes,25,265.1,110,45.07,...,99,16.78,244.7,91,11.01,10.0,3,2.7,1,False.
1,OH,107,415,371-7191,no,yes,26,161.6,123,27.47,...,103,16.62,254.4,103,11.45,13.7,3,3.7,1,False.
2,NJ,137,415,358-1921,no,no,0,243.4,114,41.38,...,110,10.3,162.6,104,7.32,12.2,5,3.29,0,False.
3,OH,84,408,375-9999,yes,no,0,299.4,71,50.9,...,88,5.26,196.9,89,8.86,6.6,7,1.78,2,False.
4,OK,75,415,330-6626,yes,no,0,166.7,113,28.34,...,122,12.61,186.9,121,8.41,10.1,3,2.73,3,False.


In [122]:
# También se pueden seleccionar filas y columnas específicas con posiciones usando .iloc
data.iloc[[0,1,6,7], [2,7,9,12]]

# O también mediante etiquetas usando .loc
data.loc[[0,1,6,7], ['State', 'Area Code', 'Day Mins', 'Eve Charge']]

Unnamed: 0,State,Area Code,Day Mins,Eve Charge
0,KS,415,265.1,16.78
1,OH,415,161.6,16.62
6,MA,510,218.2,29.62
7,MO,415,157.0,8.76


In [125]:
# Para crear una nueva columna

data['Total Mins'] = data['Day Mins'] + data['Night Mins'] + data['Eve Mins']
data['Total Mins'].head()

0    707.2
1    611.5
2    527.2
3    558.2
4    501.9
Name: Total Mins, dtype: float64

In [126]:
data['Total Calls'] = data['Day Calls'] + data['Night Calls'] + data['Eve Calls']
data['Total Calls'].head()

0    300
1    329
2    328
3    248
4    356
Name: Total Calls, dtype: int64

In [127]:
data.shape

(3333, 23)

In [128]:
data.head()

Unnamed: 0,State,Account Length,Area Code,Phone,Int'l Plan,VMail Plan,VMail Message,Day Mins,Day Calls,Day Charge,...,Night Mins,Night Calls,Night Charge,Intl Mins,Intl Calls,Intl Charge,CustServ Calls,Churn?,Total Mins,Total Calls
0,KS,128,415,382-4657,no,yes,25,265.1,110,45.07,...,244.7,91,11.01,10.0,3,2.7,1,False.,707.2,300
1,OH,107,415,371-7191,no,yes,26,161.6,123,27.47,...,254.4,103,11.45,13.7,3,3.7,1,False.,611.5,329
2,NJ,137,415,358-1921,no,no,0,243.4,114,41.38,...,162.6,104,7.32,12.2,5,3.29,0,False.,527.2,328
3,OH,84,408,375-9999,yes,no,0,299.4,71,50.9,...,196.9,89,8.86,6.6,7,1.78,2,False.,558.2,248
4,OK,75,415,330-6626,yes,no,0,166.7,113,28.34,...,186.9,121,8.41,10.1,3,2.73,3,False.,501.9,356


## Generación de números aleatorios

In [129]:
import numpy as np

In [134]:
# Generar número aleatorio entero entre 1 y 100

np.random.randint(1,100)

31

In [138]:
# La forma más clásica de generar un número aleatorio es entre 0 y 1 (con decimales)
np.random.random()

0.34111113530073245

In [140]:
# Función que genera números random enteros entre intervalo [a,b]
def randint_list(n,a,b):
    x = []
    for i in range(n):
        x.append(np.random.randint(a,b))
    return x

In [141]:
# Llamar a la función y dar parámetros
randint_list(10, 1, 50)

[3, 49, 39, 8, 47, 30, 17, 47, 21, 38]

## Random library (randrange, shuffling)

In [142]:
import random

In [146]:
# Función para números random en un rango dado; se puede especificar múltiplo

for i in range(10):
    print(random.randrange(0,100,7))     # Multiplos de 7 + 0

70
7
49
98
49
77
42
63
56
63


In [153]:
# Función que mezcla array() y range()

a = np.arange(20)
a

array([ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11, 12, 13, 14, 15, 16,
       17, 18, 19])

In [157]:
# Función shuffle para revolver/desordenar números

np.random.shuffle(a)
a

array([ 9,  1,  4, 15, 10, 13,  0, 14,  7, 17,  2,  6, 16, 18, 11,  8, 12,
        3,  5, 19])

In [159]:
data_columns_list = data.columns.values.tolist()
data_columns_list

['State',
 'Account Length',
 'Area Code',
 'Phone',
 "Int'l Plan",
 'VMail Plan',
 'VMail Message',
 'Day Mins',
 'Day Calls',
 'Day Charge',
 'Eve Mins',
 'Eve Calls',
 'Eve Charge',
 'Night Mins',
 'Night Calls',
 'Night Charge',
 'Intl Mins',
 'Intl Calls',
 'Intl Charge',
 'CustServ Calls',
 'Churn?',
 'Total Mins',
 'Total Calls']

In [167]:
# Función choice para elegir item al azar entre una lista

np.random.choice(data_columns_list)

'Intl Calls'

## Seed

Es un número usado para dar valor inicial a los números aleatorios que se generarán.

In [175]:
np.random.seed(7)
for x in range(5):
    print(np.random.random())

0.07630828937395717
0.7799187922401146
0.4384092314408935
0.7234651778309412
0.9779895119966027
