# Data Wrangling - La cirugía de los datos

El **data wrangling**, a veces denominada **data munging**, es el proceso de transformar y mapear datos de un dataset raw (en bruto) en otro formato con la intención de hacerlo más apropiado y valioso para una variedad de propósitos posteriores, como el análisis. Un **data wrangler** es una persona que realiza estas operaciones de transformación.

Esto puede incluir munging, visualización de datos, agregación de datos, entrenamiento de un modelo estadístico, así como muchos otros usos potenciales. La oscilación de datos como proceso generalmente sigue un conjunto de pasos generales que comienzan extrayendo los datos en forma cruda del origen de datos, dividiendo los datos en bruto usando algoritmos (por ejemplo, clasificación) o analizando los datos en estructuras de datos predefinidas, y finalmente depositando el contenido resultante en un sistema de almacenamiento (o silo) para su uso futuro.


In [1]:
import pandas as pd

In [4]:
data = pd.read_csv("../datasets/customer-churn-model/Customer Churn Model.txt")#al principio era un .csv pero esta como malito

In [5]:
data.head()

Unnamed: 0,State,Account Length,Area Code,Phone,Int'l Plan,VMail Plan,VMail Message,Day Mins,Day Calls,Day Charge,...,Eve Calls,Eve Charge,Night Mins,Night Calls,Night Charge,Intl Mins,Intl Calls,Intl Charge,CustServ Calls,Churn?
0,KS,128,415,382-4657,no,yes,25,265.1,110,45.07,...,99,16.78,244.7,91,11.01,10.0,3,2.7,1,False.
1,OH,107,415,371-7191,no,yes,26,161.6,123,27.47,...,103,16.62,254.4,103,11.45,13.7,3,3.7,1,False.
2,NJ,137,415,358-1921,no,no,0,243.4,114,41.38,...,110,10.3,162.6,104,7.32,12.2,5,3.29,0,False.
3,OH,84,408,375-9999,yes,no,0,299.4,71,50.9,...,88,5.26,196.9,89,8.86,6.6,7,1.78,2,False.
4,OK,75,415,330-6626,yes,no,0,166.7,113,28.34,...,122,12.61,186.9,121,8.41,10.1,3,2.73,3,False.


## Crear un subconjunto de datos

Vamos a sacar los datos que necesitamos de ese gran Dataset (aun esta facil, solo cortaremos un dataset). Esto es muy util cuando solo necesitamos algunas columnas o datos, no todo

### Seleccionando una sola columna del Dataset
Con el siguiente codigo podemos guardar todos los datos de una columna en una variable

In [10]:
account_length = data["Account Length"]#selecciono toda la columna
account_length.head()#muestro datos.

0    128
1    107
2    137
3     84
4     75
Name: Account Length, dtype: int64

In [14]:
type(account_length) #Este es un objeto de tipo series (solo los valores de la columna)

pandas.core.series.Series

### Multiples columnas
Seleccionamos multiples columnas con la siguiente funcion

In [12]:
subset = data[["Account Length", "Phone", "Eve Charge", "Day Calls"]]

In [13]:
subset.head()# muestro mi dataset con multiples columnas

Unnamed: 0,Account Length,Phone,Eve Charge,Day Calls
0,128,382-4657,16.78,110
1,107,371-7191,16.62,123
2,137,358-1921,10.3,114
3,84,375-9999,5.26,71
4,75,330-6626,12.61,113


In [15]:
type(subset)# el objeto es un dataframe

pandas.core.frame.DataFrame

Otro metodo de hacer esto es:

In [17]:
columnas_deseadas = ["Account Length", "Phone", "Eve Charge", "Day Calls"]#aqui si se autocompletan los nombres
subset = data[columnas_deseadas]
subset.head()

Unnamed: 0,Account Length,Phone,Eve Charge,Day Calls
0,128,382-4657,16.78,110
1,107,371-7191,16.62,123
2,137,358-1921,10.3,114
3,84,375-9999,5.26,71
4,75,330-6626,12.61,113


In [24]:
columnas_deseadas = ["Account Length", "Phone", "Eve Charge", "Day Calls"] # o tambien no deseadas, mas adelante veremos por que
columnas_deseadas

['Account Length', 'Phone', 'Eve Charge', 'Day Calls']

In [20]:
all_colums_list = data.columns.values.tolist() #lista de todos los nombres de columna
all_colums_list

['State',
 'Account Length',
 'Area Code',
 'Phone',
 "Int'l Plan",
 'VMail Plan',
 'VMail Message',
 'Day Mins',
 'Day Calls',
 'Day Charge',
 'Eve Mins',
 'Eve Calls',
 'Eve Charge',
 'Night Mins',
 'Night Calls',
 'Night Charge',
 'Intl Mins',
 'Intl Calls',
 'Intl Charge',
 'CustServ Calls',
 'Churn?']

### quedarme con las columnas que no estan en lista

Usando nuestra lista **columnas deseadas** vamos a obtener aquellas que **no esten en la lista de columnas deseadas** esto es conocido como operacion **complemento** en teoria de conjuntos

In [21]:
sublist = [x for x in all_colums_list if x not in columnas_deseadas]
sublist

['State',
 'Area Code',
 "Int'l Plan",
 'VMail Plan',
 'VMail Message',
 'Day Mins',
 'Day Charge',
 'Eve Mins',
 'Eve Calls',
 'Night Mins',
 'Night Calls',
 'Night Charge',
 'Intl Mins',
 'Intl Calls',
 'Intl Charge',
 'CustServ Calls',
 'Churn?']

In [23]:
subset = data[sublist]
subset.head()#esto fue lo que obtuve

Unnamed: 0,State,Area Code,Int'l Plan,VMail Plan,VMail Message,Day Mins,Day Charge,Eve Mins,Eve Calls,Night Mins,Night Calls,Night Charge,Intl Mins,Intl Calls,Intl Charge,CustServ Calls,Churn?
0,KS,415,no,yes,25,265.1,45.07,197.4,99,244.7,91,11.01,10.0,3,2.7,1,False.
1,OH,415,no,yes,26,161.6,27.47,195.5,103,254.4,103,11.45,13.7,3,3.7,1,False.
2,NJ,415,no,no,0,243.4,41.38,121.2,110,162.6,104,7.32,12.2,5,3.29,0,False.
3,OH,408,yes,no,0,299.4,50.9,61.9,88,196.9,89,8.86,6.6,7,1.78,2,False.
4,OK,415,yes,no,0,166.7,28.34,148.3,122,186.9,121,8.41,10.1,3,2.73,3,False.


### Filtrado alternativo
Unos compañeros vuestros me han dicho que les es mas fácil hacer una diferencia de conjuntos del siguiente modo en la comunidad de Discord (apúntate por cierto si no lo has hecho aún). Por si a alguien le es útil os lo pongo aquí mismo ya que yo os doy la forma que a mi me gusta pero a vosotros os puede ser útil cualquier otra de un compañero: 

In [26]:
a = set(columnas_deseadas)
b = set(all_colums_list)
sublist = b-a
sublist = list(sublist)
sublist

['Eve Mins',
 'VMail Plan',
 'CustServ Calls',
 'VMail Message',
 'Night Charge',
 'State',
 'Intl Mins',
 "Int'l Plan",
 'Intl Charge',
 'Night Calls',
 'Intl Calls',
 'Churn?',
 'Night Mins',
 'Eve Calls',
 'Day Charge',
 'Area Code',
 'Day Mins']