# Data Wrangling - La cirugia de los datos

###### El *Data wrangling*, a veces denominada *data munging*, es el proceso de transformar y mapear datos de un dataset raw ( en bruto ) en otro formato con la intencion de hacerlo mas apropiado y valioso para una variedad de propsitos, como el analisis. Un *data wrangler* es una persona que realiza estas operaciones de transformacion.

###### Esto puede incluir munging, visualizacion de datos, agregacion de datos, entrenamiento de un modelo estadistico, asi como muchos otros potenciales. La oscilacion de datos como proceso generalmente sigue un conjunto de pasos generales que comienzan extrayendo los datos en foroma cruda del origen de datos, dividiendo los datos en bruto usando algoritmos (por ejemplo, clasificacion) o analizando los datos en estructuras de datos predefinidas y, finalmente, depositando el contenido resultante en un sistema de almacenamiento ( o silo) para su uso futuro

* Separar columnas
* Filtrar por columnas
* Uso de listas de comprension

In [1]:
import pandas as pd

In [4]:
data = pd.read_csv('../../datasets/customer-churn-model/Customer Churn Model.txt')


In [5]:
data.head()

Unnamed: 0,State,Account Length,Area Code,Phone,Int'l Plan,VMail Plan,VMail Message,Day Mins,Day Calls,Day Charge,...,Eve Calls,Eve Charge,Night Mins,Night Calls,Night Charge,Intl Mins,Intl Calls,Intl Charge,CustServ Calls,Churn?
0,KS,128,415,382-4657,no,yes,25,265.1,110,45.07,...,99,16.78,244.7,91,11.01,10.0,3,2.7,1,False.
1,OH,107,415,371-7191,no,yes,26,161.6,123,27.47,...,103,16.62,254.4,103,11.45,13.7,3,3.7,1,False.
2,NJ,137,415,358-1921,no,no,0,243.4,114,41.38,...,110,10.3,162.6,104,7.32,12.2,5,3.29,0,False.
3,OH,84,408,375-9999,yes,no,0,299.4,71,50.9,...,88,5.26,196.9,89,8.86,6.6,7,1.78,2,False.
4,OK,75,415,330-6626,yes,no,0,166.7,113,28.34,...,122,12.61,186.9,121,8.41,10.1,3,2.73,3,False.


### Crear un subconjunto de datos

In [6]:
'''
Para seleccionar una columna y trabajar solamente con ella alamacenamos en
una variable el data de dicha columna, indicando en los corchetes o brackets
el nombre de la columna.
El objeto resultante no es un Data Frame sino un objeto del tipo 'Series'
'''
accountLength = data['Account Length']

In [8]:
accountLength.head()

0    128
1    107
2    137
3     84
4     75
Name: Account Length, dtype: int64

In [10]:
# Seleccionar mas de una columna

# En este caso el objeto resultante si que seria un DataFrame

subset = data[['Account Length', 'Phone', 'Eve Charge', 'Day Calls']]
subset.head()

Unnamed: 0,Account Length,Phone,Eve Charge,Day Calls
0,128,382-4657,16.78,110
1,107,371-7191,16.62,123
2,137,358-1921,10.3,114
3,84,375-9999,5.26,71
4,75,330-6626,12.61,113


In [14]:
# Podemos hacer lo anterior creando primero un array y posteriormente, pasarlo
# al data frame

desiredColumns = ['Account Length', 'Phone', 'Eve Charge', 'Night Calls']
subset = data[desiredColumns]
subset.head()

Unnamed: 0,Account Length,Phone,Eve Charge,Night Calls
0,128,382-4657,16.78,91
1,107,371-7191,16.62,103
2,137,358-1921,10.3,104
3,84,375-9999,5.26,89
4,75,330-6626,12.61,121


#### Eliminacion de columnas no deseadas de forma sencilla

In [21]:
'''
Cuando trabajamos con muchas columnas, algunas de ellas no nos interesaran.
En el ejemplo anterior hemos visto como seleccionar las columnas que queremos
y almacenarlas en una variable.
En el caso de que queramos trabajar con todas las columnas seria mucho mas
eficiente indicar las que no queremos ( que seran muchas menos ) y eliminarlas
de la tabla original
'''

# Indicamos las columnas que no queremos
notDesiredColumns = ['Account Length', 'VMail Message', 'Day Calls']
notDesiredColumns

['Account Length', 'VMail Message', 'Day Calls']

In [42]:
# Cojemos todas las columnas de la tabla

allColumnsList = data.columns.values.tolist()
allColumnsList

['State',
 'Account Length',
 'Area Code',
 'Phone',
 "Int'l Plan",
 'VMail Plan',
 'VMail Message',
 'Day Mins',
 'Day Calls',
 'Day Charge',
 'Eve Mins',
 'Eve Calls',
 'Eve Charge',
 'Night Mins',
 'Night Calls',
 'Night Charge',
 'Intl Mins',
 'Intl Calls',
 'Intl Charge',
 'CustServ Calls',
 'Churn?']

In [45]:
print(type(allColumnsList))

<class 'list'>


###### Ejemplo de uso de listas de comprension

https://www.programiz.com/python-programming/list-comprehension

In [44]:
# Ahora almacenamos mediante un bucle for, todas las columnas siempre y cuando
# la columna que queramos no este en la lista de 'notDesiredColumns'

sublist = [x for x in allColumnsList if x not in notDesiredColumns]
sublist

'''
Como funciona el bucle?

Se crea un bucle for entre corchetes que devuelve el nombre de todas las 
columnas exceptuando aquellas que no nos interesen. Se usa entre corchetes
porque es una forma sencilla que ha creado Python para evitar usar 
bucles y condicionals. Es lo que se conoce como LISTAS DE COMPRENSION
'''

'\nComo funciona el bucle?\n\nSe crea un bucle for entre corchetes que devuelve el nombre de todas las \ncolumnas exceptuando aquellas que no nos interesen. Se usa entre corchetes\nporque es una forma sencilla que ha creado Python para evitar usar \nbucles y condicionals. Es lo que se conoce como LISTAS DE COMPRENSION\n'