# Data Wrangling

Uno de los errores más comunes de los proyectos de Big Data, es pensar que empiezan con el análisis. Cualquier proyecto de Big Data necesita un paso previo para poder ser exitoso: el Data Wrangling.

Los datos, en su forma natural (lo que llamamos “Raw Data”), suelen tener errores de registro que imposibilitan un análisis exacto. Al ser registrados por distintos sistemas y personas, es normal que terminemos con un fichero en el que un mismo valor esté expresado de distintas maneras (por ejemplo, una fecha puede estar registrada como 28 de Junio, o como 28/06 en una mismo archivo), pueden haber registros en blanco, y por supuesto, errores gramaticales.

Al momento de hacer un análisis de esos datos, todos esos registros tienen que preprocesarse. Es decir, se tiene que limpiar, unificar, consolidar y normalizar los datos para que se puedan utilizar y lograr extraer información de valor. De esto va el Data Wrangling, de preparar los datos para poder ser aprovechados.



In [2]:
import pandas as pd

In [3]:
data = pd.read_csv(r'..\\data\\customer-churn-model\Customer Churn Model.txt', sep=',', header=0)

In [4]:
data.head()

Unnamed: 0,State,Account Length,Area Code,Phone,Int'l Plan,VMail Plan,VMail Message,Day Mins,Day Calls,Day Charge,...,Eve Calls,Eve Charge,Night Mins,Night Calls,Night Charge,Intl Mins,Intl Calls,Intl Charge,CustServ Calls,Churn?
0,KS,128,415,382-4657,no,yes,25,265.1,110,45.07,...,99,16.78,244.7,91,11.01,10.0,3,2.7,1,False.
1,OH,107,415,371-7191,no,yes,26,161.6,123,27.47,...,103,16.62,254.4,103,11.45,13.7,3,3.7,1,False.
2,NJ,137,415,358-1921,no,no,0,243.4,114,41.38,...,110,10.3,162.6,104,7.32,12.2,5,3.29,0,False.
3,OH,84,408,375-9999,yes,no,0,299.4,71,50.9,...,88,5.26,196.9,89,8.86,6.6,7,1.78,2,False.
4,OK,75,415,330-6626,yes,no,0,166.7,113,28.34,...,122,12.61,186.9,121,8.41,10.1,3,2.73,3,False.


### Crear un subconjunto de datos

Cuando se extrae mas de una lo que se obtiene es un objeto del tipo **DataFrame** y no una **serie**.

1. Series: Estructura de una dimensión.

2. DataFrame: Estructura de dos dimensiones (tablas).

3. Panel: Estructura de tres dimensiones (cubos).

#### La clase de objetos Series

Son estructuras similares a los arrays de una dimensión. Son homogéneas, es decir, sus elementos tienen que ser del mismo tipo, y su tamaño es inmutable, es decir, no se puede cambiar, aunque si su contenido.

Dispone de un índice que asocia un nombre a cada elemento del la serie, a través de la cuál se accede al elemento.

Con ``data["nombre de la columna"]`` extraemos los datos de una columna en un objeto llamado **series** (tambien conocido como *vector*). 

In [5]:
accoount_length = data["Account Length"]

In [6]:
accoount_length.head()

0    128
1    107
2    137
3     84
4     75
Name: Account Length, dtype: int64

Con `type()` podemos ver que precisamente se trata  de un objeto tipo series.

In [7]:
type(accoount_length)

pandas.core.series.Series

#### La clases de objeto DataFrame

Un objeto del tipo DataFrame define un conjunto de datos estructurado en forma de tabla donde cada columna es un objeto de tipo Series, es decir, todos los datos de una misma columna son del mismo tipo, y las filas son registros que pueden contender datos de distintos tipos.

Un DataFrame contiene dos índices, uno para las filas y otro para las columnas, y se puede acceder a sus elementos mediante los nombres de las filas y las columnas.


Podemos extraer multiples columnas de la siguiente forma.

In [8]:
subset = data[["Account Length", "Phone", "Eve Charge", "Day Calls"]]

In [9]:
subset.head()

Unnamed: 0,Account Length,Phone,Eve Charge,Day Calls
0,128,382-4657,16.78,110
1,107,371-7191,16.62,123
2,137,358-1921,10.3,114
3,84,375-9999,5.26,71
4,75,330-6626,12.61,113


In [10]:
type(subset)

pandas.core.frame.DataFrame

- - - 
Otra forma de definirlo.

In [11]:
desired_columns = ["Account Length", "Phone", "Eve Charge", "Day Calls"]
subset = data[desired_columns]
subset.head()

Unnamed: 0,Account Length,Phone,Eve Charge,Day Calls
0,128,382-4657,16.78,110
1,107,371-7191,16.62,123
2,137,358-1921,10.3,114
3,84,375-9999,5.26,71
4,75,330-6626,12.61,113


Esto proceso nos sirve para casos, bien para utilizar solo los datos que necesitamos o bien para reducir el peso del data set utilizado.

En el caso de necesitamos extraer una gran cantidad de columna es remomendable hacerlo mediante sus complementos, como puede verse a continuacion:

Definimos la lista de columna que *no necesitamos*.

In [12]:
#Definimos la lista de columnas que no necesitamos.
desired_columns = ["Account Length", "VMail Message", "Day Calls"]
desired_columns


['Account Length', 'VMail Message', 'Day Calls']

In [20]:
#Definimos la lista completa de columnas.
all_columns_list = data.columns.values.tolist()
all_columns_list

['State',
 'Account Length',
 'Area Code',
 'Phone',
 "Int'l Plan",
 'VMail Plan',
 'VMail Message',
 'Day Mins',
 'Day Calls',
 'Day Charge',
 'Eve Mins',
 'Eve Calls',
 'Eve Charge',
 'Night Mins',
 'Night Calls',
 'Night Charge',
 'Intl Mins',
 'Intl Calls',
 'Intl Charge',
 'CustServ Calls',
 'Churn?']

Mediante la funcion `[x for x in all_columns_list if x not in desired_columns]`, definimos un lista de las columnas que recorre la lista con toda las columnas y si no se encuentra en la lista designada se agrega a `sublist`.

In [18]:

sublist = [x for x in all_columns_list if x not in desired_columns]
sublist

['State',
 'Area Code',
 'Phone',
 "Int'l Plan",
 'VMail Plan',
 'Day Mins',
 'Day Charge',
 'Eve Mins',
 'Eve Calls',
 'Eve Charge',
 'Night Mins',
 'Night Calls',
 'Night Charge',
 'Intl Mins',
 'Intl Calls',
 'Intl Charge',
 'CustServ Calls',
 'Churn?']

In [19]:
subset = data[sublist]
subset.head()

Unnamed: 0,State,Area Code,Phone,Int'l Plan,VMail Plan,Day Mins,Day Charge,Eve Mins,Eve Calls,Eve Charge,Night Mins,Night Calls,Night Charge,Intl Mins,Intl Calls,Intl Charge,CustServ Calls,Churn?
0,KS,415,382-4657,no,yes,265.1,45.07,197.4,99,16.78,244.7,91,11.01,10.0,3,2.7,1,False.
1,OH,415,371-7191,no,yes,161.6,27.47,195.5,103,16.62,254.4,103,11.45,13.7,3,3.7,1,False.
2,NJ,415,358-1921,no,no,243.4,41.38,121.2,110,10.3,162.6,104,7.32,12.2,5,3.29,0,False.
3,OH,408,375-9999,yes,no,299.4,50.9,61.9,88,5.26,196.9,89,8.86,6.6,7,1.78,2,False.
4,OK,415,330-6626,yes,no,166.7,28.34,148.3,122,12.61,186.9,121,8.41,10.1,3,2.73,3,False.


### Filtrado Alternativos

Por si a alguien le es útil os lo pongo aquí mismo ya que yo os doy la forma que a mi me gusta pero a vosotros os puede ser útil cualquier otra de un compañero:

In [23]:
a = set(desired_columns)
b = set(all_columns_list)
sublist = b - a
sublist = list(sublist)
sublist

['VMail Plan',
 'Intl Charge',
 'Intl Mins',
 'Eve Charge',
 'Day Mins',
 "Int'l Plan",
 'State',
 'Eve Mins',
 'Intl Calls',
 'Night Charge',
 'Eve Calls',
 'Night Calls',
 'Phone',
 'CustServ Calls',
 'Churn?',
 'Night Mins',
 'Day Charge',
 'Area Code']

## Filtado de datos por ID


In [27]:
data[:8]

Unnamed: 0,State,Account Length,Area Code,Phone,Int'l Plan,VMail Plan,VMail Message,Day Mins,Day Calls,Day Charge,...,Eve Calls,Eve Charge,Night Mins,Night Calls,Night Charge,Intl Mins,Intl Calls,Intl Charge,CustServ Calls,Churn?
0,KS,128,415,382-4657,no,yes,25,265.1,110,45.07,...,99,16.78,244.7,91,11.01,10.0,3,2.7,1,False.
1,OH,107,415,371-7191,no,yes,26,161.6,123,27.47,...,103,16.62,254.4,103,11.45,13.7,3,3.7,1,False.
2,NJ,137,415,358-1921,no,no,0,243.4,114,41.38,...,110,10.3,162.6,104,7.32,12.2,5,3.29,0,False.
3,OH,84,408,375-9999,yes,no,0,299.4,71,50.9,...,88,5.26,196.9,89,8.86,6.6,7,1.78,2,False.
4,OK,75,415,330-6626,yes,no,0,166.7,113,28.34,...,122,12.61,186.9,121,8.41,10.1,3,2.73,3,False.
5,AL,118,510,391-8027,yes,no,0,223.4,98,37.98,...,101,18.75,203.9,118,9.18,6.3,6,1.7,0,False.
6,MA,121,510,355-9993,no,yes,24,218.2,88,37.09,...,108,29.62,212.6,118,9.57,7.5,7,2.03,3,False.
7,MO,147,415,329-9001,yes,no,0,157.0,79,26.69,...,94,8.76,211.8,96,9.53,7.1,6,1.92,0,False.
