# Data Wrangling

Uno de los errores más comunes de los proyectos de Big Data, es pensar que empiezan con el análisis. Cualquier proyecto de Big Data necesita un paso previo para poder ser exitoso: el Data Wrangling.

Los datos, en su forma natural (lo que llamamos “Raw Data”), suelen tener errores de registro que imposibilitan un análisis exacto. Al ser registrados por distintos sistemas y personas, es normal que terminemos con un fichero en el que un mismo valor esté expresado de distintas maneras (por ejemplo, una fecha puede estar registrada como 28 de Junio, o como 28/06 en una mismo archivo), pueden haber registros en blanco, y por supuesto, errores gramaticales.

Al momento de hacer un análisis de esos datos, todos esos registros tienen que preprocesarse. Es decir, se tiene que limpiar, unificar, consolidar y normalizar los datos para que se puedan utilizar y lograr extraer información de valor. De esto va el Data Wrangling, de preparar los datos para poder ser aprovechados.



In [1]:
import pandas as pd

In [2]:
data = pd.read_csv(r'..\\data\\customer-churn-model\Customer Churn Model.txt', sep=',', header=0)

In [3]:
data.head()

Unnamed: 0,State,Account Length,Area Code,Phone,Int'l Plan,VMail Plan,VMail Message,Day Mins,Day Calls,Day Charge,...,Eve Calls,Eve Charge,Night Mins,Night Calls,Night Charge,Intl Mins,Intl Calls,Intl Charge,CustServ Calls,Churn?
0,KS,128,415,382-4657,no,yes,25,265.1,110,45.07,...,99,16.78,244.7,91,11.01,10.0,3,2.7,1,False.
1,OH,107,415,371-7191,no,yes,26,161.6,123,27.47,...,103,16.62,254.4,103,11.45,13.7,3,3.7,1,False.
2,NJ,137,415,358-1921,no,no,0,243.4,114,41.38,...,110,10.3,162.6,104,7.32,12.2,5,3.29,0,False.
3,OH,84,408,375-9999,yes,no,0,299.4,71,50.9,...,88,5.26,196.9,89,8.86,6.6,7,1.78,2,False.
4,OK,75,415,330-6626,yes,no,0,166.7,113,28.34,...,122,12.61,186.9,121,8.41,10.1,3,2.73,3,False.


### Crear un subconjunto de datos

Cuando se extrae mas de una lo que se obtiene es un objeto del tipo **DataFrame** y no una **serie**.

1. Series: Estructura de una dimensión.

2. DataFrame: Estructura de dos dimensiones (tablas).

3. Panel: Estructura de tres dimensiones (cubos).

#### La clase de objetos Series

Son estructuras similares a los arrays de una dimensión. Son homogéneas, es decir, sus elementos tienen que ser del mismo tipo, y su tamaño es inmutable, es decir, no se puede cambiar, aunque si su contenido.

Dispone de un índice que asocia un nombre a cada elemento del la serie, a través de la cuál se accede al elemento.

Con ``data["nombre de la columna"]`` extraemos los datos de una columna en un objeto llamado **series** (tambien conocido como *vector*). 

In [None]:
accoount_length = data["Account Length"]

In [None]:
accoount_length.head()

Con `type()` podemos ver que precisamente se trata  de un objeto tipo series.

In [None]:
type(accoount_length)

#### La clases de objeto DataFrame

Un objeto del tipo DataFrame define un conjunto de datos estructurado en forma de tabla donde cada columna es un objeto de tipo Series, es decir, todos los datos de una misma columna son del mismo tipo, y las filas son registros que pueden contender datos de distintos tipos.

Un DataFrame contiene dos índices, uno para las filas y otro para las columnas, y se puede acceder a sus elementos mediante los nombres de las filas y las columnas.


Podemos extraer multiples columnas de la siguiente forma.

In [None]:
subset = data[["Account Length", "Phone", "Eve Charge", "Day Calls"]]

In [None]:
subset.head()

In [None]:
type(subset)

- - - 
Otra forma de definirlo.

In [None]:
desired_columns = ["Account Length", "Phone", "Eve Charge", "Day Calls"]
subset = data[desired_columns]
subset.head()

Esto proceso nos sirve para casos, bien para utilizar solo los datos que necesitamos o bien para reducir el peso del data set utilizado.

En el caso de necesitamos extraer una gran cantidad de columna es remomendable hacerlo mediante sus complementos, como puede verse a continuacion:

Definimos la lista de columna que *no necesitamos*.

In [None]:
#Definimos la lista de columnas que no necesitamos.
desired_columns = ["Account Length", "VMail Message", "Day Calls"]
desired_columns


In [None]:
#Definimos la lista completa de columnas.
all_columns_list = data.columns.values.tolist()
all_columns_list

Mediante la funcion `[x for x in all_columns_list if x not in desired_columns]`, definimos un lista de las columnas que recorre la lista con toda las columnas y si no se encuentra en la lista designada se agrega a `sublist`.

In [None]:

sublist = [x for x in all_columns_list if x not in desired_columns]
sublist

In [None]:
subset = data[sublist]
subset.head()

### Filtrado Alternativos

Por si a alguien le es útil os lo pongo aquí mismo ya que yo os doy la forma que a mi me gusta pero a vosotros os puede ser útil cualquier otra de un compañero:

In [None]:
a = set(desired_columns)
b = set(all_columns_list)
sublist = b - a
sublist = list(sublist)
sublist

## Filtado de filas por Posición

Es posibles realizar una seleccion de las filas indicando el numero de posicion de la misma en un intervalo, por ejemplo:

- Podemos definir entre que intervalos superior e inferior:  `DataFrame[20:54]`
- Podemos definir solo el intervalo inferior: `DataFrame[:60]`
- O solo el superior: `DataFrame[55:]`

>>***Debe recordarse que los indices en Python inician en 0.***

Tambien podemos filtrar las filas y columnas usando compraradores *( "=", "<",">", etc)*.


1. Ejemplo 1: Filtado de dias donde la llamas son mayores a 300min.
2. Ejemplo 2: Filtrado de Usuarios de Nueva York.
3. Ejemplo 3: Filtrado de Usuario de *Nueva York y sus minutos diarios sean mayor a 300*.
4. Ejemplo 3: Filtrado de Usuario de *Nueva York o sus minutos diarios sean mayor a 300*.

>> Recordartorio: 
                * La compuetra AND, es verdad si ambos son verdad. En python se utiliza "&".
                * La compueta OR, es verdad si alguno de los dos es verdad. En python se utiliza "|".

In [43]:
#Ejemplo 1: Usuarios con tiempo de llamada mayor a 300min en el dia.
data1 = data.copy()
data1 = data1[data1["Day Mins"]>300]
data1.shape

(43, 21)

In [40]:
#Ejemplo 2: Usuarios de Nueva York (state = 'NY')
data2 = data.copy()
data2 = data2[data2["State"]=="NY"]
data2.shape

(83, 21)

In [39]:
#Ejemplo 3: Filtrados de datos para Usuarios de NY y mayor a 300min.
data3 = data.copy()
data3 = data3[(data3["State"]=="NY") & (data3["Day Mins"]>300)]	
data3.shape

(2, 21)

In [42]:
#Ejemplo 4: Filtrados de datos para Usuarios de NY o mayor a 300min.
data4 = data.copy()
data4 = data4[(data4["State"]=="NY") | (data4["Day Mins"]>300)]
data4.shape

(124, 21)