## Data Wrangling

El **data wrangling**, a veces denominada **data munging**, es el proceso de transformar y mapear datos de un dataset *raw* (en bruto) en otro formato con la intención de hacerlo más apropiado y valioso para una variedad de propósitos posteriores, como el análisis. 

Esto puede incluir munging, visualización de datos, agregación de datos, entrenamiento de un modelo estadístico, así como muchos otros usos potenciales. La oscilación de datos como proceso generalmente sigue un conjunto de pasos generales que comienzan extrayendo los datos en forma cruda del origen de datos, dividiendo los datos en bruto usando algoritmos (por ejemplo, clasificación) o analizando los datos en estructuras de datos predefinidas, y finalmente depositando el contenido resultante en un sistema de almacenamiento para su uso futuro.

In [None]:
import pandas as pd

In [None]:
data = pd.read_csv("../datasets/customer-churn-model/Customer Churn Model.txt")

In [None]:
data

## Crear un subconjunto de datos

In [None]:
account_length = data["Account Length"] #extraer una columna del tipo serie
account_length.head()

In [None]:
type(account_length)

In [None]:
subset = data[["Account Length", "Phone", "Eve Charge", "Day Calls"]] #extraer varias columnas
subset.head()

In [None]:
type(subset)

In [None]:
desired_columns = ["Account Length", "Phone", "Eve Charge", "Night Calls"] #crear una lista de columnas
subset = data[desired_columns] #crear el subset de columnas de la lista
subset.head()

## Quedarme con solo las columnas que quiero

In [None]:
desired_columns = ["Account Length", "Phone", "Eve Charge", "Night Calls"] #crear una lista de columnas
desired_columns

In [None]:
all_columns_list = data.columns.values.tolist()
all_columns_list

In [None]:
sublist = [x for x in all_columns_list if x not in desired_columns]
sublist #elimina las deseadas de la lista total

In [None]:
subset = data[sublist]
subset.head()

In [None]:
a = set(desired_columns) # otra forma
b = set(all_columns_list)
sublist2 = b-a
sublist2 = list(sublist2)
subset2 = data[sublist2]
subset2.head()

## Quedarme con solo las filas que quiero

In [None]:
data[10:25] # de la 10 a la 24 #el primero se incluye el último no

In [None]:
data[:8] # es lo mismo que data[0:8]

## Condicionales booleanas

In [None]:
##Usuarios con Day Mins > 300
data1 = data[data["Day Mins"]>300]
data1

In [None]:
data1.shape #(renglones,columnas)

In [None]:
##Usuarios de Nueva York (State = "NY")
data2 = data[data["State"]=="NY"]
data2.shape

In [None]:
##AND -> &
data3 = data[(data["Day Mins"]>300) & (data["State"]=="NY")]
data3.shape

In [None]:
##OR -> |
data4 = data[(data["Day Mins"]>300) | (data["State"]=="NY")]
data4.shape

In [None]:
data5 = data[data["Day Calls"]<data["Night Calls"]]
data5.shape

In [None]:
data6 = data[data["Day Mins"]<data["Night Mins"]]
data6.shape

In [None]:
##Minutos de día, de noche y Longitud de la Cuenta de los primeros 50 individuos
subset_first_50 = data[["Day Mins", "Night Mins", "Account Length"]][:50]
subset_first_50

In [None]:
subset[:10]

#### Filtrado con ix -> loc e iloc

Filtrado de filas y columnas a la vez

In [None]:
# Minutos de dia, de noche y longitd de la cuenta de los primeros 50

subset_first_50 = data[["Day Mins", "Night Mins", "Account Length" ]][:50]
subset_first_50

In [None]:
data.iloc[1:10, 3:6] #10 filas y columnas de la 3 a la 6
#loc para etiquetas y iloc para posiciones

In [None]:
data.iloc[:,3:6] ##Todas las filas para las columnas entre la 3 y la 6


In [None]:
data.iloc[1:10,:] ##Todas las columnas para las filas de la 1 a la 10

In [None]:
data.iloc[[1,5,8,36], [2,5,7]]

In [None]:
data.loc[[1,5,8,36], ["Area Code", "VMail Plan", "Day Mins"]] #indexado basado en etiquetas

#### Insertar nuevas filas en el dataframe

In [None]:
data["Total Mins"] = data["Day Mins"] + data["Night Mins"] + data["Eve Mins"] #minutos totales
data["Total Mins"].head()

In [None]:
data["Total Calls"] = data["Day Calls"] + data["Night Calls"] + data["Eve Calls"]
data["Total Calls"].head()

In [None]:
data.shape

In [None]:
data.head()