# Data Wrangling - La cirugía de los datos

El data wrangling, a veces denominado data munging, es el proceso de transformar y mapear datos de un dataset raw(en bruto) en otro formato con la itención más apropiado y valioso para una variedad de propósitos posteriores, como el análisis. Un data wrangler es una persona que realiza estas operaciones de transformación

Esto puede incluir munging, visualización de datos, agregación de datos, entrenamiento de un modelo estadístico, así como muchos otros usos potenciales. La oscilación de datos como proceso generalmente sigue un conjunto de pasos generales que comienzan extrayendo los datos en forma cruda del origen de datos, diviendo los datos en bruto usando algoritmos(por ejemplo, clasificación) o analizando los datos en estructuras de datos predefinidas, y finalmente depositando el contenido resultante en un sistema de almacenamiento(o silo) para su uso futuro.

In [2]:
import pandas as pd
data=pd.read_csv("../python-ml-course/datasets/customer-churn-model/Customer Churn Model.txt")

## Crear un subconjunto de datos

In [3]:
account_length=data["Account Length"]#Información de una sola columna

In [4]:
account_length.head()

0    128
1    107
2    137
3     84
4     75
Name: Account Length, dtype: int64

In [5]:
type(account_length)#Pandas Series porque es una sola columna

pandas.core.series.Series

In [6]:
subset=data[["Account Length","Phone","Eve Charge","Day Calls"]]
subset.head()

Unnamed: 0,Account Length,Phone,Eve Charge,Day Calls
0,128,382-4657,16.78,110
1,107,371-7191,16.62,123
2,137,358-1921,10.3,114
3,84,375-9999,5.26,71
4,75,330-6626,12.61,113


In [7]:
type(subset)#DataFrame porque son varias columnas seleccionadas

pandas.core.frame.DataFrame

In [8]:
desired_columns=["Account Length","Phone","Eve Charge","Day Calls"]
subset=data[desired_columns]
subset.head()

Unnamed: 0,Account Length,Phone,Eve Charge,Day Calls
0,128,382-4657,16.78,110
1,107,371-7191,16.62,123
2,137,358-1921,10.3,114
3,84,375-9999,5.26,71
4,75,330-6626,12.61,113


In [9]:
desired_columns=["Account Length","VMail Message","Day Calls"]
all_columns_list=data.columns.values.tolist()

In [13]:
sublist=[x for x in all_columns_list if x not in desired_columns]#Complentario:todas las columnas menos las de desired

In [12]:
data[sublist].head()

Unnamed: 0,State,Area Code,Phone,Int'l Plan,VMail Plan,Day Mins,Day Charge,Eve Mins,Eve Calls,Eve Charge,Night Mins,Night Calls,Night Charge,Intl Mins,Intl Calls,Intl Charge,CustServ Calls,Churn?
0,KS,415,382-4657,no,yes,265.1,45.07,197.4,99,16.78,244.7,91,11.01,10.0,3,2.7,1,False.
1,OH,415,371-7191,no,yes,161.6,27.47,195.5,103,16.62,254.4,103,11.45,13.7,3,3.7,1,False.
2,NJ,415,358-1921,no,no,243.4,41.38,121.2,110,10.3,162.6,104,7.32,12.2,5,3.29,0,False.
3,OH,408,375-9999,yes,no,299.4,50.9,61.9,88,5.26,196.9,89,8.86,6.6,7,1.78,2,False.
4,OK,415,330-6626,yes,no,166.7,28.34,148.3,122,12.61,186.9,121,8.41,10.1,3,2.73,3,False.


In [76]:
data[10:15]#[10,15)

Unnamed: 0,State,Account Length,Area Code,Phone,Int'l Plan,VMail Plan,VMail Message,Day Mins,Day Calls,Day Charge,...,Night Mins,Night Calls,Night Charge,Intl Mins,Intl Calls,Intl Charge,CustServ Calls,Churn?,Total Mins,Total Calls
10,IN,65,415,329-6603,no,no,0,129.1,137,21.95,...,208.8,111,9.4,12.7,6,3.43,4,True.,566.4,331
11,RI,74,415,344-9403,no,no,0,187.7,127,31.91,...,196.0,94,8.82,9.1,5,2.46,0,False.,547.1,369
12,IA,168,408,363-1107,no,no,0,128.8,96,21.9,...,141.1,128,6.35,11.2,2,3.02,1,False.,374.8,295
13,MT,95,510,394-8006,no,no,0,156.6,88,26.62,...,192.3,115,8.65,12.3,5,3.32,3,False.,596.5,278
14,IA,62,415,366-9238,no,no,0,120.7,70,20.52,...,203.0,99,9.14,13.1,6,3.54,4,False.,630.9,245


In [77]:
data[:3]#=1:3

Unnamed: 0,State,Account Length,Area Code,Phone,Int'l Plan,VMail Plan,VMail Message,Day Mins,Day Calls,Day Charge,...,Night Mins,Night Calls,Night Charge,Intl Mins,Intl Calls,Intl Charge,CustServ Calls,Churn?,Total Mins,Total Calls
0,KS,128,415,382-4657,no,yes,25,265.1,110,45.07,...,244.7,91,11.01,10.0,3,2.7,1,False.,707.2,300
1,OH,107,415,371-7191,no,yes,26,161.6,123,27.47,...,254.4,103,11.45,13.7,3,3.7,1,False.,611.5,329
2,NJ,137,415,358-1921,no,no,0,243.4,114,41.38,...,162.6,104,7.32,12.2,5,3.29,0,False.,527.2,328


In [24]:
#Usuarios con Day Mins > 350
data[data["Day Mins"]>350]

Unnamed: 0,State,Account Length,Area Code,Phone,Int'l Plan,VMail Plan,VMail Message,Day Mins,Day Calls,Day Charge,...,Eve Calls,Eve Charge,Night Mins,Night Calls,Night Charge,Intl Mins,Intl Calls,Intl Charge,CustServ Calls,Churn?
365,CO,154,415,343-5709,no,no,0,350.8,75,59.64,...,94,18.4,253.9,100,11.43,10.1,9,2.73,1,True.


In [29]:
#Usuarios de Nueva York
data[data["State"]=="NY"].shape#(Rows,Columns)

(83, 21)

### AND

In [33]:
#Usuarios de Nueva York y Superen los 300 minutos al dia
data[(data["State"]=="NY") & (data["Day Mins"]>300)].shape

(2, 21)

### OR

In [34]:
#Usuarios de Nueva York o Superen los 300 minutos al dia
data[(data["State"]=="NY") | (data["Day Mins"]>300)].shape

(124, 21)

In [35]:
#Minutos de día, de noche y longitud de la cuenta de los primeros 50 individuos
data[["Day Mins","Night Mins","Account Length"]][:50].shape#[Condicion_Columnas][Condicion_Filas]

(50, 3)

## ILOC: Indexación basada en posiciones

In [45]:
#Primeras 10 filas y columnas de la 3 a la 6
data.iloc[1:10,3:6]#[Filas][Columnas]

Unnamed: 0,Phone,Int'l Plan,VMail Plan
1,371-7191,no,yes
2,358-1921,no,no
3,375-9999,yes,no
4,330-6626,yes,no
5,391-8027,yes,no
6,355-9993,no,yes
7,329-9001,yes,no
8,335-4719,no,no
9,330-8173,yes,yes


In [41]:
data.iloc[:,3:6].shape#Todas las filas para las columnas entre la 3 y la 6

(3333, 3)

In [42]:
data.iloc[:10,:].shape#Todas las columnas para las filas de 1 a la 10

(10, 21)

In [44]:
data.iloc[[123,34,56],[2,5,7]]#Las filas 123,34,56 para las columnas 2,5,7

Unnamed: 0,Area Code,VMail Plan,Day Mins
123,415,no,170.9
34,408,yes,176.8
56,415,no,126.9


### LOC: Indexación basada en etiquetas

In [46]:
data.loc[[1,5,8,36],["Area Code","VMail Plan","Day Mins"]]

Unnamed: 0,Area Code,VMail Plan,Day Mins
1,415,yes,161.6
5,510,no,223.4
8,408,no,184.5
36,408,yes,146.3


## Creación de nuevas columnas

In [47]:
data["Total Mins"]=data["Day Mins"]+data["Night Mins"]+data["Eve Mins"]

In [48]:
data["Total Calls"]=data["Day Calls"]+data["Night Calls"]+data["Eve Calls"]

In [49]:
data.head(1)

Unnamed: 0,State,Account Length,Area Code,Phone,Int'l Plan,VMail Plan,VMail Message,Day Mins,Day Calls,Day Charge,...,Night Mins,Night Calls,Night Charge,Intl Mins,Intl Calls,Intl Charge,CustServ Calls,Churn?,Total Mins,Total Calls
0,KS,128,415,382-4657,no,yes,25,265.1,110,45.07,...,244.7,91,11.01,10.0,3,2.7,1,False.,707.2,300


## Generación aleatorio de números

In [63]:
import numpy as np
import random as r

In [58]:
#Generación de un número aleatorio entero entre 1 y 100
np.random.randint(1,100)

51

In [59]:
#Número aleatorio entre 0 y 1 con decimales
np.random.random()

0.1801574137702433

In [62]:
#Función que genera una lista de n númeor aleatorios enteros dentro de un intervalo[a,b]
def randint_list(n,a,b):
    #np => numpy library
    l=[]
    for i in range(n):
        l.append(np.random.randint(a,b))
    return l;

### Número aletorios múltiplos

In [65]:
r.randrange(0,100,7)#Número aleatorios de 0 a 100 multiplos de 7

98

### Shuffiling

In [66]:
a=np.arange(100)#Array de números del 0 al 99

In [68]:
np.random.shuffle(a)#Reordenar el cojunto de valores o "barajar"

### Elegir al azar

In [74]:
np.random.choice(data.columns.values.tolist())

'Night Mins'

### Seed

Establecer una semilla sirve para reproducir de nuevo los mismos números generados de nuevo. Si la semilla no cambia, los números generados a partir de ella serán siempre los mismos

In [88]:
np.random.seed(19)
for i in range(5):
    print(np.random.random())

0.417022004702574
0.7203244934421581
0.00011437481734488664
0.30233257263183977
0.14675589081711304
