# Data Wrangling - Cirugia de datos

   El data wrangling a veces denominado data munging, es el proceso de transformar y mapear datos de un dataset raw (en bruto) en otro formato con la intencion de hacerlo mas apropiado y valioso para una variedad de propositos posteriores, como el analisis de datos. Un data wrangling es una persona que realiza estas operaciones de transformacion.

   Esto puede incluir munging, visualizacion de datos, agregacion de datos, entrenamiento de un modelos estatico, asi como muchos otros usos potenciales. La oscilacion de datos como proceso generalmente sigue un conjunto de pasos generales que comienzan extrayendo los datos en forma cruda del origen de datos, dividiendo los datos en bruto usando algoritmos (por ejemplo, clasificacion) o analizando los datos en estructuras de datos predefinidas, y finalmente depositando el contenido resultante en un sistema de almacenamiento (o sitio) para su futuro.
   

In [3]:
import pandas as pd

In [4]:
mainpath = "/home/santiago/Escritorio/Facultad/Python/Machine Learning/python-ml-course/datasets"

In [5]:
df = pd.read_csv(mainpath+"/customer-churn-model/Customer Churn Model.txt")

In [6]:
df.head()

Unnamed: 0,State,Account Length,Area Code,Phone,Int'l Plan,VMail Plan,VMail Message,Day Mins,Day Calls,Day Charge,...,Eve Calls,Eve Charge,Night Mins,Night Calls,Night Charge,Intl Mins,Intl Calls,Intl Charge,CustServ Calls,Churn?
0,KS,128,415,382-4657,no,yes,25,265.1,110,45.07,...,99,16.78,244.7,91,11.01,10.0,3,2.7,1,False.
1,OH,107,415,371-7191,no,yes,26,161.6,123,27.47,...,103,16.62,254.4,103,11.45,13.7,3,3.7,1,False.
2,NJ,137,415,358-1921,no,no,0,243.4,114,41.38,...,110,10.3,162.6,104,7.32,12.2,5,3.29,0,False.
3,OH,84,408,375-9999,yes,no,0,299.4,71,50.9,...,88,5.26,196.9,89,8.86,6.6,7,1.78,2,False.
4,OK,75,415,330-6626,yes,no,0,166.7,113,28.34,...,122,12.61,186.9,121,8.41,10.1,3,2.73,3,False.


## Extraer un subconjunto de datos
* En esta parte vamos a aprender a crear nuevas sub esquemas
* Cuando es un tipo serie y cuando un data frame

In [7]:
account_lenght = df["Account Length"]

In [8]:
account_lenght.head()

0    128
1    107
2    137
3     84
4     75
Name: Account Length, dtype: int64

In [9]:
type(account_lenght) #Es un objeto de tipo series

pandas.core.series.Series

In [10]:
subdf = df[["Account Length","Phone","Day Calls"]]

In [11]:
subdf.head()

Unnamed: 0,Account Length,Phone,Day Calls
0,128,382-4657,110
1,107,371-7191,123
2,137,358-1921,114
3,84,375-9999,71
4,75,330-6626,113


In [12]:
type(subdf)

pandas.core.frame.DataFrame

In [13]:
desired_columns = ["Account Length","Phone","Night Calls"]
subdf = df[desired_columns]
subdf.head()

Unnamed: 0,Account Length,Phone,Night Calls
0,128,382-4657,91
1,107,371-7191,103
2,137,358-1921,104
3,84,375-9999,89
4,75,330-6626,121


##### Traer todos los elementos menos...

In [14]:
desired_columns = ["Account Length","Phone","Night Calls"]
all_columns = df.columns.values.tolist()
len(all_columns)

21

In [15]:
sublist = [x for x in all_columns if x not in desired_columns]
len(sublist)

18

In [16]:
subdf = df[sublist]
subdf.head()

Unnamed: 0,State,Area Code,Int'l Plan,VMail Plan,VMail Message,Day Mins,Day Calls,Day Charge,Eve Mins,Eve Calls,Eve Charge,Night Mins,Night Charge,Intl Mins,Intl Calls,Intl Charge,CustServ Calls,Churn?
0,KS,415,no,yes,25,265.1,110,45.07,197.4,99,16.78,244.7,11.01,10.0,3,2.7,1,False.
1,OH,415,no,yes,26,161.6,123,27.47,195.5,103,16.62,254.4,11.45,13.7,3,3.7,1,False.
2,NJ,415,no,no,0,243.4,114,41.38,121.2,110,10.3,162.6,7.32,12.2,5,3.29,0,False.
3,OH,408,yes,no,0,299.4,71,50.9,61.9,88,5.26,196.9,8.86,6.6,7,1.78,2,False.
4,OK,415,yes,no,0,166.7,113,28.34,148.3,122,12.61,186.9,8.41,10.1,3,2.73,3,False.


In [17]:
#Otra alternativa es: 
a = set(desired_columns)
b = set(all_columns)
sublist = b - a
sublist = list(sublist)
len(sublist)

18

#### Manejo de arreglos:
* data[3:10] Me trae todos los elementos del 3 al 9
* data[:10] Me trae todos los elementos del 0 al 9
* data[20:] Me trae desde el 20 hasta que termine

## Consultas de Datos
Se puede filtrar la base de datos a traves de un metodo como y elegante
* data [ data["column"] op values]
* operadores * + -
* and --> &
* or --> |

In [18]:
query = df[(df["Day Mins"]>300) & (df["Night Mins"] < 150)]
query

Unnamed: 0,State,Account Length,Area Code,Phone,Int'l Plan,VMail Plan,VMail Message,Day Mins,Day Calls,Day Charge,...,Eve Calls,Eve Charge,Night Mins,Night Calls,Night Charge,Intl Mins,Intl Calls,Intl Charge,CustServ Calls,Churn?
901,CT,23,510,370-5527,no,no,0,321.6,107,54.67,...,115,21.39,141.1,158,6.35,11.3,3,3.05,2,True.
1830,CT,50,408,351-9037,no,no,0,301.7,82,51.29,...,118,14.2,72.2,89,3.25,10.5,6,2.84,1,False.
2376,NV,42,415,352-5466,no,no,0,303.9,106,51.66,...,54,19.74,147.1,76,6.62,5.8,3,1.57,1,True.
2572,MN,152,415,378-9542,no,no,0,317.8,60,54.03,...,100,13.0,123.4,63,5.55,10.4,7,2.81,1,True.
2660,NJ,88,415,347-8659,no,no,0,301.5,136,51.26,...,72,21.9,132.9,118,5.98,13.4,2,3.62,4,True.


In [24]:
# Minutos del dia, de noche y longitud de la cuenta de los primeros 10 individuos
# con el primer corchete filtramos las columnas y en el segundo las filas
sub_cons = df[["Day Mins","Night Mins","Account Length"]][:10]
sub_cons.shape

(10, 3)

In [25]:
#El metodo ix nos permite consultar indices de filas o columnas y separarlos por comas
df.ix[:10, 3:6]
#a continuacion dice que esto no se utiliza mas en las nuevas versiones de python

.ix is deprecated. Please use
.loc for label based indexing or
.iloc for positional indexing

See the documentation here:
http://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#ix-indexer-is-deprecated
  
.ix is deprecated. Please use
.loc for label based indexing or
.iloc for positional indexing

See the documentation here:
http://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#ix-indexer-is-deprecated
  retval = getattr(retval, self.name)._getitem_axis(key, axis=i)


Unnamed: 0,Phone,Int'l Plan,VMail Plan
0,382-4657,no,yes
1,371-7191,no,yes
2,358-1921,no,no
3,375-9999,yes,no
4,330-6626,yes,no
5,391-8027,yes,no
6,355-9993,no,yes
7,329-9001,yes,no
8,335-4719,no,no
9,330-8173,yes,yes


In [26]:
#iloc es lo mismo, primero van las filas y luego determinadas columnas
df.iloc[:10,3:6] #otros ejemplos [[1,5,7],[4,5,6]] or [:,1:5] ..
#iloc es indexado basado de posicion

Unnamed: 0,Phone,Int'l Plan,VMail Plan
0,382-4657,no,yes
1,371-7191,no,yes
2,358-1921,no,no
3,375-9999,yes,no
4,330-6626,yes,no
5,391-8027,yes,no
6,355-9993,no,yes
7,329-9001,yes,no
8,335-4719,no,no
9,330-8173,yes,yes


In [28]:
#loc es filtrado por etiquetas
df.loc[[1,36,456],["Day Calls","Night Calls"]]

Unnamed: 0,Day Calls,Night Calls
1,123,103
36,128,109
456,88,69


## Creacion de nuevas columnas

In [29]:
df["Total Mins"] = df["Day Mins"] + df["Night Mins"] + df["Eve Mins"]

In [30]:
df["Total Mins"].head()

0    707.2
1    611.5
2    527.2
3    558.2
4    501.9
Name: Total Mins, dtype: float64

## Generacion de numeros aleatorios
Metodos:
* 

In [31]:
import numpy as np

In [34]:
np.random.randint(1,100)

24

In [35]:
#Numero del 0 a 1
np.random.random()

0.5301677015767703

In [39]:
def list_ramdom(n , init , finish):
    x = []
    for i in range(n):
        x.append(np.random.randint(init,finish))
    return x

In [40]:
list = list_ramdom(10, 10 , 1000)
list

[490, 61, 736, 125, 289, 106, 612, 883, 187, 553]

# shuffling
para mezclar las cartas

In [47]:
a = np.arange(100)
a

array([ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11, 12, 13, 14, 15, 16,
       17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33,
       34, 35, 36, 37, 38, 39, 40, 41, 42, 43, 44, 45, 46, 47, 48, 49, 50,
       51, 52, 53, 54, 55, 56, 57, 58, 59, 60, 61, 62, 63, 64, 65, 66, 67,
       68, 69, 70, 71, 72, 73, 74, 75, 76, 77, 78, 79, 80, 81, 82, 83, 84,
       85, 86, 87, 88, 89, 90, 91, 92, 93, 94, 95, 96, 97, 98, 99])

In [48]:
np.random.shuffle(a)
a

array([ 7,  5, 68, 51, 79, 63, 42, 87, 11,  8, 31, 61, 89, 54, 43, 10, 47,
       59, 58, 84, 86, 96, 41, 57, 40, 90,  3, 85, 69, 33,  0,  4, 50, 99,
       94, 65, 91, 14, 75, 52,  6, 93, 53, 82, 67, 49, 64, 16, 98, 28, 39,
       44, 78, 80, 55, 66, 36, 32, 92, 71, 62, 60, 38, 45, 18, 56, 17, 19,
        1, 27, 12, 25, 20, 76,  9, 81, 70, 48, 30, 72, 95, 21, 77, 23, 15,
       46, 88, 35, 37, 97, 29, 24, 83, 74,  2, 34, 13, 22, 73, 26])

### Choice : Elegir un elemento aleatorio de una lista

In [49]:
column_list = df.columns.values.tolist()
np.random.choice(column_list)

'Phone'

## Seed : semillas
Es un generador de numeros aleatorios en base de una semilla, esto quiere decir que nos va a permitir repetir estos valores.

In [50]:
np.random.seed(2018)
for i in range(5):
    print(np.random.random())

0.8823493117539459
0.10432773786047767
0.9070093335163405
0.3063988986063515
0.446408872427422
