In [None]:
#########################################################################
#########------- Machine Learning Inmersion ------------#################
#########################################################################
# Capacitador: André Omar Chávez Panduro
# email: andrecp38@gmail.com
# Introduccion Python - Data Wrangling
# version: 1.0
#########################################################################

El **data wrangling**, a veces denominada **data munging**, es el proceso de transformar y mapear datos de un dataset *raw* (en bruto) en otro formato con la intención de hacerlo más apropiado y valioso para una variedad de propósitos posteriores, como el análisis. Un **data wrangler** es una persona que realiza estas operaciones de transformación.

Esto puede incluir munging, visualización de datos, agregación de datos, entrenamiento de un modelo estadístico, así como muchos otros usos potenciales. 

![image.png](attachment:image.png)

In [2]:
from google.colab import drive
import os
drive.mount('/content/drive/')
os.chdir('/content/drive/My Drive/Académico/MLI/Sesion03 - ModelosSupervisados/DataSet')

Drive already mounted at /content/drive/; to attempt to forcibly remount, call drive.mount("/content/drive/", force_remount=True).


In [3]:
import pandas as pd # Pandas es la libreria o el modulo de Python de input/output a la data

In [4]:
data = pd.read_csv("Churn-arboles.csv")

In [5]:
# La dimension del dataset
data.shape # Observaciones, variables

(1345, 8)

In [6]:
# Observamos los primeros valores de los datos
#data.head(1)
data.tail(10)

Unnamed: 0,ID,EDAD,SEXO,CIVIL,HIJOS,INGRESO,AUTO,CHURN
1335,4969,37,Femenino,Casado,2,11947.3,No,No Fuga
1336,4977,69,Femenino,Soltero,0,86735.5,No,No Fuga
1337,4980,86,Femenino,Casado,1,44773.7,Si,Fuga
1338,4981,35,Masculino,Casado,2,18345.3,Si,Fuga
1339,4985,84,Masculino,Casado,0,94243.8,No,No Fuga
1340,4987,38,Femenino,Casado,2,84653.1,Si,No Fuga
1341,4993,95,Femenino,Soltero,2,52997.5,Si,Fuga
1342,4996,70,Femenino,Casado,1,85192.9,Si,Fuga
1343,4998,37,Masculino,Casado,0,11693.3,No,No Fuga
1344,4999,41,Masculino,Casado,0,59898.4,No,No Fuga


### Crear un subconjunto de datos

#### Subconjunto de columna o columnas

In [7]:
data_Genero = data["SEXO"]

In [9]:
data_Genero.head()

0     Femenino
1     Femenino
2    Masculino
3    Masculino
4     Femenino
Name: SEXO, dtype: object

In [10]:
type(data_Genero)

pandas.core.series.Series

In [11]:
subset = data[["EDAD", "CIVIL", "INGRESO"]]

In [12]:
subset.head()

Unnamed: 0,EDAD,CIVIL,INGRESO
0,57,Casado,27535.3
1,68,Casado,81000.9
2,34,Soltero,87467.1
3,60,Casado,83220.6
4,28,Casado,20850.4


In [13]:
# Ejercicio N°01
# Crear un dataframe con las columnas SEXO, INGRESO Y la variable Target

In [14]:
# Solucion:
data[['SEXO','INGRESO','CHURN']].head(2)

Unnamed: 0,SEXO,INGRESO,CHURN
0,Femenino,27535.3,Fuga
1,Femenino,81000.9,Fuga


In [15]:
type(subset)

pandas.core.frame.DataFrame

In [16]:
# Siempre es muy usado generar una lista de nombres de columnas y después generar el subset de datos
columnas_input = ["EDAD","AUTO"]
# Del dataset elegimos las columnas anteriormente seleccionadas
subset = data[columnas_input]
# Mostramos lo deseado
subset.head()

Unnamed: 0,EDAD,AUTO
0,57,Si
1,68,No
2,34,Si
3,60,No
4,28,No


In [18]:
# Ejercicio N°02
# Generar una lista de variables con las variables Estado Civil, Ingreso y auto.
variables_input=["CIVIL","INGRESO","AUTO"] # PasoN°01
subset = data[variables_input]
subset.head(3)

Unnamed: 0,CIVIL,INGRESO,AUTO
0,Casado,27535.3,Si
1,Casado,81000.9,No
2,Soltero,87467.1,Si


In [19]:
# Podemos generar otra lista de columnas que no deseemos y por complemento retirarlas del set de datos
columnas_no_input = ["ID", "EDAD"]
columnas_no_input

['ID', 'EDAD']

In [20]:
# Genero la lista total de variables
columnas_totales = data.columns.values.tolist()
columnas_totales

['ID', 'EDAD', 'SEXO', 'CIVIL', 'HIJOS', 'INGRESO', 'AUTO', 'CHURN']

In [21]:
# Me quedo con las columnas necesarias
columnas_complemento = [x for x in columnas_totales if x not in columnas_no_input]
columnas_complemento

['SEXO', 'CIVIL', 'HIJOS', 'INGRESO', 'AUTO', 'CHURN']

In [22]:
subset2 = data[columnas_complemento]
subset2.head()

Unnamed: 0,SEXO,CIVIL,HIJOS,INGRESO,AUTO,CHURN
0,Femenino,Casado,2,27535.3,Si,Fuga
1,Femenino,Casado,2,81000.9,No,Fuga
2,Masculino,Soltero,0,87467.1,Si,No Fuga
3,Masculino,Casado,2,83220.6,No,Fuga
4,Femenino,Casado,2,20850.4,No,Fuga


In [23]:
# Ejercicio N°03
# Generar una lista con columnas no deseadas como CIVIL, AUTO, HIJOS y CHURN, y de las columnas totales suprimirlas
input_no = ["CIVIL","AUTO","HIJOS","CHURN"] # Columnas no requeridas
columnas_totales # Columnas totales
columnas_complemento = [x for x in columnas_totales if x not in input_no] # Retiro las no deseadas
subset3=data[columnas_complemento] # Me quedo con el complemento

In [24]:
input_no = ["SEXO","HIJOS","CHURN","CIVIL"] # Columnas no requeridas

In [25]:
columnas_totales # Columnas totales

['ID', 'EDAD', 'SEXO', 'CIVIL', 'HIJOS', 'INGRESO', 'AUTO', 'CHURN']

In [26]:
columnas_complemento = [x for x in columnas_totales if x not in input_no] # Retiro las no deseadas


In [27]:
subset3=data[columnas_complemento] # Me quedo con el complemento

#### Subconjunto de filas

In [28]:
data[10:15]

Unnamed: 0,ID,EDAD,SEXO,CIVIL,HIJOS,INGRESO,AUTO,CHURN
10,26,87,Masculino,Soltero,0,69864.0,No,Fuga
11,28,90,Femenino,Casado,0,91620.6,No,No Fuga
12,30,62,Masculino,Soltero,0,96501.9,Si,No Fuga
13,31,81,Masculino,Soltero,1,3968.54,No,No Fuga
14,32,50,Femenino,Casado,2,13774.2,No,Fuga


In [29]:
data[0:15]

Unnamed: 0,ID,EDAD,SEXO,CIVIL,HIJOS,INGRESO,AUTO,CHURN
0,0,57,Femenino,Casado,2,27535.3,Si,Fuga
1,4,68,Femenino,Casado,2,81000.9,No,Fuga
2,8,34,Masculino,Soltero,0,87467.1,Si,No Fuga
3,10,60,Masculino,Casado,2,83220.6,No,Fuga
4,13,28,Femenino,Casado,2,20850.4,No,Fuga
5,17,52,Masculino,Soltero,0,84112.6,No,No Fuga
6,19,87,Femenino,Soltero,2,3776.12,No,Fuga
7,20,88,Femenino,Casado,2,73865.9,Si,Fuga
8,22,76,Masculino,Casado,2,30933.6,Si,No Fuga
9,23,76,Femenino,Casado,1,12309.6,No,Fuga


In [None]:
data[:15] # CORRECCIÓN: es lo mismo que data[0:8]

Unnamed: 0,ID,EDAD,SEXO,CIVIL,HIJOS,INGRESO,AUTO,CHURN
0,0,57,Femenino,Casado,2,27535.3,Si,Fuga
1,4,68,Femenino,Casado,2,81000.9,No,Fuga
2,8,34,Masculino,Soltero,0,87467.1,Si,No Fuga
3,10,60,Masculino,Casado,2,83220.6,No,Fuga
4,13,28,Femenino,Casado,2,20850.4,No,Fuga
5,17,52,Masculino,Soltero,0,84112.6,No,No Fuga
6,19,87,Femenino,Soltero,2,3776.12,No,Fuga
7,20,88,Femenino,Casado,2,73865.9,Si,Fuga
8,22,76,Masculino,Casado,2,30933.6,Si,No Fuga
9,23,76,Femenino,Casado,1,12309.6,No,Fuga


In [30]:
data[0:4]

Unnamed: 0,ID,EDAD,SEXO,CIVIL,HIJOS,INGRESO,AUTO,CHURN
0,0,57,Femenino,Casado,2,27535.3,Si,Fuga
1,4,68,Femenino,Casado,2,81000.9,No,Fuga
2,8,34,Masculino,Soltero,0,87467.1,Si,No Fuga
3,10,60,Masculino,Casado,2,83220.6,No,Fuga


#### Subconjuntos de filas con condiciones booleanas

In [32]:
## Clientes con INGRESO > 30000
data1 = data[data["INGRESO"]>30000]
data1.head(3)

Unnamed: 0,ID,EDAD,SEXO,CIVIL,HIJOS,INGRESO,AUTO,CHURN
1,4,68,Femenino,Casado,2,81000.9,No,Fuga
2,8,34,Masculino,Soltero,0,87467.1,Si,No Fuga
3,10,60,Masculino,Casado,2,83220.6,No,Fuga


In [31]:
## Clientes Fugados (CHURN = "Fuga")
data2 = data[data["CHURN"]=="Fuga"]
data2.head(4)

Unnamed: 0,ID,EDAD,SEXO,CIVIL,HIJOS,INGRESO,AUTO,CHURN
0,0,57,Femenino,Casado,2,27535.3,Si,Fuga
1,4,68,Femenino,Casado,2,81000.9,No,Fuga
3,10,60,Masculino,Casado,2,83220.6,No,Fuga
4,13,28,Femenino,Casado,2,20850.4,No,Fuga


In [33]:
## AND -> &
data3 = data[(data["INGRESO"]>30000) & (data["CHURN"]=="No Fuga") ]
data3.shape

(612, 8)

In [34]:
## OR -> |
data4 = data[(data["SEXO"]=="Femenino") | (data["CHURN"]=="Fuga")]
data4.head(6)

Unnamed: 0,ID,EDAD,SEXO,CIVIL,HIJOS,INGRESO,AUTO,CHURN
0,0,57,Femenino,Casado,2,27535.3,Si,Fuga
1,4,68,Femenino,Casado,2,81000.9,No,Fuga
3,10,60,Masculino,Casado,2,83220.6,No,Fuga
4,13,28,Femenino,Casado,2,20850.4,No,Fuga
6,19,87,Femenino,Soltero,2,3776.12,No,Fuga
7,20,88,Femenino,Casado,2,73865.9,Si,Fuga


In [38]:
# Ejercicio N°04
# Generar un subset de clientes con ingresos mayores a 1000 soles, No Fugados y con edades mayores a 28 años.
data5=data[(data['INGRESO']>1000)&(data['CHURN']=='No Fuga')&(data['EDAD']>28)]
data5.head(2)

Unnamed: 0,ID,EDAD,SEXO,CIVIL,HIJOS,INGRESO,AUTO,CHURN
2,8,34,Masculino,Soltero,0,87467.1,Si,No Fuga
5,17,52,Masculino,Soltero,0,84112.6,No,No Fuga


In [39]:
## EDAD, AUTO y CHURN de los primeros 20 individuos
subset_primeros_50 = data[["EDAD", "AUTO", "CHURN"]][:50]
subset_primeros_50.head()

Unnamed: 0,EDAD,AUTO,CHURN
0,57,Si,Fuga
1,68,No,Fuga
2,34,Si,No Fuga
3,60,No,Fuga
4,28,No,Fuga


In [40]:
subset[:10]

Unnamed: 0,CIVIL,INGRESO,AUTO
0,Casado,27535.3,Si
1,Casado,81000.9,No
2,Soltero,87467.1,Si
3,Casado,83220.6,No
4,Casado,20850.4,No
5,Soltero,84112.6,No
6,Soltero,3776.12,No
7,Casado,73865.9,Si
8,Casado,30933.6,Si
9,Casado,12309.6,No


#### Filtrado con ix -> loc e iloc

In [None]:
data.ix[1:10, 3:6] ## Primeras 10 filas, columnas de la 3 a la 6

In [45]:
data.iloc[0:10 , 2:6] # data[filas,columnas]

Unnamed: 0,SEXO,CIVIL,HIJOS,INGRESO
0,Femenino,Casado,2,27535.3
1,Femenino,Casado,2,81000.9
2,Masculino,Soltero,0,87467.1
3,Masculino,Casado,2,83220.6
4,Femenino,Casado,2,20850.4
5,Masculino,Soltero,0,84112.6
6,Femenino,Soltero,2,3776.12
7,Femenino,Casado,2,73865.9
8,Masculino,Casado,2,30933.6
9,Femenino,Casado,1,12309.6


In [46]:
data.iloc[:,3:6] ##Todas las filas para las columnas entre la 3 y la 6
data.iloc[1:10,:] ##Todas las columnas para las filas de la 1 a la 10

Unnamed: 0,ID,EDAD,SEXO,CIVIL,HIJOS,INGRESO,AUTO,CHURN
1,4,68,Femenino,Casado,2,81000.9,No,Fuga
2,8,34,Masculino,Soltero,0,87467.1,Si,No Fuga
3,10,60,Masculino,Casado,2,83220.6,No,Fuga
4,13,28,Femenino,Casado,2,20850.4,No,Fuga
5,17,52,Masculino,Soltero,0,84112.6,No,No Fuga
6,19,87,Femenino,Soltero,2,3776.12,No,Fuga
7,20,88,Femenino,Casado,2,73865.9,Si,Fuga
8,22,76,Masculino,Casado,2,30933.6,Si,No Fuga
9,23,76,Femenino,Casado,1,12309.6,No,Fuga


In [47]:
# Generamos un subset a nivel de filas y columnas
data.iloc[1:10,[2,5,7]]

Unnamed: 0,SEXO,INGRESO,CHURN
1,Femenino,81000.9,Fuga
2,Masculino,87467.1,No Fuga
3,Masculino,83220.6,Fuga
4,Femenino,20850.4,Fuga
5,Masculino,84112.6,No Fuga
6,Femenino,3776.12,Fuga
7,Femenino,73865.9,Fuga
8,Masculino,30933.6,No Fuga
9,Femenino,12309.6,Fuga


In [48]:
# Puedo hacer el subset de acuerdo a lo que necesite
data.iloc[[1,5,8,36], [2,5,7]]

Unnamed: 0,SEXO,INGRESO,CHURN
1,Femenino,81000.9,Fuga
5,Masculino,84112.6,No Fuga
8,Masculino,30933.6,No Fuga
36,Masculino,44143.1,Fuga


In [49]:
data.iloc[[1,5,8,36], [2, 3, 4]]

Unnamed: 0,SEXO,CIVIL,HIJOS
1,Femenino,Casado,2
5,Masculino,Soltero,0
8,Masculino,Casado,2
36,Masculino,Soltero,0


#### Insertar nuevas filas en el dataframe

In [50]:
data["Ingreso/Hijo"] = data["INGRESO"]/(data["HIJOS"]+1)

In [51]:
data["Ingreso/Hijo"].head()

0     9178.433333
1    27000.300000
2    87467.100000
3    27740.200000
4     6950.133333
Name: Ingreso/Hijo, dtype: float64

In [52]:
data.head(5)

Unnamed: 0,ID,EDAD,SEXO,CIVIL,HIJOS,INGRESO,AUTO,CHURN,Ingreso/Hijo
0,0,57,Femenino,Casado,2,27535.3,Si,Fuga,9178.433333
1,4,68,Femenino,Casado,2,81000.9,No,Fuga,27000.3
2,8,34,Masculino,Soltero,0,87467.1,Si,No Fuga,87467.1
3,10,60,Masculino,Casado,2,83220.6,No,Fuga,27740.2
4,13,28,Femenino,Casado,2,20850.4,No,Fuga,6950.133333


In [None]:
# Ejercicio N°05
# Generar la variable INGRESO/EDAD o Numero de hijos **2
import numpy as np
np.power(variable,2)

In [54]:
data.shape

(1345, 9)

In [55]:
data.head()

Unnamed: 0,ID,EDAD,SEXO,CIVIL,HIJOS,INGRESO,AUTO,CHURN,Ingreso/Hijo
0,0,57,Femenino,Casado,2,27535.3,Si,Fuga,9178.433333
1,4,68,Femenino,Casado,2,81000.9,No,Fuga,27000.3
2,8,34,Masculino,Soltero,0,87467.1,Si,No Fuga,87467.1
3,10,60,Masculino,Casado,2,83220.6,No,Fuga,27740.2
4,13,28,Femenino,Casado,2,20850.4,No,Fuga,6950.133333


### Generación aleatoria de números

In [56]:
import numpy as np

In [57]:
##Generar un número aleatorio entero entre 1 y 100
np.random.randint(1,100)

10

In [58]:
##La forma más clásica de generar un número aleatorio es entre 0 y 1 (con decimales)
np.random.random()

0.3731571874452938

In [None]:
## FIN