# Data Wrangling

Uno de los errores más comunes de los proyectos de Big Data, es pensar que empiezan con el análisis. Cualquier proyecto de Big Data necesita un paso previo para poder ser exitoso: el Data Wrangling.

Los datos, en su forma natural (lo que llamamos “Raw Data”), suelen tener errores de registro que imposibilitan un análisis exacto. Al ser registrados por distintos sistemas y personas, es normal que terminemos con un fichero en el que un mismo valor esté expresado de distintas maneras (por ejemplo, una fecha puede estar registrada como 28 de Junio, o como 28/06 en una mismo archivo), pueden haber registros en blanco, y por supuesto, errores gramaticales.

Al momento de hacer un análisis de esos datos, todos esos registros tienen que preprocesarse. Es decir, se tiene que limpiar, unificar, consolidar y normalizar los datos para que se puedan utilizar y lograr extraer información de valor. De esto va el Data Wrangling, de preparar los datos para poder ser aprovechados.



In [1]:
import pandas as pd

In [2]:
#Caso de archivos locales
#data = pd.read_csv(r'..\\data\\customer-churn-model\Customer Churn Model.txt', sep=',', header=0)

#Colab no me permite trabajar con archivos locales sin que esten en googe Drive entonces lo importamos desde GitHub.
url = 'https://raw.githubusercontent.com/fgabim19/Curso-Ciencia-de-Datos/main/data/customer-churn-model/Customer%20Churn%20Model.txt'
data = pd.read_csv(url, sep=',', header=0)

In [3]:
data.head()

Unnamed: 0,State,Account Length,Area Code,Phone,Int'l Plan,VMail Plan,VMail Message,Day Mins,Day Calls,Day Charge,...,Eve Calls,Eve Charge,Night Mins,Night Calls,Night Charge,Intl Mins,Intl Calls,Intl Charge,CustServ Calls,Churn?
0,KS,128,415,382-4657,no,yes,25,265.1,110,45.07,...,99,16.78,244.7,91,11.01,10.0,3,2.7,1,False.
1,OH,107,415,371-7191,no,yes,26,161.6,123,27.47,...,103,16.62,254.4,103,11.45,13.7,3,3.7,1,False.
2,NJ,137,415,358-1921,no,no,0,243.4,114,41.38,...,110,10.3,162.6,104,7.32,12.2,5,3.29,0,False.
3,OH,84,408,375-9999,yes,no,0,299.4,71,50.9,...,88,5.26,196.9,89,8.86,6.6,7,1.78,2,False.
4,OK,75,415,330-6626,yes,no,0,166.7,113,28.34,...,122,12.61,186.9,121,8.41,10.1,3,2.73,3,False.


## Filtrado

### Filtrado de Columnas


#### Crear un subconjunto de datos

Cuando se extrae mas de una lo que se obtiene es un objeto del tipo **DataFrame** y no una **serie**.

1. Series: Estructura de una dimensión.

2. DataFrame: Estructura de dos dimensiones (tablas).

3. Panel: Estructura de tres dimensiones (cubos).

#### La clase de objetos Series

Son estructuras similares a los arrays de una dimensión. Son homogéneas, es decir, sus elementos tienen que ser del mismo tipo, y su tamaño es inmutable, es decir, no se puede cambiar, aunque si su contenido.

Dispone de un índice que asocia un nombre a cada elemento del la serie, a través de la cuál se accede al elemento.

Con ``data["nombre de la columna"]`` extraemos los datos de una columna en un objeto llamado **series** (tambien conocido como *vector*). 

In [4]:
accoount_length = data["Account Length"]

In [5]:
accoount_length.head()

0    128
1    107
2    137
3     84
4     75
Name: Account Length, dtype: int64

Con `type()` podemos ver que precisamente se trata  de un objeto tipo series.

In [6]:
type(accoount_length)

pandas.core.series.Series

#### La clases de objeto DataFrame

Un objeto del tipo DataFrame define un conjunto de datos estructurado en forma de tabla donde cada columna es un objeto de tipo Series, es decir, todos los datos de una misma columna son del mismo tipo, y las filas son registros que pueden contender datos de distintos tipos.

Un DataFrame contiene dos índices, uno para las filas y otro para las columnas, y se puede acceder a sus elementos mediante los nombres de las filas y las columnas.


Podemos extraer multiples columnas de la siguiente forma.

In [7]:
subset = data[["Account Length", "Phone", "Eve Charge", "Day Calls"]]

In [8]:
subset.head()

Unnamed: 0,Account Length,Phone,Eve Charge,Day Calls
0,128,382-4657,16.78,110
1,107,371-7191,16.62,123
2,137,358-1921,10.3,114
3,84,375-9999,5.26,71
4,75,330-6626,12.61,113


In [9]:
type(subset)

pandas.core.frame.DataFrame

- - - 
Otra forma de definirlo.

In [10]:
desired_columns = ["Account Length", "Phone", "Eve Charge", "Day Calls"]
subset = data[desired_columns]
subset.head()

Unnamed: 0,Account Length,Phone,Eve Charge,Day Calls
0,128,382-4657,16.78,110
1,107,371-7191,16.62,123
2,137,358-1921,10.3,114
3,84,375-9999,5.26,71
4,75,330-6626,12.61,113


Esto proceso nos sirve para casos, bien para utilizar solo los datos que necesitamos o bien para reducir el peso del data set utilizado.

En el caso de necesitamos extraer una gran cantidad de columna es remomendable hacerlo mediante sus complementos, como puede verse a continuacion:

Definimos la lista de columna que *no necesitamos*.

In [11]:
#Definimos la lista de columnas que no necesitamos.
desired_columns = ["Account Length", "VMail Message", "Day Calls"]
desired_columns


['Account Length', 'VMail Message', 'Day Calls']

In [12]:
#Definimos la lista completa de columnas.
all_columns_list = data.columns.values.tolist()
all_columns_list

['State',
 'Account Length',
 'Area Code',
 'Phone',
 "Int'l Plan",
 'VMail Plan',
 'VMail Message',
 'Day Mins',
 'Day Calls',
 'Day Charge',
 'Eve Mins',
 'Eve Calls',
 'Eve Charge',
 'Night Mins',
 'Night Calls',
 'Night Charge',
 'Intl Mins',
 'Intl Calls',
 'Intl Charge',
 'CustServ Calls',
 'Churn?']

Mediante la funcion `[x for x in all_columns_list if x not in desired_columns]`, definimos un lista de las columnas que recorre la lista con toda las columnas y si no se encuentra en la lista designada se agrega a `sublist`.

In [13]:

sublist = [x for x in all_columns_list if x not in desired_columns]
sublist

['State',
 'Area Code',
 'Phone',
 "Int'l Plan",
 'VMail Plan',
 'Day Mins',
 'Day Charge',
 'Eve Mins',
 'Eve Calls',
 'Eve Charge',
 'Night Mins',
 'Night Calls',
 'Night Charge',
 'Intl Mins',
 'Intl Calls',
 'Intl Charge',
 'CustServ Calls',
 'Churn?']

In [14]:
subset = data[sublist]
subset.head()

Unnamed: 0,State,Area Code,Phone,Int'l Plan,VMail Plan,Day Mins,Day Charge,Eve Mins,Eve Calls,Eve Charge,Night Mins,Night Calls,Night Charge,Intl Mins,Intl Calls,Intl Charge,CustServ Calls,Churn?
0,KS,415,382-4657,no,yes,265.1,45.07,197.4,99,16.78,244.7,91,11.01,10.0,3,2.7,1,False.
1,OH,415,371-7191,no,yes,161.6,27.47,195.5,103,16.62,254.4,103,11.45,13.7,3,3.7,1,False.
2,NJ,415,358-1921,no,no,243.4,41.38,121.2,110,10.3,162.6,104,7.32,12.2,5,3.29,0,False.
3,OH,408,375-9999,yes,no,299.4,50.9,61.9,88,5.26,196.9,89,8.86,6.6,7,1.78,2,False.
4,OK,415,330-6626,yes,no,166.7,28.34,148.3,122,12.61,186.9,121,8.41,10.1,3,2.73,3,False.


#### Filtrado Alternativos

Por si a alguien le es útil os lo pongo aquí mismo ya que yo os doy la forma que a mi me gusta pero a vosotros os puede ser útil cualquier otra de un compañero:

In [15]:
a = set(desired_columns)
b = set(all_columns_list)
sublist = b - a
sublist = list(sublist)
sublist

['Eve Calls',
 'Intl Charge',
 'Churn?',
 'Area Code',
 'Night Calls',
 'Night Charge',
 "Int'l Plan",
 'Night Mins',
 'CustServ Calls',
 'State',
 'Day Charge',
 'Phone',
 'Day Mins',
 'Intl Mins',
 'Intl Calls',
 'Eve Mins',
 'Eve Charge',
 'VMail Plan']

### Filtado de Filas

Es posibles realizar una seleccion de las filas indicando el numero de posicion de la misma en un intervalo, por ejemplo:

- Podemos definir entre que intervalos superior e inferior:  `DataFrame[20:54]`
- Podemos definir solo el intervalo inferior: `DataFrame[:60]`
- O solo el superior: `DataFrame[55:]`

>>***Debe recordarse que los indices en Python inician en 0.***


### Filtrado Usando Condicionales
Tambien podemos filtrar las filas y columnas usando compraradores *( "==", "<",">", etc)*.


1. Ejemplo 1: Filtado de dias donde la llamas son mayores a 300min.
2. Ejemplo 2: Filtrado de Usuarios de Nueva York.
3. Ejemplo 3: Filtrado de Usuario de *Nueva York y sus minutos diarios sean mayor a 300*.
4. Ejemplo 3: Filtrado de Usuario de *Nueva York o sus minutos diarios sean mayor a 300*.

>> Recordartorio: 
                * La compuetra AND, es verdad si ambos son verdad. En python se utiliza "&".
                * La compueta OR, es verdad si alguno de los dos es verdad. En python se utiliza "|".

In [16]:
#Ejemplo 1: Usuarios con tiempo de llamada mayor a 300min en el dia.
data1 = data.copy()
data1 = data1[data1["Day Mins"]>300]
data1.shape

(43, 21)

In [17]:
#Ejemplo 2: Usuarios de Nueva York (state = 'NY')
data2 = data.copy()
data2 = data2[data2["State"]=="NY"]
data2.shape

(83, 21)

In [18]:
#Ejemplo 3: Filtrados de datos para Usuarios de NY y mayor a 300min.
data3 = data.copy()
data3 = data3[(data3["State"]=="NY") & (data3["Day Mins"]>300)]	
data3.shape

(2, 21)

In [19]:
#Ejemplo 4: Filtrados de datos para Usuarios de NY o mayor a 300min.
data4 = data.copy()
data4 = data4[(data4["State"]=="NY") | (data4["Day Mins"]>300)]
data4.shape

(124, 21)

### Filtrado por Columnas y Filas

Antes habiamos filtrado solo las columnas de un data set, ahora si agregamos otra tupla dentro del `pd.DataFrame[]` podremos seleccionar el numero de columnas a filtrar, tener en cuenta que primero se expecifican las columnas y luego las filas. Ejemplo


```
data = pd.DataFrame[["valor 1", "valor 2", "valor 3"][5:10]]
```
* Lo que resultara esto es un dataframe donde se filtren las columnas valor 1, 2 y 3, se muestren las filas desde las 5 hasta las 10. Teniendo entonces una matris de 3x5.





In [20]:
##Minutos de dia, de noche y Lonfitud de la cuenta de los primeros 50 individuaos.
data5 = data.copy()
subset_first_50 = data5[["Day Mins", "Night Mins", "Account Length"][:50]]
print(f"{data5.shape} \n")
subset_first_50.head()

(3333, 21) 



Unnamed: 0,Day Mins,Night Mins,Account Length
0,265.1,244.7,128
1,161.6,254.4,107
2,243.4,162.6,137
3,299.4,196.9,84
4,166.7,186.9,75


* Es lo mismo hacer el filtrado por separado, pero es mas conveniete hacerlo en un solo momento, igualmente a continuacion se muestra que se puede filtrar los 10 primeros valores para el **subset** antes definido.

In [21]:
subset[:10]

Unnamed: 0,State,Area Code,Phone,Int'l Plan,VMail Plan,Day Mins,Day Charge,Eve Mins,Eve Calls,Eve Charge,Night Mins,Night Calls,Night Charge,Intl Mins,Intl Calls,Intl Charge,CustServ Calls,Churn?
0,KS,415,382-4657,no,yes,265.1,45.07,197.4,99,16.78,244.7,91,11.01,10.0,3,2.7,1,False.
1,OH,415,371-7191,no,yes,161.6,27.47,195.5,103,16.62,254.4,103,11.45,13.7,3,3.7,1,False.
2,NJ,415,358-1921,no,no,243.4,41.38,121.2,110,10.3,162.6,104,7.32,12.2,5,3.29,0,False.
3,OH,408,375-9999,yes,no,299.4,50.9,61.9,88,5.26,196.9,89,8.86,6.6,7,1.78,2,False.
4,OK,415,330-6626,yes,no,166.7,28.34,148.3,122,12.61,186.9,121,8.41,10.1,3,2.73,3,False.
5,AL,510,391-8027,yes,no,223.4,37.98,220.6,101,18.75,203.9,118,9.18,6.3,6,1.7,0,False.
6,MA,510,355-9993,no,yes,218.2,37.09,348.5,108,29.62,212.6,118,9.57,7.5,7,2.03,3,False.
7,MO,415,329-9001,yes,no,157.0,26.69,103.1,94,8.76,211.8,96,9.53,7.1,6,1.92,0,False.
8,LA,408,335-4719,no,no,184.5,31.37,351.6,80,29.89,215.8,90,9.71,8.7,4,2.35,1,False.
9,WV,415,330-8173,yes,yes,258.6,43.96,222.0,111,18.87,326.4,97,14.69,11.2,5,3.02,0,False.


* Una alternativa es trabajar con `dataFrame.iloc[]` para versiones **python 3**, donde primero se colocaran las filas y posteriormente las columnas.

* Puede definirse para todas las filas en el caso `dataFrame.iloc[:, 1:10]` o bien para todas las columnas `dataFrame.iloc[1:10, :]` en cualquiera de los casos si `:`, es decir no especificamos los intervalos se tomaran todos los valores. 

In [22]:
data6 = data.copy()
data6.iloc[:10, 3:6] ##Con esta funcion primero van a las filas y luego las columnas

Unnamed: 0,Phone,Int'l Plan,VMail Plan
0,382-4657,no,yes
1,371-7191,no,yes
2,358-1921,no,no
3,375-9999,yes,no
4,330-6626,yes,no
5,391-8027,yes,no
6,355-9993,no,yes
7,329-9001,yes,no
8,335-4719,no,no
9,330-8173,yes,yes


* Tambien por demos especificar una lista de que indique que filas y colomnas queremos.

In [23]:
data6.iloc[[1,3,5,7],[2,4,6,8]]

Unnamed: 0,Area Code,Int'l Plan,VMail Message,Day Calls
1,415,no,26,123
3,408,yes,0,71
5,510,yes,0,98
7,415,yes,0,79


* Una cosa importante es que podemos haceder por clave mediante `iloc`, pero si queremos indexar por **etiqueta** usamos `loc`.

In [24]:
data.loc[[1,3,5,7], ["Area Code", "Day Calls"]]

Unnamed: 0,Area Code,Day Calls
1,415,123
3,408,71
5,510,98
7,415,79


## Creacion de una nueva Tabla a partir de otras

Es posible crear una nueva tabla sumando los datos de otras como se muestra. Siempre respetando el tipo de dato con el que se trata.

In [25]:
data7 = data.copy()
data7["Total Mins"]  = data7["Day Mins"] + data7["Night Mins"] + data7["Eve Mins"]
data7["Total Mins"].head()

0    707.2
1    611.5
2    527.2
3    558.2
4    501.9
Name: Total Mins, dtype: float64

In [26]:
data7["Total Calls"] = data7["Day Calls"] + data7["Night Calls"] + data7["Eve Calls"]
data7["Total Calls"].head()

0    300
1    329
2    328
3    248
4    356
Name: Total Calls, dtype: int64

In [27]:
data7.shape

(3333, 23)

In [28]:
data7.head()

Unnamed: 0,State,Account Length,Area Code,Phone,Int'l Plan,VMail Plan,VMail Message,Day Mins,Day Calls,Day Charge,...,Night Mins,Night Calls,Night Charge,Intl Mins,Intl Calls,Intl Charge,CustServ Calls,Churn?,Total Mins,Total Calls
0,KS,128,415,382-4657,no,yes,25,265.1,110,45.07,...,244.7,91,11.01,10.0,3,2.7,1,False.,707.2,300
1,OH,107,415,371-7191,no,yes,26,161.6,123,27.47,...,254.4,103,11.45,13.7,3,3.7,1,False.,611.5,329
2,NJ,137,415,358-1921,no,no,0,243.4,114,41.38,...,162.6,104,7.32,12.2,5,3.29,0,False.,527.2,328
3,OH,84,408,375-9999,yes,no,0,299.4,71,50.9,...,196.9,89,8.86,6.6,7,1.78,2,False.,558.2,248
4,OK,75,415,330-6626,yes,no,0,166.7,113,28.34,...,186.9,121,8.41,10.1,3,2.73,3,False.,501.9,356


* Con estos podemos ver que efectivamente tenemos 23 columnas, al contrario de las 21 que teniamos antes en las cuales se agregaron las columnas **Total Mins** y **Total Calls**.

## Generacion aleatorio de números.(*pseudo aleatorio)


> Un número pseudoaleatorio es un número generado en un proceso que parece producir números al azar, pero no lo hace realmente. Las secuencias de números pseudoaleatorios no muestran ningún patrón o regularidad aparente desde un punto de vista estadístico, a pesar de haber sido generadas por un algoritmo completamente determinista, en el que las mismas condiciones iniciales producen siempre el mismo resultado.

>> Wikipedia



In [29]:
import numpy as np

### Generacion de numeros decimales.
Con `np.random.random()` revuelve un numero aleatorio flotante en un intervalo semiabireto `[0.0; 1.0]`. Como parametros opcionales podemos poner que nos devulva una lista de numeros del tamaño que deseamos.<br>
Ejemplo:

In [30]:
np.random.random()

0.9785065485597297

In [31]:
#Genera una lista de 10 elementos aleatorios entre 0 y 1.
np.random.random(10)

array([0.15620805, 0.75286444, 0.61458383, 0.83069186, 0.57204586,
       0.66490501, 0.77079854, 0.40627659, 0.11636647, 0.90606992])

### Generacion de numeros enteros.
Con la libreria numpy es posible generar numeros aleatorios, ehecuntando `np.random.randint()`, y com primer parametos ponemos el *limite inferior seguido del superiro*. Ademas si agregamos (`size=numero de elementos`),nos devolvera un array de el numero de columna que deseamos.
Si no establecemos nada el limite inferior se tomara desde cero.<br>
Ejemplo:

In [32]:
#Gernera una lista de numeros aleatorios entra 0 y 1 de 10 elementos.
np.random.randint(2, size=10)

array([0, 1, 1, 1, 0, 0, 1, 0, 0, 1])

In [33]:
#Genera una matriz de 3x4 de numeros aleatorios entre 0 y 5.
np.random.randint(5, size=(3,4))

array([[0, 1, 4, 4],
       [2, 0, 2, 3],
       [0, 4, 0, 2]])

In [34]:
#Genera una matriz de 1x3 con 3 limites inferiores distintos.
np.random.randint([6, 5, 7], 10)

array([9, 8, 7])

In [35]:
#Genera una matriz de 1x3 con 3 limites superiores distintos.
np.random.randint(1, [3, 5, 8])

array([2, 3, 5])

## Funciones Varias.
### Funcion de creacion de numero aleatorios

Como ejemplo se creara una funcion que nos devolvera una lista de numeros aleatorios, intruduciendo en la funcion el tamaño de la lista **n**, el limite inferior **a** y el limite superior **b**.

Lo que se hace es primero crear una funcion, en la que se ingresa llamada `random_list(n, a, b)`, dentro de la funcion se crea una lista vacia en la **variable x**. Luego recorremos para cada uno de los **n** valores y vamos agregando numeros a la lista mediante `x.append()`, mientras que como dijimos `np.random.randint(a, b)` nos genera numero entre esos dos extremos. Finalmente hacemos que retorne la lista con los valores. Ejemplo:

In [36]:
def random_list(n, a, b):
    x = []
    for i in range(n):
        x.append(np.random.randint(a, b))

    return x

    
random_list(25, 1, 50)

[36,
 10,
 18,
 39,
 33,
 19,
 32,
 11,
 40,
 43,
 6,
 5,
 38,
 20,
 16,
 45,
 42,
 43,
 5,
 29,
 25,
 44,
 19,
 19,
 29]

### Libreria random
Lo que acabamos de hacer en la seccion anterior es posible hacerlo mediante la libreria `random`.

Mediante `random.randrange()`, pasando los valores inferio y superior nos devolvera una numero entero entere esos extremo **(1)**.<br>
Si agregamos un parametro mas nos devolvera un valor aleatorio multiplo del valor declarado, para que sea mas sencilla la comprencion se realizara un *bucle for*.


In [37]:
import random

In [38]:
#(1)Genera un valor entre 1 y 10.²
random.randrange(1, 10)

5

In [39]:
#(2)Genera un valor entre 1 y 100 multiplo de 7.
for i in range(10):
    print(random.randrange(0, 100, 7))

98
7
98
91
84
77
70
35
91
91


### Shuffing
Si tenemos por ejemplo que mezclar elemento de una lista, con la funcion `np.random.shiffe()`, podemos mezclar los elementos.<br>
Ejemplo:
    Con `np.arange()` creamos una lista **a** con elementos ordenados desde 0 a 100. Con la funcion `np.random.shuffer(a)`, nos devuelve una lista barajada, es decir con los elementos ordenados aleatoriamente.


In [40]:
a = np.arange(100)
a

array([ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11, 12, 13, 14, 15, 16,
       17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33,
       34, 35, 36, 37, 38, 39, 40, 41, 42, 43, 44, 45, 46, 47, 48, 49, 50,
       51, 52, 53, 54, 55, 56, 57, 58, 59, 60, 61, 62, 63, 64, 65, 66, 67,
       68, 69, 70, 71, 72, 73, 74, 75, 76, 77, 78, 79, 80, 81, 82, 83, 84,
       85, 86, 87, 88, 89, 90, 91, 92, 93, 94, 95, 96, 97, 98, 99])

In [41]:
np.random.shuffle(a)

In [42]:
a

array([87, 60, 79, 44, 48, 93, 69, 94, 46, 52, 35,  6, 37, 28, 45, 73, 11,
       22, 20, 64, 25, 56, 16, 40, 82,  9, 88, 70, 92, 12, 61, 72, 90,  1,
       50, 58, 27, 96, 68,  5, 41, 81, 65, 71, 98, 34, 75, 23, 89, 86, 63,
       83, 29, 30, 67,  2, 74, 85, 97, 39, 47, 14, 78,  8, 18, 77, 38, 54,
        0, 84, 26, 15, 49, 43,  7, 95, 80, 57, 76, 10, 91, 21, 36, 31, 53,
       62, 51, 17, 55, 19, 42, 32,  3, 66, 59, 13, 99,  4, 33, 24])

### Choice
La funcion `np.random.choice()` lo que nos permite es escoger una de las opciones de las columnas al azar. Por ejemplo del data frame antes utilizado tomamos una columna al azar.<br>
Si introducimos la variable opcional, `choice(size="numero")` con esta opcion nos creara un array de columnas con el numero de columnas a seleccionar, es decir si queremos que seleccione 3 columna, nos creara un array 1x3.

In [43]:
data8 = data.copy()
data8.shape

(3333, 21)

In [44]:
column_list = data8.columns.values.tolist()
column_list

['State',
 'Account Length',
 'Area Code',
 'Phone',
 "Int'l Plan",
 'VMail Plan',
 'VMail Message',
 'Day Mins',
 'Day Calls',
 'Day Charge',
 'Eve Mins',
 'Eve Calls',
 'Eve Charge',
 'Night Mins',
 'Night Calls',
 'Night Charge',
 'Intl Mins',
 'Intl Calls',
 'Intl Charge',
 'CustServ Calls',
 'Churn?']

In [45]:
np.random.choice(column_list)

'Night Calls'

In [46]:
np.random.choice(column_list, size=3)


array(['Eve Charge', 'Eve Mins', 'Intl Calls'], dtype='<U14')

### Seed ("*Semilla*")
Para poder garantizar que podemaos repetir los resultados de un experimento aleatorio se utilizan debemos utielizar lo que se denomina una *"semilla"*. Una semilla es algun codigo o numero que elijamos que establecera que la funciones puedan volver a repetir los resultados.
Esto no es que se repitan los resultados perce sino que al realizar un experimento los resultados aleatorios que nos arrogen podamos obtener nuevamente esos resultados para poder repetir el trabajo que estemos realizando.

In [47]:
#Ejemplo 1: Se usa un clave en este caso 2022.

np.random.seed(2022)
for i in range(5):
    print(np.random.choice(column_list, size=3))

['Night Mins' 'Intl Mins' 'Intl Calls']
['Intl Calls' 'Intl Mins' 'Intl Charge']
['Intl Mins' 'Day Charge' 'Account Length']
['Eve Calls' 'CustServ Calls' 'Day Calls']
['Eve Calls' 'Intl Mins' 'CustServ Calls']


In [48]:
#Ejemplo 2: Se usa un clave en este caso 2021.
np.random.seed(2021)
for i in range(5):
    print(np.random.choice(column_list, size=3))

['Churn?' 'State' 'Night Mins']
['Eve Charge' 'Eve Charge' 'VMail Message']
['VMail Message' 'VMail Message' 'Account Length']
['VMail Plan' 'Day Mins' 'Account Length']
['Night Calls' 'Account Length' 'VMail Plan']


Podemos ve que la repetibilidad del experimento se cumple introduciendo la misma semilla.

In [49]:
np.random.seed(2022)
for i in range(5):
    print(np.random.choice(column_list, size=3))

['Night Mins' 'Intl Mins' 'Intl Calls']
['Intl Calls' 'Intl Mins' 'Intl Charge']
['Intl Mins' 'Day Charge' 'Account Length']
['Eve Calls' 'CustServ Calls' 'Day Calls']
['Eve Calls' 'Intl Mins' 'CustServ Calls']
