### Data Wrangling - La cirugía de los datos
El data wrangling, a veces denominada data munging, es el proceso de transformar y mapear datos de un dataset raw (en bruto) en otro formato con la intención de hacerlo más apropiado y valioso para una variedad de propósitos posteriores, como el análisis. Un data wrangler es una persona que realiza estas operaciones de transformación.

Esto puede incluir munging, visualización de datos, agregación de datos, entrenamiento de un modelo estadístico, así como muchos otros usos potenciales. La oscilación de datos como proceso generalmente sigue un conjunto de pasos generales que comienzan extrayendo los datos en forma cruda del origen de datos, dividiendo los datos en bruto usando algoritmos (por ejemplo, clasificación) o analizando los datos en estructuras de datos predefinidas, y finalmente depositando el contenido resultante en un sistema de almacenamiento (o silo) para su uso futuro.

In [104]:
import pandas as pd

In [105]:
data = pd.read_csv("../../python-ml-course/datasets/customer-churn-model/Customer Churn Model.txt")
data.head()

Unnamed: 0,State,Account Length,Area Code,Phone,Int'l Plan,VMail Plan,VMail Message,Day Mins,Day Calls,Day Charge,...,Eve Calls,Eve Charge,Night Mins,Night Calls,Night Charge,Intl Mins,Intl Calls,Intl Charge,CustServ Calls,Churn?
0,KS,128,415,382-4657,no,yes,25,265.1,110,45.07,...,99,16.78,244.7,91,11.01,10.0,3,2.7,1,False.
1,OH,107,415,371-7191,no,yes,26,161.6,123,27.47,...,103,16.62,254.4,103,11.45,13.7,3,3.7,1,False.
2,NJ,137,415,358-1921,no,no,0,243.4,114,41.38,...,110,10.3,162.6,104,7.32,12.2,5,3.29,0,False.
3,OH,84,408,375-9999,yes,no,0,299.4,71,50.9,...,88,5.26,196.9,89,8.86,6.6,7,1.78,2,False.
4,OK,75,415,330-6626,yes,no,0,166.7,113,28.34,...,122,12.61,186.9,121,8.41,10.1,3,2.73,3,False.


# Crear un subconjunto de datos

In [None]:
account_length = data["Account Length"]
account_length.head()

In [None]:
# Conocer el tipo de dato generado
type(account_length)

In [None]:
subset_1 = data[["Account Length", "Phone", "Eve Charge", "Night Calls"]]
subset_1.head()

In [None]:
# Conocer el tipo de dato generado
type(subset_1)

In [None]:
#
desired_columns = ["Account Length", "Phone", "Eve Charge", "Night Calls"]
subset_2 = data[desired_columns]
subset_2.head()

In [None]:
# Conocer el tipo de dato generado
type(subset_2)

In [None]:
#
desired_columns_2 = ["Account Length", "VMail Message", "Day Calls"]
subset_3 = data[desired_columns_2]
subset_3.head()

In [None]:
# Mostrar todas la columnas del dataset
all_column_list = data.columns.values.tolist()
all_column_list

In [None]:
# Quitar las columnas no deseadas
sublist = [x for x in all_column_list if x not in desired_columns_2]
sublist

In [None]:
subset_4 = data[sublist]
subset_4.head()

In [None]:
# Obtener un rango de datos es específico
data[10:20]

In [None]:
# Usuarios con Total Mins > 500
data_1 = data[data["Day Mins"]>330]
data_1

In [None]:
# Obtener los usuario de New York (NY)
data_2 = data[data["State"]=="NY"]
data_2

In [None]:
# AND -> &

data_3 = data[(data["Day Mins"]>300) & (data["State"]=="NY")] 
data_3

In [None]:
# OR -> 
data_4 = data[(data["Day Mins"]>300) | (data["State"]=="NY")] 
data_4

In [None]:
# 
data_5 = data[data["Day Calls"]<data["Night Calls"]] 
data_5

In [None]:
data_6 = data[data["Day Mins"]<data["Night Mins"]] 
data_6

In [None]:
# Minutos de dia, de noche y longitud de la cuenta de los primeros 50 individuos
subset_first_50 = data[["Day Mins","Night Mins","Account Length"]][:50]
subset_first_50.head()

In [None]:
# Mostrar las 10 primeras filas y las columnas del 3 al 6
data_7 = data.iloc[0:10, 3:6]
data_7

In [None]:
# Mostrar todas las filas para las columnas 3,4,5,6
data.iloc[:,3:6]


In [None]:
# Mostrar todas las columnas para las primeras 10 filas
data.iloc[0:10,:]

In [None]:
# para acceder por posicion
data.iloc[[1,5,8,36],[2,5,7]]

In [None]:
# Para acceder por ?
data.loc[[1,5,8,36],["Area Code","VMail Plan", "Day Mins"]]

In [None]:
# Crear una nueva columna con los minutos totales
data["Totals Mins"] = data["Day Mins"] + data["Night Mins"] + data["Eve Mins"]
data

In [None]:
# Crear una columna con las llamadas totales
data["Totals Calls"] = data["Day Calls"] + data["Night Calls"] + data["Eve Calls"]
data

In [None]:
data.shape

In [None]:
data.head()

# Generacion de números aleatorios

In [69]:
import numpy as np

In [None]:
# Generar un numero aleatorio entre (1,100)
np.random.randint(1,100)

86

In [None]:
# Generar un aleatorio entre 0 y 1 (Con decimales)
np.random.random()

0.3355520778976301

In [93]:
## Funcion que genera una lista de n numeros aleatorios enteros dentro del intervalo [a,b]
def ranint_list(n, a, b):
    x = []
    for i in range(n):
        x.append(np.random.randint(a,b))
    return x

In [94]:
ranint_list(7, 1,50)

[5, 9, 10, 38, 2, 33, 23]

In [95]:
# Paquete ya hace lo anterior
import random

In [97]:
# Generar numeros aleatorios que sean multiplos de 7
for i in range(10):
    print(random.randrange(0, 100, 7))

63
0
7
56
63
21
35
77
77
7


### Shuffling

In [None]:
# Obtener los primeros 100 numeros
a = np.arange(100)
a

array([ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11, 12, 13, 14, 15, 16,
       17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33,
       34, 35, 36, 37, 38, 39, 40, 41, 42, 43, 44, 45, 46, 47, 48, 49, 50,
       51, 52, 53, 54, 55, 56, 57, 58, 59, 60, 61, 62, 63, 64, 65, 66, 67,
       68, 69, 70, 71, 72, 73, 74, 75, 76, 77, 78, 79, 80, 81, 82, 83, 84,
       85, 86, 87, 88, 89, 90, 91, 92, 93, 94, 95, 96, 97, 98, 99])

In [102]:
# Barajar los numeros
np.random.shuffle(a)
a

array([18, 89, 50, 57, 51, 37, 53, 30,  1, 94, 41, 14, 65, 66, 55, 75, 16,
       77, 39, 63, 78, 67,  3, 19, 35, 15, 28, 13, 33, 48, 73, 36, 47, 99,
        7, 90, 10, 54, 88, 80, 43, 52, 49, 98, 70, 97, 71, 96, 72, 44,  5,
       74, 56, 86, 32, 92, 45, 82, 81, 76, 46, 22, 31, 24, 84, 12, 25, 69,
       17, 34, 21, 59,  6, 68, 60,  8, 64, 42, 79, 83,  0, 40, 62, 38, 27,
       20, 91,  9, 26, 61,  4,  2, 23, 11, 93, 95, 29, 85, 87, 58])

In [None]:
# Verificamos la cantidad de filas y columnas que tenemos
data.shape

(3333, 21)

In [108]:
column_list_2 = data.columns.values.tolist()
column_list_2

['State',
 'Account Length',
 'Area Code',
 'Phone',
 "Int'l Plan",
 'VMail Plan',
 'VMail Message',
 'Day Mins',
 'Day Calls',
 'Day Charge',
 'Eve Mins',
 'Eve Calls',
 'Eve Charge',
 'Night Mins',
 'Night Calls',
 'Night Charge',
 'Intl Mins',
 'Intl Calls',
 'Intl Charge',
 'CustServ Calls',
 'Churn?']

In [None]:
# Elegir al azar un valor de la lista de columnas
np.random.choice(column_list_2)


np.str_('Day Charge')

### Seed o semilla

In [None]:
# plantar una semilla, para que sirve? Para cuando un flujo de negocio funciona bien 
# y podamos reproducirlo mas adelante
# Si quieres que varie el ramdon, hay que retirar la semilla
np.random.seed(2025)
for i in range(5):
    print(np.random.random())

0.1354881636779618
0.887851702730378
0.9326056398865025
0.44556816404759514
0.3882355461139826
