In [2]:
import pandas as pd
import numpy as np

## Hacer Dummies:

In [1]:
def createDummies(data, var_name):
    '''
    This function make the column of a datset in dummies
    
    In:
    DataFrame, 
    Column Name to be converted.
    
    Output:
    Dataframe with Dummies columns.
    '''
    
    dummy = pd.get_dummies(data[var_name], drop_first=True)
    data = data.drop(var_name, axis=1)
    data = pd.concat([data, dummy], axis= 1)
    return data

## Hacer una lista de números 

In [4]:
def randint_list (n,a,b):
    '''
    Function to creat a a random list of n elements between a and b
    
    In:
    n: number of the list elements
    a: first number of the interval.
    b: second limit of the interval.
    
    Out:
    List
    '''
    
    x=[]
    for i in range(n):
        x.append(np.random.randint(a,b))
    return x

## Montecarlo - Aproximaciones de π

In [5]:
def pi_MonteCarlo (n_exp, n):
    '''
    Aproximaciones de π
    
    In:
    n_exp = Número de experimentos
    n = Número de puntos generados en cada experimento
    
    Out:
    Valor aproximado de π.
    Gráficas con los datos
    '''
    
    #iniciamos el promedio de pi en 0 (que va a ser el resultado que buscamos)
    pi_avg = 0    
    #hacemos un array vacío para ir ingresando los valores de pi
    pi_value_list = []
    #Bucle de cada experimento (que se repite n_exp veces)
    for i in range (n_exp):
        value = 0
        # 1.generamos los n valores de x y y y los ponemos en lista:
        x= np.random.uniform(0,1,n).tolist()
        y= np.random.uniform(0,1,n).tolist()
        #2. suma de los cuadrados de x y y
        for j in range (n):
            z= np.sqrt((x[j]*x[j])+(y[j]*y[j]))
            if z<= 1:
                value += 1
        #convertimos value a float para poder dividirlo.
        float_value = float(value)
        #sacamos el valor de pi
        pi_value = float_value * 4 / n
        # agregamnos el valor a la lista:
        pi_value_list.append(pi_value)
        pi_avg += pi_value

    pi= pi_avg/n_exp
    fig = plt.plot(pi_value_list)
    
    return (pi, fig)

## Obtener coeficiente de correlación 

In [None]:
#MANUAL
#Hacemnos una función que saque la correlacion de 2 variables: var1 y var2
def corr_coef (df, var1, var2):
    """
    Función para sacar manualmente la correlación de pearson de dos variables.
    
    IN:
    df= DataFrame
    var1 = Primera variable (columna)
    var2 = Segunda variable (columna)
    
    Out:
    corr_p = Correlción de Pearson
    """
    #sacar el numerador en la correlación:
    df["corr_num"] = (df[var1] - np.mean(df[var1])) * (df[var2] - np.mean(df[var2]))
    #Para sacar la primera parte del denominador:
    df["corr_1"] = (df[var1] - np.mean(df[var1]))**2
    #Para sacar la segunda parte del denominador:
    df["corr_2"] = (df[var2] - np.mean(df[var2]))**2
    #para sacar la correlación de pearson:
    corr_p = sum(df["corr_num"]) / np.sqrt(sum(df["corr_1"]) * sum(df["corr_2"]))
    
    return corr_p
    

# Evaluar modelos de Regresión

In [None]:
def evaluar_regresion(model,x,y, X_train, X_test, y_train, y_test):
    
    """
    Función que evalúa el modelo.
    
    in:
    modelo, x, y, X_train, X_test, y_train, y_test
    
    out:
    RMSE de train
    RMSE de test
    Gráficas
    """
    
    
    y_train_pred = model.predict(X_train)
    y_test_pred = model.predict(X_test)
    
    ### CALCULAMOS EL ERROR
    rmse_train = np.sqrt(mean_squared_error(y_train, y_train_pred))
    rmse_test = np.sqrt(mean_squared_error(y_test, y_test_pred))

    print(f'Raíz del error cuadrático medio en Train: {rmse_train}')
    print(f'Raíz del error cuadrático medio en Test: {rmse_test}')

    ### GRAFICAMOS LOS RESULTADOS
    plt.figure(figsize = (12,4))
    plt.subplot(1,3,1)
    plt.scatter(x,y, s = 2, label = 'Datos')
    plt.plot(x, y_real, '--',label ='Curva Teórica', c = 'r')
    
    list1, list2 = zip(*sorted(zip(X_train[:,0], y_train_pred)))
    plt.plot(list1, list2,label ='Regresión (train)')
    
    list1, list2 = zip(*sorted(zip(X_test[:,0], y_test_pred)))
    plt.plot(list1, list2,label = 'Regresión (test)')

    plt.xlabel('x')
    plt.ylabel('y')
    plt.legend()


    plt.subplot(1,3,2)
    sns.distplot(y_train - y_train_pred, bins = 20, label = 'train')
    sns.distplot(y_test - y_test_pred, bins = 20, label = 'test')
    plt.xlabel('errores')
    plt.legend()

    ax = plt.subplot(1,3,3)
    ax.scatter(y_test,y_test_pred, s =2)

    lims = [
    np.min([ax.get_xlim(), ax.get_ylim()]),  # min of both axes
    np.max([ax.get_xlim(), ax.get_ylim()]),  # max of both axes]
    ]

    ax.plot(lims, lims, 'k-', alpha=0.75, zorder=0)
    plt.xlabel('y (test)')
    plt.ylabel('y_pred (test)')

    plt.tight_layout()
    plt.show()

## Probar diferentes grados de polinomios

In [None]:
#Prueba atributos polinómicos x^1, x^2, x^3, x^4 y x^5 con los datos que teníamos de x
for idx,potencia_maxima in enumerate(range(1,6)):
    print(f'REGRESIÓN CON ATRIBUTOS POLINÓMICOS NUMERO {idx + 1}')
    print(f'Agregamos atributos hasta la potencia x^{potencia_maxima}')
    
    X = x.reshape(-1,1)
    for potencia in range(2,potencia_maxima+1):
        X = np.hstack((X,(x**potencia).reshape(-1,1)))
    print(f'Los atributos tienen forma: {X.shape}')
    
    X_train, X_test, y_train, y_test = train_test_split(
        X, y, test_size=0.25, random_state=42)
    
    ### ENTRENAMOS
    reg = LinearRegression()
    reg.fit(X_train, y_train)
    
    
    ### COMPLETAR AQUI PARA RESOLVER CHALLENGE
    
    evaluar_regresion(reg, x,y, X_train, X_test, y_train, y_test)


# Regla del Codo para KMeans

In [None]:
#Vamos a hacer una función que haga la regla del codo

def regla_codo (data):
    """
    Función pada realizar la regla del codo con KMeans.
    
    Arguments:
    - dataset
    
    Ouput:
    - Gráfico con los codos desde k=1 hasta k=20
    """
    from sklearn.cluster import KMeans
    
    scores=[]
    range_values= range(1,20)
    
    #Bucle para encontrar el mejor cluster en rango del 1 al 20
    for i in range_values:
        kmeans = KMeans(n_clusters= i, random_state=42)
        kmeans.fit(data)
        scores.append(kmeans.inertia_)  #WCSS
    
    #Gráfico:
    
    plt.figure(figsize=(10,6))
    plt.plot(range_values, scores, "bx-")
    plt.title("Número óptimo de clústers")
    plt.xlabel("Clústers")
    plt.ylabel("WCSS(k)")
    plt.show()
    

## Limpieza de frases

In [None]:
#Hacemos una función para remover y limipiar los textos de un dataset:
def message_cleaning(message):
    """
    Funcion que limpia textos:
    - Quita signos de puntuación 
    - Quita stopwords
    
    Arguments:
    - Frases o columnas de un dataset
    
    Output:
    - Frases limpias.
    """
    import string
    import nltk
    
    text_punc_removed = [char for char in message if char not in string.punctuation]
    text_punc_removed_join = ''.join(text_punc_removed)
    text_punc_removed_join_clean = [word for word in text_punc_removed_join.split() if word.lower() not in stopwords.words("english")]
    
    return text_punc_removed_join_clean

## Word Cloud y Frecuencia de Palabras

In [None]:
def word_cloud (data):
    
    """
    Función para hacer nubes de palabras con WorldCloud
    
    Arguments:
    - Columna de dataset
    
    Output:
    - Nube de palabras
    - Las 15 palabras que más aparecen en el texto 
    """
    
    #Importamos librerias:
    import nltk
    from wordcloud import WordCloud   #para hacer nube de palabras
    import re                         #para reemplazar caracteres
    stopwords = nltk.corpus.stopwords.words("spanish")
    #from nltk.stem import WordNetLemmatizer
    #lemm = WordNetLemmatizer()
    #import itertools
    
    texto= data.tolist()
    
    #Reemplzar los caracteres que no sean letras por espacios:
    texto= re.sub("[^a-zA-ZáéíóúüÁÉÍÓÚÜñÑ]"," ",str(texto))
    

    #Pasar todo a minúsculas
    texto= texto.lower()

    #Tokenizar para separar las palabras del texto
    texto= nltk.word_tokenize(texto)
    
    #Sacar las Stopwords
    texto = [palabra for palabra in texto if not palabra in stopwords]
    texto2 = texto.copy()

    #Unimos el titular
    texto = " ".join(texto)
    
    #Para ver las palabras con más frecuencia:
    freq = nltk.FreqDist(texto2)
    df = pd.DataFrame(freq.items(), columns = ["Palabra", "Frecuencia"])
    df.sort_values("Frecuencia", ascending=False, inplace=True)
    df.reset_index(drop = True, inplace=True)
        
    #Hacemnos la nube:
    ax= plt.figure(figsize=(20,20))
    plt.imshow(WordCloud().generate(str(texto)))
    plt.grid(None)
    

    return ax, df.head(15)