In [26]:
%reload_kedro
import pandas as pd
pd.set_option('display.max_columns', None)
from vaderSentiment.vaderSentiment import SentimentIntensityAnalyzer
from joblib import Parallel, delayed

from tqdm import tqdm

In [27]:
import pandas as pd

def remove_high_null_columns(df: pd.DataFrame, threshold: float = 0.5) -> pd.DataFrame:
    """
    Remove columns from a DataFrame that have more than a specified threshold of null values.

    Parameters:
    df (pd.DataFrame): The input DataFrame.
    threshold (float): The threshold for the percentage of null values. Columns with a percentage of null values greater than this threshold will be removed. Default is 0.5 (50%).

    Returns:
    pd.DataFrame: The DataFrame with columns removed that had more than the specified threshold of null values.
    """
    # Calculate the percentage of null values for each column
    null_percentage = df.isnull().mean()
    # Filter out columns that have more than the specified threshold of null values
    columns_to_keep = null_percentage[null_percentage <= threshold].index
    # Return the DataFrame with the selected columns
    return df[columns_to_keep]


In [28]:
df_champs = catalog.load("champions")
df_grades_2023 = catalog.load("grades_2023")
df_questionnaires = catalog.load("questionnaire")
df_leadership = catalog.load("leadership")
df_primary_psycho = catalog.load("primary_psycho")
df_secondary_psycho = catalog.load("secondary_psycho")


### Parse Cuestionario

In [20]:
def get_sentiment_score(text, analyzer):
    try:
        return analyzer.polarity_scores(text)['compound']
    except Exception as e:
        return 0.0

def get_sentiment(col: pd.Series, analyzer: SentimentIntensityAnalyzer, n_jobs=-1):
    """
    Get sentiment score for a given text series using parallel processing
    """
    sentiment_scores = Parallel(n_jobs=n_jobs)(delayed(get_sentiment_score)(text, analyzer) for text in col)
    return pd.Series(sentiment_scores, index=col.index)

In [None]:
df_questionnaires_final = remove_high_null_columns(df_questionnaires)
analyzer = SentimentIntensityAnalyzer()
cols_to_sentiment = [
    'Champ para talleres virtuales se puede conectar de',
    '¿Qué tema te interesa Champ?',
    '¿Con quienes vives?  \nPor ejemplo: Con mi padres y hermanos',
    '¿Cuáles son tus pasatiempos favoritos?  Por ejemplo: Leer y jugar videojuegos',
    '¿Cuáles son tus cursos favoritos? \nPor ejemplo: Matemática y Comunicación',
    '¿Cuál es tu deporte favorito? \nPor ejemplo: Fútbol',
    '¿Qué te gustaría estudiar o ser de grande? \nPor ejemplo: Doctor',
    '¿Qué te gustaría hacer para mejorar el Perú?',
    '¿Te gustaría estudiar en una universidad extranjera?',
    'Cuéntanos si ganaste un reconocimiento, concurso, beca, tienes una organización o has sido voluntario/a en el 2023',
    'En Perú Champs nos preocupa tu bienestar. ¿Hay algo que quieras compartirnos sobre algo que fue difícil en el 2023, algo que te hiciera sentir triste o frustrado/a? Este espacio es confidencial y no afecta tu beca',
    '¿Tiene otro champ?', 'DNI DEL APODERADO ENCRIPTADO',
    'Qué relación tiene con Champ',
    'Su Champ tiene un apoderada/o adicional a Usted',
    '¿Tienes un negocio propio o emprendimiento?',
    'La conexión a Internet en su casa es', 'Tu internet es',
    '¿Algún familiar con el que viva tiene alguna condición, discapacidad o enfermedad crónica que requiera de cuidados constante?',
    'Cuéntanos brevemente cómo se encuentran actualmente',
    '¿Quién apoya a su Champ con sus tareas?'
    ]

for col in cols_to_sentiment:
    df_questionnaires_final[col + "_sentiment"] = get_sentiment(df_questionnaires_final[col].astype(str), analyzer)
    print(col + " done")

df_questionnaires_final


In [31]:
df_questionnaires_final.to_csv("data/01_raw/df_questionnaires_sense.csv", index=False)

In [32]:
df_leadership_final = remove_high_null_columns(df_leadership)
analyzer = SentimentIntensityAnalyzer()
cols_to_sentiment = [
    '¿Qué tema te interesa Champ?',
    '¿Con quienes vives?  \nPor ejemplo: Con mi padres y hermanos',
    '¿Cuáles son tus pasatiempos favoritos?  Por ejemplo: Leer y jugar videojuegos',
    '¿Cuáles son tus cursos favoritos? \nPor ejemplo: Matemática y Comunicación',
    '¿Cuál es tu deporte favorito? \nPor ejemplo: Fútbol',
    '¿Qué te gustaría estudiar o ser de grande? \nPor ejemplo: Doctor',
    '¿Qué te gustaría hacer para mejorar el Perú?',
    '¿Te gustaría estudiar en una universidad extranjera?',
    'Cuéntanos si ganaste un reconocimiento, concurso, beca, tienes una organización o has sido voluntario/a en el 2023',
    'En Perú Champs nos preocupa tu bienestar. ¿Hay algo que quieras compartirnos sobre algo que fue difícil en el 2023, algo que te hiciera sentir triste o frustrado/a? Este espacio es confidencial y no afecta tu beca'
    ]

for col in cols_to_sentiment:
    df_leadership_final[col + "_sentiment"] = get_sentiment(df_leadership_final[col].astype(str), analyzer)
    print(col + " done")


df_leadership_final.to_csv("data/01_raw/df_leadership_sense.csv", index=False)
df_leadership_final.columns


[1;35mIndex[0m[1m([0m[1m[[0m[32m'DNI ENCRIPTADO'[0m, [32m'ESTADO'[0m, [32m'NRE [0m[32m([0m[32mNIVEL DE RIESGO EMOCIONAL[0m[32m)[0m[32m'[0m,
       [32m'CANTERA'[0m, [32m'AÑO DE INGRESO'[0m, [32m'REGIÓN'[0m, [32m'SEDE'[0m, [32m'SEXO'[0m, [32m'GRADO'[0m,
       [32m'FECHA NACIMIENTO'[0m, [32m'EDAD'[0m, [32m'CONDICIÓN DE SALUD'[0m,
       [32m'¿Qué tema te interesa Champ?'[0m,
       [32m'¿Con quienes vives?  \nPor ejemplo: Con mi padres y hermanos'[0m,
       [32m'¿Cuáles son tus pasatiempos favoritos?  Por ejemplo: Leer y jugar videojuegos'[0m,
       [32m'¿Cuáles son tus cursos favoritos? \nPor ejemplo: Matemática y Comunicación'[0m,
       [32m'¿Cuál es tu deporte favorito? \nPor ejemplo: Fútbol'[0m,
       [32m'¿Qué te gustaría estudiar o ser de grande? \nPor ejemplo: Doctor'[0m,
       [32m'¿Qué te gustaría hacer para mejorar el Perú?'[0m,
       [32m'¿Te gustaría estudiar en una universidad extranjera?'[0m,
       [32m'Cuéntan