In [26]:
%reload_kedro
import pandas as pd
pd.set_option('display.max_columns', None)
from vaderSentiment.vaderSentiment import SentimentIntensityAnalyzer
from joblib import Parallel, delayed

from tqdm import tqdm

In [27]:
import pandas as pd

def remove_high_null_columns(df: pd.DataFrame, threshold: float = 0.5) -> pd.DataFrame:
    """
    Remove columns from a DataFrame that have more than a specified threshold of null values.

    Parameters:
    df (pd.DataFrame): The input DataFrame.
    threshold (float): The threshold for the percentage of null values. Columns with a percentage of null values greater than this threshold will be removed. Default is 0.5 (50%).

    Returns:
    pd.DataFrame: The DataFrame with columns removed that had more than the specified threshold of null values.
    """
    # Calculate the percentage of null values for each column
    null_percentage = df.isnull().mean()
    # Filter out columns that have more than the specified threshold of null values
    columns_to_keep = null_percentage[null_percentage <= threshold].index
    # Return the DataFrame with the selected columns
    return df[columns_to_keep]


In [28]:
df_champs = catalog.load("champions")
df_grades_2023 = catalog.load("grades_2023")
df_questionnaires = catalog.load("questionnaire")
df_leadership = catalog.load("leadership")
df_primary_psycho = catalog.load("primary_psycho")
df_secondary_psycho = catalog.load("secondary_psycho")


### Parse Cuestionario

In [20]:
def get_sentiment_score(text, analyzer):
    try:
        return analyzer.polarity_scores(text)['compound']
    except Exception as e:
        return 0.0

def get_sentiment(col: pd.Series, analyzer: SentimentIntensityAnalyzer, n_jobs=-1):
    """
    Get sentiment score for a given text series using parallel processing
    """
    sentiment_scores = Parallel(n_jobs=n_jobs)(delayed(get_sentiment_score)(text, analyzer) for text in col)
    return pd.Series(sentiment_scores, index=col.index)

In [None]:
df_questionnaires_final = remove_high_null_columns(df_questionnaires)
analyzer = SentimentIntensityAnalyzer()
cols_to_sentiment = [
    'Champ para talleres virtuales se puede conectar de',
    '¿Qué tema te interesa Champ?',
    '¿Con quienes vives?  \nPor ejemplo: Con mi padres y hermanos',
    '¿Cuáles son tus pasatiempos favoritos?  Por ejemplo: Leer y jugar videojuegos',
    '¿Cuáles son tus cursos favoritos? \nPor ejemplo: Matemática y Comunicación',
    '¿Cuál es tu deporte favorito? \nPor ejemplo: Fútbol',
    '¿Qué te gustaría estudiar o ser de grande? \nPor ejemplo: Doctor',
    '¿Qué te gustaría hacer para mejorar el Perú?',
    '¿Te gustaría estudiar en una universidad extranjera?',
    'Cuéntanos si ganaste un reconocimiento, concurso, beca, tienes una organización o has sido voluntario/a en el 2023',
    'En Perú Champs nos preocupa tu bienestar. ¿Hay algo que quieras compartirnos sobre algo que fue difícil en el 2023, algo que te hiciera sentir triste o frustrado/a? Este espacio es confidencial y no afecta tu beca',
    '¿Tiene otro champ?', 'DNI DEL APODERADO ENCRIPTADO',
    'Qué relación tiene con Champ',
    'Su Champ tiene un apoderada/o adicional a Usted',
    '¿Tienes un negocio propio o emprendimiento?',
    'La conexión a Internet en su casa es', 'Tu internet es',
    '¿Algún familiar con el que viva tiene alguna condición, discapacidad o enfermedad crónica que requiera de cuidados constante?',
    'Cuéntanos brevemente cómo se encuentran actualmente',
    '¿Quién apoya a su Champ con sus tareas?'
    ]

for col in cols_to_sentiment:
    df_questionnaires_final[col + "_sentiment"] = get_sentiment(df_questionnaires_final[col].astype(str), analyzer)
    print(col + " done")

df_questionnaires_final


In [31]:
df_questionnaires_final.to_csv("data/01_raw/df_questionnaires_sense.csv", index=False)

In [33]:
df_leadership_final = remove_high_null_columns(df_leadership)
analyzer = SentimentIntensityAnalyzer()
cols_to_sentiment = [
    '¿Qué tema te interesa Champ?',
    '¿Con quienes vives?  \nPor ejemplo: Con mi padres y hermanos',
    '¿Cuáles son tus pasatiempos favoritos?  Por ejemplo: Leer y jugar videojuegos',
    '¿Cuáles son tus cursos favoritos? \nPor ejemplo: Matemática y Comunicación',
    '¿Cuál es tu deporte favorito? \nPor ejemplo: Fútbol',
    '¿Qué te gustaría estudiar o ser de grande? \nPor ejemplo: Doctor',
    '¿Qué te gustaría hacer para mejorar el Perú?',
    '¿Te gustaría estudiar en una universidad extranjera?',
    'Cuéntanos si ganaste un reconocimiento, concurso, beca, tienes una organización o has sido voluntario/a en el 2023',
    'En Perú Champs nos preocupa tu bienestar. ¿Hay algo que quieras compartirnos sobre algo que fue difícil en el 2023, algo que te hiciera sentir triste o frustrado/a? Este espacio es confidencial y no afecta tu beca'
    ]

for col in cols_to_sentiment:
    df_leadership_final[col + "_sentiment"] = get_sentiment(df_leadership_final[col].astype(str), analyzer)
    print(col + " done")


df_leadership_final.to_csv("data/01_raw/df_leadership_sense.csv", index=False)
df_leadership_final

¿Qué tema te interesa Champ? done
¿Con quienes vives?  
Por ejemplo: Con mi padres y hermanos done
¿Cuáles son tus pasatiempos favoritos?  Por ejemplo: Leer y jugar videojuegos done
¿Cuáles son tus cursos favoritos? 
Por ejemplo: Matemática y Comunicación done
¿Cuál es tu deporte favorito? 
Por ejemplo: Fútbol done
¿Qué te gustaría estudiar o ser de grande? 
Por ejemplo: Doctor done
¿Qué te gustaría hacer para mejorar el Perú? done
¿Te gustaría estudiar en una universidad extranjera? done
Cuéntanos si ganaste un reconocimiento, concurso, beca, tienes una organización o has sido voluntario/a en el 2023 done
En Perú Champs nos preocupa tu bienestar. ¿Hay algo que quieras compartirnos sobre algo que fue difícil en el 2023, algo que te hiciera sentir triste o frustrado/a? Este espacio es confidencial y no afecta tu beca done


Unnamed: 0,DNI ENCRIPTADO,ESTADO,NRE (NIVEL DE RIESGO EMOCIONAL),CANTERA,AÑO DE INGRESO,REGIÓN,SEDE,SEXO,GRADO,FECHA NACIMIENTO,EDAD,CONDICIÓN DE SALUD,¿Qué tema te interesa Champ?,¿Con quienes vives? \nPor ejemplo: Con mi padres y hermanos,¿Cuáles son tus pasatiempos favoritos? Por ejemplo: Leer y jugar videojuegos,¿Cuáles son tus cursos favoritos? \nPor ejemplo: Matemática y Comunicación,¿Cuál es tu deporte favorito? \nPor ejemplo: Fútbol,¿Qué te gustaría estudiar o ser de grande? \nPor ejemplo: Doctor,¿Qué te gustaría hacer para mejorar el Perú?,¿Te gustaría estudiar en una universidad extranjera?,"Cuéntanos si ganaste un reconocimiento, concurso, beca, tienes una organización o has sido voluntario/a en el 2023","En Perú Champs nos preocupa tu bienestar. ¿Hay algo que quieras compartirnos sobre algo que fue difícil en el 2023, algo que te hiciera sentir triste o frustrado/a? Este espacio es confidencial y no afecta tu beca",¿Qué tema te interesa Champ?_sentiment,¿Con quienes vives? \nPor ejemplo: Con mi padres y hermanos_sentiment,¿Cuáles son tus pasatiempos favoritos? Por ejemplo: Leer y jugar videojuegos_sentiment,¿Cuáles son tus cursos favoritos? \nPor ejemplo: Matemática y Comunicación_sentiment,¿Cuál es tu deporte favorito? \nPor ejemplo: Fútbol_sentiment,¿Qué te gustaría estudiar o ser de grande? \nPor ejemplo: Doctor_sentiment,¿Qué te gustaría hacer para mejorar el Perú?_sentiment,¿Te gustaría estudiar en una universidad extranjera?_sentiment,"Cuéntanos si ganaste un reconocimiento, concurso, beca, tienes una organización o has sido voluntario/a en el 2023_sentiment","En Perú Champs nos preocupa tu bienestar. ¿Hay algo que quieras compartirnos sobre algo que fue difícil en el 2023, algo que te hiciera sentir triste o frustrado/a? Este espacio es confidencial y no afecta tu beca_sentiment"
0,NZDDSEZR,Matriculado,SIN EV.,Deportiva,2024,Lima,Bertello,M,Undécimo,2008-01-16,16,Ninguno,Acción por el clima,CON MI PADRE Y MIS HERMANAS,JUGAR TENIS,MATEMATICA,VELA- DEPORTE NAUTICO,ECONOMIA,SER UN BUEN PROFESIONAL EN ECONOMIA,Sí,CAMPEON SUDAMERICANO DE OPTIMIST -VELA,EL COLEGIO DONDE ESTUVE,0.0000,0.0,0.34,0.0,0.0,0.0,0.4404,0.296,0.8679,0.0000
1,NARYEWZA,Matriculado,BAJO,Académica,2024,Lima,Surco Ambrosio,M,Sexto,2012-06-18,11,Ninguno,Acción por el clima,"Padres, hermano y hermana",Leer y jugar ajedrez,Matemática,Fútbol,Ingeniero,"Que no haya discriminación, que todos se respe...",Sí,"Gane premio de la feria de ciencias dos años, ...",El cambiar de colegio. Pero se que el cambio e...,0.0000,0.0,0.34,0.0,0.0,0.0,-0.0516,0.296,0.8519,0.8271
2,RRNASAER,Matriculado,BAJO,Artística,2024,Lima,Ate Puruchuco,M,Sexto,2012-05-01,11,"Asperger, A veces le sangra la nariz, TDH",Acción por el clima,Con mamá y hermanos,Jugar con mis legos,Matemática y comunicación,Fútbol,Ingeniero ambiental,Formar grupos de ayuda comunitaria para ayudar...,Sí,"Me dieron un reconocimiento por una poesía, lo...",Mi papá no confía en que pueda lograr salir ad...,0.0000,0.0,0.34,0.0,0.0,0.0,0.6597,0.296,0.6115,-0.8690
3,RRZZYSII,Matriculado,SIN EV.,Empresa (Académica),2024,Lima,SJL Arabiscos,F,Octavo,2010-06-16,13,Ninguno,Salud y bienestar,PADRES Y HERMANO,LEER Y JUGAR,"INGLES, MATEMATICA",BASQUET,ZOOTECNIA O MEDICINA,DISMINUIR LA DELINCUENCIA Y MAS TRABAJO PARA T...,Sí,NO,NO,0.4404,0.0,0.34,0.0,0.0,0.0,-0.5423,0.296,0.0000,0.0000
4,NAZRYRZN,Matriculado,MEDIO,Académica,2024,Junin,Huancayo,M,Séptimo,2011-12-09,12,Rinitis alérgica,Acción por el clima,Con mi mamá y hermana,Leer,Comunicación e historia,Natación,Abogada,Plantar árboles para mejorar el medio ambiente,Sí,Ninguna,La muerte de mi mascota,0.0000,0.0,0.00,0.0,0.0,0.0,0.4404,0.296,0.0000,-0.5994
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
2209,NAZYWDNE,Matriculado,SIN EV.,Académica,2022,Arequipa,Cerro Colorado,F,Séptimo,2011-12-29,12,,,,,,,,,,,,0.0000,0.0,0.00,0.0,0.0,0.0,0.0000,0.000,0.0000,0.0000
2210,NSWNNZWZ,Matriculado,SIN EV.,Deportiva,2024,Lima,Chorrillos La Campiña,M,Séptimo,2011-07-09,12,Ninguno,Salud y bienestar,Con mi mamá,Jugar futbol,Matemáticas y educación física,Fútbol,Ser jugador profesional - derecho,Reducir la contaminación,Sí,A un no,Tuve ansiedad por querer entrar a un club de f...,0.4404,0.0,0.34,0.0,0.0,0.0,0.0000,0.296,0.0000,0.1280
2211,REANSNDS,Matriculado,SIN EV.,Deportiva,2024,Lima,Los Olivos Villa Sol,M,Décimo,2008-05-07,15,Ninguno,Reducción de las desigualdades,Mamá,Escuchar música,"Geografía, matemática, comunicación",Fútbol,Ingeniero,Todos tener una misma idea,Sí,"Reconocimiento de concurso de matemática, reco...",Economía de mi familia,0.0000,0.0,0.00,0.0,0.0,0.0,0.0000,0.296,0.0000,0.0000
2212,REEWDINR,Matriculado,SIN EV.,Deportiva,2024,Lima,San Miguel La Paz 2,M,Undécimo,2007-03-19,17,Ninguno,Salud y bienestar,Con mis tios,Jugar fútbol y videojuegos,Comunicación,Futbol,Doctor,Reducir la delincuencia,Sí,Reconocimiento por ser parte de un microciclo ...,Una derrota en el fútbol,0.4404,0.0,0.34,0.0,0.0,0.0,-0.5423,0.296,0.0000,-0.4588
