In [None]:
import pandas as pd
import os
import word2number as w2n  # Si lo usas en otros c√°lculos, de lo contrario se puede omitir
import re
import openpyxl


csv_file = "C:/Users/Carlo/Desktop/SPRINTS/Sprint_10/Formulario_corregido_python.csv"
df = pd.read_csv(csv_file, encoding="utf-8")

# Normalizar nombres de columna: quitar saltos de l√≠nea y espacios extra
df.columns = (
    df.columns
      .str.replace(r"\r?\n", " ", regex=True)
      .str.replace(r"\s+", " ", regex=True)
      .str.strip()
)

socio_mapping = {
    "Edad (en a√±os)":              "edad",
    "G√©nero":                      "genero",
    "C√≥digo Postal donde reside": "ubicacion",
    "Tipo de √°rea donde reside":  "tipo_area",
    "Nivel de educaci√≥n alcanzado": "nivel_educacion",
    "Inclinaci√≥n pol√≠tica":        "inclinacion_politica"
}

df_encuestado = df[list(socio_mapping.keys())].rename(columns=socio_mapping)
df_encuestado.insert(0, "id_encuestado", range(1, len(df_encuestado) + 1))



#Transformaciones

df_encuestado["edad"] = df_encuestado["edad"].replace({"Trentaydos": "32"}).astype(int)

df["En una escala del 1 al 4, donde 1 es 'muy bajo' y 4 es 'muy alto', ¬øC√≥mo calificar√≠a su nivel de estr√©s relacionado con el trabajo o el estudio?"] = \
    df["En una escala del 1 al 4, donde 1 es 'muy bajo' y 4 es 'muy alto', ¬øC√≥mo calificar√≠a su nivel de estr√©s relacionado con el trabajo o el estudio?"] \
    .replace({"Muy alto ": 4}).apply(lambda x: float(x) if str(x).isdigit() else 4 if "alto" in str(x).lower() else None)

df["En una escala del 1 al 10, ¬øC√≥mo calificar√≠a su nivel actual de ansiedad?"] = \
    df["En una escala del 1 al 10, ¬øC√≥mo calificar√≠a su nivel actual de ansiedad?"].apply(
        lambda x: float(x.replace(",", ".")) if isinstance(x, str) else x
    )

df["¬øCu√°ntas horas duerme en promedio por noche?"] = df["¬øCu√°ntas horas duerme en promedio por noche?"].apply(
    lambda x: re.sub(r"horas|H|h", "", x) if isinstance(x, str) else x
)

df["Escriba cinco palabras que asocie con la ansiedad"] = (
    df["Escriba cinco palabras que asocie con la ansiedad"]
    .astype(str)  # Asegurar que todos los valores sean strings
    .fillna("")   # Evitar problemas con valores nulos
    .str.replace("[,\\-.\\\\]", "", regex=True)  # Eliminar signos de puntuaci√≥n
    .str.replace(r"\b(y|e)\b", "", regex=True)  # Eliminar "y" y "e" como palabras individuales
    .str.replace("  ", " ", regex=True)  # Reemplazar dobles espacios por uno solo
    .str.strip()  # Eliminar espacios al inicio y final
)

df["Escriba cinco palabras que asocie con un per√≠odo sin ansiedad o con momentos de calma"] = (
    df["Escriba cinco palabras que asocie con un per√≠odo sin ansiedad o con momentos de calma"]
    .astype(str)
    .fillna("")
    .str.replace("[,\\-.\\\\]", "", regex=True)
    .str.replace(r"\b(y|e)\b", "", regex=True)
    .str.replace("  ", " ", regex=True)
    .str.strip()
)

df["¬øCu√°ntas comidas realiza al d√≠a por norma general?"] = (
    df["¬øCu√°ntas comidas realiza al d√≠a por norma general?"]
    .astype(str)
    .str.lower()
    .replace({"una": 1, "dos": 2, "tres": 3, "cuatro": 4, "cinco": 5, "seis": 6, "siete": 7})
)


#Crear tabla pregunta

preguntas = [
    {"id_pregunta":  1, "texto_pregunta": "Marca temporal", "tipo": "datetime", "seccion": "Metadatos"},
    {"id_pregunta":  2, "texto_pregunta": "Edad (en a√±os)", "tipo": "num√©rica", "seccion": "Sociodemogr√°ficos"},
    {"id_pregunta":  3, "texto_pregunta": "G√©nero", "tipo": "categ√≥rica", "seccion": "Sociodemogr√°ficos"},
    {"id_pregunta":  4, "texto_pregunta": "C√≥digo Postal donde reside", "tipo": "texto", "seccion": "Sociodemogr√°ficos"},
    {"id_pregunta":  5, "texto_pregunta": "Tipo de √°rea donde reside", "tipo": "categ√≥rica", "seccion": "Sociodemogr√°ficos"},
    {"id_pregunta":  6, "texto_pregunta": "Nivel de educaci√≥n alcanzado", "tipo": "categ√≥rica", "seccion": "Sociodemogr√°ficos"},
    {"id_pregunta":  7, "texto_pregunta": "Inclinaci√≥n pol√≠tica", "tipo": "categ√≥rica", "seccion": "Sociodemogr√°ficos"},
    {"id_pregunta":  8, "texto_pregunta": "¬øAlguna vez le han diagnosticado alg√∫n trastorno de ansiedad?", "tipo": "categ√≥rica", "seccion": "Salud y Ansiedad"},
    {"id_pregunta":  9, "texto_pregunta": "En una escala del 1 al 10, ¬øC√≥mo calificar√≠a su nivel actual de ansiedad?", "tipo": "num√©rica", "seccion": "Salud y Ansiedad"},
    {"id_pregunta": 10, "texto_pregunta": "Durante las √∫ltimas dos semanas, ¬øcon qu√© frecuencia ha experimentado preocupaci√≥n excesiva? (0 = Ning√∫n d√≠a, 1 = Varios d√≠as, 2 = M√°s de la mitad de los d√≠as, 3 = Casi todos los d√≠as)", "tipo": "ordinal", "seccion": "Salud y Ansiedad"},
    {"id_pregunta": 11, "texto_preggunta": "Durante las √∫ltimas dos semanas, ¬øcon qu√© frecuencia ha tenido dificultad para relajarse? (0 = Ning√∫n d√≠a, 1 = Varios d√≠as, 2 = M√°s de la mitad de los d√≠as, 3 = Casi todos los d√≠as)", "tipo": "ordinal", "seccion": "Salud y Ansiedad"},
    {"id_pregunta": 12, "texto_pregunta": "Durante las √∫ltimas dos semanas, ¬øcon qu√© frecuencia ha sentido nerviosismo o estr√©s? (0 = Ning√∫n d√≠a, 1 = Varios d√≠as, 2 = M√°s de la mitad de los d√≠as, 3 = Casi todos los d√≠as)", "tipo": "ordinal", "seccion": "Salud y Ansiedad"},
    {"id_pregunta": 13, "texto_pregunta": "¬øHa sufrido un ataque de ansiedad o p√°nico en los √∫ltimos meses?", "tipo": "categ√≥rica", "seccion": "Salud y Ansiedad"},
    {"id_pregunta": 14, "texto_pregunta": "En caso afirmativo, ¬øhace cu√°nto tiempo ocurri√≥ el √∫ltimo ataque de ansiedad o p√°nico? (indique el tiempo en semanas)", "tipo": "num√©rica", "seccion": "Salud y Ansiedad"},
    {"id_pregunta": 15, "texto_pregunta": "Durante la √∫ltima semana, ¬øha practicado alguna actividad f√≠sica o deporte?", "tipo": "categ√≥rica", "seccion": "Estilo de Vida"},
    {"id_pregunta": 16, "texto_pregunta": "Si respondi√≥ 'S√≠', ¬øCu√°ntas veces practic√≥ actividad f√≠sica o deporte en la √∫ltima semana?", "tipo": "num√©rica", "seccion": "Estilo de Vida"},
    {"id_pregunta": 17, "texto_pregunta": "En promedio, ¬øCu√°ntas horas diarias permanece sentado/a en actividades de trabajo?", "tipo": "num√©rica", "seccion": "Estilo de Vida"},
    {"id_pregunta": 18, "texto_pregunta": "En promedio, ¬øCu√°ntas horas diarias permanece sentado/a en actividades de ocio o tiempo personal?", "tipo": "num√©rica", "seccion": "Estilo de Vida"},
    {"id_pregunta": 19, "texto_pregunta": "En promedio, ¬øCu√°ntas horas diarias permanece sentado/a en transporte?", "tipo": "num√©rica", "seccion": "Estilo de Vida"},
    {"id_pregunta": 20, "texto_pregunta": "¬øCon qu√© frecuencia presenta dificultades para conciliar el sue√±o?", "tipo": "ordinal", "seccion": "Estilo de Vida"},
    {"id_pregunta": 21, "texto_pregunta": "¬øCu√°ntas horas duerme en promedio por noche?", "tipo": "num√©rica", "seccion": "Estilo de Vida"},
    {"id_pregunta": 22, "texto_pregunta": "¬øC√≥mo describir√≠a su dieta? (Puede seleccionar varias opciones)", "tipo": "categ√≥rica", "seccion": "Alimentaci√≥n y Dieta"},
    {"id_pregunta": 23, "texto_pregunta": "¬øCu√°ntas comidas realiza al d√≠a por norma general?", "tipo": "num√©rica", "seccion": "Alimentaci√≥n y Dieta"},
    {"id_pregunta": 24, "texto_pregunta": "En promedio, ¬øCu√°ntas porciones de frutas y verduras ha consumido diariamente la √∫ltima semana?", "tipo": "num√©rica", "seccion": "Alimentaci√≥n y Dieta"},
    {"id_pregunta": 25, "texto_pregunta": "¬øCu√°ntas tazas de caf√© (u otras bebidas con cafe√≠na) consume al d√≠a?", "tipo": "num√©rica", "seccion": "Alimentaci√≥n y Dieta"},
    {"id_pregunta": 26, "texto_pregunta": "¬øCu√°ntas porciones de alimentos ultraprocesados consume en un d√≠a t√≠pico?", "tipo": "num√©rica", "seccion": "Alimentaci√≥n y Dieta"},
    {"id_pregunta": 27, "texto_preggunta": "¬øCon qu√© frecuencia siente que consume alimentos debido a ansiedad o estr√©s?", "tipo": "categ√≥rica", "seccion": "Alimentaci√≥n y Dieta"},
    {"id_pregunta": 28, "texto_preggunta": "Cuando experimenta ansiedad, ¬øc√≥mo suele afectar su comportamiento alimenticio?", "tipo": "categ√≥rica", "seccion": "Alimentaci√≥n y Dieta"},
    {"id_pregunta": 29, "texto_pregunta": "En una escala del 1 al 4, donde 1 es 'muy bajo' y 4 es 'muy alto', ¬øC√≥mo calificar√≠a su nivel de estr√©s relacionado con el trabajo o el estudio?", "tipo": "num√©rica", "seccion": "Factores Contextuales"},
    {"id_pregunta": 30, "texto_pregunta": "¬øConsidera que tiene un buen balance entre su vida laboral/estudio y personal?", "tipo": "categ√≥rica", "seccion": "Factores Contextuales"},
    {"id_pregunta": 31, "texto_preggunta": "Aproximadamente, ¬øCu√°ntas horas diarias dedica a redes sociales o a actividades en dispositivos electr√≥nicos?", "tipo": "num√©rica", "seccion": "Factores Contextuales"},
    {"id_pregunta": 32, "texto_preggunta": "Escriba cinco palabras que asocie con la ansiedad", "tipo": "texto", "seccion": "Preguntas Abiertas"},
    {"id_pregunta": 33, "texto_preggunta": "Escriba cinco palabras que asocie con un per√≠odo sin ansiedad o con momentos de calma", "tipo": "texto", "seccion": "Preguntas Abiertas"}
]

df_pregunta = pd.DataFrame(preguntas)

#Transformar preguntas a formato relacional 

#Construir un diccionario de mapeo para asociar cada texto de pregunta
columna_a_id = {
    (p.get("texto_pregunta") or p.get("texto_preggunta")).strip(): p["id_pregunta"]
    for p in preguntas
}

#A√±adir el id_encuestado al DataFrame original 
df_temp = df.copy()
df_temp["id_encuestado"] = df_encuestado["id_encuestado"]

# 4.3. Convertir el DataFrame de respuestas (formato ancho) a formato largo
df_respuestas = pd.melt(
    df_temp,
    id_vars=["id_encuestado"],
    var_name="pregunta_texto",
    value_name="respuesta"
)
df_respuestas["pregunta_texto"] = df_respuestas["pregunta_texto"].str.strip()

#Mapear el texto de la pregunta a su id_pregunta usando el diccionario
df_respuestas["id_pregunta"] = df_respuestas["pregunta_texto"].map(columna_a_id)
faltantes = df_respuestas.loc[df_respuestas["id_pregunta"].isna(), "pregunta_texto"].unique()
if len(faltantes) > 0:
    print("Preguntas sin ID asignado:", faltantes)
df_respuestas["id_pregunta"] = df_respuestas["id_pregunta"].fillna(-1).astype(int)

df_respuestas = df_respuestas.merge(
    df_pregunta[["id_pregunta", "seccion", "texto_pregunta"]],
    on="id_pregunta",
    how="left"
)

#Crear Tabla pivot

# Crear una vista pivot donde cada columna corresponde a una pregunta y contiene la respuesta de cada encuestado.
df_pivot = df_respuestas.pivot_table(
    index="id_encuestado",  
    columns="id_pregunta",
    values="respuesta",
    aggfunc="first",
    fill_value="Sin datos"
).reset_index()  # üîπ Convertir el √≠ndice en columna

# Renombrar las columnas del pivot para que muestren el texto completo de la pregunta
map_id_to_text = df_pregunta.set_index("id_pregunta")["texto_pregunta"].to_dict()
df_pivot.rename(columns=map_id_to_text, inplace=True)


#Exportar tablas

output_dir = os.getcwd()  
print(f"Los archivos se han guardado en: {output_dir}")

# Exportar tablas relacionales
df_encuestado.to_csv("Encuestado.csv", index=False)
df_pregunta.to_csv("Pregunta.csv", index=False)
df_respuestas.to_csv("Respuesta_completa.csv", index=False)
df_pivot.to_csv("pivot_table.csv", index=False)

In [None]:
# 1. Cargar el CSV y normalizar encabezados
csv_file = "C:/Users/Carlo/Desktop/SPRINTS/Sprint_10/pivot_table_origen.csv"
df = pd.read_csv(csv_file, encoding="utf-8")


df_pivot = df_pivot.astype({"Si respondi√≥ 'S√≠', ¬øCu√°ntas veces practic√≥ actividad f√≠sica o deporte en la √∫ltima semana?": int})

df_pivot = df_pivot.astype({"En una escala del 1 al 10, ¬øC√≥mo calificar√≠a su nivel actual de ansiedad?": int})

df_pivot = df_pivot.astype({"En una escala del 1 al 4, donde 1 es 'muy bajo' y 4 es 'muy alto', ¬øC√≥mo calificar√≠a su nivel de estr√©s relacionado con el trabajo o el estudio?": int})


df_pivot["En promedio, ¬øCu√°ntas porciones de frutas y verduras ha consumido diariamente la √∫ltima semana?"] = (
    pd.to_numeric(
        df_pivot["Si respondi√≥ 'S√≠', ¬øCu√°ntas veces practic√≥ actividad f√≠sica o deporte en la √∫ltima semana?"],
        errors="coerce"  # üîπ Convierte n√∫meros y deja texto como NaN
    )
    .astype("Int64")  # üîπ Convertir a n√∫mero entero, manteniendo NaN
)
df_pivot.to_csv("pivot_table_final.csv", index=False)


In [None]:
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt

# Convertir columnas categ√≥ricas a num√©ricas
df_pivot["estres_laboral"] = pd.to_numeric(df_pivot["En una escala del 1 al 4, donde 1 es 'muy bajo' y 4 es 'muy alto', ¬øC√≥mo calificar√≠a su nivel de estr√©s relacionado con el trabajo o el estudio?"], errors="coerce")
df_pivot["preocupacion_excesiva"] = pd.to_numeric(
    df_pivot["Durante las √∫ltimas dos semanas, ¬øcon qu√© frecuencia ha experimentado preocupaci√≥n excesiva? (0 = Ning√∫n d√≠a, 1 = Varios d√≠as, 2 = M√°s de la mitad de los d√≠as, 3 = Casi todos los d√≠as)"],
    errors="coerce"
)
df_pivot["nerviosismo_estres"] = pd.to_numeric(df_pivot["Durante las √∫ltimas dos semanas, ¬øcon qu√© frecuencia ha sentido nerviosismo o estr√©s? (0 = Ning√∫n d√≠a, 1 = Varios d√≠as, 2 = M√°s de la mitad de los d√≠as, 3 = Casi todos los d√≠as)"
                                                              ], errors="coerce")
df_pivot["dificultad_relajarse"] = pd.to_numeric(df_pivot[
    "Durante las √∫ltimas dos semanas, ¬øcon qu√© frecuencia ha tenido dificultad para relajarse? (0 = Ning√∫n d√≠a, 1 = Varios d√≠as, 2 = M√°s de la mitad de los d√≠as, 3 = Casi todos los d√≠as)"], errors="coerce")

df_clean = df_pivot.dropna(subset=["estres_laboral", "preocupacion_excesiva", "nerviosismo_estres", "dificultad_relajarse"])

correlacion = df_clean[["estres_laboral", "preocupacion_excesiva", "nerviosismo_estres", "dificultad_relajarse"]].corr()

print("Matriz de correlaci√≥n:")
print(correlacion)

plt.figure(figsize=(8, 6))
sns.heatmap(correlacion, annot=True, cmap="coolwarm", fmt=".2f", linewidths=0.5)
plt.title("Matriz de Correlaci√≥n entre Estr√©s, Preocupaci√≥n y Nerviosismo")
plt.show()

In [None]:
#Finalmente no usado
conteo_manual = df_encuestado["ubicacion"].astype(str).str[:2].value_counts().to_dict()

provincias_espa√±a = {
    '01': "√Ålava", '02': "Albacete", '03': "Alicante", '04': "Almer√≠a", '05': "√Åvila",
    '06': "Badajoz", '07': "Islas Baleares", '08': "Barcelona", '09': "Burgos", '10': "C√°ceres",
    '11': "C√°diz", '12': "Castell√≥n", '13': "Ciudad Real", '14': "C√≥rdoba", '15': "A Coru√±a",
    '16': "Cuenca", '17': "Girona", '18': "Granada", '19': "Guadalajara", '20': "Gipuzkoa",
    '21': "Huelva", '22': "Huesca", '23': "Ja√©n", '24': "Le√≥n", '25': "Lleida",
    '26': "La Rioja", '27': "Lugo", '28': "Madrid", '29': "M√°laga", '30': "Murcia",
    '31': "Navarra", '32': "Ourense", '33': "Asturias", '34': "Palencia", '35': "Las Palmas",
    '36': "Pontevedra", '37': "Salamanca", '38': "Santa Cruz de Tenerife", '39': "Cantabria", '40': "Segovia",
    '41': "Sevilla", '42': "Soria", '43': "Tarragona", '44': "Teruel", '45': "Toledo",
    '46': "Valencia", '47': "Valladolid", '48': "Bizkaia", '49': "Zamora", '50': "Zaragoza",
    '51': "Ceuta", '52': "Melilla"
}

df_encuestado["provincia"] = df_encuestado["ubicacion"].astype(str).str[:2].map(provincias_espa√±a)
# Convertir el diccionario en un DataFrame
df_provincias = pd.DataFrame(list(provincias_espa√±a.items()), columns=["codigo_postal", "provincia"])

df_encuestado["ubicacion"] = df_encuestado["ubicacion"].str.strip()
df_provincias["codigo_postal"] = df_provincias["codigo_postal"].str.strip()

codigos_faltantes = set(df_encuestado["ubicacion"]) - set(df_provincias["codigo_postal"])

df_encuestado["codigo_postal_2digitos"] = df_encuestado["ubicacion"].astype(str).str[:2]


df_encuestado = pd.merge(df_encuestado, df_provincias, left_on="codigo_postal_2digitos", right_on="codigo_postal", how="left")

df_encuestado.drop(columns=["codigo_postal_2digitos", "codigo_postal", "provincia_y"], inplace=True)

df_pivot.to_csv("pivot_table_final.csv", index=False)

NameError: name 'df_encuestado' is not defined