## Preprocesado

Se importan las librerías para el preprocesamiento

In [1]:
import pandas as pd

Se carga el conjunto de datos

In [2]:
df = pd.read_excel("respuestas_97_completo.xlsx")

In [3]:
df = df.drop('Marca temporal', axis=1)

Se agrega una columna al inicio que según los valores de la columna de edad de diagnóstico, este toma valores de uno y cero, indicando si el sujeto del la fila tiene o no diagnóstico de autismo. Se considera válido la sospecha y auto diagnóstico.

In [4]:
df_sospecha_AU = df[df['¿A que edad recibiste el diagnóstico de autismo?'] == 1]
df_AU_AL = df[df['¿A que edad recibiste el diagnóstico de autismo?'] != 1]

In [5]:
diagnostico_autismo = df_AU_AL.iloc[:, 2].apply(lambda x:0 if x==0 else 1)

In [6]:
df_AU_AL.insert(loc=0, column='Diagnostico_autismo', value=diagnostico_autismo)

Se filtra por edad (mayor a 20)

In [7]:
df_edad = df_AU_AL[df_AU_AL['Ingresa tu edad actual'] > 20]

In [8]:
df_sospecha_AU = df_sospecha_AU[df_sospecha_AU['Ingresa tu edad actual'] > 20]

Se filtra por género

In [9]:
df_fem = df_edad[df_edad['Género'] == 'Femenino']

In [10]:
df_sospecha_AU = df_sospecha_AU[df_sospecha_AU['Género'] == 'Femenino']

Se crean nuevos df con las columnas descriptivas, comentarios e historias

In [11]:
columnas = ['Ingresa tu edad actual', 'Género', '¿A que edad recibiste el diagnóstico de autismo?', '¿Alguna vez has sido diagnosticado/a con algunas de estas neurodivergencias?', '¿Has menstruado?', '¿Alguna vez has sido diagnosticado/a con algunas de estas categorías?']
comentarios = ['Comentarios', 'Comentarios.1', 'Comentarios.2', 'Comentarios.3', 'Comentarios.4', 'Comentarios.5', 'Comentarios.6', 'Comentarios.7', 'Comentarios.8', 'Comentarios.9']

df_comentarios = df_fem[comentarios]
df_historias = df_fem.iloc[:, -1]
data_descriptiva = df_fem[['Diagnostico_autismo'] + columnas]

df_comentarios_sos = df_sospecha_AU[comentarios]
df_historias_sos = df_sospecha_AU.iloc[:, -1]
data_descriptiva_sos = df_sospecha_AU[columnas]

In [12]:
df_comentarios.to_excel('df_comentarios.xlsx', index = False)
df_historias.to_excel('df_historias.xlsx', index = False)
data_descriptiva.to_excel('df_descriptiva.xlsx', index =False)

df_comentarios_sos.to_excel('df_comentarios_sos.xlsx', index = False)
df_historias_sos.to_excel('df_historias_sos.xlsx', index = False)
data_descriptiva_sos.to_excel('df_descriptiva_sos.xlsx', index =False)

Se eliminan las columnas de información personal, quedando solo la primera que indica si tiene el diagnostico o no, y las preguntas.

In [13]:
df_fem.columns[-1]

'Estimado/a Participante,\nEste espacio es exclusivamente suyo para compartir su experiencia en relación a la neurodivergencia. Sus reflexiones son esenciales para el estudio y serán tratadas con la máxima confidencialidad y respeto.'

In [14]:
eliminar = columnas + comentarios
df_fem = df_fem.drop(eliminar, axis=1)
df_fem = df_fem.drop(df_fem.columns[-1], axis=1)

df_sospecha_AU = df_sospecha_AU.drop(eliminar, axis=1)
df_sospecha_AU = df_sospecha_AU.drop(df_sospecha_AU.columns[-1], axis=1)

Se realiza un mapeo de las respuestas, para posteriormente cambiarlas a numéricas.

In [15]:
mapeo_respuestas = {
    'Totalmente de acuerdo': 5,
    'De acuerdo': 4,
    'Ni de acuerdo, ni en desacuerdo': 3,
    'En desacuerdo': 2,
    'Totalmente en desacuerdo': 1
}

In [16]:
columnas_a_convertir = df_fem.columns[1:]
for columna in columnas_a_convertir:
    df_fem[columna] = df_fem[columna].replace(mapeo_respuestas)

In [17]:
df_sospecha_AU = df_sospecha_AU.applymap(lambda x: mapeo_respuestas.get(x) if x in mapeo_respuestas else x)

Descargar excel con las respuestas mapeadas

In [18]:
df_fem.to_excel('respuestas_mapeadas.xlsx', index=False)
df_sospecha_AU.to_excel('respuestas_mapeadas_sos.xlsx', index=False)