In [4]:
import pandas as pd
import numpy as np
import os

# Cargar archivo excel

In [2]:
# Cargar el archivo excel
archivo = pd.read_excel(os.path.join('..', 'data', 'archivobruto.xlsx'),
                        sheet_name=None)

# Copiar columnas y repetir 30 veces

In [3]:
# Obtener la hoja "datos sin procesar"
datos_sin_procesar = archivo['Datos sin procesar']

# Seleccionar las columnas de interés
c_prim = 'ID de respuesta'
c_ulti = '¿Cuántos años aproximadamente has residido en Málaga capital?'
datos = datos_sin_procesar.loc[:, c_prim:c_ulti]

# Repetir cada línea 30 veces en vertical, 
# manteniendo el orden y el nombre de las columnas
resultados = pd.DataFrame(np.repeat(datos.values, 30, axis=0),
                          columns=datos.columns)

# Copiar respuestas traspuestas

In [6]:
# Seleccionar las columnas de interés
c_prim = '1. Porque tampoco____ acceso con los coches.'
c_ulti = '30. _____ con el palo, un palo de estos.'
datos = datos_sin_procesar.loc[:, c_prim:c_ulti]

resultados['Respuestas 5 categorías'] = datos.to_numpy(dtype=np.int32).flatten()

# Mapear 5 categorías a 3 categorías

In [37]:
# {antigua categoría: nueva categoría, ...}
dicc_mapeo = {1: 1, 2: 1, 3: 2, 4: 3, 5: 3}

# Crear una nueva columna de 3 categorías a partir de la de 5 categorías
resultados['Respuestas 3 categorías'] = resultados['Respuestas 5 categorías'].replace(dicc_mapeo)

# Copiar características del estímulo

In [25]:
# Obtener la hoja "datos sin procesar"
datos_sin_procesar = archivo['Hoja2']

# Seleccionar las columnas de interés
c_prim = 'Número de estímulo'
c_ulti = 'S'

# Seleccionar las filas de interés
f_prim = 0
f_ulti = 29

# Filtrar por columnas y filas
datos = datos_sin_procesar.loc[f_prim:f_ulti, c_prim:c_ulti]

# Repetir el dataframe todas las veces que sea necesario hasta completar
# el número de filas de resultados
datos_rep = pd.concat([datos] * int(len(resultados) / len(datos)), 
                      ignore_index=True, axis=0)

# Concatenar en horizontal
resultados = pd.concat([resultados, datos_rep], axis=1)

# Visualizar el resultado final

In [35]:
# Ver los primeros 3 resultados
resultados.head(3)

Unnamed: 0,ID de respuesta,Sexo,Edad,Nivel de estudios,GRUPO DE MUESTRA,Lugar de nacimientoPaís,Provincia,Municipio,¿Cuántos años aproximadamente has residido en tu lugar de nacimiento?,Lugar de residencia actualPaís,...,Presencia,Persona del sujeto,TIPO DE EJEMPLO,INFORMANTE,Edad.1,Sexo.1,Nivel de estudios.1,norrma,S.Y.Z,S
0,99727525,2,21,7,1,España,Málaga,Málaga,21,España,...,1.0,3.0,3ªSG AUSENCIA,MA_H21_005,2.0,1.0,1.0,1.0,1.0,1.0
1,99727525,2,21,7,1,España,Málaga,Málaga,21,España,...,0.0,2.0,2ªSG PRESENCIA,MA_M11_053,1.0,2.0,1.0,3.0,1.0,1.0
2,99727525,2,21,7,1,España,Málaga,Málaga,21,España,...,0.0,2.0,2ªSG PRESENCIA,MA_M23_029,2.0,2.0,3.0,2.0,2.0,1.0


In [36]:
# Ver los últimos 3 resultados
resultados.tail(3)

Unnamed: 0,ID de respuesta,Sexo,Edad,Nivel de estudios,GRUPO DE MUESTRA,Lugar de nacimientoPaís,Provincia,Municipio,¿Cuántos años aproximadamente has residido en tu lugar de nacimiento?,Lugar de residencia actualPaís,...,Presencia,Persona del sujeto,TIPO DE EJEMPLO,INFORMANTE,Edad.1,Sexo.1,Nivel de estudios.1,norrma,S.Y.Z,S
13617,101269404,2,28,8,3,España,Barcelona,Sant Boi de Llobregat,22,Esoaña,...,0.0,3.0,3ªSG PRESENCIA,MA_M21_041,2.0,2.0,1.0,2.0,2.0,1.0
13618,101269404,2,28,8,3,España,Barcelona,Sant Boi de Llobregat,22,Esoaña,...,0.0,6.0,3ºPL presencia PARA CEBO,MA_M32_043,3.0,2.0,2.0,2.0,1.0,1.0
13619,101269404,2,28,8,3,España,Barcelona,Sant Boi de Llobregat,22,Esoaña,...,0.0,2.0,2ªSG PRESENCIA,MA_H21_018,2.0,1.0,1.0,0.0,2.0,2.0


# Guardar el resultado final

In [29]:
# Guardar en archivo excel
with pd.ExcelWriter(os.path.join('..', 'results', 'archivo_resultados.xlsx')) as writer:
    resultados.to_excel(writer, sheet_name='resultados', index=False, header=True, startrow=0)