In [58]:
import pandas as pd 
import numpy as np
import pyreadstat
pd.set_option("max.columns", None)
pd.set_option("max.rows", None)
df = pd.read_spss('./Files/3216.sav')

In [59]:
# Variable transformation
df['CUES'] = df['CUES'].astype('float')
df['P47'] = df['P47'].astype('float')
df['PESO'] = df['PESO'].str.replace(',','.').astype('float')

# Selection of categorical variables
my_vars = ['ESTUDIO','CCAA','PROV','MUN','TAMUNI','P1_1','P1_2','P1_3','P1_4','P1_5','P2_1','P2_2','P2_3','P2_4','P2_5',
 'P3A','P3B','P4_1','P4_2','P4_3','P4_4','P4_5','P4_6','P4_7','P4_8','P4_9','P4_10',
 'P5_1','P5_2','P5_3','P5_4','P5_5','P5_6','P5_7','P5_8','P5_9','P5_10','P5_11','P5_12','P5_13','P5_14',
 'P6','P7A','P7B','P8','P9','P11A','P11B','P16','P17','P18','P18A','P19_1','P19_2','P19_3',
 'P34_1','P34_2','P34_3','P34_4','P34_5','P34_6','P34_7','P34_8','P34_9','P34_10',
 'P35_1','P35_2','P35_3','P35_4','P35_5','P35_6','P35_7','P43','P45','P45A','P45AR',
 'RECUERDO','P46','P47','P48','P48A','P49','P49A','ESTUDIOS','P49AA',
 'P53','P54','ESTATUS','P60', 'P61','P62']

# Df with categorical variables
df2 = df[my_vars].copy()

# Variables list according to the type 
vsorted = ['TAMUNI','P1_1','P1_2','P1_3','P1_4','P1_5','P2_1','P2_2','P2_3','P2_4','P2_5',
 'P3A','P3B','P4_1','P4_2','P4_3','P4_4','P4_5','P4_6','P4_7','P4_8','P4_9','P4_10',
 'P5_1','P5_2','P5_3','P5_4','P5_5','P5_6','P5_7','P5_8','P5_9','P5_10','P5_11','P5_12','P5_13','P5_14',
 'P6','P7A','P7B','P8','P9','P11A','P11B','P16','P17','P18','P18A',
 'P19_1','P19_2','P19_3','P34_1','P34_2','P34_3','P34_4','P34_5','P34_6','P34_7','P34_8','P34_9','P34_10',
 'P35_1','P35_2','P35_3','P35_4','P35_5','P35_6','P35_7','P43','P45A','RECUERDO','P48','P48A','P49','P49A','ESTUDIOS',
 'P53','ESTATUS','P60','P61','P62']
vunsorted = ['CCAA','PROV','MUN','P45','P45AR','P46','P49AA','P54']
vnumer = ['CUES','P47','PESO']

In [60]:
# The function extracts all data frame variables and unique responses attached to a code

def resp_codes(df, varnames):
    # df: dataframe that is going to be used to extrat response code
    # varnames: names of the variables needed to store the codes, tipically they will be three:
        # varname a: suggested - var is the name of the original variable / column name
        # varname b: suggested - resp is the value of the variable generally an string / column value
        # varname c: suggested - code is the code applied to resp, only one code by unique variable response
    
    df_tot = pd.DataFrame(columns = varnames)
    for var in df.columns: 
        ctr = 0
        
        while ctr < len(df[var].unique()): 
            
            my_row = np.array([[df[var].name, df[var].unique()[ctr], ctr + 1]])
            df_par = pd.DataFrame(columns= varnames, data = my_row)
            df_tot = pd.concat([df_tot, df_par], ignore_index= True)
            ctr += 1
    
    return df_tot

In [61]:
# The function extracts categorize numeric variables and includes min and max values

def resp_continuous(df, varnames):
    # df: dataframe that is going to be used to assign continuos variables
    # varnames: names of the variables needed to store the codes, tipically they will be three:
        # varname a: suggested - var is the name of the original variable / column name
        # varname b: suggested - resp is always numeric
        # varname c: suggested - code in this cases does not apply we include max and min
    
    df_tot = pd.DataFrame(columns = varnames)
    for var in df: 
        my_row = np.array([[dfn[var].name, 'numeric',(dfn[var].astype('float').min(), dfn[var].astype('float').max())]])
        df_par = pd.DataFrame(columns= varnames, data = my_row) # Partial df that includes all the codes for one variable
        df_tot = pd.concat([df_tot, df_par], ignore_index= True) # Concatenation of total df with partial df

    return df_tot

In [62]:
# Function applied
my_resp = resp_codes(df2,['var','resp','code'])

In [63]:
# Dictionaries with codes
mycodes =  {'TAMUNI': [('Menos o igual a 2.000 habitantes',1), ('2.001 a 10.000 habitantes',2), 
                       ('10.001 a 50.000 habitantes', 3), ('50.001 a 100.000 habitantes', 4),
                       ('100.001 a 400.000 habitantes', 5), ('400.001 a 1.000.000 habitantes', 6),
                       ('Más de 1.000.000 habitantes', 7)],
            'P1_':[('Ningún interés', 1),('Poco interés', 2), ('(NO LEER) Suficiente interés', 3),('Bastante interés', 4), 
                   ('Mucho interés', 5),('N.S.', 9800),('N.C.', 9900),],
            'P2_':[('Nada informado/a', 1), ('Poco informado/a', 2), ('(NO LEER) Suficiente informado/a', 3),
                   ('Bastante informado/a', 4) ,('Muy informado/a', 5), ('N.S.', 9800), ('N.C.', 9900)],
            'P3A':[('N.S.', 9800), ('N.C.', 9900)],
            'P3B':[('Ninguna más', 9700), ('N.S.', 9800), ('N.C.', 9900)],
            'P4_':[('Nada de acuerdo', 1), ('Poco de acuerdo', 2), ('Bastante de acuerdo', 3), 
                   ('Muy de acuerdo', 4), ('N.S.', 9800), ('N.C.', 9900)],
            'P5_':[('Ninguna importancia', 1), ('Poca importancia', 2), ('Bastante importancia', 3), 
                   ('Mucha importancia', 4), ('N.S.', 9800), ('N.C.', 9900)],
            'P6':[('Los perjuicios de la innovación son mayores que sus benefici', 1),
                ('Los beneficios y los perjuicios de la innovación están equil', 2),
                ('Los beneficios de la innovación son mayores que sus perjuici', 3), ('N.S.', 9800), ('N.C.', 9900)],
            'P7':[('(NO LEER) Otras', 9600), ('(NO LEER) Ninguna', 9700), ('N.S.', 9800), ('N.C.', 9900)],
            'P8':[('Debe ser exclusivamente pública (de cualquier Administración', 1),
                  ('Debe ser pública, con implicación del sector privado (empres', 2),
                  ('Debe ser, en la misma medida, del sector público y del priva', 3),
                  ('Debe ser privada, con implicación del sector público (de cua', 4),
                  ('Debe ser exclusivamente privada (empresas o inversores priva', 5),
                  ('(NO LEER) Depende del sector', 9500),
                  ('N.S.', 9800), 
                  ('N.C.', 9900)],
            'P9':[('Poco', 1), ('Suficiente', 2), ('Mucho', 3), ('N.S.', 9800),('N.C.', 9900)],
            'P11':[('N.S.', 9800),('N.C.', 9900)],
            'P16':[('Sí',1), ('No',2), ('No recuerda', 9800), ('N.C.', 9900)],
            'P17':[('Muy negativo', 1), ('Negativo', 2), ('(NO LEER) Ni positivo ni negativo', 3),
                   ('Positivo', 4), ('Muy positivo', 5), ('N.S.', 9800), ('N.C.', 9900)],
            'P18':[('No', 1), ('Sí, algunas', 2), ('Sí, la mayor parte', 3), ('Sí, todas', 4), 
                   ('N.P. (No ha trabajado nunca)', 9400), ('N.S.', 9800), ('N.C.', 9900)],
            'P19_':[('Nada de acuerdo', 1), ('Poco de acuerdo', 2), ('Bastante de acuerdo', 3),
                    ('Muy de acuerdo', 4), ('N.S.', 9800), ('N.C.', 9900)],
            'P34_':[('Ud. mismo/a', 1), ('Un/a miembro de su familia', 2), ('Un/a amigo/a o conocido/a cercano/a', 3),
                    ('(NO LEER) No tiene/puede/sabe ni Ud. ni ningún familiar, ami', 4), ('N.S./N.C.', 9900)],
            'P35_':[('1 persona', 1), ('2 personas', 2),('3 personas', 3),('4 personas', 4),('5 personas', 5),
                    ('6 personas', 6),('7 personas', 7),('8 personas', 8),('9 personas', 9),('10 o más personas'),
                    ('(NO LEER) N.P. (No trabaja/estudia...)', 9400),('Ninguna persona', 9700),
                    ('N.S./N.R.', 9800),('N.C.', 9900)],
            'P43':[('1 Izquierda', 1),('2', 2),('3', 3),('4', 4),('5', 5),('6', 6),
                   ('7', 7),('8', 8),('9', 9),('10 Derecha', 10),('(NO LEER) Ninguna', 11),],
            'P45A':[('Otros partidos',9600),(np.nan, 9400),('No recuerda', 9800),('N.C.', 9900)],
            'RECUERDO':[(np.nan, 9401),('No tenía edad', 9402),('Otros', 9403),('No tenía derecho a voto', 9404),('No recuerda', 9800),('N.C.', 9900),],
            'P48':[('N.C.', 9900)],
            'P48A':[(np.nan, 9401), ('N.C.', 9900)],
            'P49':[('N.C.', 9900)],
            'P49A':[('Menos de 5 años de escolarización', 1),('Educación primaria (Educación primaria de LOGSE, 5º Curso de', 2)
                    ,('Educación secundaria (ESO, EGB. Graduado Escolar. Certificad', 3),('Bachillerato (Bachillerato LOGSE, BUP, Bachillerato superior', 4)
                    ,('Cualificación profesional grado inicial (FP grado inicial).', 5),('FP de grado medio (Ciclo/módulo formativo de FP (grado medio', 6)
                    ,('FP de grado superior (grado superior), Ciclos de Artes Plást', 7),('Diplomatura (ATENCIÓN: solo Diplomaturas oficiales, no codif', 8)
                    ,('Arquitectura-ingeniería técnica (Arquitectura/ingeniería téc', 9),('Grado (Estudios de grado, Enseñanzas Artísticas equivalentes', 10)
                    ,('Licenciatura (Titulaciones con equivalencia oficial: 2º cicl', 11),('Arquitectura/ingeniería', 12)
                    ,('Títulos propios de posgrado (máster no oficial, etc.)', 13),('Máster oficial universitario (Especialidades médicas o equiv', 14)
                    ,('Doctorado', 15),('Otros estudios', 9600),(np.nan, 9400),('N.S.', 9800),('N.C.', 9900)],
            'ESTUDIOS':[(np.nan, 9400), ('N.S./N.R.', 9800), ('N.C.', 9900)],
            'P53':[('N.C.', 9900)],
            'ESTATUS':[('Clase alta/media-alta', 1),('Nuevas clases medias', 2),('Viejas clases medias', 3),
                       ('Obreros/as cualificados/as', 4),('Obreros/as no cualificados/as', 5),('No consta', 9800)],
            'P60':[('Creyente de otra religión', 9600), ('N.C.', 9900)],
            'P61':[('No tienen ingresos de ningún tipo', 1),('Menos o igual a 300 €', 2),('De 301 a 600 €', 3)
                   ,('De 601 a 900 €', 4),('De 901 a 1.200 €', 5),('De 1.201 a 1.800 €', 6),('De 1.801 a 2.400 €', 7)
                   ,('De 2.401 a 3.000 €', 8),('De 3.001 a 4.500 €', 9),('De 4.501 a 6.000 €', 10),('Más de 6.000 €', 11),
                   ('N.S.', 9800),('N.C.', 9900)],
            'P62':[('No tienen ingresos de ningún tipo', 1),('Menos o igual a 300 €', 2),('De 301 a 600 €', 3)
                   ,('De 601 a 900 €', 4),('De 901 a 1.200 €', 5),('De 1.201 a 1.800 €', 6),('De 1.801 a 2.400 €', 7)
                   ,('De 2.401 a 3.000 €', 8),('De 3.001 a 4.500 €', 9),('De 4.501 a 6.000 €', 10),('Más de 6.000 €', 11),
                   ('N.S.', 9800),('N.C.', 9900)]}

In [10]:
# Next step 
# 1. Dictionary of variables --> Ok 
# 2. List of variables sorted / unsorted --> Ok 
# 3. Function to separate variables sorted & unsorted --> Ok (not function yet)
# 5. Function to return numeric variables --> Ok 
# 6. Function to return codes in the dictionary 
# 7. Function to return the final dataframe
# 8. Pack the function 

In [11]:
df2.head()

Unnamed: 0,ESTUDIO,CCAA,PROV,MUN,TAMUNI,P1_1,P1_2,P1_3,P1_4,P1_5,P2_1,P2_2,P2_3,P2_4,P2_5,P3A,P3B,P4_1,P4_2,P4_3,P4_4,P4_5,P4_6,P4_7,P4_8,P4_9,P4_10,P5_1,P5_2,P5_3,P5_4,P5_5,P5_6,P5_7,P5_8,P5_9,P5_10,P5_11,P5_12,P5_13,P5_14,P6,P7A,P7B,P8,P9,P11A,P11B,P16,P17,P18,P18A,P19_1,P19_2,P19_3,P34_1,P34_2,P34_3,P34_4,P34_5,P34_6,P34_7,P34_8,P34_9,P34_10,P35_1,P35_2,P35_3,P35_4,P35_5,P35_6,P35_7,P43,P45,P45A,P45AR,RECUERDO,P46,P47,P48,P48A,P49,P49A,ESTUDIOS,P49AA,P53,P54,ESTATUS,P60,P61,P62
0,3216,Andalucía,Almería,Mun.<=100.000 hab. no capitales de CA o provincia,Menos o igual a 2.000 habitantes,Mucho interés,Mucho interés,Poco interés,Mucho interés,Mucho interés,Bastante informado/a,Bastante informado/a,(NO LEER) Suficiente informado/a,Bastante informado/a,Poco informado/a,Nuevas formas de hacer las cosas,Nuevas tecnologías,Bastante de acuerdo,Bastante de acuerdo,Bastante de acuerdo,Muy de acuerdo,Muy de acuerdo,Muy de acuerdo,Muy de acuerdo,Muy de acuerdo,Muy de acuerdo,Muy de acuerdo,Mucha importancia,Mucha importancia,Bastante importancia,Mucha importancia,Bastante importancia,Bastante importancia,Bastante importancia,Bastante importancia,Mucha importancia,Bastante importancia,Mucha importancia,Bastante importancia,Mucha importancia,Bastante importancia,Los beneficios y los perjuicios de la innovaci...,Ciencia y tecnología,"Obras públicas e infraestructuras (carreteras,...","Debe ser, en la misma medida, del sector públi...",Suficiente,La enseñanza,El medio ambiente,Sí,Positivo,"Sí, la mayor parte","Sí, la mayor parte",Bastante de acuerdo,Bastante de acuerdo,Bastante de acuerdo,Un/a miembro de su familia,Un/a miembro de su familia,Un/a miembro de su familia,Ud. mismo/a,(NO LEER) No tiene/puede/sabe ni Ud. ni ningún...,Ud. mismo/a,(NO LEER) No tiene/puede/sabe ni Ud. ni ningún...,Ud. mismo/a,Un/a amigo/a o conocido/a cercano/a,(NO LEER) No tiene/puede/sabe ni Ud. ni ningún...,2 personas,2 personas,3 personas,3 personas,4 personas,3 personas,2 personas,3,Fue a votar y votó,PSOE,PSOE,PSOE,Mujer,53.0,Casado/a,,"Sí, ha ido a la escuela","Bachillerato (Bachillerato LOGSE, BUP, Bachill...",Secundaria 2ª etapa,,Trabaja,"Deportistas, entrenadores, instructores de act...",Clase alta/media-alta,Católico/a,De 901 a 1.200 €,De 301 a 600 €
1,3216,Andalucía,Almería,Mun.<=100.000 hab. no capitales de CA o provincia,Menos o igual a 2.000 habitantes,Bastante interés,(NO LEER) Suficiente interés,Ningún interés,Bastante interés,Mucho interés,Bastante informado/a,Poco informado/a,Nada informado/a,(NO LEER) Suficiente informado/a,(NO LEER) Suficiente informado/a,Nuevos productos,Investigación y ciencia,Muy de acuerdo,Nada de acuerdo,Bastante de acuerdo,Muy de acuerdo,Poco de acuerdo,Muy de acuerdo,Nada de acuerdo,Muy de acuerdo,Poco de acuerdo,Muy de acuerdo,Bastante importancia,Bastante importancia,Bastante importancia,Bastante importancia,Bastante importancia,Bastante importancia,Bastante importancia,Bastante importancia,Bastante importancia,Bastante importancia,Bastante importancia,Bastante importancia,Bastante importancia,Bastante importancia,Los perjuicios de la innovación son mayores qu...,Protección del medio ambiente,"Cultura (museos, cine, espectáculos, etc.)","Debe ser, en la misma medida, del sector públi...",N.S.,La agricultura,Las fuentes de energía,No,Negativo,"Sí, la mayor parte","Sí, algunas",Bastante de acuerdo,Bastante de acuerdo,Bastante de acuerdo,Ud. mismo/a,Un/a miembro de su familia,Ud. mismo/a,Un/a miembro de su familia,Un/a amigo/a o conocido/a cercano/a,Ud. mismo/a,Ud. mismo/a,Ud. mismo/a,Ud. mismo/a,Un/a amigo/a o conocido/a cercano/a,3 personas,10 o más personas,10 o más personas,10 o más personas,10 o más personas,10 o más personas,5 personas,(NO LEER) Ninguna,Fue a votar y votó,Ciudadanos,Ciudadanos,Ciudadanos,Mujer,36.0,Casado/a,,"Sí, ha ido a la escuela",Diplomatura (ATENCIÓN: solo Diplomaturas ofici...,Superiores,Enseñanza comercial y administración,Trabajo doméstico no remunerado (anteriormente...,Asistentes administrativos y especializados,Nuevas clases medias,Católico/a,De 1.801 a 2.400 €,No tiene ingresos de ningún tipo
2,3216,Andalucía,Almería,Mun.<=100.000 hab. no capitales de CA o provincia,Menos o igual a 2.000 habitantes,Bastante interés,Poco interés,Bastante interés,(NO LEER) Suficiente interés,Bastante interés,Nada informado/a,Nada informado/a,Bastante informado/a,Poco informado/a,Nada informado/a,Reorganización de los procesos de trabajo,Costumbres y valores sociales diferentes,Bastante de acuerdo,N.S.,Bastante de acuerdo,Bastante de acuerdo,Poco de acuerdo,Bastante de acuerdo,Poco de acuerdo,Bastante de acuerdo,Bastante de acuerdo,Poco de acuerdo,Mucha importancia,Mucha importancia,Mucha importancia,Mucha importancia,Mucha importancia,Poca importancia,Mucha importancia,Mucha importancia,Mucha importancia,Mucha importancia,Mucha importancia,Mucha importancia,Mucha importancia,Mucha importancia,Los beneficios y los perjuicios de la innovaci...,"Obras públicas e infraestructuras (carreteras,...",Protección del medio ambiente,Debe ser exclusivamente pública (de cualquier ...,Poco,La medicina y asistencia sanitaria,La agricultura,No,Positivo,No,"Sí, algunas",Muy de acuerdo,Bastante de acuerdo,Muy de acuerdo,Un/a amigo/a o conocido/a cercano/a,Un/a miembro de su familia,Ud. mismo/a,Ud. mismo/a,Un/a miembro de su familia,Un/a amigo/a o conocido/a cercano/a,Un/a miembro de su familia,Un/a miembro de su familia,Un/a amigo/a o conocido/a cercano/a,Un/a amigo/a o conocido/a cercano/a,2 personas,Ninguna persona,6 personas,(NO LEER) N.P. (No trabaja/estudia...),(NO LEER) N.P. (No trabaja/estudia...),(NO LEER) N.P. (No trabaja/estudia...),3 personas,5,Fue a votar y votó,PSOE,PSOE,PSOE,Hombre,70.0,Casado/a,,"Sí, ha ido a la escuela",Educación primaria (Educación primaria de LOGS...,Primaria,,Jubilado/a o pensionista (anteriormente ha tra...,Agentes y representantes comerciales,Nuevas clases medias,Católico/a,De 3.001 a 4.500 €,De 1.801 a 2.400 €
3,3216,Andalucía,Almería,Mun.<=100.000 hab. no capitales de CA o provincia,Menos o igual a 2.000 habitantes,Mucho interés,Mucho interés,Mucho interés,Mucho interés,Mucho interés,(NO LEER) Suficiente informado/a,Bastante informado/a,(NO LEER) Suficiente informado/a,Bastante informado/a,(NO LEER) Suficiente informado/a,Nuevas tecnologías,Investigación y ciencia,Bastante de acuerdo,Bastante de acuerdo,Poco de acuerdo,Bastante de acuerdo,Bastante de acuerdo,Bastante de acuerdo,Bastante de acuerdo,Bastante de acuerdo,Bastante de acuerdo,Bastante de acuerdo,Bastante importancia,Bastante importancia,Bastante importancia,Mucha importancia,Mucha importancia,Poca importancia,Poca importancia,Poca importancia,Poca importancia,Poca importancia,Mucha importancia,Bastante importancia,Bastante importancia,Bastante importancia,Los perjuicios de la innovación son mayores qu...,Protección del medio ambiente,Ciencia y tecnología,"Debe ser, en la misma medida, del sector públi...",Suficiente,Las empresas,La construcción,Sí,Negativo,No,"Sí, algunas",Muy de acuerdo,Bastante de acuerdo,Bastante de acuerdo,Un/a miembro de su familia,Un/a miembro de su familia,Ud. mismo/a,Ud. mismo/a,Un/a miembro de su familia,Ud. mismo/a,Ud. mismo/a,Ud. mismo/a,Un/a amigo/a o conocido/a cercano/a,Ud. mismo/a,5 personas,8 personas,2 personas,5 personas,2 personas,2 personas,5 personas,6,Fue a votar y votó,PP,PP,PP,Hombre,50.0,Casado/a,,"Sí, ha ido a la escuela","Educación secundaria (ESO, EGB. Graduado Escol...",Secundaria 1ª etapa,,Trabaja,"Directores producción explotación agropec., fo...",Viejas clases medias,Agnóstico/a,De 4.501 a 6.000 €,De 1.201 a 1.800 €
4,3216,Andalucía,Almería,Mun.<=100.000 hab. no capitales de CA o provincia,Menos o igual a 2.000 habitantes,Bastante interés,Ningún interés,Ningún interés,Mucho interés,Mucho interés,Poco informado/a,Nada informado/a,Poco informado/a,Bastante informado/a,Bastante informado/a,Nuevas formas de hacer las cosas,Nuevas ideas,Muy de acuerdo,Nada de acuerdo,Muy de acuerdo,Poco de acuerdo,Muy de acuerdo,Bastante de acuerdo,Muy de acuerdo,Nada de acuerdo,Muy de acuerdo,Poco de acuerdo,Mucha importancia,Mucha importancia,Mucha importancia,Mucha importancia,Mucha importancia,Mucha importancia,Mucha importancia,Mucha importancia,Mucha importancia,Mucha importancia,Mucha importancia,Mucha importancia,Mucha importancia,Mucha importancia,Los beneficios de la innovación son mayores qu...,Innovación,"Cultura (museos, cine, espectáculos, etc.)","Debe ser, en la misma medida, del sector públi...",Poco,Los servicios sociales,La enseñanza,No,(NO LEER) Ni positivo ni negativo,No,"Sí, algunas",Muy de acuerdo,Nada de acuerdo,Nada de acuerdo,(NO LEER) No tiene/puede/sabe ni Ud. ni ningún...,(NO LEER) No tiene/puede/sabe ni Ud. ni ningún...,Ud. mismo/a,Un/a miembro de su familia,(NO LEER) No tiene/puede/sabe ni Ud. ni ningún...,Un/a amigo/a o conocido/a cercano/a,(NO LEER) No tiene/puede/sabe ni Ud. ni ningún...,(NO LEER) No tiene/puede/sabe ni Ud. ni ningún...,(NO LEER) No tiene/puede/sabe ni Ud. ni ningún...,(NO LEER) No tiene/puede/sabe ni Ud. ni ningún...,3 personas,Ninguna persona,3 personas,2 personas,3 personas,3 personas,Ninguna persona,(NO LEER) Ninguna,Fue a votar y votó,PP,PP,PP,Mujer,73.0,Viudo/a,No tiene pareja,"Sí, ha ido a la escuela",Educación primaria (Educación primaria de LOGS...,Primaria,,Jubilado/a o pensionista (anteriormente ha tra...,Camareros y cocineros propietarios,Viejas clases medias,Católico/a,De 601 a 900 €,De 601 a 900 €


In [70]:
for key in mycodes.keys(): 
    if key in 'P1_4':
        print('yes' + '_' + str(key))
    else: 
        print('is not')

is not
yes_P1_
is not
is not
is not
is not
is not
is not
is not
is not
is not
is not
is not
is not
is not
is not
is not
is not
is not
is not
is not
is not
is not
is not
is not
is not
is not
is not
is not
is not
is not


In [71]:
for key in mycodes.keys(): 
    if key in 'P1_4':
        print('yes' + '_' + str(key))
    else: 
        print('is not')

is not
yes_P1_
is not
is not
is not
is not
is not
is not
is not
is not
is not
is not
is not
is not
is not
is not
is not
is not
is not
is not
is not
is not
is not
is not
is not
is not
is not
is not
is not
is not
is not


In [88]:
mycodes['TAMUNI'][1][1]

2

In [86]:
for col in df[vsorted].columns: 
    for key in mycodes.keys(): 
        if key in col:
            print(col + ' yes is ' + str(key))
            print(mycodes[key])
            break
        else: 
            print(col + ' is not ' + str(key))

TAMUNI yes is TAMUNI
[('Menos o igual a 2.000 habitantes', 1), ('2.001 a 10.000 habitantes', 2), ('10.001 a 50.000 habitantes', 3), ('50.001 a 100.000 habitantes', 4), ('100.001 a 400.000 habitantes', 5), ('400.001 a 1.000.000 habitantes', 6), ('Más de 1.000.000 habitantes', 7)]
P1_1 is not TAMUNI
P1_1 yes is P1_
[('Ningún interés', 1), ('Poco interés', 2), ('(NO LEER) Suficiente interés', 3), ('Bastante interés', 4), ('Mucho interés', 5), ('N.S.', 9800), ('N.C.', 9900)]
P1_2 is not TAMUNI
P1_2 yes is P1_
[('Ningún interés', 1), ('Poco interés', 2), ('(NO LEER) Suficiente interés', 3), ('Bastante interés', 4), ('Mucho interés', 5), ('N.S.', 9800), ('N.C.', 9900)]
P1_3 is not TAMUNI
P1_3 yes is P1_
[('Ningún interés', 1), ('Poco interés', 2), ('(NO LEER) Suficiente interés', 3), ('Bastante interés', 4), ('Mucho interés', 5), ('N.S.', 9800), ('N.C.', 9900)]
P1_4 is not TAMUNI
P1_4 yes is P1_
[('Ningún interés', 1), ('Poco interés', 2), ('(NO LEER) Suficiente interés', 3), ('Bastante inte

In [23]:
for key in TAMUNI.keys(): 
    if key == '2.001 a 10.000 habitantes':
        print(str(TAMUNI[key]) + ' ' + 'yes' )
    else: 
        print(str(TAMUNI[key]) + ' ' + 'no' )


1 no
2 yes
3 no
4 no
5 no
6 no
7 no


In [62]:
for value in TAMUNI2.values():
    print(value)

[('Menos o igual a 2.000 habitantes', 1), ('2.001 a 10.000 habitantes', 2), ('10.001 a 50.000 habitantes', 3)]


In [63]:
for value in TAMUNI2.values(): 
    for val in value: 
        if val[0] == '2.001 a 10.000 habitantes':
            print(str(val[1]) + ' ' + 'yes' )
        else: 
            print(str(val[1]) + ' ' + 'no' )

1 no
2 yes
3 no


In [20]:
TAMUNI['2.001 a 10.000 habitantes']

2

In [None]:
# Para las de intervalo 

In [38]:
# Identify the number of variables in the data frame
rows = -1
for var in df2.columns:
    rows += len(df2[var].unique())
df1 = pd.DataFrame
print(rows)

26


In [38]:
# Identify the number of variables in the data frame
rows = -1
for var in df2.columns:
    rows += len(df2[var].unique())
df1 = pd.DataFrame
print(rows)

26


In [83]:
for var in df2.columns:
    ctr = 0
    while ctr < len(df2[var].unique()):
        print(np.array([df2[var].name, df2[var].unique()[ctr],ctr + 1]))
        ctr += 1

['CCAA' 'Andalucía' '1']
['TAMUNI' 'Menos o igual a 2.000 habitantes' '1']
['TAMUNI' '100.001 a 400.000 habitantes' '2']
['TAMUNI' '10.001 a 50.000 habitantes' '3']
['TAMUNI' '2.001 a 10.000 habitantes' '4']
['TAMUNI' '50.001 a 100.000 habitantes' '5']
['P1_1' 'Mucho interés' '1']
['P1_1' 'Bastante interés' '2']
['P1_1' '(NO LEER) Suficiente interés' '3']
['P1_1' 'Ningún interés' '4']
['P1_1' 'Poco interés' '5']
['P1_1' 'N.S.' '6']
['P1_2' 'Mucho interés' '1']
['P1_2' '(NO LEER) Suficiente interés' '2']
['P1_2' 'Poco interés' '3']
['P1_2' 'Ningún interés' '4']
['P1_2' 'Bastante interés' '5']
['P1_2' 'N.S.' '6']
['P2_1' 'Bastante informado/a' '1']
['P2_1' 'Nada informado/a' '2']
['P2_1' '(NO LEER) Suficiente informado/a' '3']
['P2_1' 'Poco informado/a' '4']
['P2_1' 'Muy informado/a' '5']
['P5_1' 'Mucha importancia' '1']
['P5_1' 'Bastante importancia' '2']
['P5_1' 'Poca importancia' '3']
['P5_1' 'N.S.' '4']


In [92]:
my_df2 = pd.DataFrame(columns = ['var','resp','code'])
for var in df2.columns:
    ctr = 0

    while ctr < len(df2[var].unique()):
 
        my_row = np.array([[df2[var].name, df2[var].unique()[ctr],ctr + 1]])
        my_df = pd.DataFrame(columns= ['var','resp','code'], data = my_row)

        my_df2 = pd.concat([my_df2, my_df], ignore_index= True)
        
        ctr += 1
my_df2

Unnamed: 0,var,resp,code
0,CCAA,Andalucía,1
1,TAMUNI,Menos o igual a 2.000 habitantes,1
2,TAMUNI,100.001 a 400.000 habitantes,2
3,TAMUNI,10.001 a 50.000 habitantes,3
4,TAMUNI,2.001 a 10.000 habitantes,4
5,TAMUNI,50.001 a 100.000 habitantes,5
6,P1_1,Mucho interés,1
7,P1_1,Bastante interés,2
8,P1_1,(NO LEER) Suficiente interés,3
9,P1_1,Ningún interés,4


In [106]:
# The function extracts all data frame variables and unique responses attached to a code

def resp_codes(df, varnames):
    # df: dataframe that is going to be used to extrat response code
    # varnames: names of the variables needed to store the codes, tipically they will be three:
        # varname a: suggested - var is the name of the original variable / column name
        # varname b: suggested - resp is the value of the variable generally an string / column value
        # varname c: suggested - code is the code applied to resp, only one code by unique variable response
    
    df_tot = pd.DataFrame(columns = varnames)
    for var in df.columns: 
        ctr = 0
        
        while ctr < len(df[var].unique()): 
            
            my_row = np.array([[df[var].name, df[var].unique()[ctr], ctr + 1]])
            df_par = pd.DataFrame(columns= varnames, data = my_row)
            df_tot = pd.concat([df_tot, df_par], ignore_index= True)
            ctr += 1
    
    return df_tot

In [None]:
my_df2 = pd.DataFrame(columns = ['var','resp','code'])
for var in df2.columns:
    ctr = 0

    while ctr < len(df2[var].unique()):
 
        my_row = np.array([[df2[var].name, df2[var].unique()[ctr],ctr + 1]])
        my_df = pd.DataFrame(columns= ['var','resp','code'], data = my_row)

        my_df2 = pd.concat([my_df2, my_df], ignore_index= True)
        
        ctr += 1
my_df2