In [1]:
import pandas as pd
import json
pd.options.display.max_colwidth = 100

In [10]:
df = pd.read_csv("enal_final_corregido.csv", delimiter=",", low_memory=False)
df.head()

Unnamed: 0,NUMBOL,Tipo,P1,P2,P3,P1A,P1B,P1C,P1D,P1E,...,P156J,P156K,P157,P158,P159,P160,CodP160,Ponderador5536,Ponderador5033,Nse
0,1,1,18,1,1,,,,,,...,2,2,5,1,1,La Paz,33,166029585357411,255437533673007,3
1,2,1,21,1,1,,,,,,...,2,2,7,1,1,La Paz,33,166029585357411,255437533673007,4
2,3,1,54,1,1,,,,,,...,2,2,4,1,1,La Paz,33,166029585357411,255437533673007,2
3,4,1,30,1,1,,,,,,...,2,2,4,1,1,La Paz,33,166029585357411,255437533673007,2
4,5,1,16,1,1,,,,,,...,2,2,4,1,1,La Paz,33,166029585357411,255437533673007,2


In [11]:
# # Cambiamos el index a numbol
# df.set_index("NUMBOL", inplace=True, verify_integrity=True)
# df.head()

### Cargamos el archivo json generado previamente y las preguntas que nos ayudarán con este análisis.

### Schema del archivo json por pregunta
```
 {
    "nq": "3.", // Número de pregunta. Ejm. P3
    "question": "¿Cuándo fue la última vez que navegó en Internet o estuvo co nectado a las redes sociales?", // Pregunta
    "qtype": "Numérico", // Tipo de respuesta obtenido
    "rtype": "Nominal", // Tipo de respuesta que representa
    "options": { // Opciones de respuesta qtype: rtype
        "1": "Hace 7 días o menos",
        "2": "Entre 8 a 15 días",
        "3": "Entre 16 a 30 días",
        "4": "Hace más de 30 días"
    }
 }
```

In [2]:
# Cargamos el diccionario de datos json que generamos previamente a un dataframe
json_df = pd.read_json("data_dict_e_nal2.json", encoding="utf-8", orient="records")
json_df.head()

Unnamed: 0,nq,question,qtype,rtype,options
0,2,¿Me podría decir su edad por favor?,Numérico,Escala,{}
1,3,¿Usted ha navegado por Internet o se ha conectado a alguna r ed social a través de Internet?,Numérico,Nominal,"{'1': 'Si', '2': 'No'}"
2,4,¿Cuándo fue la última vez que navegó en Internet o estuvo co nectado a las redes sociales?,Numérico,Nominal,"{'1': 'Hace 7 días o menos', '2': 'Entre 8 a 15 días', '3': 'Entre 16 a 30 días', '4': 'Hace más..."
3,5,¿Cuáles son las razones por las cuales no se conecta a Inte rnet regularmente?,Numérico,Nominal,"{'1': 'No existe el servicio en el barrio/localidad', '2': 'El costo del servicio alto', '3': 'N..."
4,6,¿Cuáles son las razones por las cuales no se conecta a Inte rnet regularmente?,Numérico,Nominal,"{'1': 'No existe el servicio en el barrio/localidad', '2': 'El costo del servicio alto', '3': 'N..."


### Siguientes consideraciones del diccionario de datos que generamos:
* nq indica la posición de la pregunta a la cual indica la respuesta de los datos. Ejm. nq=2 indica la pregunta para la respuesta en pa posición 2 del dataset de respuestas.
* Notamos que algunas preguntas [questions] contienen palabras mal escritas. Justamente después del caracter 60.

In [51]:
# Cambiamos el index a nq
json_df.set_index("nq", inplace=True, verify_integrity=True)
json_df.head()

Unnamed: 0_level_0,question,qtype,rtype,options
nq,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
2,¿Me podría decir su edad por favor?,Numérico,Escala,{}
3,¿Usted ha navegado por Internet o se ha conectado a alguna r ed social a través de Internet?,Numérico,Nominal,"{'1': 'Si', '2': 'No'}"
4,¿Cuándo fue la última vez que navegó en Internet o estuvo co nectado a las redes sociales?,Numérico,Nominal,"{'1': 'Hace 7 días o menos', '2': 'Entre 8 a 15 días', '3': 'Entre 16 a 30 días', '4': 'Hace más..."
5,¿Cuáles son las razones por las cuales no se conecta a Inte rnet regularmente?,Numérico,Nominal,"{'1': 'No existe el servicio en el barrio/localidad', '2': 'El costo del servicio alto', '3': 'N..."
6,¿Cuáles son las razones por las cuales no se conecta a Inte rnet regularmente?,Numérico,Nominal,"{'1': 'No existe el servicio en el barrio/localidad', '2': 'El costo del servicio alto', '3': 'N..."


### Mostramos las preguntas seleccionadas para el análisis de este dataset.
### Se descubren preguntas que no se encuentran en nuestro diccionario de datos así que se procede a agregarlas de manera manual

In [36]:
q_code = []
df_columns = list(df.columns)
missing_qi = []
with open("main_qa.txt", "r") as f:
    q_code = [qc.strip().upper() for qc in f]
    # Imprimimos las preguntas seleccionadas
    for qc in q_code:
        index_q = df_columns.index(qc)
        try:
            question = json_df.loc[index_q, "question"]
            print(f"{df.columns[index_q]}: {question}")
        except KeyError:
            print(f"ERROR: Pregunta {qc} (index: {index_q}) no definida en el diccionario de datos")
            missing_qi.append(index_q)

P1: ¿Me podría decir su edad por favor?
P2: ¿Usted ha navegado por Internet o se ha conectado a alguna r ed social a través de Internet?
P1A: ¿Cuáles son las razones por las cuales no se conecta a Inte rnet regularmente?
P1B: ¿Cuáles son las razones por las cuales no se conecta a Inte rnet regularmente?
P1C: ¿Cuáles son las razones por las cuales no se conecta a Inte rnet regularmente?
P1D: ¿Cuáles son las razones por las cuales no se conecta a Inte rnet regularmente?
P6: ¿Tiene computadora de escritorio, computadora portátil o tab let en su casa?
P11A: ¿Qué usos le da usted a estos equipos?
P11B: ¿Qué usos le da usted a estos equipos?
P11C: ¿Qué usos le da usted a estos equipos?
P11F: ¿Qué usos le da usted a estos equipos?
P27A: ¿Para qué usa mayormente esta conexión a Internet?Valores válidos P27B
P27B: ¿Para qué usa mayormente esta conexión a Internet?
P27C: ¿Para qué usa mayormente esta conexión a Internet?
P27D: ¿Tiene celular?
P27E: ¿Para qué usa mayormente esta conexión a Intern

In [39]:
# Índice de preguntas faltantes
missing_qi

[59, 147, 148, 149, 150, 151, 152, 153]

### Se corrige manualmente las preguntas faltantes exceptuando la pregunta P28 con índice 59 dado que se considera de baja relevancia.

Posteriormente procedemos a reducir las columnas de nuestro dataset a solo aquellas respuestas de nuestro interés,
también filtramos las respuestas únicamente de estudiantes (columna P152, opción 6: Estudiante)

 Nota: Existe un efecto visual para las preguntas mostradas. No se corrigió por cuestiones de tiempo pero no afecta en lo absoluto en el dataset
 resultante, ya que la lista de preguntas que se ven a continuación son con el único fin de mostrar las preguntas que se están seleccionando.

In [52]:
q_code = []
df_columns = list(df.columns)
missing_qi = []
with open("main_qa.txt", "r") as f:
    q_code = [qc.strip().upper() for qc in f]
    # Imprimimos las preguntas seleccionadas
    for qc in q_code:
        index_q = df_columns.index(qc)
        try:
            question = json_df.loc[index_q, "question"]
            print(f"{df.columns[index_q]}: {question}")
        except KeyError:
            print(f"ERROR: Pregunta {qc} (index: {index_q}) no definida en el diccionario de datos")
            missing_qi.append(index_q)

P1: ¿Me podría decir su edad por favor?
P2: ¿Usted ha navegado por Internet o se ha conectado a alguna r ed social a través de Internet?
P1A: ¿Cuáles son las razones por las cuales no se conecta a Inte rnet regularmente?
P1B: ¿Cuáles son las razones por las cuales no se conecta a Inte rnet regularmente?
P1C: ¿Cuáles son las razones por las cuales no se conecta a Inte rnet regularmente?
P1D: ¿Cuáles son las razones por las cuales no se conecta a Inte rnet regularmente?
P6: ¿Tiene computadora de escritorio, computadora portátil o tab let en su casa?
P11A: ¿Qué usos le da usted a estos equipos?
P11B: ¿Qué usos le da usted a estos equipos?
P11C: ¿Qué usos le da usted a estos equipos?
P11F: ¿Qué usos le da usted a estos equipos?
P27A: ¿Para qué usa mayormente esta conexión a Internet?Valores válidos P27B
P27B: ¿Para qué usa mayormente esta conexión a Internet?
P27C: ¿Para qué usa mayormente esta conexión a Internet?
P27D: ¿Tiene celular?
P27E: ¿Para qué usa mayormente esta conexión a Intern

In [53]:
# Generando un nuevo dataframe con respuestas de solo Estudiantes
new_df = df[df['P152'] == 6]
new_df.head()

Unnamed: 0,NUMBOL,Tipo,P1,P2,P3,P1A,P1B,P1C,P1D,P1E,...,P156J,P156K,P157,P158,P159,P160,CodP160,Ponderador5536,Ponderador5033,Nse
0,1,1,18,1,1.0,,,,,,...,2,2,5,1,1,La Paz,33,166029585357411,255437533673007,3
4,5,1,16,1,1.0,,,,,,...,2,2,4,1,1,La Paz,33,166029585357411,255437533673007,2
9,10,1,18,1,1.0,,,,,,...,2,2,6,1,1,La Paz,33,166029585357411,255437533673007,4
11,12,1,20,1,3.0,,,,,,...,1,1,6,1,1,La Paz,33,166029585357411,255437533673007,4
17,18,1,18,1,1.0,,,,,,...,2,2,3,1,1,La Paz,33,166029585357411,255437533673007,1


In [62]:
# Filtrando solo las respuestas que nos interesan
new_df = new_df[q_code]
new_df.head(10)

Unnamed: 0,P1,P2,P1A,P1B,P1C,P1D,P6,P11A,P11B,P11C,...,P63A,P63B,P68,P131A,P131B,P131C,P148,P149,P152,P160
0,18,1,,,,,1,4.0,5.0,,...,1.0,2.0,1.0,5.0,,,1,3,6,La Paz
4,16,1,,,,,2,5.0,,,...,1.0,2.0,1.0,1.0,2.0,,2,2,6,La Paz
9,18,1,,,,,1,2.0,3.0,4.0,...,1.0,2.0,2.0,5.0,,,1,3,6,La Paz
11,20,1,,,,,1,2.0,3.0,4.0,...,2.0,,2.0,6.0,,,1,6,6,La Paz
17,18,1,,,,,2,4.0,5.0,,...,2.0,,1.0,1.0,2.0,6.0,2,3,6,La Paz
24,19,1,,,,,1,5.0,,,...,2.0,,1.0,6.0,,,2,3,6,La Paz
25,14,1,,,,,1,2.0,3.0,4.0,...,2.0,,1.0,5.0,1.0,,1,2,6,La Paz
29,21,1,,,,,1,1.0,2.0,3.0,...,1.0,1.0,1.0,1.0,5.0,,2,3,6,La Paz
34,18,1,,,,,1,3.0,5.0,,...,1.0,2.0,2.0,6.0,,,1,3,6,La Paz
38,23,1,,,,,1,1.0,,,...,1.0,2.0,2.0,5.0,,,2,6,6,La Paz


In [63]:
# Exportamos las columnas que elegimos para el análisis
new_df.to_csv("enal_final_clnd.csv")