## Análisis Exploratorio de nuestro Dataset

### 1. ¿El conjunto de datos que tengo realmente me sirve para responder algunas de las preguntas que me planteé?

1. **"100_mil_programadores_2020_Mintic.json":**
    Se está leyendo el conjundo de datos publicado por el Mintic "100_mil_programadores_2020_Mintic.json", donde se encuentra información de la población estudiantil en el 2020 que se inscribió al progrma 100 mil programadores. Este programa se creo con el fin de suplir la demanda del mercado y el déficit de programadores en Colombia.

2. **"Saber-11-2020-1.json" y "Saber-11-2020-2.json":**
    Resultados anonimizados de las pruebas de Saber 11 de Calendario A y B del año 2020. Que pueden dar información de las compencias según la población en la cual se encuentran los estudiantes mejor preparados

### 2. ¿Qué tamaño tiene mi conjunto de datos? ¿Serán datos suficientes?
1. **"100_mil_programadores_2020_Mintic.json":**

In [1]:
import json
import pandas as pd
import pprint

In [2]:
# Paso del conjunto de datos "100 mil programadores 2020" a Data Frame
datos_json = json.load(open("100_mil_programadores_2020_Mintic.json", encoding="utf8"))
df_mintic = pd.DataFrame(datos_json["data"])

# El primer conjunto de datos contiene 429.699 registros. Cada registro corresponde a un estudiante
df_mintic.shape

(429699, 23)

2. **"Saber-11-2020-1.json" y "Saber-11-2020-2.json" :**

In [3]:
# Paso del conjunto de datos "Saber-11-2020-1.json" a Data Frame
datos_json_2 = json.load(open("saber_11_2020_1.json", encoding="utf8"))
df_saber_1 = pd.DataFrame(datos_json_2["data"])

# El primer conjunto de datos contiene 15.435 registros. Cada registro corresponde a un estudiante
df_saber_1.shape

(15435, 86)

In [4]:
# Paso del conjunto de datos "Saber-11-2020-1.json" a Data Frame
datos_json_3 = json.load(open("saber_11_2020_2.json", encoding="utf8"))
df_saber_2 = pd.DataFrame(datos_json_3["data"])

# El primer conjunto de datos contiene 504.872 registros. Cada registro corresponde a un estudiante
df_saber_2.shape

(504872, 89)

### 3. ¿Qué columnas tengo y qué información tengo en cada una de esas columnas?

Columnas e información de **100_mil_programadores_2020_Mintic.json**:

En el json se encuentra la información meta data con el nombre de las columnas, en total son 23 en las cuales se encuentra información como: 
* Ubicación del estudaiante
* Estrato social
* Edad
* Género
* Grado
* Ruta a la que se inscribió (1 o 2) según el programa

In [5]:
dic_meta = datos_json["meta"]["view"]
lista_columnas_mintic = [i["name"] for i in dic_meta["columns"]]
pprint.saferepr(lista_columnas_mintic)

"['sid', 'id', 'position', 'created_at', 'created_meta', 'updated_at', 'updated_meta', 'meta', 'FECHA_CORTE', 'DEPARTAME_NOMBRE', 'MUNICIPIO_NOMBRE', 'ESTADO_FORMACION', 'ESTADOS', 'CONVOCATORIA', 'ESTRATO_SOCIAL', 'EDAD', 'GENERO', 'RUTA', 'GRADO', 'META_BENEFICIARIO', 'INVERSION', 'META_DINERO', 'FECHA_VIGENCIA']"

Columnas e información de **Saber-11-2020-1.json" y "Saber-11-2020-2.json**:

Ambos conjuntos de información aunque tienen diferente cantidad de columnas coinciden en la mayoría. Estas columnas tienen información de los resultados pruebas saber 11 de los calendarios 1 y 2, entre ellos:
* Género del estudiante 'ESTU_GENERO'
* Fecha de nacimiento 'ESTU_FECHANACIMIENTO'
* Ubicación de residencia ESTU_PAIS_RESIDE', 'ESTU_DEPTO_RESIDE', 'ESTU_MCPIO_RESIDE'.
* Estrato 'FAMI_ESTRATOVIVIENDA'
* Condición de educación y económica de la familia
* Puntajes de la prueba en cada área del conocimiento evaluada y puntajes en percentiles

In [6]:
dic_meta_2 = datos_json_2["meta"]["view"]
lista_columnas_saber_1 = [i["name"] for i in dic_meta_2["columns"]]
pprint.saferepr(lista_columnas_saber_1)

"['sid', 'id', 'position', 'created_at', 'created_meta', 'updated_at', 'updated_meta', 'meta', 'ESTU_TIPODOCUMENTO', 'ESTU_NACIONALIDAD', 'ESTU_GENERO', 'ESTU_FECHANACIMIENTO', 'PERIODO', 'ESTU_CONSECUTIVO', 'ESTU_ESTUDIANTE', 'ESTU_PAIS_RESIDE', 'ESTU_TIENEETNIA', 'ESTU_DEPTO_RESIDE', 'ESTU_COD_RESIDE_DEPTO', 'ESTU_MCPIO_RESIDE', 'ESTU_COD_RESIDE_MCPIO', 'FAMI_ESTRATOVIVIENDA', 'FAMI_PERSONASHOGAR', 'FAMI_CUARTOSHOGAR', 'FAMI_EDUCACIONPADRE', 'FAMI_EDUCACIONMADRE', 'FAMI_TRABAJOLABORPADRE', 'FAMI_TRABAJOLABORMADRE', 'FAMI_TIENEINTERNET', 'FAMI_TIENESERVICIOTV', 'FAMI_TIENECOMPUTADOR', 'FAMI_TIENELAVADORA', 'FAMI_TIENEHORNOMICROOGAS', 'FAMI_TIENEAUTOMOVIL', 'FAMI_TIENEMOTOCICLETA', 'FAMI_TIENECONSOLAVIDEOJUEGOS', 'FAMI_NUMLIBROS', 'FAMI_COMELECHEDERIVADOS', 'FAMI_COMECARNEPESCADOHUEVO', 'FAMI_COMECEREALFRUTOSLEGUMBRE', 'FAMI_SITUACIONECONOMICA', 'ESTU_DEDICACIONLECTURADIARIA', 'ESTU_DEDICACIONINTERNET', 'ESTU_HORASSEMANATRABAJA', 'ESTU_TIPOREMUNERACION', 'COLE_CODIGO_ICFES', 'COLE_COD_

In [7]:
dic_meta_3 = datos_json_3["meta"]["view"]
lista_columnas_saber_2 = [i["name"] for i in dic_meta_3["columns"]]
pprint.saferepr(lista_columnas_saber_2)

"['sid', 'id', 'position', 'created_at', 'created_meta', 'updated_at', 'updated_meta', 'meta', 'ESTU_TIPODOCUMENTO', 'ESTU_NACIONALIDAD', 'ESTU_GENERO', 'ESTU_FECHANACIMIENTO', 'PERIODO', 'ESTU_CONSECUTIVO', 'ESTU_ESTUDIANTE', 'ESTU_PAIS_RESIDE', 'ESTU_TIENEETNIA', 'ESTU_DEPTO_RESIDE', 'ESTU_COD_RESIDE_DEPTO', 'ESTU_MCPIO_RESIDE', 'ESTU_COD_RESIDE_MCPIO', 'FAMI_ESTRATOVIVIENDA', 'FAMI_PERSONASHOGAR', 'FAMI_CUARTOSHOGAR', 'FAMI_EDUCACIONPADRE', 'FAMI_EDUCACIONMADRE', 'FAMI_TRABAJOLABORPADRE', 'FAMI_TRABAJOLABORMADRE', 'FAMI_TIENEINTERNET', 'FAMI_TIENESERVICIOTV', 'FAMI_TIENECOMPUTADOR', 'FAMI_TIENELAVADORA', 'FAMI_TIENEHORNOMICROOGAS', 'FAMI_TIENEAUTOMOVIL', 'FAMI_TIENEMOTOCICLETA', 'FAMI_TIENECONSOLAVIDEOJUEGOS', 'FAMI_NUMLIBROS', 'FAMI_COMELECHEDERIVADOS', 'FAMI_COMECARNEPESCADOHUEVO', 'FAMI_COMECEREALFRUTOSLEGUMBRE', 'FAMI_SITUACIONECONOMICA', 'ESTU_DEDICACIONLECTURADIARIA', 'ESTU_DEDICACIONINTERNET', 'ESTU_HORASSEMANATRABAJA', 'ESTU_TIPOREMUNERACION', 'COLE_CODIGO_ICFES', 'COLE_COD_

#### Aplicación de nombres de columnas a dataFrames para cada conjunto de datos
Debido a que el nombre de las columnas y los datos se encuentran separados en la lectura del json. Se procede a unir cada conjunto de datos con los nombres de cada columna antes de realizar el análisis de los datos de manera general

##### Union de columnas y data para inscripción de 100 mil programadores del mintic

In [8]:
df_mintic.columns = lista_columnas_mintic
df_mintic.head(3)

Unnamed: 0,sid,id,position,created_at,created_meta,updated_at,updated_meta,meta,FECHA_CORTE,DEPARTAME_NOMBRE,...,CONVOCATORIA,ESTRATO_SOCIAL,EDAD,GENERO,RUTA,GRADO,META_BENEFICIARIO,INVERSION,META_DINERO,FECHA_VIGENCIA
0,row-sas3_qatz~5pwp,00000000-0000-0000-C200-BA92F054D3BD,0,1633555239,,1633555239,,{ },2021-10-01,QUINDIO,...,1,3,29,MASCULINO,RUTA 2,-1,,,,2021-12-31
1,row-svx3_76du_vqqc,00000000-0000-0000-99AA-2E3888BFFB24,0,1633555239,,1633555239,,{ },2021-10-01,QUINDIO,...,1,3,29,MASCULINO,RUTA 2,-1,,,,2021-12-31
2,row-xxyq-jzbk_x9ss,00000000-0000-0000-D72E-7CF7C7526A22,0,1633555239,,1633555239,,{ },2021-10-01,QUINDIO,...,1,3,29,MASCULINO,RUTA 2,-1,,,,2021-12-31


##### Union de columnas y data para saber 11 periodo 1

In [9]:
df_saber_1.columns = lista_columnas_saber_1
df_saber_1.head(3)

Unnamed: 0,sid,id,position,created_at,created_meta,updated_at,updated_meta,meta,ESTU_TIPODOCUMENTO,ESTU_NACIONALIDAD,...,PUNT_SOCIALES_CIUDADANAS,PERCENTIL_SOCIALES_CIUDADANAS,DESEMP_SOCIALES_CIUDADANAS,PUNT_INGLES,PERCENTIL_INGLES,DESEMP_INGLES,PUNT_GLOBAL,PERCENTIL_GLOBAL,ESTU_ESTADOINVESTIGACION,ESTU_GENERACION-E
0,row-k9ci.duxc.nvtz,00000000-0000-0000-B30A-5F2FE234EE93,0,1615842361,,1615842361,,{ },CC,COLOMBIA,...,24,1,1,36,7,A-,164,2,VALIDEZ OFICINA JURÍDICA,GENERACION E - GRATUIDAD
1,row-rawk~ti8k_t5yx,00000000-0000-0000-F3E5-3E18272D8C28,0,1615842361,,1615842361,,{ },CC,COLOMBIA,...,44,23,2,30,3,A-,202,10,PUBLICAR,GENERACION E - GRATUIDAD
2,row-mefm-hu4n-mfrb,00000000-0000-0000-2E67-572B8AFB010B,0,1615842361,,1615842361,,{ },CC,COLOMBIA,...,24,1,1,30,3,A-,162,2,PUBLICAR,GENERACION E - GRATUIDAD


##### Union de columnas y data para saber 11 periodo 2

In [10]:
df_saber_2.columns = lista_columnas_saber_2
df_saber_2.head(3)

Unnamed: 0,sid,id,position,created_at,created_meta,updated_at,updated_meta,meta,ESTU_TIPODOCUMENTO,ESTU_NACIONALIDAD,...,PUNT_INGLES,PERCENTIL_INGLES,DESEMP_INGLES,PUNT_GLOBAL,PERCENTIL_GLOBAL,ESTU_INSE_INDIVIDUAL,ESTU_NSE_INDIVIDUAL,ESTU_NSE_ESTABLECIMIENTO,ESTU_ESTADOINVESTIGACION,ESTU_GENERACION-E
0,row-dkkz_ftt3~s52m,00000000-0000-0000-51A2-ED4E60A8A4C5,0,1615849165,,1615849165,,{ },TI,SUIZA,...,55,81,A1,244,49,54.8823647351142,3,3,PUBLICAR,NO
1,row-87e6_b245_uisd,00000000-0000-0000-776F-6750069D0DFE,0,1615849165,,1615849165,,{ },PEP,VENEZUELA,...,33,6,A-,238,44,49.2523109721028,2,2,PUBLICAR,NO
2,row-jt88-bz7a_wpg9,00000000-0000-0000-DC23-A86B8ADF5479,0,1615849165,,1615849165,,{ },TI,VENEZUELA,...,59,87,A2,325,94,40.7336723796904,1,3,PUBLICAR,GENERACION E - GRATUIDAD


### 4. Analisis de datos
* ¿Qué tipos de datos tengo en cada columna? 
    Se realiza la consulta de los tipos de cada columna. 
    
* ¿Parecen ser el tipo correcto de datos? ¿O es un tipo de datos "incorrecto"?
    Según se observa el tipo de dato corresponde para cada DF con la información presentada

* Si selecciono algunas filas al azar y las observo, ¿estoy obteniendo los datos que debería? ¿o hay datos que parecen estar "sucios" o "incorrectos"?
    Según algunas filas consultadas, su correspondencia es correcta, según los nombres de la columna y datos esperadas, para cada DF.

In [14]:
df_mintic.dtypes

sid                  object
id                   object
position              int64
created_at            int64
created_meta         object
updated_at            int64
updated_meta         object
meta                 object
FECHA_CORTE          object
DEPARTAME_NOMBRE     object
MUNICIPIO_NOMBRE     object
ESTADO_FORMACION     object
ESTADOS              object
CONVOCATORIA         object
ESTRATO_SOCIAL       object
EDAD                 object
GENERO               object
RUTA                 object
GRADO                object
META_BENEFICIARIO    object
INVERSION            object
META_DINERO          object
FECHA_VIGENCIA       object
dtype: object

In [12]:
df_saber_1.dtypes

sid                         object
id                          object
position                     int64
created_at                   int64
created_meta                object
                             ...  
DESEMP_INGLES               object
PUNT_GLOBAL                 object
PERCENTIL_GLOBAL            object
ESTU_ESTADOINVESTIGACION    object
ESTU_GENERACION-E           object
Length: 86, dtype: object

In [13]:
df_saber_2.dtypes

sid                         object
id                          object
position                     int64
created_at                   int64
created_meta                object
                             ...  
ESTU_INSE_INDIVIDUAL        object
ESTU_NSE_INDIVIDUAL         object
ESTU_NSE_ESTABLECIMIENTO    object
ESTU_ESTADOINVESTIGACION    object
ESTU_GENERACION-E           object
Length: 89, dtype: object