# Analisis Exploratorio informacion Adopcion Digital Colombia

## Importar librerias

In [None]:
import pandas as pd

import numpy as np
import matplotlib.pyplot as plt

# Configuracion pands
pd.set_option('display.max_columns', None)
pd.set_option('display.max_rows', None)

## Cargar el Data Set

In [None]:
# data set's CNC
df_2012 = pd.read_excel("../Data/d2012---copia.xlsx")
df_2013 = pd.read_excel("../Data/d2013---copia.xlsx")
df_2016 = pd.read_excel("../Data/d2016---copia.xlsx")
df_2018 = pd.read_excel("../Data/d2018---copia.xlsx")
df_2023 = pd.read_excel("../Data/d2023---copia.xlsx")


## Analisis preliminar de los Datos

### Data Frames CNC

#### 2012

##### Exploratorio

In [None]:
# ver muestra del data set
df_2012.head()

In [None]:
# Informacion Basica del DF
df_2012.info()

##### Completitud

In [None]:
for c in df_2012.columns:
    print("\n" + c )
    print("Cantidad de filas:", df_2012[c].size)
    print("Cantidad de filas unicas:", df_2012[c].nunique())
    print("Cantidad de filas vacias:",(df_2012[c] == "").sum())
    print("Cantidad de filas Null:", df_2012[c].isnull().sum())

##### Unicidad

In [None]:
print("Cantidad de registros en el data frame:", df_2012.shape[0])
print("Cantidad de registros unicos en el data frame:", df_2012.drop_duplicates().shape[0])

##### Consistencia - Validez

In [None]:
# validar la coherencia dentro de un conjunto o multiples conjuntos - Rangos y tipos de datos

# Validar rangos de edades
print("Edad minima:", df_2012["EDAD_1"].min())
print("Edad maxima:",df_2012["EDAD_1"].max())

# Validar Municipios
print("Municipios:", df_2012["MUNICIPIO"].unique())

# validar regiones
print("Municipios:", df_2012["REGION"].unique())

# validar Sexo
print("Sexo:", df_2012["SEXO"].unique())


##### Limpieza de datos

In [None]:
# Se eliminaran las columnas con mas de 90% de valores null
for c in df_2012.columns:
    if df_2012[c].isnull().sum() >= (df_2012[c].size * 0.90) :
        print("\n" + c )
        print("Cantidad de filas:", df_2012[c].size)
        print("Cantidad de filas Null:", df_2012[c].isnull().sum())
        
        df_2012.drop(c, axis=1, inplace=True)


In [None]:
# rellenar vacios
df_2012.fillna(method='bfill', inplace=True)

In [None]:
# ver muestra del data set
df_2012.head()

#### 2013

##### Exploratorio

In [None]:
# ver muestra del data set
df_2013.head()

In [None]:
# Informacion Basica del DF
df_2013.info()

##### Completitud

In [None]:
for c in df_2013.columns:
    print("\n" + c )
    print("Cantidad de filas:", df_2013[c].size)
    print("Cantidad de filas unicas:", df_2013[c].nunique())
    print("Cantidad de filas vacias:",(df_2013[c] == "").sum())
    print("Cantidad de filas Null:", df_2013[c].isnull().sum())

##### Unicidad

In [None]:
print("Cantidad de registros en el data frame:", df_2013.shape[0])
print("Cantidad de registros unicos en el data frame:", df_2013.drop_duplicates().shape[0])

##### Consistencia - Validez

In [None]:
# validar la coherencia dentro de un conjunto o multiples conjuntos - Rangos y tipos de datos

# Validar rangos de edades
print("Edad minima:", df_2013["P1_EDAD1"].min())
print("Edad maxima:",df_2013["P1_EDAD1"].max())

# Validar Municipios
print("Municipios:", df_2013["MUN"].unique())

# validar regiones
print("Municipios:", df_2013["REGION"].unique())

# validar Sexo
print("Sexo:", df_2013["P1_SEXO1"].unique())


##### Limpieza de datos

In [None]:
# Se eliminaran las columnas con mas de 90% de valores null
for c in df_2013.columns:
    if df_2013[c].isnull().sum() >= (df_2013[c].size * 0.90) :
        print("\n" + c )
        print("Cantidad de filas:", df_2013[c].size)
        print("Cantidad de filas Null:", df_2013[c].isnull().sum())
        
        df_2013.drop(c, axis=1, inplace=True)


In [None]:
# rellenar vacios
df_2013.fillna(method='bfill', inplace=True)

In [None]:
# ver muestra del data set
df_2013.head()

#### 2016

##### Exploratorio

In [None]:
# ver muestra del data set
df_2016.head()

In [None]:
# Informacion Basica del DF
df_2016.info()

##### Completitud

In [None]:
# Remplazar valores personalizados de Null por NaN
df_2016.replace("#NULL!", np.nan, inplace=True)

for c in df_2016.columns:
    print("\n" + c )
    print("Cantidad de filas:", df_2016[c].size)
    print("Cantidad de filas unicas:", df_2016[c].nunique())
    print("Cantidad de filas vacias:",(df_2016[c] == "").sum())
    print("Cantidad de filas Null:", df_2016[c].isnull().sum())

##### Unicidad

In [None]:
print("Cantidad de registros en el data frame:", df_2016.shape[0])
print("Cantidad de registros unicos en el data frame:", df_2016.drop_duplicates().shape[0])

##### Consistencia - Validez

In [None]:
# validar la coherencia dentro de un conjunto o multiples conjuntos - Rangos y tipos de datos

# Validar rangos de edades
print("Edad minima:", df_2016["PERS_EDAD_1"].min())
print("Edad maxima:",df_2016["PERS_EDAD_1"].max())

# Validar Municipios
print("Municipios:", df_2016["PB_MUN"].unique())

# validar regiones
print("Regiones:", df_2016["ESTADO"].unique())

# validar Sexo
print("Sexo:", df_2016["PERS_SEXO_1"].unique())


##### Limpieza de datos

In [None]:
# Se eliminaran las columnas con mas de 90% de valores null
for c in df_2016.columns:
    if df_2016[c].isnull().sum() >= (df_2016[c].size * 0.90) :
        print("\n" + c )
        print("Cantidad de filas:", df_2016[c].size)
        print("Cantidad de filas Null:", df_2016[c].isnull().sum())
        
        df_2016.drop(c, axis=1, inplace=True)


In [None]:
# rellenar vacios
df_2016.fillna(method='bfill', inplace=True)

In [None]:
# ver muestra del data set
df_2016.head()

#### 2018

##### Exploratorio

In [None]:
# ver muestra del data set
df_2018.head()

In [None]:
# Informacion Basica del DF
df_2018.info()

##### Completitud

In [None]:
for c in df_2018.columns:
    print("\n" + c )
    print("Cantidad de filas:", df_2018[c].size)
    print("Cantidad de filas unicas:", df_2018[c].nunique())
    print("Cantidad de filas vacias:",(df_2018[c] == "").sum())
    print("Cantidad de filas Null:", df_2018[c].isnull().sum())

##### Unicidad

In [None]:
print("Cantidad de registros en el data frame:", df_2018.shape[0])
print("Cantidad de registros unicos en el data frame:", df_2018.drop_duplicates().shape[0])

##### Consistencia - Validez

In [None]:
# validar la coherencia dentro de un conjunto o multiples conjuntos - Rangos y tipos de datos

# Validar rangos de edades
print("Edad minima:", df_2018["EDAD"].min())
print("Edad maxima:",df_2018["EDAD"].max())

# Validar Municipios
# print("Municipios:", df_2018["MUN"].unique())

# validar regiones
print("Region:", df_2018["ESTADO"].unique())

# validar Sexo
print("Sexo:", df_2018["P1_SEXO_1"].unique())


##### Limpieza de datos

In [None]:
# Se eliminaran las columnas con mas de 90% de valores null
for c in df_2018.columns:
    if df_2018[c].isnull().sum() >= (df_2018[c].size * 0.90) :
        print("\n" + c )
        print("Cantidad de filas:", df_2018[c].size)
        print("Cantidad de filas Null:", df_2018[c].isnull().sum())
        
        df_2018.drop(c, axis=1, inplace=True)


In [None]:
# rellenar vacios
df_2018.fillna(method='bfill', inplace=True)

In [None]:
# ver muestra del data set
df_2018.head()

#### 2023

##### Exploratorio

In [None]:
# ver muestra del data set
df_2023.head()

In [None]:
# Informacion Basica del DF
df_2023.info()

##### Completitud

In [None]:
for c in df_2023.columns:
    print("\n", c )
    print("Cantidad de filas:", df_2023[c].size)
    print("Cantidad de filas unicas:", df_2023[c].nunique())
    print("Cantidad de filas vacias:",(df_2023[c] == "").sum())
    print("Cantidad de filas Null:", df_2023[c].isnull().sum())

##### Unicidad

In [None]:
print("Cantidad de registros en el data frame:", df_2023.shape[0])
print("Cantidad de registros unicos en el data frame:", df_2023.drop_duplicates().shape[0])

##### Consistencia - Validez

In [None]:
# validar la coherencia dentro de un conjunto o multiples conjuntos - Rangos y tipos de datos

# Validar rangos de edades
print("Edad minima:", df_2023["EDAD_1"].min())
print("Edad maxima:",df_2023["EDAD_1"].max())

# Validar Municipios
print("Municipios:", df_2023["MUNICIPIO"].unique())

# validar regiones
print("Region:", df_2023["REGION"].unique())

# validar Sexo
print("Sexo:", df_2023["SEXO_1"].unique())


##### Limpieza de datos

In [None]:
# Se eliminaran las columnas con mas de 90% de valores null
for c in df_2023.columns:
    if df_2023[c].isnull().sum() >= (df_2023[c].size * 0.90) :
        print("\n", c )
        print("Cantidad de filas:", df_2023[c].size)
        print("Cantidad de filas Null:", df_2023[c].isnull().sum())
        
        df_2023.drop(c, axis=1, inplace=True)


In [None]:
# rellenar vacios
df_2023.fillna(method='bfill', inplace=True)

In [None]:
# ver muestra del data set
df_2023.head()

### Resultado Analisis Exploratorio de los datos 

La informacion suministrados por el CNC muestra un nivel de granularidad Alta ya que cada registro en el data set representa un unico usuario encuestado y relacionado a este tenemos mas de 1000 dimensiones diferentes en donde podemos tener detalle de los datos basicos e informacion sensible de cada usuario encuestado.

Por parte del CNC se entregan 5 data set's con estructuras similiares los cuales son encuestas a personas de colombia de zonas especificas para poder medir la adopcion digital del pais correctamente para los años:
* 2012
* 2013
* 2016
* 2018
* 2023

Ademas de la informacion del CNC como informacion externa se tiene la informacion publica del ICFES quienes realizan las encuestas a los participantes del examen quienes atienden preguntas que nos pueden indicar el nivel de adopcion digital de los participantes, por el momento solo se esta tomando la informacion de los participantes del examen saber 11 2024

## Comparacion de data set's

In [None]:

# Lista de DataFrames y sus nombres
dfs = [df_2012, df_2013, df_2016, df_2018, df_2023]
nombres = ["df_2012", "df_2013", "df_2016", "df_2018", "df_2023"]

# Extraemos el número de filas y columnas de cada DataFrame
dimensiones = [(df.shape[0], df.shape[1]) for df in dfs]
filas = [dim[0] for dim in dimensiones]
columnas = [dim[1] for dim in dimensiones]

# Configuración del gráfico de barras agrupadas
x = np.arange(len(nombres))  # posiciones de los grupos en el eje x
width = 0.35  # ancho de las barras

fig, ax = plt.subplots(figsize=(10, 6))
# Barras de filas
bars1 = ax.bar(x - width/2, filas, width, label='Registros', color='skyblue')
# Barras de columnas
bars2 = ax.bar(x + width/2, columnas, width, label='Dimensiones', color='salmon')

# Etiquetas y título
ax.set_xlabel('DataFrames')
ax.set_ylabel('Cantidad')
ax.set_title('Cantidad de Dimensiones y Registros por Data Set')
ax.set_xticks(x)
ax.set_xticklabels(nombres)
ax.legend()

# Mostrar valores encima de las barras
for bar in bars1:
    yval = bar.get_height()
    ax.text(bar.get_x() + bar.get_width()/2, yval + 0.5, int(yval), ha='center')
for bar in bars2:
    yval = bar.get_height()
    ax.text(bar.get_x() + bar.get_width()/2, yval + 0.5, int(yval), ha='center')

plt.show()
