<a href="https://colab.research.google.com/github/lgprietor/M-dulo-1---Talento-Tech/blob/main/Copia_de_modulo_1_copia.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Integración de datos de diversas fuentes y formatos.

En ciencia de datos, la integración de datos de diversas fuentes y formatos es el proceso de combinar datos de diferentes orígenes para crear un conjunto de datos cohesivo y unificado. Este proceso es crucial para obtener una vista completa y precisa de los datos, lo que a su vez permite un análisis más preciso y la toma de decisiones más informadas.

Las diversas fuentes de datos pueden incluir:

- Bases de datos: Las bases de datos relacionales, NoSQL y otras pueden almacenar información en diferentes formatos y estructuras.
- Archivos: Los archivos CSV, Excel, JSON y otros pueden contener datos estructurados o semiestructurados.
- Sensores: Los dispositivos IoT y otros sensores pueden generar datos en tiempo real.
- Redes sociales: Las plataformas de redes sociales como Twitter, Facebook y LinkedIn pueden proporcionar información sobre las tendencias, los comportamientos y las opiniones del público.


Los formatos de datos también pueden variar considerablemente, lo que dificulta la integración de datos de diferentes fuentes. Algunos de los formatos de datos más comunes incluyen:

- Datos estructurados: Los datos estructurados se organizan en filas y columnas, como en una hoja de cálculo.
- Datos semiestructurados: Los datos semiestructurados tienen una estructura flexible, como los datos JSON.
- Datos no estructurados: Los datos no estructurados no tienen una estructura definida, como el texto libre o las imágenes.

La integración de datos de diversas fuentes y formatos implica varios pasos:

1. Extracción: El primer paso es extraer datos de las diferentes fuentes. Esto puede implicar la descarga de archivos, la consulta de bases de datos o la conexión a APIs.

2. Limpieza: Los datos extraídos a menudo contienen errores, valores inconsistentes y formatos incompatibles. El proceso de limpieza implica identificar y corregir estos problemas para garantizar la calidad de los datos.

3. Transformación: Los datos limpios deben transformarse a un formato común para que puedan ser integrados. Esto puede implicar convertir los datos a un formato estándar, como CSV o JSON, o realizar transformaciones más complejas como la normalización de datos.

4. Carga: Los datos transformados se cargan en un almacén de datos centralizado, donde pueden ser analizados y utilizados para la toma de decisiones.

Existen diversas herramientas y plataformas que pueden facilitar la integración de datos, como:

Herramientas ETL: Las herramientas ETL (Extracción, Transformación y Carga) automatizan el proceso de integración de datos.
Plataformas de integración de datos: Estas plataformas proporcionan una interfaz gráfica para la gestión y el procesamiento de datos de diversas fuentes.
La integración de datos de diversas fuentes y formatos es un proceso complejo y desafiante, pero es fundamental para el éxito de la ciencia de datos. Al integrar datos de manera efectiva, los científicos de datos pueden obtener una vista completa y precisa de los datos, lo que les permite tomar decisiones más informadas y crear soluciones más efectivas.

Recursos adicionales:

- https://cloud.google.com/learn/what-is-data-integration?hl=es-419
- https://dataspurs.com/blog/data-integration-las-mejores-practicas-para-integrar-datos-de-diferentes-fuentes/
- https://blogs.imf-formacion.com/blog/tecnologia/10-herramientas-integracion-datos-201907/

Algunos de los más comunes:

1. Encuestas y cuestionarios: Se utilizan para recopilar datos a través de preguntas estructuradas. Pueden ser administrados en papel, en línea o mediante entrevistas.

2. Entrevistas: Permiten obtener información más detallada y contextual mediante conversaciones cara a cara o telefónicas. Pueden ser estructuradas, semiestructuradas o no estructuradas.

3. Datos transaccionales: Recopilación de datos a partir de transacciones comerciales, registros de clientes, registros de ventas, entre otros.

4. Sensores y dispositivos IoT: En entornos digitales, los sensores y dispositivos de Internet de las cosas (IoT) pueden recopilar datos automáticamente sobre variables específicas.

5. Datos administrativos y registros: Utilización de registros existentes, como datos de salud, registros académicos o bases de datos de organizaciones.

6. Extracción de datos web: Recopilación de datos de páginas web mediante técnicas como web scraping.

7. Análisis de redes sociales: Recopilación de datos de plataformas de redes sociales para comprender las interacciones y relaciones entre individuos o entidades.

Es importante considerar la `validez`, la `confiabilidad` y la `ética` en la recolección de datos para garantizar la calidad y la integridad de la información recopilada. Además, el análisis de datos y la toma de decisiones en ciencia de datos dependen en gran medida de la calidad de los datos recopilados.

Para trabajar con datos transaccionales en Python, es posible utilizar varias librerías que facilitan la manipulación y análisis de datos. A continuación, algunas de las más comunes:

1. [Pandas](https://pandas.pydata.org/): Manipulación y análisis de datos que proporciona estructuras de datos flexibles y eficientes, por ejemplo, DataFrame, que es especialmente útil para trabajar con datos tabulares.

2. [Numpy](https://numpy.org/): Realizar operaciones matemáticas y numéricas en Python. Se utiliza comúnmente para trabajar con matrices y arreglos

3. [Matplotlib](https://matplotlib.org/) y [Seaborn](https://seaborn.pydata.org/): Estas bibliotecas son excelentes para la visualización de datos. Matplotlib proporciona funciones para crear gráficos básicos, mientras que Seaborn simplifica la creación de gráficos estadísticos atractivos.

## Preparación y configuración del entorno de trabajo

### Librerias en Python

Las librerías de Python son elementos fundamentales dentro del ecosistema del lenguaje. Estas librerías permiten a los desarrolladores acceder a una amplia gama de funcionalidades especializadas. Desde la manipulación de cadenas de texto y operaciones matemáticas hasta el acceso a bases de datos, manipulación de archivos, creación de interfaces gráficas, procesamiento de datos científicos y desarrollo web, las librerías de Python ofrecen soluciones para una gran variedad de necesidades y aplicaciones. Su versatilidad y extensa documentación hacen que sean una herramienta indispensable para los programadores en todo tipo de proyectos y campos de aplicación.

In [26]:
# Instalar de librerias necesarias

!apt install unixodbc-dev
!pip install pyodbc pandas altair seaborn sqlite3 altair_viewer matplotlib

Reading package lists... Done
Building dependency tree... Done
Reading state information... Done
unixodbc-dev is already the newest version (2.3.9-5ubuntu0.1).
0 upgraded, 0 newly installed, 0 to remove and 45 not upgraded.
Collecting pyodbc
  Using cached pyodbc-5.1.0-cp310-cp310-manylinux_2_17_x86_64.manylinux2014_x86_64.whl (334 kB)
Installing collected packages: pyodbc
Successfully installed pyodbc-5.1.0


In [27]:
# Importar librerias

import os
import altair as alt
import pandas as pd
import numpy as np
import seaborn as sns
import matplotlib.pyplot as plt
import pyodbc
import warnings
import sqlite3

## Conexión a fuente de datos: CSV

Las fuentes de datos en formato CSV (valores separados por comas) son una forma común de almacenar datos tabulares en archivos de texto plano. CSV es un formato sencillo y ampliamente utilizado para intercambiar datos entre diferentes sistemas, ya que es fácil de leer y escribir tanto para humanos como para programas informáticos.

En un archivo CSV, cada línea representa una fila de datos y los valores en cada fila están separados por un delimitador, que suelen ser:

- Una coma (,),
- Un punto y coma (;)
- Un tabulador (\t)
- otro carácter específico

En este ejemplo, cada fila tiene tres campos separados por comas: Nombre, Edad y Ciudad. El primer registro es Juan, de 25 años, de Barcelona; y el segundo es María, de 30 años, de Madrid.

- Las fuentes de datos en formato CSV son muy versátiles y se utilizan en una amplia gama de aplicaciones, desde la gestión de bases de datos hasta el análisis de datos en ciencia de datos y aprendizaje automático.

- Son particularmente útiles cuando se necesita intercambiar datos entre diferentes sistemas o trabajar con datos en aplicaciones que no admiten formatos más complejos.

### Información del conjunto de datos: Saber 11° 2020-2

- Objetivo: Consumir y construir un DataFrame con resultados de las pruebas saber 11° correspondientes al segundo semestre del año 2019.

- Esta fuente de datos es extraida de [Datos Abiertos Colombia](https://www.datos.gov.co/) , Los datos abiertos son información pública dispuesta en formatos que permiten su uso y reutilización bajo licencia abierta y sin restricciones legales para su aprovechamiento.

- Este conjunto de datos, está compuesto por datos anonimizados sobre los resultados y características de los resultados de las pruebas saber 11 correspondientes al segundo semestre del año 2020

### Ficha técnica:

Información General:

- Fuente de datos: [Datos abiertos Colombia - Saber 11° 2020-2](https://www.datos.gov.co/Educaci-n/Saber-11-2020-2/rnvb-vnyh/about_data)
- Fecha de creación: 15 de marzo de 2021
- Filas: 504.872
- Columnas: 81
- Vistas: 13,6k (a la fecha de descarga)
- Descargas: 5221 (a la fecha de descarga)

Información de la entidad:

- Área o dependencia: Oficina Asesora de Planeación
- Nombre de la entidad: Instituto Colombiano para la Evaluación de la Educación
- Departamento: Bogotá D.C.
- Municipio: Bogotá D.C.
- Orden: Nacional
- Sector: Educación

Información del conjunto de datos:

- Idioma: Español
- URL de documenación: http://www.icfes.gov.co/investigadores-y-estudiantes-posgrado/acceso-a-bases-de-datos
- URL de normativa: http://www.icfes.gov.co/normatividad

Temas:

- Categoría: Educación
- Etiquetas: `pruebas icfes`,`icfes`,`saber 11`,`resultados`

### Conexión y consulta a la fuente de datos

In [31]:
  # Conectar google colab con google drive:

  from google.colab import drive
  drive.mount('/content/drive', force_remount=True)

  # Leer el archivo CSV ubicado en la ruta especificada y asigna los datos a la variable df_resultados

try:
    df_resultados_2018_1 = pd.read_csv("/content/drive/MyDrive/Colab Notebooks/Saber_11_2018_1.csv")
    df_resultados_2019_2 = pd.read_csv("/content/drive/MyDrive/Colab Notebooks/Saber_11_2019-2.csv")
    df_resultados_2020_1 = pd.read_csv("/content/drive/MyDrive/Colab Notebooks/Saber_11_2020-1.csv")
    df_resultados_2020_2 = pd.read_csv("/content/drive/MyDrive/Colab Notebooks/Saber_11_2020-2.csv")
    df_resultados_2021_1 = pd.read_csv("/content/drive/MyDrive/Colab Notebooks/Saber_11_2021_1.csv")
    df_resultados_2022_4 = pd.read_csv("/content/drive/MyDrive/Colab Notebooks/Saber_11_2022_4.csv")

    # Si la lectura del archivo es exitosa, imprime un mensaje indicando que el dataset se cargó correctamente

    print("El dataset se cargó de manera exitosa")


# Si se produce un error específico de "FileNotFoundError" (archivo no encontrado), ejecuta este bloque de código
except FileNotFoundError as e:

    # Imprime un mensaje de error personalizado indicando que el archivo no se pudo encontrar, junto con los detalles específicos del error
    print(f"Error. El archivo no se puede encontrar. Detalles: {e}")


# Si se produce cualquier otro tipo de error, ejecuta este bloque de código

except Exception as ex:

    # Imprime un mensaje de error genérico indicando que ocurrió un error inesperado, junto con los detalles específicos del error

    print(f"Error. El archivo no se puede encontrar. Detalles: {ex}")

Mounted at /content/drive


  df_resultados_2019_2 = pd.read_csv("/content/drive/MyDrive/Colab Notebooks/Saber_11_2019-2.csv")


El data set se cargó de manera exitosa


Drive already mounted at /content/drive; to attempt to forcibly remount, call drive.mount("/content/drive", force_remount=True).


Un "DataFrame" y un "dataset" son conceptos relacionados, pero tienen significados ligeramente diferentes en el contexto de la programación y el análisis de datos:

`Dataset`:

- Un dataset, o conjunto de datos en español, es simplemente una colección de datos organizados que se utiliza para algún propósito específico.
- Puede ser cualquier conjunto de datos, ya sea en forma de tabla, texto, imágenes, audios, etc., que se recopila y organiza para su análisis o procesamiento.
- Un dataset puede representar datos de cualquier dominio, como datos financieros, datos de ventas, datos de encuestas, datos científicos, entre otros.
-

`DataFrame`:

- Un DataFrame es una estructura de datos bidimensional que se utiliza comúnmente en el análisis de datos, especialmente en el lenguaje de programación Python con la librería pandas.
- Se organiza en filas y columnas, similar a una tabla en una base de datos o una hoja de cálculo.
- ada columna en un DataFrame puede tener un tipo de datos diferente (como números, cadenas de texto, fechas, etc.), y cada fila representa un registro o una observación.
- Los DataFrames son extremadamente útiles para manipular y analizar datos de forma eficiente debido a las numerosas funciones y métodos que proporcionan las librerías como pandas.

En resumen, un `DataFrame` es una estructura específica utilizada para representar datos tabulares en Python, mientras que un `dataset` es una colección más general de datos que puede tener cualquier forma o tipo, y que se utiliza en diversas aplicaciones de análisis y procesamiento de datos.

In [76]:
# Se crea un DataFrame nuevo, utilizando los datos existentes del dataset

df_resultados_2020_2 = pd.DataFrame(df_resultados_2020_2)


In [77]:
# Consulta y validación de la cantidad de filas y columnas del dataframe

num_rows, num_cols = df_resultados_2020_2.shape

# Imprimir mensaje y valores de salidas del dataframe

print(f"El Dataframe tiene {num_rows} filas y {num_cols}")

El Dataframe tiene 504872 filas y 81


In [78]:
#  Imprimir el dataframe

df_resultados_2020_2

Unnamed: 0,ESTU_TIPODOCUMENTO,ESTU_NACIONALIDAD,ESTU_GENERO,ESTU_FECHANACIMIENTO,PERIODO,ESTU_CONSECUTIVO,ESTU_ESTUDIANTE,ESTU_PAIS_RESIDE,ESTU_TIENEETNIA,ESTU_DEPTO_RESIDE,...,PUNT_INGLES,PERCENTIL_INGLES,DESEMP_INGLES,PUNT_GLOBAL,PERCENTIL_GLOBAL,ESTU_INSE_INDIVIDUAL,ESTU_NSE_INDIVIDUAL,ESTU_NSE_ESTABLECIMIENTO,ESTU_ESTADOINVESTIGACION,ESTU_GENERACION-E
0,TI,SUIZA,F,03/03/2003 12:00:00 AM,20204,SB11202040211436,ESTUDIANTE,SUIZA,No,CUNDINAMARCA,...,55.0,81,A1,244,49,54.882365,3.0,3.0,PUBLICAR,NO
1,PEP,VENEZUELA,M,05/10/2002 12:00:00 AM,20204,SB11202040433216,ESTUDIANTE,VENEZUELA,No,CUNDINAMARCA,...,33.0,6,A-,238,44,49.252311,2.0,2.0,PUBLICAR,NO
2,TI,VENEZUELA,F,12/14/2003 12:00:00 AM,20204,SB11202040244180,ESTUDIANTE,VENEZUELA,No,CUNDINAMARCA,...,59.0,87,A2,325,94,40.733672,1.0,3.0,PUBLICAR,GENERACION E - GRATUIDAD
3,CE,VENEZUELA,M,04/12/2003 12:00:00 AM,20204,SB11202040210971,ESTUDIANTE,VENEZUELA,No,CUNDINAMARCA,...,47.0,58,A-,238,45,48.217953,2.0,3.0,PUBLICAR,NO
4,TI,COLOMBIA,F,03/03/2004 12:00:00 AM,20204,SB11202040235382,ESTUDIANTE,COLOMBIA,No,CUNDINAMARCA,...,43.0,40,A-,202,19,60.912192,3.0,3.0,PUBLICAR,NO
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
504867,TI,COLOMBIA,M,12/26/2003 12:00:00 AM,20204,SB11202040105446,ESTUDIANTE,COLOMBIA,No,BOGOTÁ,...,45.0,52,A-,282,75,45.311449,2.0,2.0,PUBLICAR,NO
504868,CC,COLOMBIA,M,10/27/1996 12:00:00 AM,20204,SB11202040168415,ESTUDIANTE,COLOMBIA,No,BOGOTÁ,...,54.0,79,A1,257,59,38.124729,1.0,3.0,PUBLICAR,NO
504869,TI,COLOMBIA,F,01/14/2005 12:00:00 AM,20204,SB11202040185843,ESTUDIANTE,COLOMBIA,No,BOGOTÁ,...,67.0,93,A2,330,95,53.586443,3.0,3.0,PUBLICAR,NO
504870,TI,COLOMBIA,M,06/14/2002 12:00:00 AM,20204,SB11202040168607,ESTUDIANTE,COLOMBIA,No,BOGOTÁ,...,52.0,75,A1,290,80,58.316936,3.0,3.0,PUBLICAR,NO


In [79]:
# La función head, devuelve la cantidad de primeras filas/registros solicitada del dataframe

df_resultados_2020_2.head(4)


Unnamed: 0,ESTU_TIPODOCUMENTO,ESTU_NACIONALIDAD,ESTU_GENERO,ESTU_FECHANACIMIENTO,PERIODO,ESTU_CONSECUTIVO,ESTU_ESTUDIANTE,ESTU_PAIS_RESIDE,ESTU_TIENEETNIA,ESTU_DEPTO_RESIDE,...,PUNT_INGLES,PERCENTIL_INGLES,DESEMP_INGLES,PUNT_GLOBAL,PERCENTIL_GLOBAL,ESTU_INSE_INDIVIDUAL,ESTU_NSE_INDIVIDUAL,ESTU_NSE_ESTABLECIMIENTO,ESTU_ESTADOINVESTIGACION,ESTU_GENERACION-E
0,TI,SUIZA,F,03/03/2003 12:00:00 AM,20204,SB11202040211436,ESTUDIANTE,SUIZA,No,CUNDINAMARCA,...,55.0,81,A1,244,49,54.882365,3.0,3.0,PUBLICAR,NO
1,PEP,VENEZUELA,M,05/10/2002 12:00:00 AM,20204,SB11202040433216,ESTUDIANTE,VENEZUELA,No,CUNDINAMARCA,...,33.0,6,A-,238,44,49.252311,2.0,2.0,PUBLICAR,NO
2,TI,VENEZUELA,F,12/14/2003 12:00:00 AM,20204,SB11202040244180,ESTUDIANTE,VENEZUELA,No,CUNDINAMARCA,...,59.0,87,A2,325,94,40.733672,1.0,3.0,PUBLICAR,GENERACION E - GRATUIDAD
3,CE,VENEZUELA,M,04/12/2003 12:00:00 AM,20204,SB11202040210971,ESTUDIANTE,VENEZUELA,No,CUNDINAMARCA,...,47.0,58,A-,238,45,48.217953,2.0,3.0,PUBLICAR,NO


In [80]:
# La función tail, devuelve la cantidad de últimas filas/registros solicitada del dataframe

df_resultados_2020_2.tail(4)

Unnamed: 0,ESTU_TIPODOCUMENTO,ESTU_NACIONALIDAD,ESTU_GENERO,ESTU_FECHANACIMIENTO,PERIODO,ESTU_CONSECUTIVO,ESTU_ESTUDIANTE,ESTU_PAIS_RESIDE,ESTU_TIENEETNIA,ESTU_DEPTO_RESIDE,...,PUNT_INGLES,PERCENTIL_INGLES,DESEMP_INGLES,PUNT_GLOBAL,PERCENTIL_GLOBAL,ESTU_INSE_INDIVIDUAL,ESTU_NSE_INDIVIDUAL,ESTU_NSE_ESTABLECIMIENTO,ESTU_ESTADOINVESTIGACION,ESTU_GENERACION-E
504868,CC,COLOMBIA,M,10/27/1996 12:00:00 AM,20204,SB11202040168415,ESTUDIANTE,COLOMBIA,No,BOGOTÁ,...,54.0,79,A1,257,59,38.124729,1.0,3.0,PUBLICAR,NO
504869,TI,COLOMBIA,F,01/14/2005 12:00:00 AM,20204,SB11202040185843,ESTUDIANTE,COLOMBIA,No,BOGOTÁ,...,67.0,93,A2,330,95,53.586443,3.0,3.0,PUBLICAR,NO
504870,TI,COLOMBIA,M,06/14/2002 12:00:00 AM,20204,SB11202040168607,ESTUDIANTE,COLOMBIA,No,BOGOTÁ,...,52.0,75,A1,290,80,58.316936,3.0,3.0,PUBLICAR,NO
504871,TI,COLOMBIA,F,02/20/2002 12:00:00 AM,20204,SB11202040525571,ESTUDIANTE,COLOMBIA,No,BOGOTÁ,...,48.0,63,A1,261,61,57.37573,3.0,3.0,PUBLICAR,GENERACION E - GRATUIDAD


In [84]:
# La función sample, devuelve la cantidad aleatorias de filas/registros solicitada del dataframe

df_resultados_2020_2.sample(4)

Unnamed: 0,ESTU_TIPODOCUMENTO,ESTU_NACIONALIDAD,ESTU_GENERO,ESTU_FECHANACIMIENTO,PERIODO,ESTU_CONSECUTIVO,ESTU_ESTUDIANTE,ESTU_PAIS_RESIDE,ESTU_TIENEETNIA,ESTU_DEPTO_RESIDE,...,PUNT_INGLES,PERCENTIL_INGLES,DESEMP_INGLES,PUNT_GLOBAL,PERCENTIL_GLOBAL,ESTU_INSE_INDIVIDUAL,ESTU_NSE_INDIVIDUAL,ESTU_NSE_ESTABLECIMIENTO,ESTU_ESTADOINVESTIGACION,ESTU_GENERACION-E
390864,CC,COLOMBIA,M,11/05/2001 12:00:00 AM,20204,SB11202040500885,ESTUDIANTE,COLOMBIA,No,ANTIOQUIA,...,36.0,14,A-,210,24,45.424549,2.0,3.0,PUBLICAR,GENERACION E - GRATUIDAD
457709,TI,COLOMBIA,M,12/21/2003 12:00:00 AM,20204,SB11202040471633,ESTUDIANTE,COLOMBIA,Si,VALLE,...,33.0,7,A-,160,2,46.439027,2.0,3.0,PUBLICAR,GENERACION E - GRATUIDAD
303547,TI,COLOMBIA,F,12/17/2003 12:00:00 AM,20204,SB11202040298369,ESTUDIANTE,COLOMBIA,No,HUILA,...,38.0,21,A-,212,25,53.898993,3.0,3.0,PUBLICAR,NO
246498,TI,COLOMBIA,M,10/30/2002 12:00:00 AM,20204,SB11202040100187,ESTUDIANTE,COLOMBIA,No,CUNDINAMARCA,...,50.0,70,A1,320,92,50.154778,2.0,2.0,PUBLICAR,GENERACION E - GRATUIDAD


In [86]:
# La función columns, devuelve el nombre de las columnas del dataframe

df_resultados_2020_2.columns

Index(['ESTU_TIPODOCUMENTO', 'ESTU_NACIONALIDAD', 'ESTU_GENERO',
       'ESTU_FECHANACIMIENTO', 'PERIODO', 'ESTU_CONSECUTIVO',
       'ESTU_ESTUDIANTE', 'ESTU_PAIS_RESIDE', 'ESTU_TIENEETNIA',
       'ESTU_DEPTO_RESIDE', 'ESTU_COD_RESIDE_DEPTO', 'ESTU_MCPIO_RESIDE',
       'ESTU_COD_RESIDE_MCPIO', 'FAMI_ESTRATOVIVIENDA', 'FAMI_PERSONASHOGAR',
       'FAMI_CUARTOSHOGAR', 'FAMI_EDUCACIONPADRE', 'FAMI_EDUCACIONMADRE',
       'FAMI_TRABAJOLABORPADRE', 'FAMI_TRABAJOLABORMADRE',
       'FAMI_TIENEINTERNET', 'FAMI_TIENESERVICIOTV', 'FAMI_TIENECOMPUTADOR',
       'FAMI_TIENELAVADORA', 'FAMI_TIENEHORNOMICROOGAS', 'FAMI_TIENEAUTOMOVIL',
       'FAMI_TIENEMOTOCICLETA', 'FAMI_TIENECONSOLAVIDEOJUEGOS',
       'FAMI_NUMLIBROS', 'FAMI_COMELECHEDERIVADOS',
       'FAMI_COMECARNEPESCADOHUEVO', 'FAMI_COMECEREALFRUTOSLEGUMBRE',
       'FAMI_SITUACIONECONOMICA', 'ESTU_DEDICACIONLECTURADIARIA',
       'ESTU_DEDICACIONINTERNET', 'ESTU_HORASSEMANATRABAJA',
       'ESTU_TIPOREMUNERACION', 'COLE_CODIGO_ICFES',


In [89]:
# la función info, devuelve la cantidad, información y tipo de dato de las 82 columnas del dataframe columnas

df_resultados_2020_2.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 504872 entries, 0 to 504871
Data columns (total 81 columns):
 #   Column                         Non-Null Count   Dtype  
---  ------                         --------------   -----  
 0   ESTU_TIPODOCUMENTO             504872 non-null  object 
 1   ESTU_NACIONALIDAD              504872 non-null  object 
 2   ESTU_GENERO                    504864 non-null  object 
 3   ESTU_FECHANACIMIENTO           504872 non-null  object 
 4   PERIODO                        504872 non-null  int64  
 5   ESTU_CONSECUTIVO               504872 non-null  object 
 6   ESTU_ESTUDIANTE                504872 non-null  object 
 7   ESTU_PAIS_RESIDE               504872 non-null  object 
 8   ESTU_TIENEETNIA                501879 non-null  object 
 9   ESTU_DEPTO_RESIDE              504870 non-null  object 
 10  ESTU_COD_RESIDE_DEPTO          504870 non-null  float64
 11  ESTU_MCPIO_RESIDE              504870 non-null  object 
 12  ESTU_COD_RESIDE_MCPIO         

In [87]:
# Identificación de porcentajes faltantes por columnas

df_resultados_2020_2 = df_resultados_2020_2.replace(r'^\s*$', np.nan, regex=True)
percent_missing = df_resultados_2020_2.isnull().sum() * 100 / len(df_resultados_2020_2)
missing_value_df = pd.DataFrame({'Columnas': df_resultados_2020_2.columns,
                                 'Porcentajes_vacios': percent_missing})
missing_value_df.sort_values(by="Porcentajes_vacios", ascending= False).reset_index(drop=True)

Unnamed: 0,Columnas,Porcentajes_vacios
0,COLE_BILINGUE,16.441197
1,FAMI_COMECEREALFRUTOSLEGUMBRE,4.013493
2,FAMI_TIENECOMPUTADOR,3.999826
3,FAMI_TRABAJOLABORPADRE,3.900196
4,FAMI_TIENEAUTOMOVIL,3.527429
...,...,...
76,COLE_JORNADA,0.000000
77,COLE_COD_MCPIO_UBICACION,0.000000
78,COLE_MCPIO_UBICACION,0.000000
79,COLE_COD_DEPTO_UBICACION,0.000000


## Conexión a fuente de datos: API

Una API (Interfaz de Programación de Aplicaciones, por sus siglas en inglés) es un conjunto de reglas y protocolos que permite que diferentes aplicaciones se comuniquen entre sí. En términos más simples, una API define cómo interactuar con un sistema o servicio informático para realizar ciertas operaciones o acceder a determinados recursos.

`Nota: Recursos recomendados:`
- https://aws.amazon.com/es/what-is/api/
- https://dossetenta.com/que-es-una-api-rest/

Una API puede ofrecer una variedad de funcionalidades, como acceder a datos, realizar operaciones específicas, controlar dispositivos o sistemas, entre otras. Por lo general, las API están diseñadas para ser utilizadas por otros programas informáticos en lugar de usuarios directamente, aunque en algunos casos también pueden ser accesibles para usuarios finales a través de interfaces de usuario específicas.

Probando , "[image.png](attachment:image.png)"


Para establecer una conexión a una API, generalmente se necesitan dos componentes principales:

- `URL de la API:` Es la dirección web que identifica la ubicación y los recursos disponibles en la API. Esta URL incluye endpoints específicos que representan las diferentes funcionalidades o recursos que la API ofrece.

- `Métodos de solicitud:` Son los diferentes tipos de acciones que se pueden realizar en la API, como obtener datos (mediante el método GET), enviar datos (mediante el método POST), actualizar datos (mediante el método PUT o PATCH), o eliminar datos (mediante el método DELETE).

Al enviar una solicitud a la URL de la API utilizando uno de los métodos de solicitud, el programa espera una respuesta de la API que puede contener los datos solicitados o información sobre el éxito o fracaso de la operación realizada.

### Información del conjunto de datos: Saber 11° 2020-1

- Objetivo: Consumir y construir un DataFrame con resultados de las pruebas saber 11° correspondientes al segundo semestre del año 2019.

- Esta fuente de datos es extraida de [Datos Abiertos Colombia](https://www.datos.gov.co/) , Los datos abiertos son información pública dispuesta en formatos que permiten su uso y reutilización bajo licencia abierta y sin restricciones legales para su aprovechamiento.

- Este conjunto de datos, está compuesto por datos anonimizados sobre los resultados y características de los resultados de las pruebas saber 11 correspondientes al segundo semestre del año 2021

### Ficha técnica

Información General:

- Fuente de datos: [Datos abiertos Colombia - Saber 11° 2020-1](https://www.datos.gov.co/Educaci-n/Saber-11-2020-1/a8xr-en99/about_data)
- Fecha de creación: 15 de marzo de 2021
- Filas: 15.435
- Columnas: 78
- Vistas: 2843 (a la fecha de descarga)
- Descargas: 1222 (a la fecha de descarga)

Información de la entidad:

- Área o dependencia: Oficina Asesora de Planeación
- Nombre de la entidad: Instituto Colombiano para la Evaluación de la Educación
- Departamento: Bogotá D.C.
- Municipio: Bogotá D.C.
- Orden: Nacional
- Sector: Educación

Información del conjunto de datos:

- Idioma: Español
- URL de documenación: http://www.icfes.gov.co/investigadores-y-estudiantes-posgrado/acceso-a-bases-de-datos
- URL de normativa: http://www.icfes.gov.co/normatividad

Temas:

- Categoría: Educación
- Etiquetas: `pruebas icfes`,`icfes`,`saber 11`,`resultados`

### Conexión y consulta a la fuente de datos

En algunos casos, consumir la API puede ser una buena opción (sobre todo por la actualización constante de datos desde su fuente original para tener metricas en tiempo real.), pero hay que tener la certeza de que al consumir dicho recurso, podamos contar con la totalidad de los registros, desde el equipo de Ingeniería de Datos podrían ayudar a confirmar eso.

Sin embargo, al ser una fuente de datos abierta (pública), y no tener un contacto directo, podemos observar que al primer consumo, no contamos con la totalidad de los registros

![image.png](attachment:image.png)

![image.png](attachment:image.png)

Y si realizamos la prueba, podemos ver que en si, son solo 1000 registros, no contamos con la totalidad de ellos

In [None]:

    # Leer el archivo CSV ubicado en la ruta especificada y asigna los datos a la variable df_resultados


    # Si la lectura del archivo es exitosa, imprime un mensaje indicando que el dataset se cargó correctamente


# Si se produce un error específico de "FileNotFoundError" (archivo no encontrado), ejecuta este bloque de código


    # Imprime un mensaje de error personalizado indicando que el archivo no se pudo encontrar, junto con los detalles específicos del error


# Si se produce cualquier otro tipo de error, ejecuta este bloque de código


    # Imprime un mensaje de error genérico indicando que ocurrió un error inesperado, junto con los detalles específicos del error


In [None]:
# Se crea un DataFrame nuevo, utilizando los datos existentes del dataset


In [None]:
# Consulta y validación de la cantidad de filas y columnas del dataframe


# Imprimir mensaje y valores de salidas del dataframe


Con la intención de remediar esta situación, ciertos portales de datos abiertos (es posible que no todos) posibilitan y facilitan el acceso directo a través de una interfaz programable. En este caso, contamos con este recurso disponible.

Damos clic en la opción de `Consultar la documentación`, y nos remite a la siguiente URL: https://dev.socrata.com/foundry/www.datos.gov.co/a8xr-en99

Nos dirigimos hasta la parte inferior, la parte final del menú `Code Snippets`, seleccionamos la opción de `Python Pandas` que nos entrega un script de Python que copiamos para reutilizar

![image.png](attachment:image.png)

Podemos observar, desde un inicio, que nos pide usar la libreria `sodapy` ¿qué es o hace esta libreria?

La librería sodapy es una herramienta en Python que proporciona una forma sencilla de interactuar con la `API de Socrata`. `Socrata` es una plataforma que facilita a los gobiernos, organizaciones sin fines de lucro y empresas compartir datos de manera abierta y accesible al público a través de APIs.

La librería sodapy simplifica el proceso de consulta y descarga de conjuntos de datos alojados en plataformas que utilizan Socrata. Al utilizar sodapy, los usuarios pueden realizar operaciones como:

- Consultar conjuntos de datos específicos.
- Filtrar datos basados en criterios específicos.
- Descargar datos en formato tabular, como CSV o JSON.
- Realizar operaciones de paginación para manejar grandes volúmenes de datos.
- Acceder a metadatos sobre los conjuntos de datos disponibles.

URL oficial: https://pypi.org/project/sodapy/

In [None]:
# Instalación de sodapy


In [None]:


# Unauthenticated client only works with public data sets. Note 'None'
# in place of application token, and no username or password:


# Example authenticated client (needed for non-public datasets):
# client = Socrata(www.datos.gov.co,
#                  MyAppToken,
#                  username="user@example.com",
#                  password="AFakePassword")

# First 2000 results, returned as JSON from API / converted to Python list of
# dictionaries by sodapy.


# Convert to pandas DataFrame


In [None]:
# Se crea un DataFrame nuevo, utilizando los datos existentes del dataset


In [None]:
# Consulta y validación de la cantidad de filas y columnas del dataframe


# Imprimir mensaje y valores de salidas del dataframe


In [None]:
#  Imprimir el dataframe


In [None]:
# La función head, devuelve la cantidad de primeras filas/registros solicitada del dataframe



In [None]:
# La función tail, devuelve la cantidad de últimas filas/registros solicitada del dataframe



In [None]:
# La función sample, devuelve la cantidad aleatorias de filas/registros solicitada del dataframe



In [None]:
# La función columns, devuelve el nombre de las columnas del dataframe



In [None]:
# la función info, devuelve la cantidad, información y tipo de dato de las 82 columnas del dataframe columnas



In [None]:
# Identificación de porcentajes faltantes por columnas



## Conexión a fuente de datos: SQL Server

Una conexión a SQL Server es un enlace establecido entre una aplicación o programa y un servidor de base de datos SQL Server. SQL Server es un sistema de gestión de bases de datos relacional desarrollado por Microsoft, utilizado para almacenar, recuperar y administrar datos de manera eficiente y segura.

Cuando una aplicación necesita interactuar con una base de datos SQL Server, debe establecer una conexión para enviar consultas y recibir resultados. Esta conexión permite que la aplicación envíe comandos SQL al servidor de base de datos y reciba los resultados de esas consultas.

Una conexión a SQL Server generalmente incluye los siguientes componentes:

1. Servidor: La dirección o nombre del servidor donde se aloja la base de datos SQL Server.

2. Base de datos: El nombre de la base de datos a la que se desea acceder dentro del servidor.

3. Credenciales de autenticación: Las credenciales de usuario (nombre de usuario y contraseña) necesarias para autenticar y establecer la conexión con el servidor.

4. Opciones de configuración: Otras opciones de configuración, como el puerto de conexión, el tipo de autenticación (Windows o SQL Server), el tiempo de espera de la conexión, entre otras.

Una vez que se establece la conexión, la aplicación puede enviar consultas SQL al servidor de base de datos y recibir los resultados, que pueden incluir datos recuperados, registros afectados por una operación de actualización o eliminación, mensajes de error, etc.

Recursos recomendados:

- https://www.astera.com/es/knowledge-center/python-to-sql-server-integration/
- https://learn.microsoft.com/es-es/sql/connect/python/pyodbc/step-3-proof-of-concept-connecting-to-sql-using-pyodbc?view=sql-server-ver16
- https://learn.microsoft.com/es-es/sql/connect/odbc/download-odbc-driver-for-sql-server?view=sql-server-ver16

### Información del conjunto de datos: Saber 11° 2019-2

- Objetivo: Consumir y construir un DataFrame con resultados de las pruebas saber 11° correspondientes al segundo semestre del año 2019.

- Esta fuente de datos es extraida de [Datos Abiertos Colombia](https://www.datos.gov.co/) , Los datos abiertos son información pública dispuesta en formatos que permiten su uso y reutilización bajo licencia abierta y sin restricciones legales para su aprovechamiento.

- Este conjunto de datos, está compuesto por datos anonimizados sobre los resultados y características de los resultados de las pruebas saber 11 correspondientes al segundo semestre del año 2019

### Ficha técnica

Información General:

- Fuente de datos: [Datos abiertos Colombia - Saber 11° 2019-2](https://www.datos.gov.co/Educaci-n/Saber-11-2019-2/ynam-yc42/about_data)
- Fecha de creación: 23 de diciembre de 2019
- Filas: 546.212
- Columnas: 82
- Vistas: 53,4K (a la fecha de descarga)
- Descargas: 90,03K (a la fecha de descarga)

Información de la entidad:

- Área o dependencia: Instituto Colombiano para la Evaluación de la Educación - ICFES
- Nombre de la entidad: Instituto Colombiano para la Evaluación de la Educación
- Departamento: Bogotá D.C.
- Municipio: Bogotá D.C.
- Orden: Nacional
- Sector: Educación

Información del conjunto de datos:

- Idioma: Español
- URL de documenación: http://www.icfes.gov.co/investigadores-y-estudiantes-posgrado/acceso-a-bases-de-datos
- URL de normativa: http://www.icfes.gov.co/normatividad

Temas:

- Categoría: Educación
- Etiquetas: `pruebas icfes`,`icfes`,`saber 11`,`resultados`

### Conexión y consulta a la fuente de datos

In [None]:
# La función filterwarnings() del módulo warnings, ignora las advertencias que puedan surgir durante la ejecución del programa.


# Configuración de la conexión a la base de datos
# Aquí se definen las variables que contienen la información para establecer la conexión a SQL Server


# Intentar establecer la conexión
# La función connect(), intenta establecer la conexión, se pasa una cadena de conexión como argumento a esta función,
    # que incluye los detalles del servidor, la base de datos, el usuario y la contraseña.


In [None]:

# Ejecutar la consulta y cargar los resultados en un DataFrame de pandas


In [None]:
# Se crea un DataFrame nuevo, utilizando los datos existentes del dataset


In [None]:
# Consulta y validación de la cantidad de filas y columnas del dataframe


# Imprimir mensaje y valores de salidas del dataframe


In [None]:
#  Imprimir el dataframe


In [None]:
# La función head, devuelve la cantidad de primeras filas/registros solicitada del dataframe



In [None]:
# La función tail, devuelve la cantidad de últimas filas/registros solicitada del dataframe



In [None]:
# La función sample, devuelve la cantidad aleatorias de filas/registros solicitada del dataframe



In [None]:
# La función columns, devuelve el nombre de las columnas del dataframe



In [None]:
# la función info, devuelve la cantidad, información y tipo de dato de las 82 columnas del dataframe columnas



In [None]:
# Identificación de porcentajes faltantes por columnas



# Métodos de recolección y limpieza de datos.

## Recolección

En el campo de la ciencia de datos, la recolección, limpieza y centralización de datos son procesos fundamentales para preparar los datos antes de realizar análisis y modelos predictivos.

`Recolección de datos:` Es el proceso de obtener datos de diversas fuentes, como:

- Bases de datos: públicas, privadas, locales o en la nube.
- Archivos: CSV, Excel, JSON, XML, etc.
- Sensores: dispositivos físicos que capturan información del mundo real.
- Web scraping: extracción de datos de páginas web.
- APIs: interfaces de programación que permiten acceder a datos de otras aplicaciones.

In [None]:
# Validación de dataframes



In [None]:
# Visualización del comportamiento de los registros



# Crear una lista de años y una lista de la cantidad de registros


# Crear el gráfico de líneas


# Agregar etiquetas de valor para cada punto


## Limpieza

`Limpieza de datos:` Es el proceso de preparar los datos para su análisis, eliminando inconsistencias, errores y valores atípicos. Algunas tareas comunes de limpieza incluyen:

- Eliminar filas duplicadas.
- Corregir errores de formato.
- Tratar valores nulos y faltantes.
- Normalizar las variables.
- Detectar y eliminar valores atípicos.

Durante el proceso de limpieza de datos, es crucial identificar y seleccionar únicamente aquellos elementos esenciales que servirán como soporte y suministro para el proceso de normalización.

En este contexto, partiendo de la siguiente selección, se llevará a cabo la eliminación de las columnas que no estén contenidas en el siguiente cuadro:

![image.png](attachment:image.png)

### df_resultados_2019_2

In [None]:
# Renombrar columnas



In [None]:
# Lista de columnas a eliminar


# Eliminar las columnas


In [None]:
# Consulta y validación de la cantidad de filas y columnas del dataframe


# Imprimir mensaje y valores de salidas del dataframe


In [None]:
df_resultados_2019_2.columns

In [None]:
# la función info, devuelve la cantidad, información y tipo de dato de las 82 columnas del dataframe columnas



### df_resultados_2020_1

In [None]:
# Lista de columnas a eliminar


# Intentar eliminar las columnas


In [None]:
# Consulta y validación de la cantidad de filas y columnas del dataframe


# Imprimir mensaje y valores de salidas del dataframe


In [None]:
# Validar nombres de columnas

In [None]:
# Renombrar columnas



In [None]:
# la función info, devuelve la cantidad, información y tipo de dato de las 82 columnas del dataframe columnas



### df_resultados_2020_2

In [None]:
# Lista de columnas a eliminar


# Intentar eliminar las columnas


In [None]:
# Consulta y validación de la cantidad de filas y columnas del dataframe


# Imprimir mensaje y valores de salidas del dataframe


In [None]:
# la función info, devuelve la cantidad, información y tipo de dato de las 82 columnas del dataframe columnas



## Centralización

`Centralización de datos:` Es el proceso de almacenar todos los datos en un único lugar, lo que facilita su acceso y análisis. Algunas opciones para centralizar datos son:

- Data lakes: almacenes de datos a gran escala que pueden albergar datos de diferentes formatos y estructuras.
- Data warehouses: almacenes de datos estructurados y optimizados para el análisis.
- Bases de datos NoSQL: ideales para almacenar datos no estructurados o semiestructurados.

`Importancia de la recolección, limpieza y centralización de datos:`

- Mejora la calidad de los datos.
- Facilita el análisis de datos.
- Aumenta la eficiencia del trabajo científico.
- Permite tomar mejores decisiones.

`Herramientas para la recolección, limpieza y centralización de datos:`

- `Python:` Lenguaje de programación con librerías como Pandas, NumPy, Scikit-learn y BeautifulSoup.
- `R:` Lenguaje de programación estadístico con librerías como tidyverse, ggplot2 y dplyr.
- `SAS:` Software comercial para análisis de datos.
- `SSIS:` Microsoft SQL Server Integration Services (SSIS) es una plataforma que permite generar soluciones de integración de datos de alto rendimiento

In [None]:
# Concatenar los DataFrames para crear uno nuevo llamado 'acumulado'



In [None]:
# Consulta y validación de la cantidad de filas y columnas del dataframe


# Imprimir mensaje y valores de salidas del dataframe


# Exploración inicial/básica de proceso de centralización

In [None]:
# Identificación de porcentajes faltantes por columnas



In [None]:
# Cantidad, información y tipo de dato de las columnas del dataframe columnas


In [None]:
# Cantidad de registros por el tipo de genero

# generar conteo de registros por valor único en la columna ESTU_GENERO


In [None]:
# reemplazar valores "-"


# contar registros de la columna 'ESTU_GENERO'


In [None]:
# Obtener el conteo de valores de la columna ESTU_GENERO


# Crear gráfico de barras


# Añadir título y etiquetas


# Agregar etiquetas de valores en las barras


# Añadir leyenda


# Mostrar el gráfico

