# Técnicas Avanzadas de Análisis de Datos

En ciencia de datos, la integración de datos de múltiples fuentes y formatos es el proceso de combinar información de distintos orígenes para crear un conjunto de datos cohesivo y unificado. Este proceso es fundamental para obtener una visión completa y precisa, lo que facilita un análisis más profundo y decisiones mejor fundamentadas.

Las fuentes de datos pueden incluir:

- Bases de datos: Relacionales, NoSQL y otros tipos almacenan información en diversas estructuras y formatos.
- Archivos: Formatos como CSV, Excel y JSON contienen datos estructurados o semiestructurados.
- Sensores: Dispositivos IoT y otros sensores generan datos en tiempo real.
- Redes sociales: Plataformas como Twitter, Facebook o LinkedIn proveen información sobre tendencias, comportamientos y opiniones del público.

Los formatos de datos también varían considerablemente, lo que puede dificultar la integración entre diferentes fuentes. Los formatos más comunes incluyen:

- Datos estructurados: Organizados en filas y columnas, típicos de hojas de cálculo o bases de datos.
- Datos semiestructurados: Tienen una estructura flexible, como en archivos JSON o XML.
- Datos no estructurados: Carecen de un formato definido, como el texto libre, imágenes o videos.

El proceso de integración de datos incluye varias etapas clave:

- Extracción: El primer paso consiste en obtener datos de las diversas fuentes, ya sea mediante la descarga de archivos, la consulta de bases de datos o la conexión a APIs.
- Limpieza: Los datos suelen contener errores, valores incoherentes o formatos incompatibles. La limpieza asegura que los datos sean fiables, corrigiendo estos problemas.
- Transformación: Los datos deben ser convertidos a un formato común para facilitar su integración, lo que puede implicar la normalización o la estandarización en formatos como CSV o JSON.
- Carga: Los datos transformados se almacenan en un depósito centralizado, donde pueden ser analizados y utilizados para la toma de decisiones.

Existen diversas herramientas que optimizan este proceso, tales como:

- Herramientas ETL (Extracción, Transformación y Carga): Automatizan el flujo de integración de datos.
- Plataformas de integración de datos: Proporcionan interfaces gráficas que simplifican la gestión y procesamiento de datos provenientes de múltiples fuentes.
- La integración de datos es compleja y desafiante, pero es esencial para el éxito en proyectos de ciencia de datos. Una integración eficaz ofrece una visión más completa, permitiendo a los científicos de datos desarrollar análisis más precisos y soluciones más efectivas.

Es importante considerar la validez, la confiabilidad y la ética en la recolección de datos para garantizar la calidad y la integridad de la información recopilada. Además, el análisis de datos y la toma de decisiones en ciencia de datos dependen en gran medida de la calidad de los datos recopilados.

# Preparación y configuración del entorno de trabajo

## Librerias Python

In [None]:
# Instalar de librerias necesarias
# !pip install pyodbc pandas altair seaborn altair_viewer matplotlib logging

In [1]:
# Importar librerias

import os
import altair as alt
import pandas as pd
import numpy as np
import seaborn as sns
import matplotlib.pyplot as plt
import pyodbc
import warnings
import sqlite3
import logging

# Conexión a fuente de datos: CSV

### Información del conjunto de datos: Saber 11° 2020-2

Objetivo: Consumir y construir un DataFrame con los resultados de las pruebas Saber 11° correspondientes al segundo semestre de 2020.

Los datos utilizados en este proceso son extraídos de la plataforma Datos Abiertos Colombia, la cual proporciona acceso a información pública bajo licencias abiertas. Esto asegura que los datos puedan ser utilizados y reutilizados sin restricciones legales, fomentando su aprovechamiento para análisis y generación de valor.

Este conjunto de datos contiene información anonimizada sobre los resultados y características de los estudiantes que presentaron las pruebas Saber 11 en el segundo semestre de 2020. Los datos están estructurados para cumplir con estándares de integridad, permitiendo su integración y procesamiento en un entorno de análisis de datos, como pandas en Python, para la creación de un DataFrame que facilite su manipulación y exploración posterior.

Información General:

- Fuente de datos: [Datos abiertos Colombia - Saber 11° 2020-2](https://www.datos.gov.co/Educaci-n/Saber-11-2020-2/rnvb-vnyh/about_data)
- Fecha de creación: 15 de marzo de 2021
- Filas: 504.872
- Columnas: 81
- Vistas: 17,6k (a la fecha de descarga)
- Descargas: 6117 (a la fecha de descarga)

Información de la entidad:

- Área o dependencia: Oficina Asesora de Planeación
- Nombre de la entidad: Instituto Colombiano para la Evaluación de la Educación
- Departamento: Bogotá D.C.
- Municipio: Bogotá D.C.
- Orden: Nacional
- Sector: Educación

Temas:

- Categoría: Educación
- Etiquetas: pruebas icfes,icfes,saber 11,resultados

### Conexión y consulta a la fuente de datos

In [2]:
df_resultados_2022_2 = pd.read_csv('C:/Users/espit/OneDrive/Documentos/Cymetria Bootcamps/AVDV3-219/Modulo_1-Tecnicas_Avanzadas_de_Analisis_de_Datos/Fuente_de_datos/Saber_11_2020-2.csv')

In [3]:
df_resultados_2022_2.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 504872 entries, 0 to 504871
Data columns (total 81 columns):
 #   Column                         Non-Null Count   Dtype  
---  ------                         --------------   -----  
 0   ESTU_TIPODOCUMENTO             504872 non-null  object 
 1   ESTU_NACIONALIDAD              504872 non-null  object 
 2   ESTU_GENERO                    504864 non-null  object 
 3   ESTU_FECHANACIMIENTO           504872 non-null  object 
 4   PERIODO                        504872 non-null  int64  
 5   ESTU_CONSECUTIVO               504872 non-null  object 
 6   ESTU_ESTUDIANTE                504872 non-null  object 
 7   ESTU_PAIS_RESIDE               504872 non-null  object 
 8   ESTU_TIENEETNIA                501879 non-null  object 
 9   ESTU_DEPTO_RESIDE              504870 non-null  object 
 10  ESTU_COD_RESIDE_DEPTO          504870 non-null  float64
 11  ESTU_MCPIO_RESIDE              504870 non-null  object 
 12  ESTU_COD_RESIDE_MCPIO         

In [2]:
# Configuración básica del logger

        # Leer el archivo CSV directamente
        

    # Manejo de errores de pandas al leer el archivo
    
        
    # Manejo de cualquier otro error inesperado
    
    
    # Retornar None en caso de error
    

In [None]:
# Ejemplo de uso de la función


- Modularidad: La función cargar_csv() encapsula toda la lógica de cargar un archivo CSV y manejar errores, lo que permite reutilizar esta función en diferentes partes de tu código.
- Reutilización: Si necesitas cargar varios archivos, solo llamas a la función en lugar de duplicar el código.
- Legibilidad: Separar el código en una función mejora la organización y facilita la lectura.
- Retorno del DataFrame: La función devuelve el DataFrame si la carga es exitosa, y None si falla. Esto te permite controlar fácilmente el flujo en base al éxito o fracaso de la operación.
- Manejo de errores centralizado: Todos los posibles errores se gestionan dentro de la función, haciendo que el código sea más limpio fuera de la función.
- Looger Proporciona un registro persistente de eventos; se adapta fácilmente a diferentes entornos (desarrollo y producción).

Este enfoque hace que sea mucho más fácil ampliar el código en el futuro o hacer pruebas unitarias. El código está diseñado para manejar tanto errores predecibles (relacionados con la lectura de archivos) como cualquier error inesperado que pueda surgir. De este modo, se garantiza que todos los problemas posibles sean capturados, registrados y, en última instancia, depurados.

In [None]:
# Configuración básica del logger


# Verificar si el DataFrame no es None y no está vacío

    
    # Registrar mensaje y valores de salidas del dataframe

    # Registrar advertencia si el DataFrame está vacío o es None


# Conexión a fuente de datos: API

![image.png](attachment:image.png)

Una API (Application Programming Interface) es un conjunto de definiciones y protocolos que permite que diferentes aplicaciones de software se comuniquen entre sí. Básicamente, una API actúa como un intermediario que facilita la interacción entre distintos sistemas, programas o plataformas, permitiéndoles intercambiar datos o realizar acciones.

Las API pueden ser utilizadas para:

- Acceder a datos o funcionalidades de un servicio externo (por ejemplo, obtener datos de clima, realizar pagos en línea).
- Automatizar procesos entre diferentes aplicaciones (por ejemplo, conectar una aplicación web con una base de datos externa).
- Integrar servicios de terceros en una aplicación (por ejemplo, integrar Google Maps en una aplicación móvil).

Importancia de las API

- Interoperabilidad: Las API permiten que diferentes sistemas, creados con tecnologías diversas, trabajen juntos. Son fundamentales para integrar aplicaciones de terceros, servicios en la nube, dispositivos IoT, etc.

- Eficiencia: Facilitan la reutilización de funcionalidades existentes, lo que ahorra tiempo y esfuerzo en el desarrollo. En lugar de crear algo desde cero, puedes consumir una API que ya ofrece la funcionalidad que necesitas.

- Escalabilidad: Las empresas pueden expandir sus servicios al permitir que otras aplicaciones accedan a su infraestructura a través de API.

- Seguridad y control: Las API permiten que los sistemas se comuniquen de manera segura, proporcionando autenticación y autorización para el acceso a datos y funcionalidades sensibles.

- Rodríguez, A. (2015). Understanding REST: A Simple Overview of What is RESTful Architecture and How to Build APIs. Packt Publishing Ltd.
- Richardson, L., Amundsen, M., & Ruby, S. (2013). RESTful Web APIs. O'Reilly Media, Inc.
- Fielding, R. T. (2000). Architectural Styles and the Design of Network-based Software Architectures. Doctoral dissertation, University of California, Irvine.
- Pautasso, C., Zimmermann, O., & Leymann, F. (2008). RESTful Web Services vs. "Big" Web Services: Making the Right Architectural Decision. In WWW (pp. 805-814).

### Información del conjunto de datos: Saber 11° 2020-1

Objetivo: Consumir y construir un DataFrame con los resultados anonimizados de las pruebas de Saber 11 de Calendario B del año 2020.

Los datos utilizados en este proceso son extraídos de la plataforma Datos Abiertos Colombia, la cual proporciona acceso a información pública bajo licencias abiertas. Esto asegura que los datos puedan ser utilizados y reutilizados sin restricciones legales, fomentando su aprovechamiento para análisis y generación de valor.

Este conjunto de datos contiene información anonimizada sobre los resultados y características de los estudiantes que presentaron las pruebas Saber 11 en el segundo semestre de 2020. Los datos están estructurados para cumplir con estándares de integridad, permitiendo su integración y procesamiento en un entorno de análisis de datos, como pandas en Python, para la creación de un DataFrame que facilite su manipulación y exploración posterior.

Información General:

- Fuente de datos: [Datos abiertos Colombia - Saber 11° 2020-1](https://www.datos.gov.co/Educaci-n/Saber-11-2020-1/a8xr-en99/data_preview)
- Fecha de creación: 02 de febrero de 2020
- Filas: 15.435
- Columnas: 78
- Vistas: 3461 (a la fecha de descarga)
- Descargas: 1265 (a la fecha de descarga)

Información de la entidad:

- Área o dependencia: Oficina Asesora de Planeación
- Nombre de la entidad: Instituto Colombiano para la Evaluación de la Educación
- Departamento: Bogotá D.C.
- Municipio: Bogotá D.C.
- Orden: Nacional
- Sector: Educación

Temas:

- Categoría: Educación
- Etiquetas: pruebas icfes,icfes,saber 11,resultados

### Conexión y consulta a la fuente de datos

En muchos casos, consumir una API es una excelente opción, especialmente cuando necesitamos datos actualizados en tiempo real directamente desde su fuente original. Esto nos permite obtener métricas siempre actualizadas y relevantes. No obstante, es crucial asegurarnos de que al utilizar dicha API, estemos accediendo a la totalidad de los registros necesarios para nuestro análisis. En este sentido, el equipo de Ingeniería de Datos puede desempeñar un papel fundamental ayudando a validar la completitud y calidad de los datos proporcionados por la API.

Sin embargo, dado que se trata de una fuente de datos abierta (pública) y no contamos con un contacto directo con los proveedores del servicio, hemos detectado que en la primera consulta no se reciben todos los registros esperados. Esta limitación podría estar relacionada con restricciones de la API, como límites de consulta o paginación de los resultados, lo que requiere un análisis más profundo para asegurar que los datos recuperados sean completos.

![image.png](attachment:image.png)

![image.png](attachment:image.png)

Con el objetivo de solucionar esta situación, algunos portales de datos abiertos (aunque no todos) permiten y simplifican el acceso a sus datos mediante una interfaz programable (API). En nuestro caso, contamos con esta opción disponible para agilizar la integración.

Para acceder a la API, hacemos clic en la opción "Consultar la documentación", lo que nos redirige a la siguiente URL: https://dev.socrata.com/foundry/www.datos.gov.co/a8xr-en99.

Una vez allí, navegamos hasta la sección inferior del menú "Code Snippets", donde seleccionamos la opción "Python Pandas". Esta opción nos proporciona un script en Python que podemos copiar y reutilizar en nuestro proyecto para interactuar con los datos de forma sencilla.

![image.png](attachment:image.png)

La librería sodapy es una herramienta en Python que facilita la interacción con la API de Socrata, una plataforma que permite compartir datos abiertos de gobiernos y organizaciones. Con sodapy, es posible consultar, filtrar y descargar datos en formatos como CSV o JSON, manejar grandes volúmenes de datos mediante paginación, y acceder a metadatos. Simplifica el acceso a conjuntos de datos públicos alojados en Socrata.

URL oficial: https://pypi.org/project/sodapy/

In [None]:
# Instalación de sodapy
!pip install sodapy

In [None]:

# Configuración del logger

    # URL del portal de datos de Colombia


        # Uso de tqdm para mostrar barra de progreso en el proceso de obtención de datos

            # Solicitar datos a la API

            # Avanza la barra de progreso al 50%

            # Convertir los resultados en un DataFrame
              # Completa la barra de progreso al 100%

        # Validar que el DataFrame no esté vacío
        

# Llamar a la función


In [4]:
from sodapy import Socrata

client = Socrata("www.datos.gov.co", None)

results = client.get("a8xr-en99", limit=15435)

# Convert to pandas DataFrame
results_df = pd.DataFrame.from_records(results)



In [7]:
df_resultados_2020_1 = results_df
df_resultados_2020_1

Unnamed: 0,estu_tipodocumento,estu_nacionalidad,estu_genero,estu_fechanacimiento,periodo,estu_consecutivo,estu_estudiante,estu_pais_reside,estu_tieneetnia,estu_depto_reside,...,punt_sociales_ciudadanas,percentil_sociales_ciudadanas,desemp_sociales_ciudadanas,punt_ingles,percentil_ingles,desemp_ingles,punt_global,percentil_global,estu_estadoinvestigacion,estu_generacion_e
0,CC,COLOMBIA,F,1985-01-01T00:00:00.000,20201,SB11202010045555,ESTUDIANTE,COLOMBIA,No,CESAR,...,24,1,1,36,7,A-,164,2,VALIDEZ OFICINA JURÍDICA,GENERACION E - GRATUIDAD
1,CC,COLOMBIA,F,1995-01-01T00:00:00.000,20201,SB11202010045719,ESTUDIANTE,COLOMBIA,No,NARIÑO,...,44,23,2,30,3,A-,202,10,PUBLICAR,GENERACION E - GRATUIDAD
2,CC,COLOMBIA,F,1997-01-01T00:00:00.000,20201,SB11202010070662,ESTUDIANTE,COLOMBIA,Si,CAUCA,...,24,1,1,30,3,A-,162,2,PUBLICAR,GENERACION E - GRATUIDAD
3,CC,COLOMBIA,F,2001-01-01T00:00:00.000,20201,SB11202010069926,ESTUDIANTE,COLOMBIA,No,PUTUMAYO,...,33,7,1,37,8,A-,188,6,PUBLICAR,NO
4,CC,COLOMBIA,F,2001-02-01T00:00:00.000,20201,SB11202010023181,ESTUDIANTE,COLOMBIA,No,RISARALDA,...,53,42,2,80,80,B+,274,39,PUBLICAR,NO
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
15430,TI,ITALIA,F,0003-08-24T00:00:00.000,20201,SB11202010002849,ESTUDIANTE,ITALIA,No,VALLE,...,60,60,3,73,62,B1,303,54,PUBLICAR,NO
15431,TI,PAÍSES BAJOS - HOLANDA,F,2002-05-21T00:00:00.000,20201,SB11202010004430,ESTUDIANTE,PAÍSES BAJOS - HOLANDA,No,VALLE,...,70,86,3,100,100,B+,366,91,PUBLICAR,NO
15432,TI,VENEZUELA,F,2001-12-07T00:00:00.000,20201,SB11202010008503,ESTUDIANTE,VENEZUELA,No,BOGOTÁ,...,64,69,3,79,77,B+,337,76,PUBLICAR,NO
15433,TI,VENEZUELA,F,2003-04-25T00:00:00.000,20201,SB11202010072919,ESTUDIANTE,VENEZUELA,No,NORTE SANTANDER,...,47,30,2,40,11,A-,253,28,PUBLICAR,GENERACION E - GRATUIDAD


# Conexión a fuente de datos: SQL Server

Una conexión a SQL Server es un vínculo establecido entre una aplicación o servicio y un servidor de bases de datos SQL Server, el cual es un sistema de gestión de bases de datos relacional (RDBMS) desarrollado por Microsoft. Este sistema se utiliza ampliamente para el almacenamiento, recuperación y administración eficiente y segura de grandes volúmenes de datos, tanto estructurados como no estructurados.

Cuando una aplicación requiere interactuar con una base de datos en SQL Server, primero debe establecer una conexión para ejecutar comandos SQL y recibir resultados de consultas. Esta conexión actúa como un canal de comunicación entre el cliente y el servidor, facilitando la ejecución de transacciones, el envío de comandos SQL (tanto DML como DDL), y la recepción de datos o confirmaciones del servidor.

Una conexión típica a SQL Server comprende varios componentes clave:

1. Servidor: El nombre de la instancia del servidor, que puede ser una dirección IP, un nombre de dominio o un nombre de servidor local, donde se encuentra alojado el motor de base de datos SQL Server.
2. Base de datos: El nombre específico de la base de datos dentro del servidor a la cual se desea acceder. SQL Server permite múltiples bases de datos en una misma instancia.
3. Credenciales de autenticación: Las credenciales que se emplean para validar y autorizar el acceso. Estas pueden ser credenciales de Autenticación de Windows (integrada) o Autenticación de SQL Server, dependiendo de la configuración de seguridad del servidor.
4. Configuraciones de conexión adicionales: Parámetros como el puerto (1433 por defecto para SQL Server), tiempos de espera (timeouts), nivel de aislamiento de la transacción, encriptación, y otros parámetros de optimización y seguridad. Estas configuraciones se pueden ajustar según los requerimientos de la aplicación y las políticas de la organización.

Establecer una conexión eficiente y segura es crítico para garantizar la integridad y disponibilidad de los datos, además de prevenir accesos no autorizados y asegurar un rendimiento óptimo del sistema.

Recursos recomendados:

- [Guía para la integración de Python a SQL Server](https://www.astera.com/es/knowledge-center/python-to-sql-server-integration/)
- [Prueba de concepto de la conexión a SQL con pyodbc](https://learn.microsoft.com/es-es/sql/connect/python/pyodbc/step-3-proof-of-concept-connecting-to-sql-using-pyodbc?view=sql-server-ver16)
- [Descargar controlador ODBC para SQL Server](https://learn.microsoft.com/es-es/sql/connect/odbc/download-odbc-driver-for-sql-server?view=sql-server-ver16)

### Información del conjunto de datos: Saber 11° 2019-2

Objetivo: Consumir y construir un DataFrame con resultados de las pruebas saber 11° correspondientes al segundo semestre del año 2019.

Esta fuente de datos es extraida de Datos Abiertos Colombia , Los datos abiertos son información pública dispuesta en formatos que permiten su uso y reutilización bajo licencia abierta y sin restricciones legales para su aprovechamiento.

Este conjunto de datos, está compuesto por datos anonimizados sobre los resultados y características de los resultados de las pruebas saber 11 correspondientes al segundo semestre del año 2019

Información General:

- Fuente de datos: [Datos abiertos Colombia - Saber 11° 2019-2](https://www.datos.gov.co/Educaci-n/Saber-11-2019-2/ynam-yc42/about_data)
- Fecha de creación: 23 de diciembre de 2019
- Filas: 546.212
- Columnas: 82
- Vistas: 59,9k (a la fecha de descarga)
- Descargas: 116k (a la fecha de descarga)

Información de la entidad:

- Área o dependencia: Oficina Asesora de Planeación
- Nombre de la entidad: Instituto Colombiano para la Evaluación de la Educación
- Departamento: Bogotá D.C.
- Municipio: Bogotá D.C.
- Orden: Nacional
- Sector: Educación

Temas:

- Categoría: Educación
- Etiquetas: pruebas icfes,icfes,saber 11,resultados

### Conexión y consulta a la fuente de datos

In [8]:
direccion_servidor = 'localhost'
nombre_bd = 'resultados_icfes_dev'
nombre_usuario  = 'sa'
password = '1038'

try:
    conn = pyodbc.connect('DRIVER={ODBC Driver 17 for SQL Server};SERVER=' + 
                        direccion_servidor+';DATABASE='+nombre_bd+';UID='+nombre_usuario+';PWD=' + password)
    print("Conexión exitosa")
except Exception as e:
    print("Ocurrio un error al conectar a SQL", e)

Conexión exitosa


In [9]:
consulta_sql = '''SELECT * FROM [dbo].[Saber_11_2019-2-OK]'''
df_resultados_2019_2 = pd.read_sql(consulta_sql, conn)
df_resultados_2019_2

  df_resultados_2019_2 = pd.read_sql(consulta_sql, conn)


Unnamed: 0,ESTU_TIPODOCUMENTO,ESTU_NACIONALIDAD,ESTU_GENERO,ESTU_FECHANACIMIENTO,PERIODO,ESTU_CONSECUTIVO,ESTU_ESTUDIANTE,ESTU_TIENEETNIA,ESTU_PAIS_RESIDE,ESTU_ETNIA,...,PUNT_INGLES,PERCENTIL_INGLES,DESEMP_INGLES,PUNT_GLOBAL,PERCENTIL_GLOBAL,ESTU_INSE_INDIVIDUAL,ESTU_NSE_INDIVIDUAL,ESTU_NSE_ESTABLECIMIENTO,ESTU_ESTADOINVESTIGACION,ESTU_GENERACION_E
0,TI,COLOMBIA,M,02/18/2002 12:00:00 AM,20194,SB11201940031558,ESTUDIANTE,No,COLOMBIA,-,...,54,67,A1,208,25,50.9421557404314,2,2,PUBLICAR,NO
1,TI,COLOMBIA,M,06/28/2003 12:00:00 AM,20194,SB11201940303339,ESTUDIANTE,No,COLOMBIA,-,...,63,88,A2,299,83,59.767864431576,3,4,PUBLICAR,NO
2,TI,COLOMBIA,M,06/02/2001 12:00:00 AM,20194,SB11201940255017,ESTUDIANTE,No,COLOMBIA,-,...,64,89,A2,299,84,50.7642383644749,2,3,PUBLICAR,GENERACION E - GRATUIDAD
3,TI,COLOMBIA,M,04/26/2002 12:00:00 AM,20194,SB11201940154799,ESTUDIANTE,Si,COLOMBIA,Ninguno,...,53,67,A1,309,88,45.7791353123516,2,3,PUBLICAR,GENERACION E - GRATUIDAD
4,TI,COLOMBIA,M,02/05/2002 12:00:00 AM,20194,SB11201940280831,ESTUDIANTE,No,COLOMBIA,-,...,52,63,A1,288,78,52.9109464277177,3,3,PUBLICAR,NO
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
546207,CC,COLOMBIA,M,02/25/1999 12:00:00 AM,20194,SB11201940195862,ESTUDIANTE,No,COLOMBIA,-,...,58,79,A2,360,99,47.5807720132296,2,2,PUBLICAR,GENERACION E - EXCELENCIA NACIONAL
546208,TI,COLOMBIA,M,10/14/2002 12:00:00 AM,20194,SB11201940253002,ESTUDIANTE,No,COLOMBIA,-,...,74,97,B1,360,99,57.406418472062,3,4,PUBLICAR,GENERACION E - EXCELENCIA NACIONAL
546209,TI,COLOMBIA,M,11/22/2002 12:00:00 AM,20194,SB11201940364767,ESTUDIANTE,No,COLOMBIA,-,...,72,96,B1,377,100,71.2254308010465,4,3,PUBLICAR,GENERACION E - EXCELENCIA DEPARTAMENTAL
546210,TI,COLOMBIA,M,11/10/2002 12:00:00 AM,20194,SB11201940210026,ESTUDIANTE,No,COLOMBIA,-,...,46,45,A-,278,73,38.1334451267846,1,2,PUBLICAR,GENERACION E - GRATUIDAD


In [10]:
num_rows, num_cols = df_resultados_2019_2.shape
print(f'EL Dataframe, tiene {num_rows} filas {num_cols} columnas.')

EL Dataframe, tiene 546212 filas 82 columnas.


In [11]:
df_resultados_2019_2.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 546212 entries, 0 to 546211
Data columns (total 82 columns):
 #   Column                         Non-Null Count   Dtype 
---  ------                         --------------   ----- 
 0   ESTU_TIPODOCUMENTO             546212 non-null  object
 1   ESTU_NACIONALIDAD              546212 non-null  object
 2   ESTU_GENERO                    546212 non-null  object
 3   ESTU_FECHANACIMIENTO           546212 non-null  object
 4   PERIODO                        546212 non-null  object
 5   ESTU_CONSECUTIVO               546212 non-null  object
 6   ESTU_ESTUDIANTE                546212 non-null  object
 7   ESTU_TIENEETNIA                546212 non-null  object
 8   ESTU_PAIS_RESIDE               546212 non-null  object
 9   ESTU_ETNIA                     546212 non-null  object
 10  ESTU_DEPTO_RESIDE              545835 non-null  object
 11  ESTU_COD_RESIDE_DEPTO          546212 non-null  object
 12  ESTU_MCPIO_RESIDE              545835 non-nu

In [None]:


# Ignorar advertencias innecesarias


# Configuración de la conexión a la base de datos


# Consulta SQL


# Intentar establecer la conexión y ejecutar la consulta

    # f-string para una construcción más clara de la cadena de conexión

    
    # Establecer la conexión

    
    # Ejecutar la consulta y cargar los resultados en un DataFrame de pandas



    # Asegurarse de cerrar la conexión si fue abierta correctamente


- Seguridad con variables de entorno: Es más seguro manejar las credenciales utilizando variables de entorno en lugar de tenerlas hardcodeadas.
- f-strings: Usar f-strings en lugar de concatenaciones hace que el código sea más legible y menos propenso a errores.
- Manejo detallado de excepciones: He diferenciado entre errores de la interfaz ODBC, errores de base de datos y otros posibles errores generales, para proporcionar mensajes más claros y específicos.
- Conexión abierta para la consulta: La conexión a la base de datos permanece abierta hasta que se completa la consulta y se cargan los datos en el DataFrame.
- Cierre de la conexión: En el bloque finally, se asegura que la conexión se cierre correctamente si fue abierta, lo que es una buena práctica para evitar conexiones abiertas en caso de fallos.

# Conexión a fuente de datos: Buckets - AWS

Amazon Web Services (AWS) es una plataforma de servicios en la nube que ofrece una amplia gama de soluciones y herramientas a nivel global. Desarrollada por Amazon, proporciona capacidades de almacenamiento, cómputo, redes, bases de datos, inteligencia artificial, seguridad, y otros servicios que permiten a las empresas y desarrolladores ejecutar aplicaciones en una infraestructura escalable y de alto rendimiento. AWS permite a las organizaciones no solo alojar sus servicios y datos, sino también desarrollar soluciones avanzadas, sin la necesidad de mantener su propia infraestructura física.

¿Qué es un Bucket S3?
Un Bucket S3 (Simple Storage Service) es el contenedor principal dentro del servicio de almacenamiento en la nube Amazon S3. S3 es un servicio de almacenamiento de objetos que permite almacenar y recuperar cualquier cantidad de datos, en cualquier momento y desde cualquier parte del mundo, a través de una API web. Los buckets son espacios de almacenamiento donde se pueden guardar archivos (objetos), como imágenes, videos, archivos de texto, backups, etc.

In [None]:
!pip install boto3 awswrangler

In [12]:
import boto3
import awswrangler as wr

In [16]:
boto3.setup_default_session(profile_name = 'wespitia')
print("Conexión exitosa al perfil wespitia")

Conexión exitosa al perfil wespitia


In [17]:
path_s3 = 's3://resultadosicfes/Saber_11_2018-1.parquet'
print(f"Leyendo archivo parquet")

df_resultados_2018_1 = wr.s3.read_parquet(path=path_s3)

Leyendo archivo parquet


In [18]:
df_resultados_2018_1

Unnamed: 0,estu_tipodocumento,estu_nacionalidad,estu_genero,estu_fechanacimiento,periodo,estu_consecutivo,estu_estudiante,estu_pais_reside,estu_tieneetnia,estu_etnia,...,desemp_sociales_ciudadanas,punt_ingles,percentil_ingles,desemp_ingles,punt_global,percentil_global,estu_inse_individual,estu_nse_individual,estu_estadoinvestigacion,estu_pilopaga
0,CC,COLOMBIA,F,29/09/1999,20181,SB11201810007354,ESTUDIANTE,COLOMBIA,No,Ninguno,...,3,90,99,B+,344,78,76.391075,NSE4,PUBLICAR,NO
1,TI,COLOMBIA,M,19/03/2001,20181,SB11201810018765,ESTUDIANTE,COLOMBIA,No,Ninguno,...,4,86,94,B+,417,100,65.549210,NSE4,PUBLICAR,NO
2,TI,COLOMBIA,M,31/07/2000,20181,SB11201810028523,ESTUDIANTE,COLOMBIA,No,Ninguno,...,1,29,3,A-,166,2,53.659302,NSE3,PUBLICAR,NO
3,TI,COLOMBIA,F,20/01/2002,20181,SB11201810003574,ESTUDIANTE,COLOMBIA,No,Ninguno,...,3,79,78,B+,336,73,80.709663,NSE4,PUBLICAR,NO
4,TI,COLOMBIA,F,23/10/2001,20181,SB11201810024346,ESTUDIANTE,COLOMBIA,No,Ninguno,...,3,71,65,B1,346,79,53.908249,NSE3,VALIDEZ OFICINA JURÍDICA,NO
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
19793,TI,COLOMBIA,F,08/09/2001,20181,SB11201810007633,ESTUDIANTE,COLOMBIA,No,Ninguno,...,2,50,30,A1,267,39,54.277687,NSE3,PUBLICAR,NO
19794,TI,COLOMBIA,F,31/07/2001,20181,SB11201810012404,ESTUDIANTE,COLOMBIA,No,Ninguno,...,3,59,46,A2,302,55,50.641411,NSE2,PUBLICAR,NO
19795,TI,COLOMBIA,F,03/03/2000,20181,SB11201810000158,ESTUDIANTE,COLOMBIA,Si,Comunidad afrodescendiente,...,4,87,96,B+,396,98,72.035820,NSE4,PUBLICAR,NO
19796,TI,COLOMBIA,F,03/01/2000,20181,SB11201810013391,ESTUDIANTE,COLOMBIA,No,Ninguno,...,3,85,92,B+,332,71,65.294937,NSE4,PUBLICAR,NO


Recursos recomendados:

- [Crear cuenta gratuita en AWS](https://aws.amazon.com/es/free/)
- [Instalación o actualización a la versión más reciente de AWS CLI](https://docs.aws.amazon.com/es_es/cli/latest/userguide/getting-started-install.html)
- [Connect AWS Account to Visual Studio Code Using AWS Toolkit](https://www.youtube.com/watch?v=8VYp3fqayjU)

In [None]:
# Función para conectarse a un perfil de AWS y leer un archivo desde S3

        # Configuración del perfil de AWS
        
        
        # Conexión exitosa
        

        # Lectura del archivo Parquet desde S3 utilizando awswrangler

        
        # Cargar el archivo Parquet en un DataFrame

        
        # # Mostrar las primeras filas del DataFrame para verificar los datos
        # print("Archivo Parquet leído correctamente. Mostrando las primeras filas del DataFrame:")
        # print(df_resultados_2018_1.head())

        # Retornar el DataFrame




# Ejecutar la función para conectar y leer desde S3


- Función modular: Todo el proceso de conexión y lectura desde S3 se encapsula en una función conectar_y_leer_s3(), lo que permite un código más limpio y reutilizable.
- Manejo de excepciones específicas: Se utiliza boto3.exceptions.Boto3Error para capturar errores relacionados con AWS y Exception para otros errores generales.
- Mensajes claros: Se incluyen mensajes informativos en cada paso, como la conexión exitosa, la ruta del archivo en S3, y la confirmación de la lectura del archivo.
- Verificación del DataFrame: El código imprime las primeras filas del DataFrame con df_resultados_2018_1.head() para verificar que la lectura se realizó correctamente.

# Métodos de recolección y limpieza de datos.

In [26]:
#df_resultados_2018_1
df_resultados_2019_2
#df_resultados_2020_1
#df_resultados_2022_2

Unnamed: 0,ESTU_TIPODOCUMENTO,ESTU_NACIONALIDAD,ESTU_GENERO,ESTU_FECHANACIMIENTO,PERIODO,ESTU_CONSECUTIVO,ESTU_ESTUDIANTE,ESTU_TIENEETNIA,ESTU_PAIS_RESIDE,ESTU_ETNIA,...,PUNT_INGLES,PERCENTIL_INGLES,DESEMP_INGLES,PUNT_GLOBAL,PERCENTIL_GLOBAL,ESTU_INSE_INDIVIDUAL,ESTU_NSE_INDIVIDUAL,ESTU_NSE_ESTABLECIMIENTO,ESTU_ESTADOINVESTIGACION,ESTU_GENERACION_E
0,TI,COLOMBIA,M,02/18/2002 12:00:00 AM,20194,SB11201940031558,ESTUDIANTE,No,COLOMBIA,-,...,54,67,A1,208,25,50.9421557404314,2,2,PUBLICAR,NO
1,TI,COLOMBIA,M,06/28/2003 12:00:00 AM,20194,SB11201940303339,ESTUDIANTE,No,COLOMBIA,-,...,63,88,A2,299,83,59.767864431576,3,4,PUBLICAR,NO
2,TI,COLOMBIA,M,06/02/2001 12:00:00 AM,20194,SB11201940255017,ESTUDIANTE,No,COLOMBIA,-,...,64,89,A2,299,84,50.7642383644749,2,3,PUBLICAR,GENERACION E - GRATUIDAD
3,TI,COLOMBIA,M,04/26/2002 12:00:00 AM,20194,SB11201940154799,ESTUDIANTE,Si,COLOMBIA,Ninguno,...,53,67,A1,309,88,45.7791353123516,2,3,PUBLICAR,GENERACION E - GRATUIDAD
4,TI,COLOMBIA,M,02/05/2002 12:00:00 AM,20194,SB11201940280831,ESTUDIANTE,No,COLOMBIA,-,...,52,63,A1,288,78,52.9109464277177,3,3,PUBLICAR,NO
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
546207,CC,COLOMBIA,M,02/25/1999 12:00:00 AM,20194,SB11201940195862,ESTUDIANTE,No,COLOMBIA,-,...,58,79,A2,360,99,47.5807720132296,2,2,PUBLICAR,GENERACION E - EXCELENCIA NACIONAL
546208,TI,COLOMBIA,M,10/14/2002 12:00:00 AM,20194,SB11201940253002,ESTUDIANTE,No,COLOMBIA,-,...,74,97,B1,360,99,57.406418472062,3,4,PUBLICAR,GENERACION E - EXCELENCIA NACIONAL
546209,TI,COLOMBIA,M,11/22/2002 12:00:00 AM,20194,SB11201940364767,ESTUDIANTE,No,COLOMBIA,-,...,72,96,B1,377,100,71.2254308010465,4,3,PUBLICAR,GENERACION E - EXCELENCIA DEPARTAMENTAL
546210,TI,COLOMBIA,M,11/10/2002 12:00:00 AM,20194,SB11201940210026,ESTUDIANTE,No,COLOMBIA,-,...,46,45,A-,278,73,38.1334451267846,1,2,PUBLICAR,GENERACION E - GRATUIDAD
