#📊 Introducción

En este documento presentaremos el análisis exploratorio inicial de una base de datos, como introducción al proyecto de análisis que se desarrollará posteriormente. Este primer acercamiento tiene como objetivo validar la utilidad de los datos descargados y verificar si cumplen con los requerimientos del proyecto planteado.
****
#📚 Referencias
La base de datos utilizada proviene del repositorio público del ICFES, el cual contiene información relevante para procesos de investigación educativa:

🔗 Repositorio de datos ICFES

En particular, trabajaremos con la base de datos denominada “SaberTyT_Genericas_20161”.

También puedes consultar el documento con los requerimientos del proyecto en el siguiente enlace:

📄 Documento del proyecto
****
#🎯 Objetivo del análisis inicial
La finalidad de este ejercicio es:



*   Confirmar que la información contenida en el dataset es útil para el proyecto.
*   Comprobar la estructura y limpieza de los datos.
*   Evaluar si cumple con los requerimientos técnicos y de calidad para continuar con el análisis profundo.
****

**🧪 Pasos para el análisis exploratorio**


1. Importar las librerías necesarias para el análisis de datos en Python.

2. Cargar la base de datos desde su ubicación (URL o local).

3. Verificar el formato de los datos (delimitador, codificación, etc.).

4. Realizar la separación adecuada si es necesario (por ejemplo, si viene todo en una columna).

5. Visualizar las primeras 10 filas para un vistazo inicial.

6. Obtener información general del dataset, incluyendo:

  * Número de registros

  * Tipos de datos por columna

  * Cantidad de valores nulos (NaN)





In [50]:
import pandas as pd
import requests
import matplotlib.pyplot as plt
import seaborn as sns
import numpy as np

# Importacion de la base de datos
****
Importamos la base de datos de una URL compartida en la carpeta de Drive

[Ingrese aqui ](https://drive.google.com/drive/folders/1Il64V26PqSmhFObNkd02JeKf38FiF5wE?usp=sharing) ☁️
****


In [52]:
df = pd.read_csv('/content/SaberTyT_Genericas_20161 - Data.csv',header=0)
df

Unnamed: 0,ESTU_TIPODOCUMENTO,ESTU_NACIONALIDAD,ESTU_GENERO,ESTU_FECHANACIMIENTO,PERIODO,ESTU_CONSECUTIVO,ESTU_ESTUDIANTE,ESTU_PAIS_RESIDE,ESTU_ETNIA,ESTU_LIMITA_MOTRIZ,...,MOD_INGLES_PGREF,MOD_COMUNI_ESCRITA_PUNT,MOD_COMUNI_ESCRITA_DESEM,MOD_COMUNI_ESCRITA_PNAL,MOD_COMUNI_ESCRITA_PGREF,PUNT_GLOBAL,PERCENTIL_GLOBAL,ESTU_INSE_INDIVIDUAL,ESTU_NSE_INDIVIDUAL,ESTU_ESTADOINVESTIGACION
0,CC,COLOMBIA,F,31/05/1986,20161,EK201610012158,ESTUDIANTE,COLOMBIA,,,...,50,86.0,2.0,24.0,22.0,90,26,5.385.172.761,NSE2,PUBLICAR
1,CC,COLOMBIA,M,09/10/1989,20161,EK201610077004,ESTUDIANTE,COLOMBIA,,,...,78,55.0,1.0,3.0,2.0,107,70,5.666.296.399,NSE3,PUBLICAR
2,CC,COLOMBIA,F,14/03/1992,20161,EK201610025888,ESTUDIANTE,COLOMBIA,,,...,90,103.0,2.0,50.0,48.0,108,72,5.511.513.238,NSE2,PUBLICAR
3,CC,COLOMBIA,M,01/01/1996,20161,EK201610000367,ESTUDIANTE,COLOMBIA,,,...,21,115.0,3.0,78.0,79.0,91,28,4.621.040.464,NSE2,PUBLICAR
4,CC,COLOMBIA,F,05/06/1990,20161,EK201610064121,ESTUDIANTE,COLOMBIA,,,...,4,112.0,3.0,70.0,73.0,107,70,4.388.827.868,NSE1,PUBLICAR
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
2880,CC,COLOMBIA,F,13/03/1996,20161,EK201610021647,ESTUDIANTE,COLOMBIA,,,...,89,114.0,3.0,75.0,74.0,102,57,6.380.967.173,NSE4,PUBLICAR
2881,CC,COLOMBIA,M,19/11/1994,20161,EK201610015500,ESTUDIANTE,COLOMBIA,,,...,78,105.0,3.0,56.0,54.0,118,89,5.763.115.059,NSE3,PUBLICAR
2882,CC,COLOMBIA,M,08/12/1993,20161,EK201610076643,ESTUDIANTE,COLOMBIA,,,...,13,95.0,2.0,38.0,34.0,84,14,3.684.667.505,NSE1,PUBLICAR
2883,CC,COLOMBIA,F,27/09/1991,20161,EK201610025233,ESTUDIANTE,COLOMBIA,,,...,36,119.0,3.0,83.0,82.0,96,41,5.166.654.076,NSE2,PUBLICAR
