
# Exploración de Datos - VisualizacionAonline.txt

En este notebook realizaremos una exploración completa de la base de datos de Visualización A Online, incluyendo:

1. Carga de datos
2. Información general del dataset
3. Análisis de columnas
4. Estadísticas descriptivas
5. Diccionario de datos

In [1]:
# 1. Importar librerías necesarias
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from sklearn.preprocessing import LabelEncoder, StandardScaler
from sklearn.model_selection import train_test_split
import warnings
warnings.filterwarnings('ignore')

# Configuración para mostrar todas las columnas
pd.set_option('display.max_columns', None)
pd.set_option('display.width', None)

print("Librerías importadas correctamente")

Librerías importadas correctamente


In [13]:
# 2. Cargar los datos desde el archivo VisualizacionAonline.txt
try:
    # Intentar cargar el archivo como CSV separado por tabulaciones
    df = pd.read_csv(r'BD\VisualizacionAonline.txt', sep='\t', encoding='utf-8')
    print("Datos cargados exitosamente con separador de tabulación")
except:
    try:
        # Si falla, intentar con separador de punto y coma
        df = pd.read_csv(r'BD\VisualizacionAonline.txt', sep=';', encoding='utf-8')
        print("Datos cargados exitosamente con separador punto y coma")
    except:
        try:
            # Si falla, intentar con separador de coma
            df = pd.read_csv(r'BD\VisualizacionAonline.txt', sep=',', encoding='utf-8')
            print("Datos cargados exitosamente con separador de coma")
        except Exception as e:
            print(f"Error al cargar el archivo: {e}")
            df = None

if df is not None:
    print(f"Dataset cargado con {df.shape[0]:,} filas y {df.shape[1]} columnas")

Datos cargados exitosamente con separador de tabulación
Dataset cargado con 2,827,333 filas y 13 columnas


In [14]:
# 3. Información General del Dataset
if df is not None:
    print("=" * 60)
    print("INFORMACIÓN GENERAL DEL DATASET")
    print("=" * 60)
    
    # Cantidad de registros y columnas
    print(f"Cantidad de registros (filas): {df.shape[0]:,}")
    print(f"Cantidad de columnas: {df.shape[1]}")
    
    print("\n" + "=" * 60)
    print("NOMBRES DE LAS COLUMNAS")
    print("=" * 60)
    
    # Mostrar nombres de columnas numeradas
    for i, col in enumerate(df.columns, 1):
        print(f"{i:2d}. {col}")
    
    print(f"\nTotal de columnas: {len(df.columns)}")
else:
    print("No se pudo cargar el dataset para análisis")

INFORMACIÓN GENERAL DEL DATASET
Cantidad de registros (filas): 2,827,333
Cantidad de columnas: 13

NOMBRES DE LAS COLUMNAS
 1. Unnamed: 0
 2. CodigoMatricula
 3. OrdenCapitulo
 4. Capitulo
 5. NumeroSeccion
 6. OrdenSeccion
 7. DuracionVideo
 8. EstadoVideo
 9. FechaFinVisualizacion
10. Duración Final
11. FechaFinPrograma
12. FechaMatricula
13. AtipicoEstadoAlumno2

Total de columnas: 13


In [15]:
# 4. Análisis de Tipos de Datos y Valores Faltantes
if df is not None:
    print("=" * 60)
    print("🔍 ANÁLISIS DE TIPOS DE DATOS Y VALORES FALTANTES")
    print("=" * 60)
    
    # Información general usando info()
    print("📋 Información general del DataFrame:")
    df.info(memory_usage='deep')
    
    print("\n" + "=" * 60)
    print("🕳️ ANÁLISIS DE VALORES FALTANTES")
    print("=" * 60)
    
    # Crear resumen de valores faltantes
    missing_data = pd.DataFrame({
        'Columna': df.columns,
        'Valores_Faltantes': df.isnull().sum(),
        'Porcentaje_Faltantes': (df.isnull().sum() / len(df)) * 100,
        'Tipo_Dato': df.dtypes
    })
    
    # Filtrar solo columnas con valores faltantes
    missing_data_filtered = missing_data[missing_data['Valores_Faltantes'] > 0].sort_values('Porcentaje_Faltantes', ascending=False)
    
    if len(missing_data_filtered) > 0:
        print("Columnas con valores faltantes:")
        print(missing_data_filtered.to_string(index=False))
    else:
        print("✅ No hay valores faltantes en el dataset")
    
    print(f"\n📊 Total de columnas con valores faltantes: {len(missing_data_filtered)}")
else:
    print("❌ No se pudo realizar el análisis de tipos de datos")

🔍 ANÁLISIS DE TIPOS DE DATOS Y VALORES FALTANTES
📋 Información general del DataFrame:
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 2827333 entries, 0 to 2827332
Data columns (total 13 columns):
 #   Column                 Dtype  
---  ------                 -----  
 0   Unnamed: 0             int64  
 1   CodigoMatricula        object 
 2   OrdenCapitulo          int64  
 3   Capitulo               object 
 4   NumeroSeccion          int64  
 5   OrdenSeccion           int64  
 6   DuracionVideo          float64
 7   EstadoVideo            object 
 8   FechaFinVisualizacion  object 
 9   Duración Final         float64
 10  FechaFinPrograma       object 
 11  FechaMatricula         object 
 12  AtipicoEstadoAlumno2   object 
dtypes: float64(2), int64(4), object(7)
memory usage: 1.2 GB

🕳️ ANÁLISIS DE VALORES FALTANTES
Columnas con valores faltantes:
              Columna  Valores_Faltantes  Porcentaje_Faltantes Tipo_Dato
 AtipicoEstadoAlumno2            2180265             77.11383

In [16]:
# 5. Estadísticas Descriptivas
if df is not None:
    print("=" * 60)
    print("📊 ESTADÍSTICAS DESCRIPTIVAS")
    print("=" * 60)
    
    # Separar columnas numéricas y categóricas
    numeric_cols = df.select_dtypes(include=[np.number]).columns.tolist()
    categorical_cols = df.select_dtypes(include=['object', 'category']).columns.tolist()
    
    print(f"🔢 Columnas numéricas: {len(numeric_cols)}")
    print(f"📝 Columnas categóricas: {len(categorical_cols)}")
    
    # Estadísticas para columnas numéricas
    if len(numeric_cols) > 0:
        print("\n" + "-" * 40)
        print("🔢 ESTADÍSTICAS DE COLUMNAS NUMÉRICAS")
        print("-" * 40)
        
        desc_stats = df[numeric_cols].describe()
        print(desc_stats)
        
        # Información adicional para numéricas
        print("\n📈 Información adicional de columnas numéricas:")
        for col in numeric_cols:
            print(f"\n{col}:")
            print(f"  • Min: {df[col].min()}")
            print(f"  • Max: {df[col].max()}")
            print(f"  • Valores únicos: {df[col].nunique()}")
            print(f"  • Valores nulos: {df[col].isnull().sum()}")
    
    # Estadísticas para columnas categóricas
    if len(categorical_cols) > 0:
        print("\n" + "-" * 40)
        print("📝 ESTADÍSTICAS DE COLUMNAS CATEGÓRICAS")
        print("-" * 40)
        
        for col in categorical_cols[:10]:  # Mostrar solo las primeras 10
            print(f"\n🏷️ {col}:")
            print(f"  • Valores únicos: {df[col].nunique()}")
            print(f"  • Valores nulos: {df[col].isnull().sum()}")
            print(f"  • Valor más frecuente: {df[col].mode().iloc[0] if len(df[col].mode()) > 0 else 'N/A'}")
            
            # Top 5 valores más frecuentes
            top_values = df[col].value_counts().head(5)
            print(f"  • Top 5 valores:")
            for idx, (value, count) in enumerate(top_values.items(), 1):
                print(f"    {idx}. {value}: {count} ({count/len(df)*100:.1f}%)")
        
        if len(categorical_cols) > 10:
            print(f"\n... y {len(categorical_cols) - 10} columnas categóricas más")
else:
    print("❌ No se pudo realizar el análisis estadístico")

📊 ESTADÍSTICAS DESCRIPTIVAS
🔢 Columnas numéricas: 6
📝 Columnas categóricas: 7

----------------------------------------
🔢 ESTADÍSTICAS DE COLUMNAS NUMÉRICAS
----------------------------------------
         Unnamed: 0  OrdenCapitulo  NumeroSeccion  OrdenSeccion  \
count  2.827333e+06   2.827333e+06   2.827333e+06  2.827333e+06   
mean   1.413666e+06   3.308254e+00   1.420855e+01  3.471276e+01   
std    8.161809e+05   2.616808e+00   6.034581e+00  3.497319e+01   
min    0.000000e+00   0.000000e+00   1.300000e+01  1.000000e+00   
25%    7.068330e+05   1.000000e+00   1.400000e+01  1.100000e+01   
50%    1.413666e+06   2.000000e+00   1.400000e+01  2.400000e+01   
75%    2.120499e+06   4.000000e+00   1.400000e+01  4.300000e+01   
max    2.827332e+06   2.100000e+01   1.160000e+02  2.440000e+02   

       DuracionVideo  Duración Final  
count   2.782785e+06    2.827333e+06  
mean    1.971600e+01    5.343220e+00  
std     1.311115e+01    1.023920e+01  
min     2.500000e-01    0.000000e+00  
25%

In [None]:
# 6. Diccionario de Datos
if df is not None:
    print("=" * 60)
    print("📖 DICCIONARIO DE DATOS")
    print("=" * 60)
    
    # Crear diccionario de datos completo
    data_dict = []
    
    for col in df.columns:
        # Información básica
        col_info = {
            'Campo': col,
            'Tipo_Dato': str(df[col].dtype),
            'Valores_Unicos': df[col].nunique(),
            'Valores_Nulos': df[col].isnull().sum(),
            'Porcentaje_Nulos': round((df[col].isnull().sum() / len(df)) * 100, 2),
        }
        
        # Información específica según tipo de dato
        if df[col].dtype in ['int64', 'float64', 'int32', 'float32']:
            col_info.update({
                'Valor_Min': df[col].min(),
                'Valor_Max': df[col].max(),
                'Media': round(df[col].mean(), 2) if df[col].notna().any() else None,
                'Mediana': round(df[col].median(), 2) if df[col].notna().any() else None,
                'Descripcion': f'Variable numérica con rango de {df[col].min()} a {df[col].max()}'
            })
        else:
            # Para variables categóricas
            top_value = df[col].mode().iloc[0] if len(df[col].mode()) > 0 else 'N/A'
            col_info.update({
                'Valor_Min': 'N/A',
                'Valor_Max': 'N/A', 
                'Media': 'N/A',
                'Mediana': 'N/A',
                'Valor_Mas_Frecuente': top_value,
                'Descripcion': f'Variable categórica con {df[col].nunique()} valores únicos. Más frecuente: {top_value}'
            })
        
        data_dict.append(col_info)
    
    # Convertir a DataFrame para mejor visualización
    dict_df = pd.DataFrame(data_dict)
    
    print("Resumen del Diccionario de Datos:")
    print(dict_df[['Campo', 'Tipo_Dato', 'Valores_Unicos', 'Porcentaje_Nulos', 'Descripcion']].to_string(index=False))
    
    # Guardar diccionario completo
    print(f"\n💾 Diccionario completo guardado en variable 'dict_df'")
    print(f"📊 Total de campos analizados: {len(dict_df)}")
    
else:
    print("❌ No se pudo crear el diccionario de datos")

📖 DICCIONARIO DE DATOS
📋 Resumen del Diccionario de Datos:
                Campo Tipo_Dato  Valores_Unicos  Porcentaje_Nulos                                                                           Descripcion
           Unnamed: 0     int64         2827333              0.00                                            Variable numérica con rango de 0 a 2827332
      CodigoMatricula    object           19664              0.00           Variable categórica con 19664 valores únicos. Más frecuente: 10112015A21938
        OrdenCapitulo     int64              22              0.00                                                 Variable numérica con rango de 0 a 21
             Capitulo    object            1933              0.00      Variable categórica con 1933 valores únicos. Más frecuente: Conceptos de Calidad
        NumeroSeccion     int64               3              0.00                                               Variable numérica con rango de 13 a 116
         OrdenSeccion     int

In [18]:
# 6.1. Diccionario de Datos Simplificado (Solo Campo y Descripción)
if df is not None:
    print("=" * 60)
    print("📋 DICCIONARIO DE DATOS SIMPLIFICADO")
    print("=" * 60)
    
    # Crear diccionario simplificado con solo campo y descripción
    diccionario_simple = []
    
    for col in df.columns:
        # Generar descripción basada en el tipo de dato
        if df[col].dtype in ['int64', 'float64', 'int32', 'float32']:
            # Para variables numéricas
            min_val = df[col].min()
            max_val = df[col].max()
            valores_unicos = df[col].nunique()
            
            if valores_unicos <= 10:
                descripcion = f"Variable numérica discreta con {valores_unicos} valores únicos (rango: {min_val} - {max_val})"
            else:
                descripcion = f"Variable numérica continua (rango: {min_val} - {max_val})"
        else:
            # Para variables categóricas
            valores_unicos = df[col].nunique()
            top_value = df[col].mode().iloc[0] if len(df[col].mode()) > 0 else 'N/A'
            
            if valores_unicos <= 5:
                descripcion = f"Variable categórica con {valores_unicos} categorías. Valor predominante: '{top_value}'"
            elif valores_unicos <= 20:
                descripcion = f"Variable categórica con {valores_unicos} categorías diferentes"
            else:
                descripcion = f"Variable de texto/identificador con {valores_unicos} valores únicos"
        
        # Agregar información sobre valores nulos si los hay
        nulos = df[col].isnull().sum()
        if nulos > 0:
            porcentaje_nulos = (nulos / len(df)) * 100
            descripcion += f" (Contiene {nulos} valores nulos - {porcentaje_nulos:.1f}%)"
        
        diccionario_simple.append({
            'Campo': col,
            'Descripción': descripcion
        })
    
    # Convertir a DataFrame
    dict_simple_df = pd.DataFrame(diccionario_simple)
    
    # Mostrar el diccionario simplificado
    print("📖 Diccionario de Campos:")
    print("-" * 60)
    for idx, row in dict_simple_df.iterrows():
        print(f"{idx+1:2d}. {row['Campo']}")
        print(f"    {row['Descripción']}")
        print()
    
    # Guardar diccionario simplificado
    try:
        dict_simple_df.to_excel('Diccionario_Simple_VisualizacionAonline.xlsx', index=False)
        print("✅ Diccionario simplificado guardado en 'Diccionario_Simple_VisualizacionAonline.xlsx'")
    except Exception as e:
        print(f"⚠️ Error al guardar diccionario simplificado: {e}")
    
    print(f"\n📊 Total de campos documentados: {len(dict_simple_df)}")
    
else:
    print("❌ No se pudo crear el diccionario simplificado")

📋 DICCIONARIO DE DATOS SIMPLIFICADO
📖 Diccionario de Campos:
------------------------------------------------------------
 1. Unnamed: 0
    Variable numérica continua (rango: 0 - 2827332)

 2. CodigoMatricula
    Variable de texto/identificador con 19664 valores únicos

 3. OrdenCapitulo
    Variable numérica continua (rango: 0 - 21)

 4. Capitulo
    Variable de texto/identificador con 1933 valores únicos

 5. NumeroSeccion
    Variable numérica discreta con 3 valores únicos (rango: 13 - 116)

 6. OrdenSeccion
    Variable numérica continua (rango: 1 - 244)

 7. DuracionVideo
    Variable numérica continua (rango: 0.25 - 719.98) (Contiene 44548 valores nulos - 1.6%)

 8. EstadoVideo
    Variable categórica con 1 categorías. Valor predominante: 'True' (Contiene 1973393 valores nulos - 69.8%)

 9. FechaFinVisualizacion
    Variable de texto/identificador con 813633 valores únicos (Contiene 2010397 valores nulos - 71.1%)

10. Duración Final
    Variable numérica continua (rango: 0.0 - 7

In [None]:
# 7. Muestra de Datos y Visualizaciones Básicas
if df is not None:
    print("=" * 60)
    print("👀 MUESTRA DE DATOS")
    print("=" * 60)
    
    print("🔝 Primeras 5 filas del dataset:")
    display(df.head())
    
    print("\n🔻 Últimas 5 filas del dataset:")
    display(df.tail())
    
    print("\n🎲 Muestra aleatoria de 5 filas:")
    display(df.sample(5, random_state=42))
    
    # Análisis de duplicados
    duplicates = df.duplicated().sum()
    print(f"\n🔄 Registros duplicados: {duplicates}")
    if duplicates > 0:
        print(f"   Porcentaje de duplicados: {(duplicates/len(df)*100):.2f}%")
    
    # Resumen final
    print("\n" + "=" * 60)
    print("📋 RESUMEN EJECUTIVO")
    print("=" * 60)
    print(f"• Total de registros: {df.shape[0]:,}")
    print(f"• Total de columnas: {df.shape[1]}")
    print(f"• Columnas numéricas: {len(df.select_dtypes(include=[np.number]).columns)}")
    print(f"• Columnas categóricas: {len(df.select_dtypes(include=['object', 'category']).columns)}")
    print(f"• Registros duplicados: {duplicates}")
    print(f"• Columnas con valores faltantes: {len([col for col in df.columns if df[col].isnull().sum() > 0])}")
    print(f"• Tamaño en memoria: {df.memory_usage(deep=True).sum() / 1024**2:.2f} MB")
    
else:
    print("❌ No se pudo mostrar la muestra de datos")

In [None]:
# 8. Exportar Resultados y Guardar Diccionario
if df is not None:
    print("=" * 60)
    print("💾 EXPORTACIÓN DE RESULTADOS")
    print("=" * 60)
    
    try:
        # Guardar diccionario de datos en Excel
        dict_df.to_excel('Diccionario_Datos_VisualizacionAonline.xlsx', index=False)
        print("✅ Diccionario de datos guardado en 'Diccionario_Datos_VisualizacionAonline.xlsx'")
        
        # Guardar resumen estadístico
        if len(df.select_dtypes(include=[np.number]).columns) > 0:
            df.describe().to_excel('Estadisticas_Descriptivas_VisualizacionAonline.xlsx')
            print("✅ Estadísticas descriptivas guardadas en 'Estadisticas_Descriptivas_VisualizacionAonline.xlsx'")
        
        # Crear un reporte de calidad de datos
        quality_report = {
            'Metrica': [
                'Total de Registros',
                'Total de Columnas', 
                'Columnas Numéricas',
                'Columnas Categóricas',
                'Registros Duplicados',
                'Columnas con Valores Faltantes',
                'Porcentaje de Completitud',
                'Tamaño en Memoria (MB)'
            ],
            'Valor': [
                f"{df.shape[0]:,}",
                df.shape[1],
                len(df.select_dtypes(include=[np.number]).columns),
                len(df.select_dtypes(include=['object', 'category']).columns),
                df.duplicated().sum(),
                len([col for col in df.columns if df[col].isnull().sum() > 0]),
                f"{((df.notna().sum().sum() / (df.shape[0] * df.shape[1])) * 100):.2f}%",
                f"{df.memory_usage(deep=True).sum() / 1024**2:.2f}"
            ]
        }
        
        quality_df = pd.DataFrame(quality_report)
        quality_df.to_excel('Reporte_Calidad_Datos_VisualizacionAonline.xlsx', index=False)
        print("✅ Reporte de calidad de datos guardado en 'Reporte_Calidad_Datos_VisualizacionAonline.xlsx'")
        
        print("\n📊 Archivos generados:")
        print("  1. Diccionario_Datos_VisualizacionAonline.xlsx")
        print("  2. Estadisticas_Descriptivas_VisualizacionAonline.xlsx")  
        print("  3. Reporte_Calidad_Datos_VisualizacionAonline.xlsx")
        
    except Exception as e:
        print(f"❌ Error al guardar archivos: {e}")
        
    print("\n🎉 ¡Exploración de datos completada exitosamente!")
    
else:
    print("❌ No se pudieron exportar los resultados")