
# Exploraci√≥n de Datos - VisualizacionAonline.txt

En este notebook realizaremos una exploraci√≥n completa de la base de datos de Visualizaci√≥n A Online, incluyendo:

1. Carga de datos
2. Informaci√≥n general del dataset
3. An√°lisis de columnas
4. Estad√≠sticas descriptivas
5. Diccionario de datos

In [1]:
# 1. Importar librer√≠as necesarias
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from sklearn.preprocessing import LabelEncoder, StandardScaler
from sklearn.model_selection import train_test_split
import warnings
warnings.filterwarnings('ignore')

# Configuraci√≥n para mostrar todas las columnas
pd.set_option('display.max_columns', None)
pd.set_option('display.width', None)

print("Librer√≠as importadas correctamente")

Librer√≠as importadas correctamente


In [13]:
# 2. Cargar los datos desde el archivo VisualizacionAonline.txt
try:
    # Intentar cargar el archivo como CSV separado por tabulaciones
    df = pd.read_csv(r'BD\VisualizacionAonline.txt', sep='\t', encoding='utf-8')
    print("Datos cargados exitosamente con separador de tabulaci√≥n")
except:
    try:
        # Si falla, intentar con separador de punto y coma
        df = pd.read_csv(r'BD\VisualizacionAonline.txt', sep=';', encoding='utf-8')
        print("Datos cargados exitosamente con separador punto y coma")
    except:
        try:
            # Si falla, intentar con separador de coma
            df = pd.read_csv(r'BD\VisualizacionAonline.txt', sep=',', encoding='utf-8')
            print("Datos cargados exitosamente con separador de coma")
        except Exception as e:
            print(f"Error al cargar el archivo: {e}")
            df = None

if df is not None:
    print(f"Dataset cargado con {df.shape[0]:,} filas y {df.shape[1]} columnas")

Datos cargados exitosamente con separador de tabulaci√≥n
Dataset cargado con 2,827,333 filas y 13 columnas


In [14]:
# 3. Informaci√≥n General del Dataset
if df is not None:
    print("=" * 60)
    print("INFORMACI√ìN GENERAL DEL DATASET")
    print("=" * 60)
    
    # Cantidad de registros y columnas
    print(f"Cantidad de registros (filas): {df.shape[0]:,}")
    print(f"Cantidad de columnas: {df.shape[1]}")
    
    print("\n" + "=" * 60)
    print("NOMBRES DE LAS COLUMNAS")
    print("=" * 60)
    
    # Mostrar nombres de columnas numeradas
    for i, col in enumerate(df.columns, 1):
        print(f"{i:2d}. {col}")
    
    print(f"\nTotal de columnas: {len(df.columns)}")
else:
    print("No se pudo cargar el dataset para an√°lisis")

INFORMACI√ìN GENERAL DEL DATASET
Cantidad de registros (filas): 2,827,333
Cantidad de columnas: 13

NOMBRES DE LAS COLUMNAS
 1. Unnamed: 0
 2. CodigoMatricula
 3. OrdenCapitulo
 4. Capitulo
 5. NumeroSeccion
 6. OrdenSeccion
 7. DuracionVideo
 8. EstadoVideo
 9. FechaFinVisualizacion
10. Duraci√≥n Final
11. FechaFinPrograma
12. FechaMatricula
13. AtipicoEstadoAlumno2

Total de columnas: 13


In [15]:
# 4. An√°lisis de Tipos de Datos y Valores Faltantes
if df is not None:
    print("=" * 60)
    print("üîç AN√ÅLISIS DE TIPOS DE DATOS Y VALORES FALTANTES")
    print("=" * 60)
    
    # Informaci√≥n general usando info()
    print("üìã Informaci√≥n general del DataFrame:")
    df.info(memory_usage='deep')
    
    print("\n" + "=" * 60)
    print("üï≥Ô∏è AN√ÅLISIS DE VALORES FALTANTES")
    print("=" * 60)
    
    # Crear resumen de valores faltantes
    missing_data = pd.DataFrame({
        'Columna': df.columns,
        'Valores_Faltantes': df.isnull().sum(),
        'Porcentaje_Faltantes': (df.isnull().sum() / len(df)) * 100,
        'Tipo_Dato': df.dtypes
    })
    
    # Filtrar solo columnas con valores faltantes
    missing_data_filtered = missing_data[missing_data['Valores_Faltantes'] > 0].sort_values('Porcentaje_Faltantes', ascending=False)
    
    if len(missing_data_filtered) > 0:
        print("Columnas con valores faltantes:")
        print(missing_data_filtered.to_string(index=False))
    else:
        print("‚úÖ No hay valores faltantes en el dataset")
    
    print(f"\nüìä Total de columnas con valores faltantes: {len(missing_data_filtered)}")
else:
    print("‚ùå No se pudo realizar el an√°lisis de tipos de datos")

üîç AN√ÅLISIS DE TIPOS DE DATOS Y VALORES FALTANTES
üìã Informaci√≥n general del DataFrame:
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 2827333 entries, 0 to 2827332
Data columns (total 13 columns):
 #   Column                 Dtype  
---  ------                 -----  
 0   Unnamed: 0             int64  
 1   CodigoMatricula        object 
 2   OrdenCapitulo          int64  
 3   Capitulo               object 
 4   NumeroSeccion          int64  
 5   OrdenSeccion           int64  
 6   DuracionVideo          float64
 7   EstadoVideo            object 
 8   FechaFinVisualizacion  object 
 9   Duraci√≥n Final         float64
 10  FechaFinPrograma       object 
 11  FechaMatricula         object 
 12  AtipicoEstadoAlumno2   object 
dtypes: float64(2), int64(4), object(7)
memory usage: 1.2 GB

üï≥Ô∏è AN√ÅLISIS DE VALORES FALTANTES
Columnas con valores faltantes:
              Columna  Valores_Faltantes  Porcentaje_Faltantes Tipo_Dato
 AtipicoEstadoAlumno2            2180265      

In [16]:
# 5. Estad√≠sticas Descriptivas
if df is not None:
    print("=" * 60)
    print("üìä ESTAD√çSTICAS DESCRIPTIVAS")
    print("=" * 60)
    
    # Separar columnas num√©ricas y categ√≥ricas
    numeric_cols = df.select_dtypes(include=[np.number]).columns.tolist()
    categorical_cols = df.select_dtypes(include=['object', 'category']).columns.tolist()
    
    print(f"üî¢ Columnas num√©ricas: {len(numeric_cols)}")
    print(f"üìù Columnas categ√≥ricas: {len(categorical_cols)}")
    
    # Estad√≠sticas para columnas num√©ricas
    if len(numeric_cols) > 0:
        print("\n" + "-" * 40)
        print("üî¢ ESTAD√çSTICAS DE COLUMNAS NUM√âRICAS")
        print("-" * 40)
        
        desc_stats = df[numeric_cols].describe()
        print(desc_stats)
        
        # Informaci√≥n adicional para num√©ricas
        print("\nüìà Informaci√≥n adicional de columnas num√©ricas:")
        for col in numeric_cols:
            print(f"\n{col}:")
            print(f"  ‚Ä¢ Min: {df[col].min()}")
            print(f"  ‚Ä¢ Max: {df[col].max()}")
            print(f"  ‚Ä¢ Valores √∫nicos: {df[col].nunique()}")
            print(f"  ‚Ä¢ Valores nulos: {df[col].isnull().sum()}")
    
    # Estad√≠sticas para columnas categ√≥ricas
    if len(categorical_cols) > 0:
        print("\n" + "-" * 40)
        print("üìù ESTAD√çSTICAS DE COLUMNAS CATEG√ìRICAS")
        print("-" * 40)
        
        for col in categorical_cols[:10]:  # Mostrar solo las primeras 10
            print(f"\nüè∑Ô∏è {col}:")
            print(f"  ‚Ä¢ Valores √∫nicos: {df[col].nunique()}")
            print(f"  ‚Ä¢ Valores nulos: {df[col].isnull().sum()}")
            print(f"  ‚Ä¢ Valor m√°s frecuente: {df[col].mode().iloc[0] if len(df[col].mode()) > 0 else 'N/A'}")
            
            # Top 5 valores m√°s frecuentes
            top_values = df[col].value_counts().head(5)
            print(f"  ‚Ä¢ Top 5 valores:")
            for idx, (value, count) in enumerate(top_values.items(), 1):
                print(f"    {idx}. {value}: {count} ({count/len(df)*100:.1f}%)")
        
        if len(categorical_cols) > 10:
            print(f"\n... y {len(categorical_cols) - 10} columnas categ√≥ricas m√°s")
else:
    print("‚ùå No se pudo realizar el an√°lisis estad√≠stico")

üìä ESTAD√çSTICAS DESCRIPTIVAS
üî¢ Columnas num√©ricas: 6
üìù Columnas categ√≥ricas: 7

----------------------------------------
üî¢ ESTAD√çSTICAS DE COLUMNAS NUM√âRICAS
----------------------------------------
         Unnamed: 0  OrdenCapitulo  NumeroSeccion  OrdenSeccion  \
count  2.827333e+06   2.827333e+06   2.827333e+06  2.827333e+06   
mean   1.413666e+06   3.308254e+00   1.420855e+01  3.471276e+01   
std    8.161809e+05   2.616808e+00   6.034581e+00  3.497319e+01   
min    0.000000e+00   0.000000e+00   1.300000e+01  1.000000e+00   
25%    7.068330e+05   1.000000e+00   1.400000e+01  1.100000e+01   
50%    1.413666e+06   2.000000e+00   1.400000e+01  2.400000e+01   
75%    2.120499e+06   4.000000e+00   1.400000e+01  4.300000e+01   
max    2.827332e+06   2.100000e+01   1.160000e+02  2.440000e+02   

       DuracionVideo  Duraci√≥n Final  
count   2.782785e+06    2.827333e+06  
mean    1.971600e+01    5.343220e+00  
std     1.311115e+01    1.023920e+01  
min     2.500000e-01    

In [None]:
# 6. Diccionario de Datos
if df is not None:
    print("=" * 60)
    print("üìñ DICCIONARIO DE DATOS")
    print("=" * 60)
    
    # Crear diccionario de datos completo
    data_dict = []
    
    for col in df.columns:
        # Informaci√≥n b√°sica
        col_info = {
            'Campo': col,
            'Tipo_Dato': str(df[col].dtype),
            'Valores_Unicos': df[col].nunique(),
            'Valores_Nulos': df[col].isnull().sum(),
            'Porcentaje_Nulos': round((df[col].isnull().sum() / len(df)) * 100, 2),
        }
        
        # Informaci√≥n espec√≠fica seg√∫n tipo de dato
        if df[col].dtype in ['int64', 'float64', 'int32', 'float32']:
            col_info.update({
                'Valor_Min': df[col].min(),
                'Valor_Max': df[col].max(),
                'Media': round(df[col].mean(), 2) if df[col].notna().any() else None,
                'Mediana': round(df[col].median(), 2) if df[col].notna().any() else None,
                'Descripcion': f'Variable num√©rica con rango de {df[col].min()} a {df[col].max()}'
            })
        else:
            # Para variables categ√≥ricas
            top_value = df[col].mode().iloc[0] if len(df[col].mode()) > 0 else 'N/A'
            col_info.update({
                'Valor_Min': 'N/A',
                'Valor_Max': 'N/A', 
                'Media': 'N/A',
                'Mediana': 'N/A',
                'Valor_Mas_Frecuente': top_value,
                'Descripcion': f'Variable categ√≥rica con {df[col].nunique()} valores √∫nicos. M√°s frecuente: {top_value}'
            })
        
        data_dict.append(col_info)
    
    # Convertir a DataFrame para mejor visualizaci√≥n
    dict_df = pd.DataFrame(data_dict)
    
    print("Resumen del Diccionario de Datos:")
    print(dict_df[['Campo', 'Tipo_Dato', 'Valores_Unicos', 'Porcentaje_Nulos', 'Descripcion']].to_string(index=False))
    
    # Guardar diccionario completo
    print(f"\nüíæ Diccionario completo guardado en variable 'dict_df'")
    print(f"üìä Total de campos analizados: {len(dict_df)}")
    
else:
    print("‚ùå No se pudo crear el diccionario de datos")

üìñ DICCIONARIO DE DATOS
üìã Resumen del Diccionario de Datos:
                Campo Tipo_Dato  Valores_Unicos  Porcentaje_Nulos                                                                           Descripcion
           Unnamed: 0     int64         2827333              0.00                                            Variable num√©rica con rango de 0 a 2827332
      CodigoMatricula    object           19664              0.00           Variable categ√≥rica con 19664 valores √∫nicos. M√°s frecuente: 10112015A21938
        OrdenCapitulo     int64              22              0.00                                                 Variable num√©rica con rango de 0 a 21
             Capitulo    object            1933              0.00      Variable categ√≥rica con 1933 valores √∫nicos. M√°s frecuente: Conceptos de Calidad
        NumeroSeccion     int64               3              0.00                                               Variable num√©rica con rango de 13 a 116
         Orden

In [18]:
# 6.1. Diccionario de Datos Simplificado (Solo Campo y Descripci√≥n)
if df is not None:
    print("=" * 60)
    print("üìã DICCIONARIO DE DATOS SIMPLIFICADO")
    print("=" * 60)
    
    # Crear diccionario simplificado con solo campo y descripci√≥n
    diccionario_simple = []
    
    for col in df.columns:
        # Generar descripci√≥n basada en el tipo de dato
        if df[col].dtype in ['int64', 'float64', 'int32', 'float32']:
            # Para variables num√©ricas
            min_val = df[col].min()
            max_val = df[col].max()
            valores_unicos = df[col].nunique()
            
            if valores_unicos <= 10:
                descripcion = f"Variable num√©rica discreta con {valores_unicos} valores √∫nicos (rango: {min_val} - {max_val})"
            else:
                descripcion = f"Variable num√©rica continua (rango: {min_val} - {max_val})"
        else:
            # Para variables categ√≥ricas
            valores_unicos = df[col].nunique()
            top_value = df[col].mode().iloc[0] if len(df[col].mode()) > 0 else 'N/A'
            
            if valores_unicos <= 5:
                descripcion = f"Variable categ√≥rica con {valores_unicos} categor√≠as. Valor predominante: '{top_value}'"
            elif valores_unicos <= 20:
                descripcion = f"Variable categ√≥rica con {valores_unicos} categor√≠as diferentes"
            else:
                descripcion = f"Variable de texto/identificador con {valores_unicos} valores √∫nicos"
        
        # Agregar informaci√≥n sobre valores nulos si los hay
        nulos = df[col].isnull().sum()
        if nulos > 0:
            porcentaje_nulos = (nulos / len(df)) * 100
            descripcion += f" (Contiene {nulos} valores nulos - {porcentaje_nulos:.1f}%)"
        
        diccionario_simple.append({
            'Campo': col,
            'Descripci√≥n': descripcion
        })
    
    # Convertir a DataFrame
    dict_simple_df = pd.DataFrame(diccionario_simple)
    
    # Mostrar el diccionario simplificado
    print("üìñ Diccionario de Campos:")
    print("-" * 60)
    for idx, row in dict_simple_df.iterrows():
        print(f"{idx+1:2d}. {row['Campo']}")
        print(f"    {row['Descripci√≥n']}")
        print()
    
    # Guardar diccionario simplificado
    try:
        dict_simple_df.to_excel('Diccionario_Simple_VisualizacionAonline.xlsx', index=False)
        print("‚úÖ Diccionario simplificado guardado en 'Diccionario_Simple_VisualizacionAonline.xlsx'")
    except Exception as e:
        print(f"‚ö†Ô∏è Error al guardar diccionario simplificado: {e}")
    
    print(f"\nüìä Total de campos documentados: {len(dict_simple_df)}")
    
else:
    print("‚ùå No se pudo crear el diccionario simplificado")

üìã DICCIONARIO DE DATOS SIMPLIFICADO
üìñ Diccionario de Campos:
------------------------------------------------------------
 1. Unnamed: 0
    Variable num√©rica continua (rango: 0 - 2827332)

 2. CodigoMatricula
    Variable de texto/identificador con 19664 valores √∫nicos

 3. OrdenCapitulo
    Variable num√©rica continua (rango: 0 - 21)

 4. Capitulo
    Variable de texto/identificador con 1933 valores √∫nicos

 5. NumeroSeccion
    Variable num√©rica discreta con 3 valores √∫nicos (rango: 13 - 116)

 6. OrdenSeccion
    Variable num√©rica continua (rango: 1 - 244)

 7. DuracionVideo
    Variable num√©rica continua (rango: 0.25 - 719.98) (Contiene 44548 valores nulos - 1.6%)

 8. EstadoVideo
    Variable categ√≥rica con 1 categor√≠as. Valor predominante: 'True' (Contiene 1973393 valores nulos - 69.8%)

 9. FechaFinVisualizacion
    Variable de texto/identificador con 813633 valores √∫nicos (Contiene 2010397 valores nulos - 71.1%)

10. Duraci√≥n Final
    Variable num√©rica conti

In [None]:
# 7. Muestra de Datos y Visualizaciones B√°sicas
if df is not None:
    print("=" * 60)
    print("üëÄ MUESTRA DE DATOS")
    print("=" * 60)
    
    print("üîù Primeras 5 filas del dataset:")
    display(df.head())
    
    print("\nüîª √öltimas 5 filas del dataset:")
    display(df.tail())
    
    print("\nüé≤ Muestra aleatoria de 5 filas:")
    display(df.sample(5, random_state=42))
    
    # An√°lisis de duplicados
    duplicates = df.duplicated().sum()
    print(f"\nüîÑ Registros duplicados: {duplicates}")
    if duplicates > 0:
        print(f"   Porcentaje de duplicados: {(duplicates/len(df)*100):.2f}%")
    
    # Resumen final
    print("\n" + "=" * 60)
    print("üìã RESUMEN EJECUTIVO")
    print("=" * 60)
    print(f"‚Ä¢ Total de registros: {df.shape[0]:,}")
    print(f"‚Ä¢ Total de columnas: {df.shape[1]}")
    print(f"‚Ä¢ Columnas num√©ricas: {len(df.select_dtypes(include=[np.number]).columns)}")
    print(f"‚Ä¢ Columnas categ√≥ricas: {len(df.select_dtypes(include=['object', 'category']).columns)}")
    print(f"‚Ä¢ Registros duplicados: {duplicates}")
    print(f"‚Ä¢ Columnas con valores faltantes: {len([col for col in df.columns if df[col].isnull().sum() > 0])}")
    print(f"‚Ä¢ Tama√±o en memoria: {df.memory_usage(deep=True).sum() / 1024**2:.2f} MB")
    
else:
    print("‚ùå No se pudo mostrar la muestra de datos")

In [None]:
# 8. Exportar Resultados y Guardar Diccionario
if df is not None:
    print("=" * 60)
    print("üíæ EXPORTACI√ìN DE RESULTADOS")
    print("=" * 60)
    
    try:
        # Guardar diccionario de datos en Excel
        dict_df.to_excel('Diccionario_Datos_VisualizacionAonline.xlsx', index=False)
        print("‚úÖ Diccionario de datos guardado en 'Diccionario_Datos_VisualizacionAonline.xlsx'")
        
        # Guardar resumen estad√≠stico
        if len(df.select_dtypes(include=[np.number]).columns) > 0:
            df.describe().to_excel('Estadisticas_Descriptivas_VisualizacionAonline.xlsx')
            print("‚úÖ Estad√≠sticas descriptivas guardadas en 'Estadisticas_Descriptivas_VisualizacionAonline.xlsx'")
        
        # Crear un reporte de calidad de datos
        quality_report = {
            'Metrica': [
                'Total de Registros',
                'Total de Columnas', 
                'Columnas Num√©ricas',
                'Columnas Categ√≥ricas',
                'Registros Duplicados',
                'Columnas con Valores Faltantes',
                'Porcentaje de Completitud',
                'Tama√±o en Memoria (MB)'
            ],
            'Valor': [
                f"{df.shape[0]:,}",
                df.shape[1],
                len(df.select_dtypes(include=[np.number]).columns),
                len(df.select_dtypes(include=['object', 'category']).columns),
                df.duplicated().sum(),
                len([col for col in df.columns if df[col].isnull().sum() > 0]),
                f"{((df.notna().sum().sum() / (df.shape[0] * df.shape[1])) * 100):.2f}%",
                f"{df.memory_usage(deep=True).sum() / 1024**2:.2f}"
            ]
        }
        
        quality_df = pd.DataFrame(quality_report)
        quality_df.to_excel('Reporte_Calidad_Datos_VisualizacionAonline.xlsx', index=False)
        print("‚úÖ Reporte de calidad de datos guardado en 'Reporte_Calidad_Datos_VisualizacionAonline.xlsx'")
        
        print("\nüìä Archivos generados:")
        print("  1. Diccionario_Datos_VisualizacionAonline.xlsx")
        print("  2. Estadisticas_Descriptivas_VisualizacionAonline.xlsx")  
        print("  3. Reporte_Calidad_Datos_VisualizacionAonline.xlsx")
        
    except Exception as e:
        print(f"‚ùå Error al guardar archivos: {e}")
        
    print("\nüéâ ¬°Exploraci√≥n de datos completada exitosamente!")
    
else:
    print("‚ùå No se pudieron exportar los resultados")