In [1]:
# Paso 1: Cargar librerías necesarias
!pip install ydata-profiling # Ejecuta un comando de terminal para instalar el paquete 'ydata-profiling' desde PyPI.
                              # El signo '!' indica que se trata de una instrucción de shell en Google Colab.
                              # Esta librería permite generar informes automáticos de análisis exploratorio (EDA).
import pandas as pd  # Para manipular y analizar datos en forma de tablas (DataFrames)
from ydata_profiling import ProfileReport  # Para generar un informe exploratorio automático
from google.colab import files  # Para subir y descargar archivos en Google Colab

Collecting ydata-profiling
  Downloading ydata_profiling-4.16.1-py2.py3-none-any.whl.metadata (22 kB)
Collecting visions<0.8.2,>=0.7.5 (from visions[type_image_path]<0.8.2,>=0.7.5->ydata-profiling)
  Downloading visions-0.8.1-py3-none-any.whl.metadata (11 kB)
Collecting htmlmin==0.1.12 (from ydata-profiling)
  Downloading htmlmin-0.1.12.tar.gz (19 kB)
  Preparing metadata (setup.py) ... [?25l[?25hdone
Collecting phik<0.13,>=0.11.1 (from ydata-profiling)
  Downloading phik-0.12.4-cp311-cp311-manylinux_2_17_x86_64.manylinux2014_x86_64.whl.metadata (5.6 kB)
Collecting multimethod<2,>=1.4 (from ydata-profiling)
  Downloading multimethod-1.12-py3-none-any.whl.metadata (9.6 kB)
Collecting imagehash==4.3.1 (from ydata-profiling)
  Downloading ImageHash-4.3.1-py2.py3-none-any.whl.metadata (8.0 kB)
Collecting dacite>=1.8 (from ydata-profiling)
  Downloading dacite-1.9.2-py3-none-any.whl.metadata (17 kB)
Collecting puremagic (from visions<0.8.2,>=0.7.5->visions[type_image_path]<0.8.2,>=0.7.5->

In [2]:
# Cargar archivo Excel desde el equipo del usuario
uploaded = files.upload()  # Muestra un cuadro para subir archivos
file_name = list(uploaded.keys())[0]  # Obtiene el nombre del primer archivo subido
df = pd.read_excel(file_name, engine='openpyxl')  # Lee el archivo Excel en un DataFrame

Saving URL.xlsx to URL.xlsx


In [3]:
# Paso 2: Eliminar outliers (valores extremos) en la columna 'Link Density'
umbral_link_density = 1e6  # Se define un umbral de 1,000,000
df_clean = df[df['Link Density'] < umbral_link_density].copy()  # Se filtran solo las filas que cumplen la condición
print(f"Filtrado Link Density > {umbral_link_density}, filas restantes: {len(df_clean)}")  # Muestra cuántas filas quedan

Filtrado Link Density > 1000000.0, filas restantes: 796


In [4]:
# Paso 3: Definir las columnas numéricas y categóricas a usar en el análisis
num_cols = [
    'Link Density',
    'External Links Count',
    'Internal Links Count',
    'External IP Count',
    'HTTP Count',
    'HTTPS Count',
    'Non Count',
    'External Iframes Count',
    'Hidden Iframes Count',
    'If HTTPS',
]

cat_cols = [
    'Country',
    'Organization',
    'Certificate',
    'Whois_country',
    'type',
]

# Combinar columnas numéricas y categóricas, asegurándose de que existan en el DataFrame
cols_to_use = num_cols + cat_cols
cols_to_use = [c for c in cols_to_use if c in df_clean.columns]  # Solo se usan las columnas que realmente están presentes

In [5]:
# Paso 4: Crear nuevo DataFrame con las columnas seleccionadas
df_eda = df_clean[cols_to_use].copy()  # Se hace una copia para el análisis

# Convertir las columnas categóricas a tipo 'category' para optimizar rendimiento y análisis
for c in cat_cols:
    if c in df_eda.columns:
        df_eda[c] = df_eda[c].astype('category')

print(f"Columnas para EDA: {cols_to_use}")  # Muestra las columnas que se van a usar en el EDA

Columnas para EDA: ['Link Density', 'External Links Count', 'Internal Links Count', 'External IP Count', 'HTTP Count', 'HTTPS Count', 'Non Count', 'External Iframes Count', 'Hidden Iframes Count', 'If HTTPS', 'Country', 'Organization', 'Certificate', 'Whois_country', 'type']


In [6]:
# Paso 5: Generar el informe EDA con ydata-profiling
print("Generando informe EDA optimizado...")
profile = ProfileReport(
    df_eda,  # DataFrame con los datos seleccionados y preparados
    title="Reporte EDA Seguro y Optimizado",  # Título del reporte
    explorative=True  # Activa opciones avanzadas como correlaciones y duplicados
)

Generando informe EDA optimizado...


In [None]:
# Paso 6: Guardar el informe EDA como archivo HTML y descargarlo
html_file = "informe_eda_limpio.html"  # Nombre del archivo de salida
profile.to_file(html_file)  # Guarda el informe en un archivo HTML
print(f"✅ Informe guardado como {html_file}")  # Mensaje de confirmación
files.download(html_file)  # Descarga automática del archivo al equipo del usuario

Summarize dataset:   0%|          | 0/5 [00:00<?, ?it/s]


  0%|          | 0/15 [00:00<?, ?it/s][A
 47%|████▋     | 7/15 [00:00<00:00, 58.07it/s][A
100%|██████████| 15/15 [00:00<00:00, 54.42it/s]
