# Integración de datasets de correos electrónicos (Nazario, Nigerian Fraud y SpamAssassin)

En este notebook realizamos la primera etapa del proyecto: **integrar y explorar tres fuentes distintas de correos electrónicos** (Nazario, Nigerian Fraud y SpamAssassin) para construir un solo dataset unificado que usaremos en el resto del análisis y modelado.


## 1. Carga de librerías y datasets originales

En esta sección:

- Importamos la librería **pandas**, que usaremos para manipulación de datos en formato tabular.
- Cargamos los tres archivos CSV que contienen los correos electrónicos:
  - `Nazario.csv`: correos catalogados como phishing.
  - `Nigerian_Fraud.csv`: corpus de correos de fraude tipo “Nigerian scam”.
  - `SpamAssasin.csv`: corpus público con correos spam y legítimos.

Cada uno se carga en un `DataFrame` de pandas para poder trabajarlos de forma estructurada.

In [3]:
#Librerias, pandas para manejo de datos
import pandas as pd

#Importamos los datasets originales
naz = pd.read_csv("Nazario.csv")
nig = pd.read_csv("Nigerian_Fraud.csv")
spa = pd.read_csv("SpamAssasin.csv")

## 2. Integración de los tres datasets en un solo DataFrame

Para poder rastrear de dónde viene cada correo electrónico dentro del dataset integrado:

- Agregamos una columna llamada `origen` a cada `DataFrame`, con el nombre del dataset de procedencia.
- Después, **concatenamos** los tres `DataFrames` verticalmente usando `pd.concat`, creando un solo dataset llamado `data`.

De esta forma, cada fila del dataset final conserva el contexto de si proviene de Nazario, Nigerian Fraud o SpamAssassin.

In [4]:
#Agregamos una columna de origen, para determinar de qué dataset viene la info
naz['origen'] = 'Nazario'
nig['origen'] = 'Nigerian_Fraud'
spa['origen'] = 'SpamAssasin'

#Unimos los datasets en uno solo
data = pd.concat([naz, nig, spa], ignore_index=True)

## 3. Chequeo inicial de calidad de datos

Antes de seguir con el preprocesamiento es importante revisar:

- **Distribución de la variable objetivo (`label`)**  
  Esto nos indica cuántos correos están etiquetados como phishing/spam (1) y cuántos como legítimos (0). Nos sirve para detectar desbalance de clases.

- **Duplicados por cuerpo (`body`)**  
  Contamos cuántos correos tienen exactamente el mismo texto en el cuerpo. Esto puede indicar correos repetidos entre datasets o dentro de un mismo corpus.

- **Porcentaje de valores faltantes (`NaN`) por columna**  
  Calculamos el promedio de valores faltantes por campo para entender qué tan incompletas están columnas como `sender`, `receiver`, `date` o `subject`.  
  Esta información será la base para definir las estrategias de limpieza posteriores (imputación, eliminación, etc.).

In [5]:
#verificamos el balance de clases
print("Distribución de clases en el dataset combinado: ")
print(data['label'].value_counts())

#Verificar duplicados y valores faltantes
print("Duplicados por body:", data.duplicated(subset=["body"]).sum())
print("Valores faltantes:")
print(data.isna().mean().round(3))

Distribución de clases en el dataset combinado: 
label
1    6615
0    4091
Name: count, dtype: int64
Duplicados por body: 2
Valores faltantes:
sender      0.031
receiver    0.152
date        0.045
subject     0.006
body        0.000
urls        0.000
label       0.000
origen      0.000
dtype: float64


## 4. Exportación del dataset integrado

Finalmente, guardamos el `DataFrame` resultante en un archivo llamado **`Combined_Dataset.csv`**.

Este archivo representa el **dataset unificado** que concentra:

- Los correos de Nazario,
- Los correos de Nigerian Fraud,
- Los correos de SpamAssassin,

junto con la columna `origen` y las etiquetas `label`.  

Este CSV será el punto de partida para:
- El **EDA en Python y Excel**,
- La **ingeniería de características**, 
- El **entrenamiento de modelos de clasificación** en Python y Orange,
- Y la alimentación de las herramientas de visualización (Power BI / Looker Studio).

In [6]:
#Guardamos el dataset combinado en un nuevo archivo CSV
data.to_csv("Combined_Dataset.csv", index=False)