In [2]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

In [3]:
df = pd.read_csv("/workspaces/ClaseFinal/Phishing_Email_1500m.csv", encoding="latin1", sep=";")
df.head()

Unnamed: 0,Column1,Email Text,Email Type
0,0,"re : 6 . 1100 , disc : uniformitarianism , re ...",Safe Email
1,1,the other side of * galicismos * * galicismo *...,Safe Email
2,2,re : equistar deal tickets are you still avail...,Safe Email
3,3,\nHello I am your hot lil horny toy.\n I am...,Phishing Email
4,4,software at incredibly low prices ( 86 % lower...,Phishing Email


In [4]:
print("Dimension of the DataFrame:",df.shape)

Dimension of the DataFrame: (1501, 3)


## Preprocesamiento del DataFrame

In [5]:
df.isnull().sum()

Column1       0
Email Text    2
Email Type    0
dtype: int64

In [6]:
#Eliminación de la columna denominada "Column1"
#axis=1 indica que la operación se realizará a lo largo de las columnas del DataFrame

df.drop(["Column1"],axis=1,inplace=True)
print("Dimension of the row data:",df.shape)

Dimension of the row data: (1501, 2)


In [7]:
#Eliminación de filas que tienen elementos vacíos o nulos (null values)
#axis=0 se usa para operaciones a lo largo de las filas del DataFrame
df.dropna(inplace=True,axis=0)
df.drop_duplicates(inplace=True)
print("Dimension of the row data:",df.shape)

Dimension of the row data: (1448, 2)


In [8]:
df.head()

Unnamed: 0,Email Text,Email Type
0,"re : 6 . 1100 , disc : uniformitarianism , re ...",Safe Email
1,the other side of * galicismos * * galicismo *...,Safe Email
2,re : equistar deal tickets are you still avail...,Safe Email
3,\nHello I am your hot lil horny toy.\n I am...,Phishing Email
4,software at incredibly low prices ( 86 % lower...,Phishing Email


In [9]:
#Comprobar si todos los valores de la columna 'Email Type' están en minúsculas
all_lowercase = df['Email Type'].apply(lambda x: x.islower()).all()
# Mostrar el resultado
print(all_lowercase)
print(df['Email Type'])
print(f"{'=' * 50}")

# Convertir todos los valores a minúsculas
df['Email Type'] = df['Email Type'].str.lower()  
# Mostrar el resultado
print(df['Email Type'])

False
0           Safe Email
1           Safe Email
2           Safe Email
3       Phishing Email
4       Phishing Email
             ...      
1496        Safe Email
1497    Phishing Email
1498        Safe Email
1499    Phishing Email
1500        Safe Email
Name: Email Type, Length: 1448, dtype: object
0           safe email
1           safe email
2           safe email
3       phishing email
4       phishing email
             ...      
1496        safe email
1497    phishing email
1498        safe email
1499    phishing email
1500        safe email
Name: Email Type, Length: 1448, dtype: object


In [10]:
# Eliminar espacios en blanco
df['Email Type'] = df['Email Type'].str.strip()  
print(df['Email Type'])

0           safe email
1           safe email
2           safe email
3       phishing email
4       phishing email
             ...      
1496        safe email
1497    phishing email
1498        safe email
1499    phishing email
1500        safe email
Name: Email Type, Length: 1448, dtype: object


In [11]:
# Verificar los valores únicos en la columna
print(df['Email Type'].unique())  

['safe email' 'phishing email']


In [12]:
email_type_counts = df['Email Type'].value_counts()
print(email_type_counts)

Email Type
safe email        869
phishing email    579
Name: count, dtype: int64


## Modificación del DataFrame para generar distintas gráficas.

Como nuestro dataFrame únicamente tiene 2 columnas de información, procederemos a crear adicionales con datos simulados, basándonos en el código visto en clase.

* Timestamp (fecha y horas aleatorias).

* IP_origen (direcciones IP aleatorias).

* Email_domain (dominios de correo).

* Priority_level (nivel de prioridad).

* Country (país de origen).

**1. Timestamp**

Como no tenemos una columna de tiempo real, generaremos una columna con fechas y horas aleatorias.

In [13]:
# Importamos librería requerida
from datetime import datetime, timedelta

# Generar una fecha aleatoria dentro de un rango
def generate_random_timestamp(start, end):
    return start + timedelta(seconds=np.random.randint(0, int((end - start).total_seconds())))

# Definir el rango de fechas
start_date = datetime(2023, 1, 1)
end_date = datetime(2024, 1, 1)

# Aplicar la función a cada fila del DataFrame
df['Timestamp'] = [generate_random_timestamp(start_date, end_date) for _ in range(len(df))]
print(df['Timestamp'])

0      2023-03-08 00:27:43
1      2023-12-02 00:00:07
2      2023-05-27 03:34:47
3      2023-01-22 16:54:23
4      2023-10-20 11:54:12
               ...        
1496   2023-02-01 00:22:03
1497   2023-07-31 04:48:50
1498   2023-11-02 20:01:03
1499   2023-10-17 10:30:33
1500   2023-03-29 18:05:53
Name: Timestamp, Length: 1448, dtype: datetime64[ns]


**2. IP_origen**

Generaremos direcciones IP aleatorias dentro de un rango específico. 


In [14]:
# Generar IPs aleatorias dentro de un rango
def random_ip():
    return f"{np.random.randint(1, 256)}.{np.random.randint(1, 256)}.{np.random.randint(1, 256)}.{np.random.randint(1, 256)}"

# Aplicar la función a cada fila del DataFrame
df['IP_origen'] = [random_ip() for _ in range(len(df))]
print(df['IP_origen'])

0        220.239.95.134
1       181.124.207.113
2          173.68.49.21
3         37.132.160.94
4       150.166.214.246
             ...       
1496         10.8.89.53
1497       15.133.17.92
1498       24.8.106.177
1499     169.186.22.139
1500     53.254.173.220
Name: IP_origen, Length: 1448, dtype: object


**3. Email_domain**

Simularemos algunos dominios de las direcciones de correo y los agregaremos como una nueva columna. 

In [15]:
# Simular un dominio de correo electrónico aleatorio
dominios = ['gmail.com', 'yahoo.com', 'outlook.com', 'hotmail.com','microsoft.com', '@secureemail.com', '@google.com']

def random_email_domain():
    return np.random.choice(dominios)

df['Email_domain'] = [random_email_domain() for _ in range(len(df))]
print(df['Email_domain'])

0            hotmail.com
1            outlook.com
2            outlook.com
3              yahoo.com
4       @secureemail.com
              ...       
1496         hotmail.com
1497           gmail.com
1498           yahoo.com
1499    @secureemail.com
1500         @google.com
Name: Email_domain, Length: 1448, dtype: object


**4. Priority_level**

Agregaremos una columna que simule el nivel de prioridad de un correo, basándonos en si es phishing email o safe email, ya que este dato viene en el dataset en la columna "Email Type".

In [16]:
# Definir posibles niveles de prioridad para los correos seguros
safe_priority_options = ['Low', 'Medium']

# Asignar 'High' si se trata de phishing, o asignar un valor aleatorio entre 'Low' y 'Medium' si es un email seguro
df['Priority_level'] = df['Email Type'].apply(lambda x: 'High' if x == 'phishing email' else np.random.choice(safe_priority_options))
print(df['Priority_level']) 

0          Low
1          Low
2       Medium
3         High
4         High
         ...  
1496    Medium
1497      High
1498       Low
1499      High
1500    Medium
Name: Priority_level, Length: 1448, dtype: object


**5. Country**

Simularemos la ubicación de origen de los correos mediante países.

In [17]:
# Definir países de origen para los correos
countries = ['USA', 'Canada', 'UK', 'Germany', 'India', 'Colombia', 'Brazil', 'Argentina', 'Spain']

def random_country():
    return np.random.choice(countries)

df['Country'] = [random_country() for _ in range(len(df))]
print(df['Country']) 

0              UK
1          Canada
2           Spain
3          Brazil
4       Argentina
          ...    
1496       Canada
1497       Brazil
1498    Argentina
1499        Spain
1500    Argentina
Name: Country, Length: 1448, dtype: object


In [18]:
df.head()

Unnamed: 0,Email Text,Email Type,Timestamp,IP_origen,Email_domain,Priority_level,Country
0,"re : 6 . 1100 , disc : uniformitarianism , re ...",safe email,2023-03-08 00:27:43,220.239.95.134,hotmail.com,Low,UK
1,the other side of * galicismos * * galicismo *...,safe email,2023-12-02 00:00:07,181.124.207.113,outlook.com,Low,Canada
2,re : equistar deal tickets are you still avail...,safe email,2023-05-27 03:34:47,173.68.49.21,outlook.com,Medium,Spain
3,\nHello I am your hot lil horny toy.\n I am...,phishing email,2023-01-22 16:54:23,37.132.160.94,yahoo.com,High,Brazil
4,software at incredibly low prices ( 86 % lower...,phishing email,2023-10-20 11:54:12,150.166.214.246,@secureemail.com,High,Argentina


## Almacenamiento de registros en Base de Datos Postgres

En el desarrollo de este código, se ha optado por "actualizar" la tabla en cada ejecución, con el objetivo de evitar la duplicación de registros. De esta manera, cada vez que se ejecute el código, se borrarán los registros previos y solo se insertarán los 10 registros solicitados para este parte de la tarea, garantizando que la base de datos no crezca innecesariamente con datos repetidos.

In [None]:
import psycopg2
import json
from datetime import datetime

# Paso 1: Crear la base de datos y la tabla desde Python
def create_database_and_table():
    try:
        # Conexión al servidor PostgreSQL (sin especificar una base de datos)
        conn = psycopg2.connect(
            user="postgres", # Usuario predeterminado
            password="postgres",
            host="localhost",
            port="5432"
        )
        conn.autocommit = True # Necesario para crear una base de datos
        cursor = conn.cursor()

        # Crear la base de datos "phishing_data" si no existe
        cursor.execute("SELECT datname FROM pg_database WHERE datname='phishing_data';")
        if not cursor.fetchone():
            cursor.execute("CREATE DATABASE phishing_data;")
            print("Base de datos 'phishing_data' creada correctamente.")
        else:
            print("La base de datos 'phishing_data' ya existe.")

        # Cerrar la conexión inicial
        cursor.close()
        conn.close()

        # Conectar a la nueva base de datos
        conn = psycopg2.connect(
            database="phishing_data",  # Conectar a la base de datos recién creada
            user="postgres",
            password="postgres",
            host="localhost",
            port="5432"
        )
        cursor = conn.cursor()

        # Crear la tabla "email_phishing" si no existe
        cursor.execute("""
        CREATE TABLE IF NOT EXISTS email_phishing (
            id SERIAL PRIMARY KEY,
            email_text TEXT,
            email_type VARCHAR(50),
            timestamp TIMESTAMP,
            ip_origen VARCHAR(15),
            email_domain VARCHAR(100),
            priority_level VARCHAR(20),
            country VARCHAR(50)
        );
        """)
        print("Tabla 'email_phishing' creada correctamente.")

        # Confirmar cambios y cerrar la conexión
        conn.commit()
        cursor.close()
        conn.close()

    except Exception as e:
        print(f"Error al crear la base de datos o la tabla: {e}")

# Paso 2: Insertar los 10 primeros registros del DataFrame en la tabla
def insert_dataframe_to_db():
    try:
        # Conectar a la base de datos
        conn = psycopg2.connect(
            database="phishing_data",
            user="postgres",
            password="postgres",
            host="localhost",
            port="5432"
        )
        cursor = conn.cursor()

        # Eliminar los registros anteriores y reiniciar el contador de 'id'
        cursor.execute("TRUNCATE TABLE email_phishing RESTART IDENTITY;")
        conn.commit()
        print("Registros anteriores eliminados y contador de 'id' reiniciado.")

        # Tomamos los primeros 10 registros del DataFrame
        for _, row in df.head(10).iterrows():
            # Insertar cada fila en la tabla
            cursor.execute("""
                INSERT INTO email_phishing (email_text, email_type, timestamp, ip_origen, email_domain, priority_level, country)
                VALUES (%s, %s, %s, %s, %s, %s, %s);
            """, (row['Email Text'], row['Email Type'], pd.to_datetime(row['Timestamp']), row['IP_origen'], row['Email_domain'], row['Priority_level'], row['Country']))

        # Confirmar cambios y cerrar la conexión
        conn.commit()
        print("Primeros 10 registros insertados correctamente.")
        cursor.close()
        conn.close()

    except Exception as e:
        print(f"Error al insertar datos en la base de datos: {e}")

# Paso 3: Guardar logs no estructurados en un archivo JSON
def save_unstructured_logs():
    try:
        # Crear logs no estructurados usando los primeros 10 registros del DataFrame
        unstructured_logs = []

        for _, row in df.head(10).iterrows():
            log_entry = f"[{row['Timestamp']}] {row['Email Type']} - {row['Email Text']} from IP {row['IP_origen']}"
            unstructured_logs.append(log_entry)

        # Guardar logs no estructurados en un archivo JSON
        with open("unstructured_logs.json", "w") as file:
            json.dump(unstructured_logs, file, indent=4)

        print("Logs no estructurados guardados en 'unstructured_logs.json'")

    except Exception as e:
        print(f"Error al guardar logs no estructurados: {e}")


# Ejecutar todas las funciones
if __name__ == "__main__":
    create_database_and_table()  # Crear base de datos y tabla
    insert_dataframe_to_db()  # Insertar los primeros 10 registros del DataFrame en la tabla
    save_unstructured_logs()  # Guardar logs no estructurados en archivo JSON

La base de datos 'phishing_data' ya existe.
Tabla 'email_phishing' creada correctamente.
Registros anteriores eliminados y contador de 'id' reiniciado.
Primeros 10 registros insertados correctamente.
Logs no estructurados guardados en 'unstructured_logs.json'
