# Proyecto 1: DataSet para analisis de firewall
## Integrantes: Alberto Carrasco, Sandra Montufar, Jose Romero, Christian Tapia


# Desarrollo Práctica G1

**Fase I: Configuración**
Este notebook configura el entorno ETL, carga datos desde CSVs, realiza limpieza, aplica filtros de agregación, y se prepara para conexión a PostgreSQL.

---

## Librerías usadas y justificación

- **pandas**: para manipular, limpiar y transformar los datos de forma eficiente.
- **sqlalchemy**: para crear una conexión con la base de datos PostgreSQL en la etapa ETL.
- **psycopg2**: librería de conexión específica a PostgreSQL.

---

# Instalar las librerias necesarias

In [1]:
!pip install pandas numpy sqlalchemy psycopg2 matplotlib




[notice] A new release of pip is available: 25.0.1 -> 25.1
[notice] To update, run: python.exe -m pip install --upgrade pip


## 1. Carga de Librerías

In [3]:
import pandas as pd
from sqlalchemy import create_engine

## 2. Carga de Datos

In [158]:
df_firewall = pd.read_csv('venv/data/Firewall.csv')
df_log2 = pd.read_csv('venv/data/log2.csv')
df_new_logs = pd.read_csv('venv/data/new_logs.csv')

## 3. Análisis Exploratorio: Aspectos Clave

Durante el análisis exploratorio de los tres DataFrames (`firewall`, `log2`, `new_logs`) se evidenciaron **varios puntos comunes y tendencias importantes**:

---

### 🔹 1. Variables en común entre DataFrames
- **Source Port** y **Destination Port** están presentes en los tres DataFrames.
- Estas columnas son **claves** porque permiten:
  - Analizar las rutas de comunicación más comunes.
  - Identificar dispositivos y servicios más utilizados.
  - Detectar potenciales focos de tráfico anómalo o sospechoso.

---

### 🔹 2. Comportamientos destacados basados en filtros aplicados

**Sobre `firewall`:**
- Se identificaron **puertos destino** con alta cantidad de conexiones, señalando servicios críticos o abiertos.
- Predomina la acción **ALLOW**, permitiendo la mayoría del tráfico.
- **Puertos de origen** específicos son altamente activos, sugiriendo dispositivos o nodos de tráfico concentrado.

**Sobre `log2`:**
- Los **puertos destino** y el **total de bytes enviados** confirman los principales puntos de salida de tráfico.
- El análisis de **tiempo promedio de sesión** muestra que ciertos servicios tienen conexiones significativamente más largas.
- Se observa un volumen elevado en ciertos puertos de Source IP, identificando nodos que generan mucho tráfico.

**Sobre `new_logs`:**
- **IPs de origen** más activas fueron claramente detectadas, útil para identificar los dispositivos más importantes o más expuestos.
- **Puertos destino** y **protocolos** dominantes permiten analizar qué tipo de tráfico predomina (HTTP, HTTPS, etc.).
- El agrupamiento por **año** evidencia cómo evolucionó la actividad de red en el tiempo.

---

In [159]:
df_firewall.info()
df_log2.info()
df_new_logs.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 65532 entries, 0 to 65531
Data columns (total 12 columns):
 #   Column                Non-Null Count  Dtype 
---  ------                --------------  ----- 
 0   Source Port           65532 non-null  int64 
 1   Destination Port      65532 non-null  int64 
 2   NAT Source Port       65532 non-null  int64 
 3   NAT Destination Port  65532 non-null  int64 
 4   Action                65532 non-null  object
 5   Bytes                 65532 non-null  int64 
 6   Bytes Sent            65532 non-null  int64 
 7   Bytes Received        65532 non-null  int64 
 8   Packets               65532 non-null  int64 
 9   Elapsed Time (sec)    65532 non-null  int64 
 10  pkts_sent             65532 non-null  int64 
 11  pkts_received         65532 non-null  int64 
dtypes: int64(11), object(1)
memory usage: 6.0+ MB
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 65532 entries, 0 to 65531
Data columns (total 12 columns):
 #   Column                Non-

### 3.1 Cambio de nombre de columnas para estandarización

### 🔹 3.1.1 Semejanzas estructurales

Aunque `new_logs` inicialmente parece diferente (nombres de columnas o detalles de formato), **mantiene una estructura de datos similar** a `firewall` y `log2`.
Una estandarización de nombres permitiría **integrar todos los DataFrames** para análisis conjunto o para ETLs más robustos.

En el caso de `df_new_logs`, cambiamos el nombre de la columna:

- `'Src port'` a `'Source Port'`
- `'Src IP'` a `'Source IP'`

---

In [160]:
df_new_logs = df_new_logs.rename(columns={
    'Src port': 'Source Port',
    'Dst port': 'Destination Port',
    'Src IP': 'Source IP',
    'Dst IP': 'Destination IP'
})

### 3.2.1 Eliminación de columnas irrelevantes para el análisis

Se procede a eliminar las columnas que no aportan valor al análisis de tráfico de red, como `'Username'` , `'Unnamed: 19'` , y `'Message'`, debido a que estaban completamente vacías o no contenían información relevante.

Posteriormente, renombramos el DataFrame limpio de `df_new_logs` a `df_new_logsf` para diferenciarlo de la versión original y trabajar de forma más segura durante el proceso de ETL.


In [161]:
df_new_logs = df_new_logs.drop(columns=['Username', 'Unnamed: 19', 'Message'])
df_new_logs.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 200 entries, 0 to 199
Data columns (total 17 columns):
 #   Column              Non-Null Count  Dtype  
---  ------              --------------  -----  
 0   Time                200 non-null    object 
 1   Log comp            200 non-null    object 
 2   Log subtype         200 non-null    object 
 3   Firewall rule       198 non-null    float64
 4   Firewall rule name  198 non-null    object 
 5   NAT rule            200 non-null    int64  
 6   NAT rule name       192 non-null    object 
 7   In interface        198 non-null    object 
 8   Out interface       196 non-null    object 
 9   Source IP           200 non-null    object 
 10  Destination IP      200 non-null    object 
 11  Source Port         200 non-null    int64  
 12  Destination Port    200 non-null    int64  
 13  protocol            200 non-null    object 
 14  Rule type           200 non-null    int64  
 15  Live PCAP           200 non-null    object 
 16  Log occu

## 4. Limpieza de Datos

In [163]:
df_firewall = df_firewall.drop_duplicates().dropna()
df_log2 = df_log2.drop_duplicates().dropna()
df_new_logsf = df_new_logs.drop_duplicates().dropna()

In [164]:
df_new_logsf.info()

<class 'pandas.core.frame.DataFrame'>
Index: 191 entries, 0 to 199
Data columns (total 17 columns):
 #   Column              Non-Null Count  Dtype  
---  ------              --------------  -----  
 0   Time                191 non-null    object 
 1   Log comp            191 non-null    object 
 2   Log subtype         191 non-null    object 
 3   Firewall rule       191 non-null    float64
 4   Firewall rule name  191 non-null    object 
 5   NAT rule            191 non-null    int64  
 6   NAT rule name       191 non-null    object 
 7   In interface        191 non-null    object 
 8   Out interface       191 non-null    object 
 9   Source IP           191 non-null    object 
 10  Destination IP      191 non-null    object 
 11  Source Port         191 non-null    int64  
 12  Destination Port    191 non-null    int64  
 13  protocol            191 non-null    object 
 14  Rule type           191 non-null    int64  
 15  Live PCAP           191 non-null    object 
 16  Log occurrenc

## 5. Filtros de Agregación

### 5.1 Filtros para df_firewall


**Filtro 1:** Puertos destino más usados.
*Justificación:* Identificar los puertos de comunicación más recurrentes es importante para entender el comportamiento de red.

In [165]:
firewall_filtro1 = df_firewall.groupby('Destination Port').size().reset_index(name='cantidad_conexiones').sort_values(by='cantidad_conexiones', ascending=False)
firewall_filtro1.head()

Unnamed: 0,Destination Port,cantidad_conexiones
10,53,15389
26,443,11684
28,445,11674
15,80,4035
1147,25174,686


**Filtro 2:** Acciones más frecuentes (ALLOW/DENY).
*Justificación:* Verificar si predomina tráfico permitido o bloqueado es vital para políticas de seguridad.

In [166]:
firewall_filtro2 = df_firewall['Action'].value_counts().reset_index()
firewall_filtro2.columns = ['Action', 'Cantidad']
firewall_filtro2

Unnamed: 0,Action,Cantidad
0,allow,37439
1,drop,11635
2,deny,8042
3,reset-both,54


**Filtro 3:** Total de bytes transmitidos por puerto destino.
*Justificación:* Ayuda a detectar qué servicios o aplicaciones consumen más ancho de banda.

In [168]:
firewall_filtro3 = df_firewall.groupby('Destination Port').agg(total_bytes=('Bytes', 'sum')).reset_index().sort_values('total_bytes', ascending=False)
firewall_filtro3.head()


Unnamed: 0,Destination Port,total_bytes
26,443,3438144929
683,15187,1269359015
15,80,992888508
188,3478,429017523
3137,62336,127654011



**Filtro 4:** Puertos de origen más activos.
*Justificación:* Permite identificar los clientes más activos en la red.

In [169]:
firewall_filtro4 = df_firewall.groupby('Source Port').size().reset_index(name='conexiones').sort_values('conexiones', ascending=False).head(10)
firewall_filtro4

Unnamed: 0,Source Port,conexiones
2744,27005,513
16021,57470,222
8584,49418,209
636,6881,145
12,443,135
9728,50584,116
2724,26900,102
6250,42298,84
360,3478,80
8210,48817,77


### 5.2. Filtros para df_log2

**Filtro 1:** Cantidad de acciones ALLOW/DENY.
*Justificación:* Revisa la efectividad de las políticas de firewall.

In [170]:
log2_filtro1 = df_log2['Action'].value_counts().reset_index()
log2_filtro1.columns = ['Action', 'Cantidad']
log2_filtro1

Unnamed: 0,Action,Cantidad
0,allow,37439
1,drop,11635
2,deny,8042
3,reset-both,54


**Filtro 2:** Puertos destino más utilizados.
*Justificación:* Ayuda a identificar puertos potencialmente expuestos.

In [171]:
log2_filtro2 = df_log2.groupby('Destination Port').size().reset_index(name='cantidad_conexiones').sort_values(by='cantidad_conexiones', ascending=False)
log2_filtro2.head()

Unnamed: 0,Destination Port,cantidad_conexiones
10,53,15389
26,443,11684
28,445,11674
15,80,4035
1147,25174,686


**Filtro 3:** Total de bytes enviados por Source Port.
*Justificación:* Permite reconocer qué usuarios están enviando más información.

In [172]:
log2_filtro3 = df_log2.groupby('Source Port').agg(total_bytes=('Bytes Sent', 'sum')).reset_index().sort_values('total_bytes', ascending=False)
log2_filtro3.head()

Unnamed: 0,Source Port,total_bytes
15792,57235,948481066
1751,15792,213443641
1731,15503,122701424
17504,59275,5307097
10809,51779,4119517


**Filtro 4:** Tiempo promedio de sesión por puerto destino.
*Justificación:* Indica qué servicios mantienen conexiones más largas.

In [173]:
log2_filtro4 = df_log2.groupby('Destination Port').agg(promedio_tiempo=('Elapsed Time (sec)', 'mean')).reset_index().sort_values('promedio_tiempo', ascending=False)
log2_filtro4.head()

Unnamed: 0,Destination Port,promedio_tiempo
259,5938,10824.0
683,15187,9283.0
1833,36914,7827.0
3097,61284,6269.0
2850,55727,5442.0


### 5.3. Filtros para df_new_logs

**Filtro 1:** IPs de origen más frecuentes.
*Justificación:* Identificar orígenes más activos en la red.


In [174]:
newlogs_filtro1 = df_new_logsf.groupby('Source IP').size().reset_index(name='conexiones').sort_values('conexiones', ascending=False).head(10)
newlogs_filtro1

Unnamed: 0,Source IP,conexiones
13,192.168.61.233,73
9,192.168.61.111,34
3,172.17.17.223,11
10,192.168.61.137,9
4,172.17.17.8,8
2,172.17.17.130,8
1,172.17.17.10,7
5,172.17.17.90,7
16,213.6.147.197,6
17,45.147.66.142,5


**Filtro 2:** Puertos destino más usados.
*Justificación:* Reconocer puntos críticos de exposición en la red.

In [175]:
newlogs_filtro2 = df_new_logsf.groupby('Destination Port').size().reset_index(name='cantidad_conexiones').sort_values('cantidad_conexiones', ascending=False)
newlogs_filtro2.head()

Unnamed: 0,Destination Port,cantidad_conexiones
3,443,82
0,53,80
1,80,21
2,123,7
4,3544,1


**Filtro 3:** Protocolos de red más utilizados.
*Justificación:*
Analizar los protocolos de red que dominan el tráfico es fundamental para comprender cómo se comunican los dispositivos en la infraestructura.
Identificar si prevalece un protocolo como TCP o UDP ayuda a:
- Entender el tipo de servicios que se están utilizando (por ejemplo, TCP para servicios web, UDP para servicios de streaming o DNS).
- Detectar patrones normales o anómalos de tráfico.
- Definir políticas de seguridad más efectivas, basadas en el tipo de tráfico predominante.
- Optimizar la infraestructura de red adaptándola al tipo de carga que soporta.

In [176]:
conteo_protocolos = df_new_logsf['protocol'].value_counts().reset_index()
conteo_protocolos.columns = ['Protocol', 'Cantidad']
# Mostrar los resultados
conteo_protocolos

Unnamed: 0,Protocol,Cantidad
0,TCP,105
1,UDP,86


**Filtro 4**: Conexiones agrupadas por año.
Justificación:
Agrupar las conexiones por año permite identificar patrones temporales en el tráfico, detectar tendencias de crecimiento o caída, y anticipar necesidades de capacidad o cambios en la arquitectura de red.

In [177]:
# Asegurarnos de que la columna 'Time' sea tipo fecha
df_new_logsf['Time'] = pd.to_datetime(df_new_logsf['Time'], errors='coerce')

# Agrupar por año y contar registros
filtro4_anio = df_new_logsf.groupby(df_new_logsf['Time'].dt.year).size().reset_index(name='Cantidad_Conexiones')

# Mostrar el resultado
filtro4_anio


Unnamed: 0,Time,Cantidad_Conexiones
0,2024,191


In [178]:
engine = create_engine('postgresql+psycopg2://admin:adminpass@localhost/firewall')

### 6. Inserción del DataFrame en la Base de Datos

Agregamos el DataFrame `df1`, previamente cargado desde el archivo `firewall.csv`, a una base de datos.
La base de datos se denomina **`firewall`** y el proceso se realiza directamente desde el DataFrame.

In [179]:
df_firewall.to_sql('firewall', engine, if_exists='append', index=False)

170

### 7. Insights de negocio potenciales

Con la información obtenida es posible:
- **Fortalecer la seguridad de la red**, protegiendo puertos más utilizados y controlando el tráfico autorizado.
- **Optimizar el uso de recursos**, priorizando dispositivos más activos.
- **Monitorear anomalías históricas**, gracias al análisis anual de conexiones.
- **Mejorar la política de firewall**, validando las acciones de tráfico permitido o denegado.

---