In [1]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt

# Creamos un dataset simulando un registro de conexiones de red
data = {
    'timestamp': pd.date_range(start='2023-01-01', periods=10, freq='H'),
    'ip_origen': ['192.168.1.' + str(i) for i in range(1, 11)],
    'ip_destino': ['10.0.0.' + str(i % 3 + 1) for i in range(10)],
    'puerto': [80, 443, 22, 3389, 8080, 80, 443, 22, 8080, 3389],
    'protocolo': ['HTTP', 'HTTPS', 'SSH', 'RDP', 'HTTP', 'HTTP', 'HTTPS', 'SSH', 'HTTP', 'RDP'],
    'bytes_enviados': np.random.randint(100, 10000, 10),
    'exito_conexion': [True, True, False, True, True, True, False, False, True, True]
}

# Creamos el DataFrame
df = pd.DataFrame(data)

print("1. Explorando el DataFrame:")
print(df.head())
print("\nInformación del DataFrame:")
print(df.info())
print("\nEstadísticas descriptivas:")
print(df.describe())

1. Explorando el DataFrame:
            timestamp    ip_origen ip_destino  puerto protocolo  \
0 2023-01-01 00:00:00  192.168.1.1   10.0.0.1      80      HTTP   
1 2023-01-01 01:00:00  192.168.1.2   10.0.0.2     443     HTTPS   
2 2023-01-01 02:00:00  192.168.1.3   10.0.0.3      22       SSH   
3 2023-01-01 03:00:00  192.168.1.4   10.0.0.1    3389       RDP   
4 2023-01-01 04:00:00  192.168.1.5   10.0.0.2    8080      HTTP   

   bytes_enviados  exito_conexion  
0            1101            True  
1            6054            True  
2            9155           False  
3            8210            True  
4            3060            True  

Información del DataFrame:
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 10 entries, 0 to 9
Data columns (total 7 columns):
 #   Column          Non-Null Count  Dtype         
---  ------          --------------  -----         
 0   timestamp       10 non-null     datetime64[ns]
 1   ip_origen       10 non-null     object        
 2   ip_destino 

  'timestamp': pd.date_range(start='2023-01-01', periods=10, freq='H'),


In [2]:
# 2. Selección de datos
print("\n2. Selección de datos:")
# Seleccionar una columna (devuelve una Serie)
print("\nSelección de una columna (Serie):")
print(df['protocolo'])

# Seleccionar múltiples columnas (devuelve un DataFrame)
print("\nSelección de múltiples columnas (DataFrame):")
print(df[['ip_origen', 'protocolo', 'puerto']])

# Selección por índice con iloc
print("\nSelección por índice con iloc (primeras 2 filas, columnas 0 y 2):")
print(df.iloc[0:2, [0, 2]])

# Selección por nombre con loc
print("\nSelección por nombre con loc (filas donde protocolo es 'HTTP'):")
print(df.loc[df['protocolo'] == 'HTTP', ['timestamp', 'ip_origen', 'puerto']])


2. Selección de datos:

Selección de una columna (Serie):
0     HTTP
1    HTTPS
2      SSH
3      RDP
4     HTTP
5     HTTP
6    HTTPS
7      SSH
8     HTTP
9      RDP
Name: protocolo, dtype: object

Selección de múltiples columnas (DataFrame):
      ip_origen protocolo  puerto
0   192.168.1.1      HTTP      80
1   192.168.1.2     HTTPS     443
2   192.168.1.3       SSH      22
3   192.168.1.4       RDP    3389
4   192.168.1.5      HTTP    8080
5   192.168.1.6      HTTP      80
6   192.168.1.7     HTTPS     443
7   192.168.1.8       SSH      22
8   192.168.1.9      HTTP    8080
9  192.168.1.10       RDP    3389

Selección por índice con iloc (primeras 2 filas, columnas 0 y 2):
            timestamp ip_destino
0 2023-01-01 00:00:00   10.0.0.1
1 2023-01-01 01:00:00   10.0.0.2

Selección por nombre con loc (filas donde protocolo es 'HTTP'):
            timestamp    ip_origen  puerto
0 2023-01-01 00:00:00  192.168.1.1      80
4 2023-01-01 04:00:00  192.168.1.5    8080
5 2023-01-01 05:00:0

In [3]:
# 3. Filtrado de datos
print("\n3. Filtrado de datos:")
# Filtrar conexiones exitosas
conexiones_exitosas = df[df['exito_conexion'] == True]
print("\nConexiones exitosas:")
print(conexiones_exitosas[['timestamp', 'ip_origen', 'protocolo']])

# Filtrado múltiple (conexiones HTTP en puerto 80)
http_port80 = df[(df['protocolo'] == 'HTTP') & (df['puerto'] == 80)]
print("\nConexiones HTTP en puerto 80:")
print(http_port80)


3. Filtrado de datos:

Conexiones exitosas:
            timestamp     ip_origen protocolo
0 2023-01-01 00:00:00   192.168.1.1      HTTP
1 2023-01-01 01:00:00   192.168.1.2     HTTPS
3 2023-01-01 03:00:00   192.168.1.4       RDP
4 2023-01-01 04:00:00   192.168.1.5      HTTP
5 2023-01-01 05:00:00   192.168.1.6      HTTP
8 2023-01-01 08:00:00   192.168.1.9      HTTP
9 2023-01-01 09:00:00  192.168.1.10       RDP

Conexiones HTTP en puerto 80:
            timestamp    ip_origen ip_destino  puerto protocolo  \
0 2023-01-01 00:00:00  192.168.1.1   10.0.0.1      80      HTTP   
5 2023-01-01 05:00:00  192.168.1.6   10.0.0.3      80      HTTP   

   bytes_enviados  exito_conexion  
0            1101            True  
5            1962            True  


In [4]:
# 4. Transformación de datos
print("\n4. Transformación de datos:")
# Añadir una nueva columna
df['hora'] = df['timestamp'].dt.hour
print("\nDataFrame con nueva columna 'hora':")
print(df[['timestamp', 'hora', 'protocolo']])

# Aplicar una función con apply
def clasificar_protocolo(protocolo):
    if protocolo in ['HTTP', 'HTTPS']:
        return 'WEB'
    elif protocolo == 'SSH':
        return 'ADMIN'
    else:
        return 'OTRO'

df['tipo_servicio'] = df['protocolo'].apply(clasificar_protocolo)
print("\nDataFrame con clasificación de servicios:")
print(df[['protocolo', 'tipo_servicio']])


4. Transformación de datos:

DataFrame con nueva columna 'hora':
            timestamp  hora protocolo
0 2023-01-01 00:00:00     0      HTTP
1 2023-01-01 01:00:00     1     HTTPS
2 2023-01-01 02:00:00     2       SSH
3 2023-01-01 03:00:00     3       RDP
4 2023-01-01 04:00:00     4      HTTP
5 2023-01-01 05:00:00     5      HTTP
6 2023-01-01 06:00:00     6     HTTPS
7 2023-01-01 07:00:00     7       SSH
8 2023-01-01 08:00:00     8      HTTP
9 2023-01-01 09:00:00     9       RDP

DataFrame con clasificación de servicios:
  protocolo tipo_servicio
0      HTTP           WEB
1     HTTPS           WEB
2       SSH         ADMIN
3       RDP          OTRO
4      HTTP           WEB
5      HTTP           WEB
6     HTTPS           WEB
7       SSH         ADMIN
8      HTTP           WEB
9       RDP          OTRO


In [5]:
# 5. Agregación de datos
print("\n5. Agregación de datos:")
# Agrupar por protocolo y contar conexiones
conteo_por_protocolo = df.groupby('protocolo').size()
print("\nConteo de conexiones por protocolo:")
print(conteo_por_protocolo)

# Estadísticas por protocolo
stats_por_protocolo = df.groupby('protocolo')['bytes_enviados'].agg(['count', 'mean', 'min', 'max'])
print("\nEstadísticas de bytes enviados por protocolo:")
print(stats_por_protocolo)


5. Agregación de datos:

Conteo de conexiones por protocolo:
protocolo
HTTP     4
HTTPS    2
RDP      2
SSH      2
dtype: int64

Estadísticas de bytes enviados por protocolo:
           count    mean   min   max
protocolo                           
HTTP           4  2788.5  1101  5031
HTTPS          2  3709.5  1365  6054
RDP            2  5982.5  3755  8210
SSH            2  6377.5  3600  9155
