# Tratamiento de Datos con Pandas, Numpy y Matplotlib
## 1. Exploración del DataFrame
Creamos un dataset simulando un registro de conexiones de red, este se lo almacena en un DataFrame. Exploramos las primeras filas, la información general del DataFrame y las estadísticas descriptivas.

En este bloque primero importamos las librerías/dependencias (pandas, numpy, matplotlib) que utilizaremos para el ejercicio.
Luego pasamos a crear el datset "data" e incluir la información que se llenara en éste, p. ej.: fecha y hora, las ip origen  destino, el puerto, protocolo, los bytes que se han enviado y si la conexión fue exitosa (true) o no (false).

Una vez se ha llenado el dataset, usamos pandas para crear un DataFrame "df" a partir de este dataset.
Luego mediante el uso de las bondades de pandas exploramos el DataFrame, vemos su información y estadísticas.
- df.head().- Muestra las 5 primeras filas del Data Frame,  esto permite revisar los primeros datos en el DataFrame para verificar que se hayan cargado correctamente.
- df.info().- Este comando muestra la información concisa del DataFrame, incluye: número de filas y columnas, nombres de las columnas, cantidad de valores nulos de cada columna, cuanta memoria usa el DataFrame,
- df.describe().- Genera estadísticas descriptivas de las columnas numéricas del DataFrame, incluye información como: 
    * el número de valores no nulos (count),
    * la media de los valores (mean)
    * la desviación estándar (std),
    * el valor mínimo (min),
    * el primer cuartil (25%),
    * la mediana (50%),
    * el tercer cuartil (75%),
    * y el valor máximo (max).


In [None]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
# Creamos un dataset simulando un registro de conexiones de red
data = {
    'timestamp': pd.date_range(start='2023-01-01', periods=10, freq='H'),
    'ip_origen': ['192.168.1.' + str(i) for i in range(1, 11)],
    'ip_destino': ['10.0.0.' + str(i % 3 + 1) for i in range(10)],
    'puerto': [80, 443, 22, 3389, 8080, 80, 443, 22, 8080, 3389],
    'protocolo': ['HTTP', 'HTTPS', 'SSH', 'RDP', 'HTTP', 'HTTP', 'HTTPS', 'SSH', 'HTTP', 'RDP'],
    'bytes_enviados': np.random.randint(100, 10000, 10),
    'exito_conexion': [True, True, False, True, True, True, False, False, True, True]
}
# Creamos el DataFrame
df = pd.DataFrame(data)
print("1. Explorando el DataFrame:")
print(df.head())
print("\nInformación del DataFrame:")
print(df.info())
print("\nEstadísticas descriptivas:")
print(df.describe())


1. Explorando el DataFrame:
            timestamp    ip_origen ip_destino  puerto protocolo  \
0 2023-01-01 00:00:00  192.168.1.1   10.0.0.1      80      HTTP   
1 2023-01-01 01:00:00  192.168.1.2   10.0.0.2     443     HTTPS   
2 2023-01-01 02:00:00  192.168.1.3   10.0.0.3      22       SSH   
3 2023-01-01 03:00:00  192.168.1.4   10.0.0.1    3389       RDP   
4 2023-01-01 04:00:00  192.168.1.5   10.0.0.2    8080      HTTP   

   bytes_enviados  exito_conexion  
0            2875            True  
1            3344            True  
2            9272           False  
3            5383            True  
4            6365            True  

Información del DataFrame:
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 10 entries, 0 to 9
Data columns (total 7 columns):
 #   Column          Non-Null Count  Dtype         
---  ------          --------------  -----         
 0   timestamp       10 non-null     datetime64[ns]
 1   ip_origen       10 non-null     object        
 2   ip_destino 

  'timestamp': pd.date_range(start='2023-01-01', periods=10, freq='H'),


## 2. Selección de Datos
Seleccionamos columnas específicas del DataFrame para un análisis más detallado. Por ejemplo:
print(df['protocolo'] para mostrar la columna protocolo o, múltiples columnas como en en el segundo caso seleccinoamos la ip origen, protocolo y puerto. También se extraer la información por índice, en este caso 2 filas solo con las columnas bajo indice 0 (timestamp) y 2 (ip_destino).
Por último se extraen todas las filas cuyo protocolo sea HTTP, listando las columnas timestamp, ip_origen y puerto.

In [3]:
# 2. Selección de datos
print("\n2. Selección de datos:")
# Seleccionar una columna (devuelve una Serie)
print("\nSelección de una columna (Serie):")
print(df['protocolo'])
# Seleccionar múltiples columnas (devuelve un DataFrame)
print("\nSelección de múltiples columnas (DataFrame):")
print(df[['ip_origen', 'protocolo', 'puerto']])
# Selección por índice con iloc
print("\nSelección por índice con iloc (primeras 2 filas, columnas 0 y 2):")
print(df.iloc[0:2, [0, 2]])
# Selección por nombre con loc
print("\nSelección por nombre con loc (filas donde protocolo es 'HTTP'):")
print(df.loc[df['protocolo'] == 'HTTP', ['timestamp', 'ip_origen', 'puerto']])


2. Selección de datos:

Selección de una columna (Serie):
0     HTTP
1    HTTPS
2      SSH
3      RDP
4     HTTP
5     HTTP
6    HTTPS
7      SSH
8     HTTP
9      RDP
Name: protocolo, dtype: object

Selección de múltiples columnas (DataFrame):
      ip_origen protocolo  puerto
0   192.168.1.1      HTTP      80
1   192.168.1.2     HTTPS     443
2   192.168.1.3       SSH      22
3   192.168.1.4       RDP    3389
4   192.168.1.5      HTTP    8080
5   192.168.1.6      HTTP      80
6   192.168.1.7     HTTPS     443
7   192.168.1.8       SSH      22
8   192.168.1.9      HTTP    8080
9  192.168.1.10       RDP    3389

Selección por índice con iloc (primeras 2 filas, columnas 0 y 2):
            timestamp ip_destino
0 2023-01-01 00:00:00   10.0.0.1
1 2023-01-01 01:00:00   10.0.0.2

Selección por nombre con loc (filas donde protocolo es 'HTTP'):
            timestamp    ip_origen  puerto
0 2023-01-01 00:00:00  192.168.1.1      80
4 2023-01-01 04:00:00  192.168.1.5    8080
5 2023-01-01 05:00:0

## 3. Filtrado de Datos
Aplicamos distintos filtros a la informacion del DataFrame con el fin de extraer subconjuntos de datos relevantes, como conexiones exitosas o conexiones HTTP en el puerto 80. Para esto lo que hacemos es guardar en una variable "conxiones_exitosas" las filas de DataFrame cuya columna "exito_conexion" contenga el valor True, para listar luego las columnas timestamp, ip_orign y protocolo.
En el segundo ejemplo, se hace un filtrado múltiple en este caso por protocolo HTTP y puerto 80, pero en este caso se listan las 7 columnas.


In [4]:
# 3. Filtrado de datos
print("\n3. Filtrado de datos:")
# Filtrar conexiones exitosas
conexiones_exitosas = df[df['exito_conexion'] == True]
print("\nConexiones exitosas:")
print(conexiones_exitosas[['timestamp', 'ip_origen', 'protocolo']])
# Filtrado múltiple (conexiones HTTP en puerto 80)
http_port80 = df[(df['protocolo'] == 'HTTP') & (df['puerto'] == 80)]
print("\nConexiones HTTP en puerto 80:")
print(http_port80)



3. Filtrado de datos:

Conexiones exitosas:
            timestamp     ip_origen protocolo
0 2023-01-01 00:00:00   192.168.1.1      HTTP
1 2023-01-01 01:00:00   192.168.1.2     HTTPS
3 2023-01-01 03:00:00   192.168.1.4       RDP
4 2023-01-01 04:00:00   192.168.1.5      HTTP
5 2023-01-01 05:00:00   192.168.1.6      HTTP
8 2023-01-01 08:00:00   192.168.1.9      HTTP
9 2023-01-01 09:00:00  192.168.1.10       RDP

Conexiones HTTP en puerto 80:
            timestamp    ip_origen ip_destino  puerto protocolo  \
0 2023-01-01 00:00:00  192.168.1.1   10.0.0.1      80      HTTP   
5 2023-01-01 05:00:00  192.168.1.6   10.0.0.3      80      HTTP   

   bytes_enviados  exito_conexion  
0            2875            True  
5            4901            True  


## 4. Transformación de Datos
Añadimos nuevas columnas y aplicamos funciones para transformar los datos como protocolos HTTP/HTTPS en el tipo de protocolo WEB, o el SSH en el tipo ADMIN. Para esto al mismo DataFrame "df" que ya tenemos le agregamos la columna "hora", tomando de la columna "timestamp" solamente la hora (df['timestamp'].dt.hour).
Posteriormente se usa la función apply para que a los registros de la columna protocolo que sean "HTTP" o "HTTPS" les cambie o coloque "WEB", esto mismo lo hace para el "SSH" que es un protocolo de administración y se le coloca como "ADMIN", para el resto de protocolos les coloca como "OTRO".

In [5]:
# 4. Transformación de datos
print("\n4. Transformación de datos:")
# Añadir una nueva columna
df['hora'] = df['timestamp'].dt.hour
print("\nDataFrame con nueva columna 'hora':")
print(df[['timestamp', 'hora', 'protocolo']])
# Aplicar una función con apply
def clasificar_protocolo(protocolo):
    if protocolo in ['HTTP', 'HTTPS']:
        return 'WEB'
    elif protocolo == 'SSH':
        return 'ADMIN'
    else:
        return 'OTRO'
df['tipo_servicio'] = df['protocolo'].apply(clasificar_protocolo)
print("\nDataFrame con clasificación de servicios:")
print(df[['protocolo', 'tipo_servicio']])



4. Transformación de datos:

DataFrame con nueva columna 'hora':
            timestamp  hora protocolo
0 2023-01-01 00:00:00     0      HTTP
1 2023-01-01 01:00:00     1     HTTPS
2 2023-01-01 02:00:00     2       SSH
3 2023-01-01 03:00:00     3       RDP
4 2023-01-01 04:00:00     4      HTTP
5 2023-01-01 05:00:00     5      HTTP
6 2023-01-01 06:00:00     6     HTTPS
7 2023-01-01 07:00:00     7       SSH
8 2023-01-01 08:00:00     8      HTTP
9 2023-01-01 09:00:00     9       RDP

DataFrame con clasificación de servicios:
  protocolo tipo_servicio
0      HTTP           WEB
1     HTTPS           WEB
2       SSH         ADMIN
3       RDP          OTRO
4      HTTP           WEB
5      HTTP           WEB
6     HTTPS           WEB
7       SSH         ADMIN
8      HTTP           WEB
9       RDP          OTRO


## 5. Agregación de Datos
Agrupamos los datos por protocolo y se calculan estadísticas como el conteo de conexiones y estadísticas descriptivas de los bytes enviados.

Para esto se esta utilizando la función groupby de pandas que realiza operaciones de agrupamiento y estadísticas sobre un DataFrame (df).
- df.groupby('protocolo').- Agrupa por la columna protocolo, es decir, pandas agrupa todas las filas que tienen el mismo valor en la columna protocolo.
- .size().- Cuenta cuántas veces aparece cada valor único (HTTP, HTTPS, etc.)) en la columna protocolo.

Luego para obtener las estadísticas dscriptivas, 

- ['bytes_enviados'].- Después de hacer el agrupamiento, selecciona la columna bytes_enviados para realizar las operaciones sobre esta columna. 
- .agg(['count', 'mean', 'min', 'max']).- Aplica varias funciones agregadas a la columna bytes_enviados, especificamente las siguientes:

    * el número de valores no nulos (count)
    * la media de los valores (mean)
    * el valor mínimo (min)
    * el valor máximo (max).

In [None]:
# 5. Agregación de datos
print("\n5. Agregación de datos:")
# Agrupar por protocolo y contar conexiones
conteo_por_protocolo = df.groupby('protocolo').size()
print("\nConteo de conexiones por protocolo:")
print(conteo_por_protocolo)
# Estadísticas por protocolo
stats_por_protocolo = df.groupby('protocolo')['bytes_enviados'].agg(['count', 'mean', 'min', 'max'])
print("\nEstadísticas de bytes enviados por protocolo:")
print(stats_por_protocolo)



5. Agregación de datos:

Conteo de conexiones por protocolo:
protocolo
HTTP     4
HTTPS    2
RDP      2
SSH      2
dtype: int64

Estadísticas de bytes enviados por protocolo:
           count     mean   min   max
protocolo                            
HTTP           4  5708.75  2875  8694
HTTPS          2  1877.50   411  3344
RDP            2  6749.00  5383  8115
SSH            2  6159.00  3046  9272


## 6. Pivotado de Datos
En este punto, se una tabla pivote o tabla dinamica para analizar los bytes enviados por tipo de servicio y éxito de conexión.

- pd.pivot_table(df).- Crea la tabla dinámica a partir del DataFrame df y con las líneas:

   * values='bytes_enviados'.- Indica que los valores que se usaran en la tabla dinámica provienen de la columna "bytes_enviados" del DataFrame df.
   * index='tipo_servicio'.- Define a la columna "tipo_servicio" como el índice de la tabla dinámica. Esto significa que los valores únicos de tipo_servicio se organizarán en las filas de la tabla resultante.
   * columns='exito_conexion'.- Indica que la columna "exito_conexion" se utilizará para crear las columnas de la tabla dinámica.
   * aggfunc='mean'.- Especifica la función agregada a usarse para combinar los datos dentro de las celdas de la tabla dinámica. En este caso, se está utilizando 'mean' qué,  cómo se explico antes, calculará el promedio de los valores de "bytes_enviados" para cada combinación de tipo_servicio y exito_conexion.

In [7]:
# 6. Pivotado de datos
print("\n6. Pivotado de datos:")
# Tabla pivote de bytes enviados por tipo de servicio y protocolo
pivot = pd.pivot_table(df, 
                      values='bytes_enviados', 
                      index='tipo_servicio', 
                      columns='exito_conexion', 
                      aggfunc='mean')
print("\nTabla pivote de bytes enviados por tipo de servicio y éxito de conexión:")
print(pivot)


6. Pivotado de datos:

Tabla pivote de bytes enviados por tipo de servicio y éxito de conexión:
exito_conexion   False   True 
tipo_servicio                 
ADMIN           6159.0     NaN
OTRO               NaN  6749.0
WEB              411.0  5235.8


## 7. Detección de Anomalías Simples
Este código detecta posibles anomalías en el volumen de datos transferidos (bytes_enviados) mediante el uso del Z-score. Calculamos el Z-score para identificar valores atípicos en los bytes enviados y detectamos posibles anomalías. Para este caso se consideran como anomalías los valores mayores a 1.5, el proceso consiste en:

- Z-score.- Mide cuántas desviaciones estándar se encuentra un valor de la media. Es una forma estándar de comparar valores con diferentes distribuciones.
- df['bytes_enviados'].mean().- Se usa para calcular la media de la columna "bytes_enviados".
- df['bytes_enviados'].std().- Se usa para calcular la desviación estándar de la columna "bytes_enviados", mide cuánta dispersión hay respecto a la media.

Para el cálculo del Z-score, Z-score usa la fórmula para cada valor x en "bytes_enviados":
​
$$ Z = \frac{x - \mu}{\sigma} $$

 
donde, en nuestro caso:
𝑥: es el valor de bytes_enviados.
𝜇: es la media de los bytes_enviados.
𝜎: es la desviación estándar de bytes_enviados.


En la segunda parte, lo que se hace s:
- abs(df['z_score']) > 1.5.- Aquí se filtra el DataFrame para identificar los registros cuyo Z-score (desviación de la media) sea mayor que 1.5 o menor que -1.5.

Al final se muestran los datos que en base a esta condición resultan como anomalos.

In [8]:
# 7. Detección de anomalías simples
print("\n7. Detección de anomalías simples:")
# Calcular el Z-score para identificar valores atípicos en bytes_enviados
df['z_score'] = (df['bytes_enviados'] - df['bytes_enviados'].mean()) / df['bytes_enviados'].std()
anomalias = df[abs(df['z_score']) > 1.5]  # Consideramos como anómalos Z-scores > 1.5
print("\nPosibles conexiones anómalas por volumen de datos transferidos:")
print(anomalias[['timestamp', 'ip_origen', 'protocolo', 'bytes_enviados', 'z_score']])



7. Detección de anomalías simples:

Posibles conexiones anómalas por volumen de datos transferidos:
            timestamp    ip_origen protocolo  bytes_enviados   z_score
6 2023-01-01 06:00:00  192.168.1.7     HTTPS             411 -1.671078
