# Análisis de Datos con Pandas - Filtrando y Resumiendo Datos

* **Autor**: Jose Rodriguez (@Cyb3rPandah)
* **Proyecto**: Infosec Jupyter Book
* **Organización Pública**: [Open Threat Research](https://github.com/OTRF)
* **Licencia**: [Creative Commons Attribution-ShareAlike 4.0 International](https://creativecommons.org/licenses/by-sa/4.0/)
* **Referencia**: https://mordordatasets.com/notebooks/small/windows/02_execution/SDWIN-200806115603.html

## Representando el Archivo JSON como Dataframe usando Pandas

La representación del archivo JSON como un Dataframe de Pandas puede involucrar el uso de comandos como **wget**, **unzip**. Esto fue explicado con más detalle en el notebook que lleva por título **Representando el Archivo JSON como Dataframe usando Pandas**, y además se encuentra en la misma carpeta del presente notebook. Para mantener la estructura del presente notebok en un formato simple, los JSON files requeridos para este workshop ya han sido desargados y descomprimidos. Estos archivos se encuentran en la carpeta **sets_datos**.

In [2]:
psremoting_json = 'sets_datos/covenant_psremoting_command_2020-08-06115603.json'

### a) Importando la librería Pandas

In [3]:
import pandas as pd

### b) Leyendo Archivo JSON

Usaremos el método **pandas.read_json**.

Referencia: https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.read_json.html

In [4]:
df = pd.read_json(path_or_buf = psremoting_json, lines = True)
df.head(5)

Unnamed: 0,tags,@version,EventType,Version,ThreadID,EventTime,Task,AccountType,PipeName,Channel,...,ContextInfo,Payload,AdditionalInfo,AdditionalInfo2,OperationType,Properties,MiniportNameLen,MiniportName,param3,param4
0,[mordorDataset],1,ConnectPipe,1.0,4208,2020-08-06 11:56:04,18,User,\lsass,Microsoft-Windows-Sysmon/Operational,...,,,,,,,,,,
1,[mordorDataset],1,INFO,3.0,4208,2020-08-06 11:56:05,10,User,,Microsoft-Windows-Sysmon/Operational,...,,,,,,,,,,
2,[mordorDataset],1,INFO,3.0,4208,2020-08-06 11:56:05,10,User,,Microsoft-Windows-Sysmon/Operational,...,,,,,,,,,,
3,[mordorDataset],1,AUDIT_SUCCESS,1.0,1808,2020-08-06 11:56:06,12810,,,Security,...,,,,,,,,,,
4,[mordorDataset],1,AUDIT_SUCCESS,1.0,1808,2020-08-06 11:56:06,12810,,,Security,...,,,,,,,,,,


### c) Conociendo las columnas o atributos del Dataframe

Usaremos el método **pandas.DataFrame.info**.

Referencia: https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.info.html

In [5]:
df.info(verbose = True)

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 4284 entries, 0 to 4283
Data columns (total 180 columns):
 #   Column                     Dtype  
---  ------                     -----  
 0   tags                       object 
 1   @version                   int64  
 2   EventType                  object 
 3   Version                    float64
 4   ThreadID                   int64  
 5   EventTime                  object 
 6   Task                       int64  
 7   AccountType                object 
 8   PipeName                   object 
 9   Channel                    object 
 10  EventTypeOrignal           object 
 11  SourceName                 object 
 12  Hostname                   object 
 13  @timestamp                 object 
 14  OpcodeValue                float64
 15  Message                    object 
 16  SourceModuleName           object 
 17  ProcessId                  object 
 18  EventReceivedTime          object 
 19  port                       int64  
 20  Account

## Filtrando Columnas o Atributos de nuestro Dataframe

Seleccionando las columnas **'@timestamp','Hostname','Channel','EventID'** usando una **lista** con los nombres de las columnas.

In [6]:
df[['@timestamp','Hostname','Channel','ParentImage','Image','EventID']].head()

Unnamed: 0,@timestamp,Hostname,Channel,ParentImage,Image,EventID
0,2020-08-06T15:56:07.158Z,MORDORDC.theshire.local,Microsoft-Windows-Sysmon/Operational,,C:\windows\system32\dns.exe,18
1,2020-08-06T15:56:07.158Z,MORDORDC.theshire.local,Microsoft-Windows-Sysmon/Operational,,,10
2,2020-08-06T15:56:07.158Z,MORDORDC.theshire.local,Microsoft-Windows-Sysmon/Operational,,,10
3,2020-08-06T15:56:08.170Z,WORKSTATION5.theshire.local,Security,,,5156
4,2020-08-06T15:56:08.170Z,WORKSTATION5.theshire.local,Security,,,5156


## Filtrando Filas o Registros de nuestro Dataframe

### a) Una condición

Filtrando nombres de procesos que incluyan el string **wsmprovhost.exe**.

In [42]:
(
df[['@timestamp','Hostname','Channel','ParentImage','Image','EventID']]
    
[df['Image'].str.contains('wsmprovhost.exe',case = False, na = False, regex = False)]
    
.head(5)
)

Unnamed: 0,@timestamp,Hostname,Channel,ParentImage,Image,EventID
656,2020-08-06T15:56:24.416Z,WORKSTATION6.theshire.local,Microsoft-Windows-Sysmon/Operational,C:\Windows\System32\svchost.exe,C:\Windows\System32\wsmprovhost.exe,1
666,2020-08-06T15:56:24.419Z,WORKSTATION6.theshire.local,Microsoft-Windows-Sysmon/Operational,,C:\Windows\System32\wsmprovhost.exe,7
669,2020-08-06T15:56:24.420Z,WORKSTATION6.theshire.local,Microsoft-Windows-Sysmon/Operational,,C:\Windows\System32\wsmprovhost.exe,7
673,2020-08-06T15:56:24.423Z,WORKSTATION6.theshire.local,Microsoft-Windows-Sysmon/Operational,,C:\Windows\System32\wsmprovhost.exe,7
675,2020-08-06T15:56:24.424Z,WORKSTATION6.theshire.local,Microsoft-Windows-Sysmon/Operational,,C:\Windows\System32\wsmprovhost.exe,7


### b) Más de una condición: Operadores AND y OR

Podemos usar múltiples condiciones usando los operadores **&** (AND) y **|** (OR). El uso de parentesis es importante cuando trabajamos con múltiples condiciones.

In [51]:
(
df[['@timestamp','Hostname','Channel','ParentImage','Image','EventID']]
    
[(df['Image'].str.contains('wsmprovhost.exe',case = False, na = False, regex = False)) |
  (df['ParentImage'].str.contains('wsmprovhost.exe',case = False, na = False, regex = False))]    

.head(5)
)

Unnamed: 0,@timestamp,Hostname,Channel,ParentImage,Image,EventID
656,2020-08-06T15:56:24.416Z,WORKSTATION6.theshire.local,Microsoft-Windows-Sysmon/Operational,C:\Windows\System32\svchost.exe,C:\Windows\System32\wsmprovhost.exe,1
666,2020-08-06T15:56:24.419Z,WORKSTATION6.theshire.local,Microsoft-Windows-Sysmon/Operational,,C:\Windows\System32\wsmprovhost.exe,7
669,2020-08-06T15:56:24.420Z,WORKSTATION6.theshire.local,Microsoft-Windows-Sysmon/Operational,,C:\Windows\System32\wsmprovhost.exe,7
673,2020-08-06T15:56:24.423Z,WORKSTATION6.theshire.local,Microsoft-Windows-Sysmon/Operational,,C:\Windows\System32\wsmprovhost.exe,7
675,2020-08-06T15:56:24.424Z,WORKSTATION6.theshire.local,Microsoft-Windows-Sysmon/Operational,,C:\Windows\System32\wsmprovhost.exe,7


## Resumiendo Filas o Registros de nuestro Dataframe

### a) Resumiendo los eventos de seguridad para el proveedor Sysmon

Ahora podemos realizar la agrupación del dataframe anterior usando el método **groupby** y la columna que representa el número de identificaión del evento de seguridad.

Referencia: https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.groupby.html

In [58]:
(
df[['@timestamp','Hostname','Channel','ParentImage','Image','EventID']]
    
[(df['Image'].str.contains('wsmprovhost.exe',case = False, na = False, regex = False)) |
  (df['ParentImage'].str.contains('wsmprovhost.exe',case = False, na = False, regex = False))]    

.groupby(['EventID']).size()
)

EventID
1       1
5       1
7      91
11      3
12    148
17      1
18      1
23      2
dtype: int64

El código ejecutado previamente nos devuelve una **Serie**. En caso quisieramos convertir este objeto a un **dataframe**, podemos usar el método **to_frame**.

Referencia: https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.Series.to_frame.html

In [59]:
(
df[['@timestamp','Hostname','Channel','ParentImage','Image','EventID']]
    
[(df['Image'].str.contains('wsmprovhost.exe',case = False, na = False, regex = False)) |
  (df['ParentImage'].str.contains('wsmprovhost.exe',case = False, na = False, regex = False))]    

.groupby(['EventID']).size().to_frame(name = 'Frequencia')
)

Unnamed: 0_level_0,Frequencia
EventID,Unnamed: 1_level_1
1,1
5,1
7,91
11,3
12,148
17,1
18,1
23,2


### b)  Resumiendo y Ordenando los eventos de seguridad para el proveedor Sysmon

Similar al codigo anterior, pero ahora vamos a agregar la operacion de ordenamiento usando el método **sort_values**.

Referencia: https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.sort_values.html

In [60]:
(
df[['@timestamp','Hostname','Channel','ParentImage','Image','EventID']]
    
[(df['Image'].str.contains('wsmprovhost.exe',case = False, na = False, regex = False)) |
  (df['ParentImage'].str.contains('wsmprovhost.exe',case = False, na = False, regex = False))]    

.groupby(['EventID']).size().to_frame(name = 'Frequencia').sort_values(by = 'Frequencia', ascending = False)
)

Unnamed: 0_level_0,Frequencia
EventID,Unnamed: 1_level_1
12,148
7,91
11,3
23,2
1,1
5,1
17,1
18,1


## Muchas gracias!! Espero que este notebooks haya sido útil para empezar a revisar algunas técnicas para filtrar y resumir datos :D

## Aún hay más por aprender :D