# Creando un Dataframe desde un Set de Datos de Mordor

* **Autor**: Jose Rodriguez (@Cyb3rPandah)
* **Proyecto**: Infosec Jupyter Book
* **Organización Pública**: [Open Threat Research](https://github.com/OTRF)
* **Licencia**: [Creative Commons Attribution-ShareAlike 4.0 International](https://creativecommons.org/licenses/by-sa/4.0/)
* **Referencia**: https://mordordatasets.com/notebooks/small/windows/02_execution/SDWIN-200806115603.html

## Obteniendo el archivo JSON

### a) Descargando el archivo Zip

Usaremos el comando **wget** y la opción **-O** (output document file) para guardar el archivo Zip en la carpeta **sets_datos**.

In [1]:
! wget https://raw.githubusercontent.com/OTRF/mordor/master/datasets/small/windows/lateral_movement/host/covenant_psremoting_command.zip -O sets_datos/covenant_psremoting_command.zip

--2020-09-26 10:43:39--  https://raw.githubusercontent.com/OTRF/mordor/master/datasets/small/windows/lateral_movement/host/covenant_psremoting_command.zip
Resolving raw.githubusercontent.com (raw.githubusercontent.com)... 151.101.200.133
Connecting to raw.githubusercontent.com (raw.githubusercontent.com)|151.101.200.133|:443... connected.
HTTP request sent, awaiting response... 200 OK
Length: 359550 (351K) [application/zip]
Saving to: ‘sets_datos/covenant_psremoting_command.zip’


2020-09-26 10:43:40 (2.32 MB/s) - ‘sets_datos/covenant_psremoting_command.zip’ saved [359550/359550]



### b) Extrayendo el archivo JSON

Usaremos el comando **unzip** y las opciones **-o** (Overwrite) y **-d** (different directory) para guardar el archivo JSON en la carpeta **sets_datos**.

In [2]:
! unzip -o sets_datos/covenant_psremoting_command.zip -d sets_datos/

Archive:  sets_datos/covenant_psremoting_command.zip
  inflating: sets_datos/covenant_psremoting_command_2020-08-06115603.json  


Para facilitar nuestro código, almacenaremos el **directorio** del archivo JSON en una variable.

In [3]:
psremoting_json = 'sets_datos/covenant_psremoting_command_2020-08-06115603.json'

## Representando el Archivo JSON como Dataframe usando Pandas

### a) Importando la librería Pandas

In [4]:
import pandas as pd

### b) Leyendo el archivo JSON

Usaremos el método **pandas.read_json**.

Referencia: https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.read_json.html

In [5]:
df = pd.read_json(path_or_buf = psremoting_json, lines = True)

Validaremos el tipo de objecto creado usando la funcion **type**, la cual es proveida por Python (Built-In).

Referencia: https://docs.python.org/3/library/functions.html

In [6]:
type(df)

pandas.core.frame.DataFrame

Finalmente, podemos visualizar el **dataframe** generado:

In [7]:
df

Unnamed: 0,tags,@version,EventType,Version,ThreadID,EventTime,Task,AccountType,PipeName,Channel,...,ContextInfo,Payload,AdditionalInfo,AdditionalInfo2,OperationType,Properties,MiniportNameLen,MiniportName,param3,param4
0,[mordorDataset],1,ConnectPipe,1.0,4208,2020-08-06 11:56:04,18,User,\lsass,Microsoft-Windows-Sysmon/Operational,...,,,,,,,,,,
1,[mordorDataset],1,INFO,3.0,4208,2020-08-06 11:56:05,10,User,,Microsoft-Windows-Sysmon/Operational,...,,,,,,,,,,
2,[mordorDataset],1,INFO,3.0,4208,2020-08-06 11:56:05,10,User,,Microsoft-Windows-Sysmon/Operational,...,,,,,,,,,,
3,[mordorDataset],1,AUDIT_SUCCESS,1.0,1808,2020-08-06 11:56:06,12810,,,Security,...,,,,,,,,,,
4,[mordorDataset],1,AUDIT_SUCCESS,1.0,1808,2020-08-06 11:56:06,12810,,,Security,...,,,,,,,,,,
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
4279,[mordorDataset],1,AUDIT_SUCCESS,0.0,6244,2020-08-06 11:57:36,12810,,,Security,...,,,,,,,,,,
4280,[mordorDataset],1,AUDIT_SUCCESS,0.0,6244,2020-08-06 11:57:36,12810,,,Security,...,,,,,,,,,,
4281,[mordorDataset],1,AUDIT_SUCCESS,0.0,6244,2020-08-06 11:57:36,12810,,,Security,...,,,,,,,,,,
4282,[mordorDataset],1,AUDIT_SUCCESS,0.0,6244,2020-08-06 11:57:36,12810,,,Security,...,,,,,,,,,,


### c) Conociendo las columnas o atributos del Dataframe

Usaremos el método **pandas.DataFrame.info**.

Referencia: https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.info.html

In [8]:
df.info(verbose = True)

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 4284 entries, 0 to 4283
Data columns (total 180 columns):
 #   Column                     Dtype  
---  ------                     -----  
 0   tags                       object 
 1   @version                   int64  
 2   EventType                  object 
 3   Version                    float64
 4   ThreadID                   int64  
 5   EventTime                  object 
 6   Task                       int64  
 7   AccountType                object 
 8   PipeName                   object 
 9   Channel                    object 
 10  EventTypeOrignal           object 
 11  SourceName                 object 
 12  Hostname                   object 
 13  @timestamp                 object 
 14  OpcodeValue                float64
 15  Message                    object 
 16  SourceModuleName           object 
 17  ProcessId                  object 
 18  EventReceivedTime          object 
 19  port                       int64  
 20  Account

## Muchas gracias!! Espero que este notebooks haya sido útil para empezar a importar sets de datos de mordor

## Aún hay más por aprender :D