# Análisis de Datos con Pandas - Transformando Datos

* **Autor**: Jose Rodriguez (@Cyb3rPandah)
* **Proyecto**: Infosec Jupyter Book
* **Organización Pública**: [Open Threat Research](https://github.com/OTRF)
* **Licencia**: [Creative Commons Attribution-ShareAlike 4.0 International](https://creativecommons.org/licenses/by-sa/4.0/)
* **Referencia**: https://github.com/OTRF/mordor/tree/master/datasets/large/apt29/day1

## Representando el Archivo JSON como Dataframe usando Pandas

La representación del archivo JSON como un Dataframe de Pandas puede involucrar el uso de comandos como **wget**, **unzip**. Esto fue explicado con más detalle en el notebook que lleva por título **Representando el Archivo JSON como Dataframe usando Pandas**, y además se encuentra en la misma carpeta del presente notebook. Para mantener la estructura del presente notebok en un formato simple, los JSON files requeridos para este workshop ya han sido desargados y descomprimidos. Estos archivos se encuentran en la carpeta **sets_datos**.

! wget https://github.com/OTRF/mordor/raw/master/datasets/large/apt29/day1/apt29_evals_day1_manual.zip  -O sets_datos/apt29_evals_day1_manual.zip

! unzip -o sets_datos/apt29_evals_day1_manual.zip -d sets_datos/

In [1]:
apt29_json = 'sets_datos/apt29_evals_day1_manual_2020-05-01225525.json'

### a) Importando la librería Pandas

In [2]:
import pandas as pd

### b) Leyendo Archivo JSON

Usaremos el método **pandas.read_json**.

Referencia: https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.read_json.html

In [3]:
# reading the json file using read_json method and considering the parameter lines = True
# setting the chunksize parameter = 1000
df = pd.read_json(apt29_json, lines = True, chunksize = 1000)
# creating an empty list to store data for every chunk
apt29_chunks = []
# adding data of every chunk to an empty list using a for loop and the append method
for chunk in df:
    apt29_chunks.append(chunk)
# putting everything together into a Pandas dataframe using the concat method
# considering the parameter sort = False
df = pd.concat(apt29_chunks, sort = False)
# visualizing the first five records of the Pandas dataframe using the head method
df.head()

Unnamed: 0,EventTime,port,Message,SourceThreadId,EventID,TargetProcessId,SourceModuleName,tags,@version,SourceImage,...,Flags,SecurityOptions,RemoteAddresses,Active,ProfileChanged,param10,param6,param8,param9,param11
0,2020-05-01 22:55:23,60737,Process accessed:\r\nRuleName: -\r\nUtcTime: 2...,504.0,10,2092,eventlog,[mordorDataset],1,C:\windows\system32\svchost.exe,...,,,,,,,,,,
1,2020-05-01 22:55:23,60737,Process accessed:\r\nRuleName: -\r\nUtcTime: 2...,504.0,10,2092,eventlog,[mordorDataset],1,C:\windows\system32\svchost.exe,...,,,,,,,,,,
2,2020-05-01 22:55:23,60737,Process accessed:\r\nRuleName: -\r\nUtcTime: 2...,972.0,10,2092,eventlog,[mordorDataset],1,C:\windows\system32\svchost.exe,...,,,,,,,,,,
3,2020-05-01 22:55:23,60737,Process accessed:\r\nRuleName: -\r\nUtcTime: 2...,972.0,10,2092,eventlog,[mordorDataset],1,C:\windows\system32\svchost.exe,...,,,,,,,,,,
4,2020-05-01 22:55:24,60737,Process accessed:\r\nRuleName: -\r\nUtcTime: 2...,5792.0,10,2980,eventlog,[mordorDataset],1,C:\windows\system32\svchost.exe,...,,,,,,,,,,


### c) Conociendo las columnas o atributos del Dataframe

Usaremos el método **pandas.DataFrame.info**.

Referencia: https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.info.html

In [4]:
df.info(verbose = True)

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 196081 entries, 0 to 196080
Data columns (total 388 columns):
 #   Column                           Dtype  
---  ------                           -----  
 0   EventTime                        object 
 1   port                             int64  
 2   Message                          object 
 3   SourceThreadId                   float64
 4   EventID                          int64  
 5   TargetProcessId                  object 
 6   SourceModuleName                 object 
 7   tags                             object 
 8   @version                         int64  
 9   SourceImage                      object 
 10  SourceName                       object 
 11  AccountType                      object 
 12  TargetImage                      object 
 13  host                             object 
 14  Task                             int64  
 15  ThreadID                         int64  
 16  EventReceivedTime                object 
 17  CallTrace

## Filtrando Eventos de Seguridad: Sysmon 1 (Creacion de Processo)

Vamos a usar el mismo codigo del notebok anterior, pero con una pequeña modificación. En vez de buscar el nombre del channel completo, buscaremos la palabra **sysmon**.

Referencias:
* https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.Series.str.contains.html
* https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.Series.str.startswith.html
* https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.Series.str.endswith.html

In [5]:
(
df[['@timestamp','Image','CommandLine']]
    
[(df['EventID'] == 1) & (df['Channel'].str.contains('sysmon',case = False, na = False, regex = False)) ]
    
.head(5)
)

Unnamed: 0,@timestamp,Image,CommandLine
372,2020-05-02T02:55:57.730Z,C:\ProgramData\victim\â€®cod.3aka3.scr,"""C:\ProgramData\victim\â€®cod.3aka3.scr"" /S"
621,2020-05-02T02:56:05.822Z,C:\Windows\System32\conhost.exe,\\?\C:\windows\system32\conhost.exe --headless...
649,2020-05-02T02:56:05.830Z,C:\Windows\System32\cmd.exe,"""C:\windows\system32\cmd.exe"""
827,2020-05-02T02:56:15.884Z,C:\Windows\System32\WindowsPowerShell\v1.0\pow...,powershell
3620,2020-05-02T02:57:02.831Z,C:\Windows\System32\SearchProtocolHost.exe,"""C:\windows\system32\SearchProtocolHost.exe"" G..."


## Calculando la Longitud del CommandLine

Usaremos el método **assign** para agregar una columna nueva a nuestro dataframe. Esta nueva columna mostrará el calculo de la longitud del command line que el processo utilizó.

Referencia: https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.assign.html

In [6]:
(
df[['@timestamp','Image','CommandLine']]
    
[(df['EventID'] == 1) & (df['Channel'].str.contains('sysmon',case = False, na = False, regex = False))]
    
.assign(Command_Length = df['CommandLine'].str.len())
)

Unnamed: 0,@timestamp,Image,CommandLine,Command_Length
372,2020-05-02T02:55:57.730Z,C:\ProgramData\victim\â€®cod.3aka3.scr,"""C:\ProgramData\victim\â€®cod.3aka3.scr"" /S",43.0
621,2020-05-02T02:56:05.822Z,C:\Windows\System32\conhost.exe,\\?\C:\windows\system32\conhost.exe --headless...,99.0
649,2020-05-02T02:56:05.830Z,C:\Windows\System32\cmd.exe,"""C:\windows\system32\cmd.exe""",29.0
827,2020-05-02T02:56:15.884Z,C:\Windows\System32\WindowsPowerShell\v1.0\pow...,powershell,10.0
3620,2020-05-02T02:57:02.831Z,C:\Windows\System32\SearchProtocolHost.exe,"""C:\windows\system32\SearchProtocolHost.exe"" G...",308.0
...,...,...,...,...
193780,2020-05-02T03:25:33.847Z,C:\Windows\System32\UsoClient.exe,C:\windows\system32\usoclient.exe StartScan,43.0
193812,2020-05-02T03:25:33.858Z,C:\Windows\System32\usocoreworker.exe,C:\Windows\System32\usocoreworker.exe -Embedding,48.0
194036,2020-05-02T03:25:50.013Z,C:\Windows\System32\taskhostw.exe,taskhostw.exe Logon,19.0
194568,2020-05-02T03:26:12.287Z,C:\Windows\System32\UsoClient.exe,C:\windows\system32\usoclient.exe StartScan,43.0


## Muchas gracias!! Espero que este notebooks haya sido útil para empezar a revisar algunas técnicas para transformar datos :D

## Aún hay más por aprender :D