# Análisis de Datos con Pandas - Correlacionando Datos

* **Autor**: Jose Rodriguez (@Cyb3rPandah)
* **Proyecto**: Infosec Jupyter Book
* **Organización Pública**: [Open Threat Research](https://github.com/OTRF)
* **Licencia**: [Creative Commons Attribution-ShareAlike 4.0 International](https://creativecommons.org/licenses/by-sa/4.0/)
* **Referencia**: https://mordordatasets.com/notebooks/small/windows/08_lateral_movement/SDWIN-190518210652.html

## Representando el Archivo JSON como Dataframe usando Pandas

La representación del archivo JSON como un Dataframe de Pandas puede involucrar el uso de comandos como **wget**, **unzip**. Esto fue explicado con más detalle en el notebook que lleva por título **Representando el Archivo JSON como Dataframe usando Pandas**, y además se encuentra en la misma carpeta del presente notebook. Para mantener la estructura del presente notebok en un formato simple, los JSON files requeridos para este workshop ya han sido desargados y descomprimidos. Estos archivos se encuentran en la carpeta **sets_datos**.

In [1]:
psexec_json = 'sets_datos/empire_psexec_dcerpc_tcp_svcctl_2020-09-20121608.json'

### a) Importando la librería Pandas

In [2]:
import pandas as pd

### b) Leyendo Archivo JSON

Usaremos el método **pandas.read_json**.

Referencia: https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.read_json.html

In [3]:
df = pd.read_json(path_or_buf = psexec_json, lines = True)
df.head(5)

Unnamed: 0,Keywords,SeverityValue,SourceImage,EventID,ProviderGuid,ExecutionProcessID,Channel,host,AccountType,UserID,...,MessageNumber,ScriptBlockText,MessageTotal,ScriptBlockId,NewSd,OldSd,MiniportNameLen,MiniportName,param4,param3
0,-9223372036854775808,2,C:\windows\system32\svchost.exe,10,{5770385F-C22A-43E0-BF4C-06F5698FFBD9},9848,Microsoft-Windows-Sysmon/Operational,wec.internal.cloudapp.net,User,S-1-5-18,...,,,,,,,,,,
1,-9223372036854775808,2,C:\windows\system32\svchost.exe,10,{5770385F-C22A-43E0-BF4C-06F5698FFBD9},9848,Microsoft-Windows-Sysmon/Operational,wec.internal.cloudapp.net,User,S-1-5-18,...,,,,,,,,,,
2,-9223372036854775808,2,C:\windows\system32\svchost.exe,10,{5770385F-C22A-43E0-BF4C-06F5698FFBD9},9848,Microsoft-Windows-Sysmon/Operational,wec.internal.cloudapp.net,User,S-1-5-18,...,,,,,,,,,,
3,-9223372036854775808,2,C:\windows\system32\svchost.exe,10,{5770385F-C22A-43E0-BF4C-06F5698FFBD9},9848,Microsoft-Windows-Sysmon/Operational,wec.internal.cloudapp.net,User,S-1-5-18,...,,,,,,,,,,
4,-9214364837600034816,2,,5158,{54849625-5478-4994-A5BA-3E3B0328C30D},4,Security,wec.internal.cloudapp.net,,,...,,,,,,,,,,


### c) Conociendo las columnas o atributos del Dataframe

Usaremos el método **pandas.DataFrame.info**.

Referencia: https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.info.html

In [4]:
df.info(verbose = True)

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 4348 entries, 0 to 4347
Data columns (total 186 columns):
 #   Column                     Dtype  
---  ------                     -----  
 0   Keywords                   int64  
 1   SeverityValue              int64  
 2   SourceImage                object 
 3   EventID                    int64  
 4   ProviderGuid               object 
 5   ExecutionProcessID         int64  
 6   Channel                    object 
 7   host                       object 
 8   AccountType                object 
 9   UserID                     object 
 10  SourceProcessGUID          object 
 11  ThreadID                   int64  
 12  TargetImage                object 
 13  GrantedAccess              object 
 14  EventType                  object 
 15  Opcode                     object 
 16  EventTime                  object 
 17  EventReceivedTime          object 
 18  @timestamp                 object 
 19  SourceModuleType           object 
 20  port   

## Filtrando Columnas o Atributos de nuestro Dataframe

Seleccionando las columnas **'@timestamp','Hostname','Channel','EventID'** usando una **lista** con los nombres de las columnas.

In [5]:
df[['@timestamp','Hostname','Channel','ParentImage','Image','EventID']].head()

Unnamed: 0,@timestamp,Hostname,Channel,ParentImage,Image,EventID
0,2020-09-20T16:16:09.362Z,WORKSTATION5.theshire.local,Microsoft-Windows-Sysmon/Operational,,,10
1,2020-09-20T16:16:09.363Z,WORKSTATION5.theshire.local,Microsoft-Windows-Sysmon/Operational,,,10
2,2020-09-20T16:16:09.363Z,WORKSTATION5.theshire.local,Microsoft-Windows-Sysmon/Operational,,,10
3,2020-09-20T16:16:09.364Z,WORKSTATION5.theshire.local,Microsoft-Windows-Sysmon/Operational,,,10
4,2020-09-20T16:16:09.365Z,MORDORDC.theshire.local,Security,,,5158


## Preparando Dataframes para un JOIN

### a)  QUE EVENTO NOS PODRIA AYUDAR A VER NUEVOS SERVICIOS INSTALLADOS EN UN SISTEMA? 



### b) QUE EVENTO NOS PODRIA AYUDA A IDENTIFICAR USUARIOS AUTHENTICATING REMOTAMENTE? HINT: LOGON TYPE 3 ;)

## JOINing Nuevos Servicios Installados con usuarios authenticating remotemente

### COMO PODEMOS UNIR ESTOS DOS EVENTOS?

In [8]:
(
pd.merge(Security4697, Security4624[Security4624['LogonType'] == 3],
         left_on = 'SubjectLogonId', right_on = 'TargetLogonId', how = 'inner')
[['ServiceName', 'ServiceFileName','IpAddress']]
)

Unnamed: 0,ServiceName,ServiceFileName,IpAddress
0,Updater,%COMSPEC% /C start /b C:\Windows\System32\Wind...,172.18.39.5


## Muchas gracias!! Espero que este notebooks haya sido útil para empezar a revisar algunas técnicas para correlationar datos :D

## Aún hay más por aprender :D