# Introdução ao ELK

# A necessidade de análise de logs

1. Os logs existem para nos informar como o sistema está se comportando


2. Tanto o conteúdo quanto o formato dos logs variam entre os sistemas


3. Os logs são utilizados para diferentes fins:

### Debugging
   
   Ajudam a identificar problemas no sistema.
   
### Análise de performance
   
   Ajudam a identificar gargalos no sistema.
   
### Análise de segurança
   
   Ajudam a detectar brechas na segurança, mal uso da aplicação, ataques maliciosos etc
   
### Análise preditiva

   Ajudam na identificação de:
   
   => Clientes em potencial
   
   => Planejamento de recursos
   
   => Gerenciamento de estoque
   
   => Balanceamento de carga
   
   => Agendamento de recursos

### Log de dispositivos na Internet das Coisas

   Ajudam no monitoramento das máquinas e na redução do *downtime*


# Desafios na Análise de Log

## Formatos de logs inconsistentes

### Logs do Tomcat 

```
May 24, 2015 3:56:26 PM org.apache.catalina.startup.HostConfig deployWAR
INFO: Deployment of web application archive \soft\apache-tomcat-7.0.62\
webapps\sample.war has finished in 253 ms
```

### Logs do Apache Access

```
127.0.0.1 - - [24/May/2015:15:54:59 +0530] "GET /favicon.ico HTTP/1.1"
200 21630
```

### Logs do IIS

```
2012-05-02 17:42:15 172.24.255.255 - 172.20.255.255 80 GET /images/
favicon.ico - 200 Mozilla/4.0+(compatible;MSIE+5.5;+Windows+2000+Server)
```

### Variação nos formatos de data-hora

• 142920788

• Oct 12 23:21:45

• [5/May/2015:08:09:10 +0000]

• Tue 01-01-2009 6:00

• 2015-05-30 T 05:45 UTC

• Sat Jul 23 02:16:57 2014

• 07:38, 11 December 2012 (UTC)

### Logs descentralizados

A complexidade da análise de logs cresce na proporção em que se tem mais máquinas e aplicações rodando


Como fazer a análise de logs com `cat` ou `grep` num cluster de 100 máquinas


### Necessidade de especialistas

As pessoas interessadas na informação contida nos logs podem não ter o acesso aos logs ou ainda não ter a expertise necessária para lê-los


# A ELK Stack

É uma plataforma que combina 3 ferramentas:

1. Elastic Search


2. Logstash


3. Kibana

# 1. Elasticsearch

=> Motor de buscas baseado no Apache Lucene


=> Propicia escalabilidade horizontal, confiabilidade e multitenancy


=> Funcionalidades disponíveis por APIs RESTful


=> Orientado a documentos


=> Esquemas flexíveis


=> Comunidade ativa

# 1. Elasticsearch: Casos de Uso

## Wikipedia

Usa em funcionalidades como em *busca-enquanto-digita* e *você-quis-dizer*.


## The Guardian

Usa para processar 40 milhões de documentos por dia.


Fornece análise em tempo real de tráfego


Ajuda a entender o engajamento do público


## GitHub

Usa para indexar 8 milhões de repositórios de código


Indexa múltiplos eventos na plataforma


# Logstash

É um pipeline de dados que ajuda a coletar, transformar (parse) e analisar uma grande quantidade de dados estruturados e não estruturados em vários sistemas.


Principais funcionalidades

=> Centralização do processamento de dados

O Logstash centraliza o processamento dos dados


=> Suporte para formatos de log customizados

Com a ajuda de plugins, o Logstash pode converter diferentes formatos de logs em um formato único


=> Desenvolvimento de plugins

Plugins customizados podem ser desenvolvidos. 

Existe uma grande quantidade de plugins desenvolvidos disponíveis

# Kibana


É uma plataforma de visualização de dados que ajuda a visualizar dados estruturados e não estruturados que estejam armazenados em índices do Elasticsearch.

Apresenta os dados por meio de histogramas, geomaps, gráficos, tabelas etc.


Principais funcionalidades

=> Fornece análise flexível e visualizações para *business intelligence*


=> Fornece análise em tempo real, sumarizações, construção de gráficos e funcionalidades em tempo real


=> Fornece interface intuitiva e amigável


=> Funcionalidades para dashboard. Fácil transmitir os dashboards para outros sistemas


=> Fornece snapshots de logs previamente buscados

# O pipeline de dados do ELK

<img src="img/ELK-data-pipeline.png" width="100%"/>

# Vocabulário

## Cluster
Consiste em um ou mais nós que compartilham o mesmo nome de cluster. Cada cluster tem um único nó master que é escolhido automaticamente pelo cluster e pode ser substituído se o mestre falhar


## Nó
Um nó é uma instância do Elasticsearch que pertende a um cluster. Multiplos nós podem ser inicializados em um único servidor para testes, mas normalmente tem-se um único nó por servidor


Na inicialização, um nó utilizará unicast(ou multicast se especificado) para descobrir um cluster com o mesmo nome e tentará se unir àquele cluster

## Índice
Um índice é como um 'banco de dados' nos BDs relacionais. Tem-se um mapeamento que define múltiplos tipos. Um índice é um nome lógico que mapeia para um ou mais shards primários e podem ter 0 ou mais répicas dos shards


## Tipo
Um tipo é como uma tabela em um BD relacional. Cada tipo tem uma lista de campos que podem ser especificadas para documentos daquele tipo. O mapeamento define como cada campo no documento será analisado

## Documento
É um documento JSON que é armazenado no elasticsearch. É como uma linha de uma tabela em um BD relacional. Cada documento é armazenado em um índice e tem um tipo e um id.


Um documento é um objeto JSON (também conhecido em outras linguagens como hash / hashmap / ou array associativo), que contém zero ou mais campos, ou pares chave-valor. O documento JSON original que é indexado será armazenado no campo `_source`, que é retornado por default na obtenção (`get`) ou pesquisa (`search`) por um documento.


# Campo
Um documento contém uma lista de campos, ou pares chave-valor. O valor pode ser simples (escalar) (e.x., string, integer, date), ou estruturas aninhadas como um array ou um objeto. Um campo é similar a um coluna em um BD relacional.

O mapeamento para cada campo tem um campo 'tipo' (não confunda com o tipo de documento), que indica se o tipo de dados pode ser armazenado naquele campo, ex: string, inteiro ou objeto. O mapeamento também permite definir (entre outras coisas) como o valor para um campo deveria ser analisado


# Mapeamento
Um mapeamento é como a definição de um 'esquema' em um BD relacional. Cada índice tem um mapeamento, que define cada tipo dentro do índice, mais o número de configurações `index-wide`. Um mapeamento pode ser definido explicitamente, ou será gerado automaticamente quando um documento é indexado


# Shard
O shard é uma instância do Apache Lucene. É um "worker" de baixo nível gerenciada automaticamente pelo elasticsearch. Um índice é um nome lógico que aponta para os shards primários e réplicas.


# Primary Shard
Cada documento é armazenado em uma shard primária. Quando um documento é indexado, a indexação ocorre primeiramente no shard primário e depois em todas as réplicas dos shards primários. Por padrão, um índice tem 5 shards primários. Pode-se especificar menos ou mais primary shards para escalar o número de documentos que seu índice pode lidar.

# Replica Shard
Cada primary shard pode ter 0 ou mais réplicas. Uma réplica é uma cópia do shard primário e possui dois propósitos:

1. aumentar a tolerância a falhas, isto é: a réplica pode ser promovida ao shard primário se a primária falhar. 


2. Aumento de desempenho. a obtenção e requisições de busca podem ser feitas tanto pela primary shard ou pelas réplicas

# Instalação do Elasticsearch

Copie e cole um terminal os seguintes comandos:

```
cd ~

wget https://filedn.com/lzotQ2kNnk4LgnwsPsTY3hJ/elk-setup-script.sh

sudo chown hduser:hadoopgroup elk-setup-script.sh

chmod 755 elk-setup-script.sh

./elk-setup-script.sh
```

# Elasticsearch está rodando?

Escreva em um terminal:

`
curl http://localhost:9200/?pretty
`


Agora copie e cole em um navegador web:

`http://localhost:9200/?pretty`

No dois casos, a resposta deverá ser algo como:

```
{
    "status" : 200,
    "name" : “elasticsearch",
    "version" : {
    "number" : "1.1.1",
    "build_hash" : "f1585f096d3f3985e73456debdc1a0745f512bbc",
    "build_timestamp" : "2018-07-06T14:27:12Z",
    "build_snapshot" : false,
"lucene_version" : "4.7"
},
"tagline" : "You Know, for Search"
```

# Indexando um documento

## Requisição

```
$ curl -XPUT "http://localhost:9200/test-data/cities/21" -d '{
    "rank": 21,
    "city": "Boston",
    "state": "Massachusetts",
    "population2010": 617594,
    "land_area": 48.277,
    "location": {
        "lat": 42.332,
        "lon": 71.0202
    },
    "abbreviation": "MA"
}
```

## Resposta

```
{"ok":true,"_index":"test-data","_type":"cities","_id":"21","_version":1}
```

# Obtendo um documento

## Requisição

```
curl -XGET "http://localhost:9200/test-data/cities/21?pretty"
```

## Resposta
```
{
    "_index" : "test-data",
    "_type" : "cities",
    "_id" : "21",
    "_version" : 1,
    "exists" : true, "_source" : {
    "rank": 21,
    "city": "Boston",
    "state": "Massachusetts",
    "population2010": 617594,
    "land_area": 48.277,
    "location": {
    "lat": 42.332,
    "lon": 71.0202 },
    "abbreviation": "MA"
}
```

# Atualizando um documento

### Requisição

```
curl -XPUT "http://localhost:9200/test-data/cities/21" -d '{
    "rank": 21,
    "city": "Boston",
    "state": "Massachusetts",
    "population2010": 617594,
    "population2012": 636479,
    "land_area": 48.277,
    "location": {
    "lat": 42.332,
    "lon": 71.0202 },
    "abbreviation": "MA"
}‘
```

### Resposta

```
{"ok":true,"_index":"test-data","_type":"cities","_id":"21","_version":2}
```

# Pesquisas

=> Pesquisa em todos os índices e todos os tipos

```
http://localhost:9200/_search
```


=> Pesquisa em todos os tipos no índice `test-data`

```
http://localhost:9200/test-data/_search
```

=> Pesquisa explicitamente for documentos do tipo cidades dentro do índice `test-data`

```
http://localhost:9200/test-data/cities/_search
```

=> Pesquisa explicitamente por documentos do tipo cidades dentro do `test-data` usado para a paginação
```
http://localhost:9200/test-data/cities/_search?size=5&fromm=10
```

Existem 3 tipos diferentes de queries de busca:

1. Pesquisa de Texto Completo (string de query)


2. Busca estruturada (filtro)


3. Analytics (facets)

# Full Text Search

=> Neste caso, a pesquisa será feita nos blocos de linguagem natural por (parcialmente) corresponderem às query strings. A Query DSL para buscar 'Boston' em todos os documentos, seria assim:

### Requisição

```
curl -XGET "http://localhost:9200/test-data/cities/_search?pretty=true" -d '{
"query": { “query_string": { "query": “boston" }}}'
```

### Resposta

```
{
    "took" : 5,
    "timed_out" : false,
    "_shards" : {
        "total" : 1,
        "successful" : 1,
        "failed" : 0 
    },
    "hits" : {
        "total" : 1,
        "max_score" : 6.1357985,
        "hits" : [ {
            "_index" : "test-data",
            "_type" : "cities",
            "_id" : "21",
            "_score" : 6.1357985, "_source" : {"rank":"21","city":"Boston",...}
        }]
    }
}
```