## Desafio inicial

Escreva um programa em python que retorna a frequência das palavras que aparecem em um texto.

# Big Data
> “Data is the new science. Big Data holds the answers.” - Patrick P. Gelsinger, [Forbes](https://www.forbes.com/sites/ciocentral/2012/06/22/big-bets-on-big-data/?goback=.gde_2013423_member_127364385&sh=78d1f964d9c6)

## O que é Big Data?
**Big Data** foi definido em um artigo de Douglas Laney, da Gartner, como:
> "...ativos de informações de alto volume, alta velocidade e/ou alta variedade que exigem formas inovadoras e econômicas de processamento de informações que permitem uma visão aprimorada, tomada de decisões e automação de processos.” Partindo desta definição somos capazes de identificar três Vs: Volume, Velocidade e Variedade.
Fonte: [Gartner](http://www.gartner.com/resId=2057415)

## 3 Vs
Partindo da definição apresentada acima, podemos notar três "Vs" comumente relacionados ao tema:

### Volume
Talvez seja o *"V"* mais lembrado desta lista e sua presença aqui é facilmente justificada: a quantidade de dados sendo produzidos, e seus tamanhos, vem crescendo exponencialmente. Big data tem o papel de nos possibilitar usar essa gigantesca massa.

![Volume](https://s3-sa-east-1.amazonaws.com/lcpi/64900b35-3647-445b-8887-c01b699ca8b3.jpg)
Fonte: [Domo](https://www.domo.com/learn/infographic/data-never-sleeps-9)

### Velocidade
Trata-se não somente da **velocidade** com que estes dados vêm sendo gerados (mensagens em redes sociais, transações de cartões de crédito), mas também do seu ritmo não necessariamente constante que cria uma necessidade de receber e manipulá-los em momentos de pico.

### Variedade
Tradicionalmente, profissionais de dados eram responsáveis por armazenar, tratar, manipular e analisar dados ditos como estruturados. Todavia, com a infinidade de dispositivos capazes de produzir e coletar informações, considerando também as diferentes formas de comunicação humana (texto, áudio, imagem), arquivos considerados relevantes à uma organização encontram-se cada vez mais em **diferentes formatos e extensões**, estruturados ou não.

Visando nivelamento, segue um breve descritivo de diferentes tipos de dados:

#### Estruturado
Dados com comprimento e tipo pré-definidos, agrupados em linhas e colunas (tabelar), como tabelas de bancos de dados relacionais.

#### Semi-estruturado
Dados que não possuem um comprimento ou tipo definido, mas têm formato padronizado, tais quais: arquivos xml, json, avro e parquet.

#### Não-estruturado
Dados que não possuem uma estrutura ou formato padronizados, tais quais: vídeos, imagens, textos, etc.

### Outros V's
Com o passar do tempo, e a quantidade de dados produzida aumentando drasticamente, a IBM introduziu mais dois Vs, sendo eles: *Veracidade* e *Valor*.

> “A cada dois dias geramos um volume de dados equivalente ao que criamos do início da civilização até 2003” - Eric Schimidt, Ex-CEO Google, [Technomy](https://techonomy.com/) conference in Lake Tahoe, 04/10/2010. 

#### Veracidade
Refere-se a qualidade dos dados que estão sendo analisados. Dados de alta veracidade tendem a ter mais valor a ser extraído se comparado a dados com baixa veracidade.

#### Valor
Diz respeito ao valor que os dados geram para os usuários e para os negócios.

## Exemplos de Implementações de Big Data

### Campanhas de marketing
A partir de mídias sociais é possível colher informações sobre a percepção que consumidores possuem sobre o negócio (análise de sentimento) e dessa forma direcionar de forma mais assertiva campanhas de marketing, por exemplo.
Big Data passa a ser facilmente uma realidade para este cenário pelo volume de usuários em redes sociais, consequentemente de dados gerados, e variedade comumente semi ou não estruturada, como textos e vídeos.

### IoT (Internet of Things)
Dispositivos IoT, como sensores em máquinas industriais, turbinas de aviões ou estufas em plantações são capazes de gerar dados a respeito de temperatura, pressão, e muitos outros medidores relevantes para o desempenho do negócio. Em geral, a velocidade com que estes dados são gerados é alta e em logs, caracterizando-os como semi-estruturados, portanto.

## Computação Paralela e Computação Distribuída
Assumindo então esta nova realidade onde a volumetria de dados processados é gigantesca e a velocidade com que são gerados e precisam estar disponíveis para tomada de decisão é altíssima, como ter poder computacional que atenda essa demanda?

### Computação Paralela
Este tipo de computação se caracteriza pelo uso simultâneo de várias CPUs para realizar trabalhos computacionais.

Utilizando essa técnica, é possível ultrapassar as limitações tecnológicas de uma máquina comum, aumentando sua velocidade e poder de processamento.

Exemplo:
![Comp_paralela](https://s3-sa-east-1.amazonaws.com/lcpi/cef0fccd-8172-4de4-b7b7-140db9f8a735.png)

### Computação Distribuída
Este tipo de computação se caracteriza pela presença de uma coleção de computadores autônomos, interligados através de uma rede de computadores e equipados com software que permite o compartilhamento dos recursos do sistema, tais quais hardware, software e dados.

#### Cluster
Sistema que relaciona dois ou mais computadores para que estes trabalhem de maneira conjunta no intuito de processar uma tarefa.
Enquanto no multiprocessamento simétrico (SMP) todas as CPUs se encontram na mesma máquina, no processamento distribuído várias CPUs estão separadas fisicamente e se interligam para formar um cluster.

![Comp_distribuida](https://s3-sa-east-1.amazonaws.com/lcpi/4ded6015-d355-4da4-a713-b160e069e671.png)

## Computação Paralela x Computação Distribuída
Perceba na imagem abaixo como através de computação paralela podemos dividir tarefas entre diferentes CPUs para que possam ser executadas simultaneamente, entretanto, ainda partilham a mesma memória e estão sob controle do mesmo sistema operacional.

![Comp_paralela](https://s3-sa-east-1.amazonaws.com/lcpi/8cce4a52-92aa-40ac-8f06-977722b22ee1.png)

Já quando utilizamos computação distribuída temos inúmeras máquinas independentes em termos de funcionamento que, através de rede e software específicos, se comunicam e executam partes menores de uma tarefa maior simultaneamente.

## Escalonamento Vertical x Escalonamento Horizontal

### Escalonamento vertical
Escalonamento vertical, ou scale up, tem relação direta com computação paralela, uma vez que para aumentar o poder de processamento visa o aumento de CPUs e de memória da máquina.

### Escalonamento horizontal
Escalonamento horizontal, ou scale out, tem relação direta com computação distribuída, uma vez que para aumentar o poder de processamento visa acrescentar mais máquinas ao cluster.

![Comp_paralela](https://s3-sa-east-1.amazonaws.com/lcpi/eb1464f4-8921-45fa-8486-ef38cd814a64.png)

## Conclusões
Entendemos então que ambas estratégias são de fato capazes de aumentar o poder de processamento computacional e são efetivas dentro de seus propósitos. Todavia, em cenário de Big Data, a computação distribuída se mostra muito adequada pois esbarra em poucos limites, partindo do pressuposto que é sempre possível aumentar a quantidade de nós de um cluster.

## Indicações e Bibliografia
[O que é Big Data e para que(m) serve](https://letscode.com.br/blog/big-data-o-que-e-e-para-que-serve)

[Big Bets on Big Data](https://www.forbes.com/sites/ciocentral/2012/06/22/big-bets-on-big-data/?goback=.gde_2013423_member_127364385&sh=78d1f964d9c6)

[Qual a diferença de Analista, Cientista e Engenheiro de Dados?](https://letscode.com.br/blog/qual-a-diferenca-de-analista-cientista-e-engenheiro-de-dados)

[Big Data - Gartner](https://www.gartner.com/en/information-technology/glossary/big-data)

[Domo](https://www.domo.com/learn/infographic/data-never-sleeps-9)

[Paralelismo em Computadores com Tecnologia Multicore](https://docente.ifrn.edu.br/demetrioscoutinho/minicurso-paralelismo-em-computadores-com-tecnologia-multicore/nota-de-aula)

[Diferenças entre computação distribuída e computação paralela](https://pt.differbetween.com/article/difference_between_distributed_computing_and_parallel_computing)

[Computação distribuída: introdução](https://www.cin.ufpe.br/~cagf/if677/2015-2/slides/23-25_SD.pdf)



In [None]:
for n in range(1, 1000000000):
    a = 0