# Collections

1. Conjuntos
2. Dicionários

## 1. Conjuntos

São coleções mutáveis não ordenadas e de elementos únicos. Seu uso é recomendável quando é necessário trabalhar apenas com elementos únicos e a ordem desses elementos não é importante. Como é uma coleção não ordenada, não existe indexação dos elementos.

In [None]:
alunos_ds = [15, 23, 43, 56]
alunos_ml = [13, 23, 56, 42]

In [None]:
todos_alunos = alunos_ds.copy()
todos_alunos

[15, 23, 43, 56]

In [None]:
todos_alunos.extend(alunos_ml)
todos_alunos

[15, 23, 43, 56, 13, 23, 56, 42]

Podemos obter todos os alunos únicos transformando a lista em um conjunto:

In [None]:
# todos alunos únicos
set(todos_alunos)

{13, 15, 23, 42, 43, 56}

### 1.1. União e intersecção
Uma outra forma de obter "todos os alunos únicos" é usando o operador `|` (que vem de "ou" ou "_or_"), que vai fazer a união dos dois conjuntos, é o "equivalente" ao método `extend()` das listas.

Além disso, existem outras operações já definidas para os conjuntos como: a intersecção, com o operador `&`; o "ou exclusivo" `^`; e o `-` que remove números repetidos nos conjuntos.

In [None]:
alunos_ds = {15, 23, 43, 56}
alunos_ml = {13, 23, 56, 42}

In [None]:
# união dos conjuntos
alunos_ds | alunos_ml

{13, 15, 23, 42, 43, 56}

In [None]:
# intersecção dos conjuntos
alunos_ds & alunos_ml

{23, 56}

In [None]:
# elementos que estão no primeiro conjunto
alunos_ds - alunos_ml

{15, 43}

In [None]:
alunos_ml - alunos_ds

{13, 42}

In [None]:
# elementos que não estão nos dois conjuntos
alunos_ds ^ alunos_ml

{13, 15, 42, 43}

### 1.2. Conjuntos imutáveis

Como os conjuntos são mutáveis, podemos adicionar e remover elementos. A adição só será feita se o elemento ainda não existir no conjunto. Para remover podemos usar o `pop()` que remove qualque elemento ou o `remove()` que precisa receber um elemento que esteja no conjunto.

In [None]:
usuarios = {1, 5, 7, 13}
usuarios

{1, 5, 7, 13}

In [None]:
usuarios.add(24)
usuarios

{1, 5, 7, 13, 24}

In [None]:
# remove qualquer elemento
usuarios.pop()
usuarios

{5, 7, 13, 24}

In [None]:
if 5 in usuarios:
  usuarios.remove(5)
usuarios

{7, 13, 24}

Se estivermos numa situação em que precisamos usar um conjunto mas ele não deve ser modificado, podemos usar um `frozenset()`, que vai retornar um outro conjunto, este imutável, que não aceita novos elementos e nem permite retirá-los:

In [None]:
usuarios_congelados = frozenset(usuarios)
usuarios_congelados

frozenset({7, 13, 24})

### 1.3. Outros tipos dentro de conjuntos

Podemos armazenar todos os tipos dentro de conjuntos. Veja o exemplo de objetos, note que é criada uma lista com três variáveis, duas delas apontando para o mesmo objeto. Quando criamos um conjunto a partir da lista verificamos que apenas as variáveis que apontavam para diferentes objetos são mantidas.

In [None]:
class Teste:
  pass

teste1 = Teste()
teste1

<__main__.Teste at 0x7fa2a6a2d828>

In [None]:
teste2 = teste1
teste2

<__main__.Teste at 0x7fa2a6a2d828>

In [None]:
objetos_teste = [teste1, teste2, Teste()]
objetos_teste

[<__main__.Teste at 0x7fa2a6a2d828>,
 <__main__.Teste at 0x7fa2a6a2d828>,
 <__main__.Teste at 0x7fa2a69c6c18>]

In [None]:
set(objetos_teste)

{<__main__.Teste at 0x7fa2a69c6c18>, <__main__.Teste at 0x7fa2a6a2d828>}

Um outro exemplo é com _strings_. Vamos quebrar a _string_ abaixo usando "um espaço em branco" como delimitador e filtrar todas as palavras únicas:

In [None]:
frase = "meu nome é Bruno e este é um nome muito comum tem muitas pessoas com nome Bruno e eu gosto do meu nome"
frase

'meu nome é Bruno e este é um nome muito comum tem muitas pessoas com nome Bruno e eu gosto do meu nome'

In [None]:
set(frase.split())

{'Bruno',
 'com',
 'comum',
 'do',
 'e',
 'este',
 'eu',
 'gosto',
 'meu',
 'muitas',
 'muito',
 'nome',
 'pessoas',
 'tem',
 'um',
 'é'}

## 2. Dicionários

Vamos continuar com o exemplo da frase. Digamos que eu quero contar o número de aparições de cada palavra na frase. Um tipo de coleção muito indicada para isso é o dicionário, pois ele permite "mapear" elementos através de chaves, nesse caso podemos mapear o número de aparições para cada palavra.

Seu funcionamento é muito similar aos _arrays_ associativos que encontramos em outras linguagens, como o PHP por exemplo.

In [None]:
aparicoes = {
    "meu": 2,
    "nome": 4,
    "é": 2,
    "Bruno": 3
}
aparicoes

{'Bruno': 3, 'meu': 2, 'nome': 4, 'é': 2}

In [None]:
aparicoes["Bruno"]

3

In [None]:
# retornando um valor padrao para chaves que não existem
aparicoes.get("nao existe", 0)

0

In [None]:
aparicoes.get("meu", 0)

2

In [None]:
# podemos criar dicionarios usando o construtor
dict(Bruno = 3, meu = 2, nome = 4)

{'Bruno': 3, 'meu': 2, 'nome': 4}

### 2.1. Acessando elementos de um dicionário

Para adicionar um novo par chave-valor em um dicionário que já existe podemos acessar este elemento através de sua chave e definir o seu valor:

In [None]:
aparicoes.get("novo", "não tem esse valor")

'não tem esse valor'

In [None]:
aparicoes["novo"] = 15
aparicoes

{'Bruno': 3, 'meu': 2, 'nome': 4, 'novo': 15, 'é': 2}

E para alterar o valor associado com uma chave podemos fazer da mesma forma, acessando a chave como um índice:

In [None]:
aparicoes["novo"] = 0
aparicoes

{'Bruno': 3, 'meu': 2, 'nome': 4, 'novo': 0, 'é': 2}

Para deletar um elemento do dicionário devemos usar o operador `del`:

In [None]:
del aparicoes["novo"]
aparicoes

{'Bruno': 3, 'meu': 2, 'nome': 4, 'é': 2}

Podemos usar o operador `in` para verificar se uma **chave** existe no dicionário:

In [None]:
"Bruno" in aparicoes

True

In [None]:
"novo" in aparicoes

False

### 2.2. Iterando sobre dicionários

Os dicionários são iteradores e por padrão ele irá iterar sobre as chaves, o que faz sentido com o que vimos acima. Podemos obter iteráveis das chaves ou dos valores:

In [None]:
aparicoes.keys()

dict_keys(['meu', 'nome', 'é', 'Bruno'])

In [None]:
aparicoes.values()

dict_values([2, 4, 2, 3])

Se queremos iterar por cada um dos pares podemos percorrer o iterador das chaves e ir acessando cada um dos valores através do índice:

In [None]:
for elemento in aparicoes.keys():
  print(elemento, aparicoes[elemento])

meu 2
nome 4
é 2
Bruno 3


Ou podemos recorrer ao outro iterador, o de items, que retorna um iterador com tuplas representando cada um dos items/elementos do dicionário:

In [None]:
aparicoes.items()

dict_items([('meu', 2), ('nome', 4), ('é', 2), ('Bruno', 3)])

In [None]:
for elemento in aparicoes.items():
  print(elemento)

('meu', 2)
('nome', 4)
('é', 2)
('Bruno', 3)


In [None]:
# podemos desempacotar a tupla
for chave, valor in aparicoes.items():
  print(chave, ":", valor)

meu : 2
nome : 4
é : 2
Bruno : 3


Como os métodos de dicionários retornam listas ou tuplas, podemos realizar operações características dessas coleções nos retornos, como por exemplo a compreenssão de listas:

In [None]:
# concatena a string 'palavra ' a cada uma das chaves e joga numa lista
["palavra {}".format(chave) for chave in aparicoes.keys()]

['palavra meu', 'palavra nome', 'palavra é', 'palavra Bruno']

### 2.3. `defaultdict`

Vamos contar as ocorrências de cada palavra simplesmente iterando sobre a lista:

In [4]:
frase = "Meu nome é Bruno e este é um nome muito comum tem muitas pessoas com nome bruno e eu gosto do meu nome"
frase

'Meu nome é Bruno e este é um nome muito comum tem muitas pessoas com nome bruno e eu gosto do meu nome'

In [6]:
aparicoes = {}

for palavra in frase.lower().split():
  ate_agora = aparicoes.get(palavra, 0)
  aparicoes[palavra] = ate_agora + 1

aparicoes

{'bruno': 2,
 'com': 1,
 'comum': 1,
 'do': 1,
 'e': 2,
 'este': 1,
 'eu': 1,
 'gosto': 1,
 'meu': 2,
 'muitas': 1,
 'muito': 1,
 'nome': 4,
 'pessoas': 1,
 'tem': 1,
 'um': 1,
 'é': 2}

Perceba que tivemos que acessar os elementos do dicionário com o `get()` e passando o valor padrão igual a zero, porque na primeira ocorrência verificada as chaves ainda não existiriam no dicionario que armazenava as ocorrências de cada palavra.

Podemos refinar um pouco a forma como é feita a contagem definindo não um dicionário padrão, mas uma subclasse chamda `defaultdict`, que aceita um valor padrão para seus elementos.

O `defaultdict` deve ser importado da biblioteca `collections` e na verdade recebe uma "fábrica de valores". Na prática essa fábrica é uma função que retorna o valor que queremos. No caso queremos que o valor padrão retornado seja o zero, então podemos apenas usar o construtor do tipo inteiro, o `int()` que retorna zero se não for passado nenhum valor.

In [9]:
from collections import defaultdict

aparicoes = defaultdict(int)

for palavra in frase.lower().split():
  aparicoes[palavra] += 1

aparicoes

defaultdict(int,
            {'bruno': 2,
             'com': 1,
             'comum': 1,
             'do': 1,
             'e': 2,
             'este': 1,
             'eu': 1,
             'gosto': 1,
             'meu': 2,
             'muitas': 1,
             'muito': 1,
             'nome': 4,
             'pessoas': 1,
             'tem': 1,
             'um': 1,
             'é': 2})

#### 2.3.1. `defaultdict` com outros tipos de valores

Podemos passar outros tipos de valores além de inteiros, como o tipo Conta:

In [10]:
class Conta:
  def __init__(delf):
    print("Conta criada")

In [11]:
contas = defaultdict(Conta)
contas[15]

Conta criada


<__main__.Conta at 0x7f9e20c67e80>

In [14]:
contas[29]

<__main__.Conta at 0x7f9e288d50f0>

In [13]:
contas

defaultdict(__main__.Conta,
            {15: <__main__.Conta at 0x7f9e20c67e80>,
             29: <__main__.Conta at 0x7f9e288d50f0>})

### 2.4. `Counter`

Se existe uma forma de definir um dicionário com valor padrão, é razoável pensar que existe uma forma otimizada de definir um dicionário para ser usado como contador, e de fato existe, é o `Counter()`.

O `Counter` também é uma subclasse dos dicionários e seu trunfo para esse uso é que seu contrutor aceita receber um iterável:

In [15]:
from collections import Counter

aparicoes = Counter(frase.lower().split())

aparicoes

Counter({'bruno': 2,
         'com': 1,
         'comum': 1,
         'do': 1,
         'e': 2,
         'este': 1,
         'eu': 1,
         'gosto': 1,
         'meu': 2,
         'muitas': 1,
         'muito': 1,
         'nome': 4,
         'pessoas': 1,
         'tem': 1,
         'um': 1,
         'é': 2})

## 3. Juntando tudo

In [16]:
texto1 = """
Por padrão, o idioma oficial do Django é o inglês, porém podemos alterar tanto a localização para utilizar o inglês australiano ou britânico, ou alterar o idioma para o português brasileiro ou de Portugal.
No Django podemos definir também o horário que queremos utilizar como padrão. Por exemplo, para alterar o horário da aplicação para o horário de São Paulo.
Uma cláusula JOIN em SQL, correspondente a uma operação de junção em álgebra relacional, combina colunas de uma ou mais tabelas em um banco de dados relacional. Ela cria um conjunto que pode ser salvo como uma tabela ou usado da forma como está.
Em um banco de dados relacional, os dados são distribuídos em várias tabelas lógicas. Para obter um conjunto completo e significativo de dados, é necessário consultar dados dessas tabelas usando junções (JOINs).
Para cada linha da tabela A, a consulta a compara com todas as linhas da tabela B. Se um par de linhas fizer com que a condição de junção seja avaliado como TRUE, os valores da coluna dessas linhas serão combinados para formar uma nova linha que será incluída no conjunto de resultados.
"""

In [17]:
texto2 = """
Carteira é o nome dado ao conjunto de clientes com quem os profissionais de venda ou uma empresa mantêm um relacionamento comercial. É a junção de todo tipo de consumidor: aqueles que compram com regularidade, mas em pequenas quantidades; aqueles que compram de vez em quando, mas em grandes quantidades; até aqueles que não compram há muito tempo, chamados de inativos.
Uma carteira de clientes ativa está relacionada aos contatos que compram regularmente e/ou geram lucros para a empresa.
Para criar uma carteira, a empresa precisa tanto analisar quem já mantém esses relacionamentos comerciais quanto os clientes em potencial. Aumentar a carteira de clientes é tão importante quanto administrá-la.
Quando se fala de análise de clientes, não se trata apenas de saber quem são, qual é o mercado e quais são seus nomes mas também de como eles podem impactar a empresa. Uma cliente que compra com regularidade, mesmo em poucas quantidades, gera um lucro recorrente e estável; já quem compra raramente, mas em grandes quantidades, não representa um lucro com o qual se pode contar — por isso é preciso descobrir como fidelizar esse tipo de consumidor.
Princípio de Pareto é uma ferramenta para organizar e categorizar a carteira de clientes. De acordo com ele, cerca de 20% dos consumidores de uma empresa representam 80% das vendas. Esses são contatos importantes, nos quais os responsáveis pelas vendas devem focar para manter a fidelidade; já os outros devem ser categorizados de acordo com o potencial.
Quais são os clientes que, com o estímulo certo, podem passar a comprar mais da empresa? Muitas vezes, isso significa ir atrás de contatos antigos, descobrir o que diminuiu as vendas e ajudá-los com soluções novas e interessantes. Também é importante ficar de olho em clientes que estão comprando menos ou que tendem a deixar a empresa nos próximos meses.
Fazendo essa análise, é possível descobrir como reconquistá-los e aumentar a satisfação — e, como consequência, melhorar os resultados da empresa.
O mais importante, nesse contexto, é saber que nenhum plano ou análise é estático. Portanto, fique de olhos nos números, trabalhe com os fatos e faça alterações nos planos para se adequar à realidade da empresa e dos clientes. As melhores metodologias e ferramentas são aquelas que têm a ver com o momento pelo qual a empresa está passando.
Quer entender mais sobre o mercado e identificar clientes em potencial? Conheça o curso de Customer Success da Alura e descubra por que manter o foco no cliente gera benefícios para a sua empresa.
"""

In [20]:
len(texto1)

1108

In [24]:
aparicoes = Counter(texto1.lower())
total_caracteres = sum(aparicoes.values())
total_caracteres

1108

In [25]:
# percentual que cada letra representa
for letra, frequencia in aparicoes.items():
    print((letra, frequencia / total_caracteres))

('\n', 0.005415162454873646)
('p', 0.02256317689530686)
('o', 0.10288808664259928)
('r', 0.05324909747292419)
(' ', 0.16606498194945848)
('a', 0.11191335740072202)
('d', 0.04512635379061372)
('ã', 0.009927797833935019)
(',', 0.009025270758122744)
('i', 0.046028880866425995)
('m', 0.033393501805054154)
('f', 0.005415162454873646)
('c', 0.0315884476534296)
('l', 0.04422382671480144)
('j', 0.009927797833935019)
('n', 0.04061371841155235)
('g', 0.008122743682310469)
('é', 0.0036101083032490976)
('ê', 0.002707581227436823)
('s', 0.05415162454873646)
('e', 0.05776173285198556)
('t', 0.02888086642599278)
('z', 0.0036101083032490976)
('ç', 0.00631768953068592)
('u', 0.04061371841155235)
('b', 0.015342960288808664)
('â', 0.0009025270758122744)
('.', 0.008122743682310469)
('h', 0.007220216606498195)
('á', 0.008122743682310469)
('q', 0.005415162454873646)
('x', 0.0009025270758122744)
('v', 0.005415162454873646)
('í', 0.0018050541516245488)
('ó', 0.0009025270758122744)
('õ', 0.0009025270758122744)

In [29]:
# crio um dicionário com as tuplas acima usando compreessão de listas
proporcoes = dict((letra, frequencia / total_caracteres) for letra, frequencia in aparicoes.items())
proporcoes

{'\n': 0.005415162454873646,
 ' ': 0.16606498194945848,
 '(': 0.0009025270758122744,
 ')': 0.0009025270758122744,
 ',': 0.009025270758122744,
 '.': 0.008122743682310469,
 'a': 0.11191335740072202,
 'b': 0.015342960288808664,
 'c': 0.0315884476534296,
 'd': 0.04512635379061372,
 'e': 0.05776173285198556,
 'f': 0.005415162454873646,
 'g': 0.008122743682310469,
 'h': 0.007220216606498195,
 'i': 0.046028880866425995,
 'j': 0.009927797833935019,
 'l': 0.04422382671480144,
 'm': 0.033393501805054154,
 'n': 0.04061371841155235,
 'o': 0.10288808664259928,
 'p': 0.02256317689530686,
 'q': 0.005415162454873646,
 'r': 0.05324909747292419,
 's': 0.05415162454873646,
 't': 0.02888086642599278,
 'u': 0.04061371841155235,
 'v': 0.005415162454873646,
 'x': 0.0009025270758122744,
 'z': 0.0036101083032490976,
 'á': 0.008122743682310469,
 'â': 0.0009025270758122744,
 'ã': 0.009927797833935019,
 'ç': 0.00631768953068592,
 'é': 0.0036101083032490976,
 'ê': 0.002707581227436823,
 'í': 0.0018050541516245488,

In [30]:
# passo esse dict (que é um iteravel) para o Counter e uso um método para pegar os dez maiores
proporcoes = Counter(proporcoes).most_common(10)
proporcoes

[(' ', 0.16606498194945848),
 ('a', 0.11191335740072202),
 ('o', 0.10288808664259928),
 ('e', 0.05776173285198556),
 ('s', 0.05415162454873646),
 ('r', 0.05324909747292419),
 ('i', 0.046028880866425995),
 ('d', 0.04512635379061372),
 ('l', 0.04422382671480144),
 ('n', 0.04061371841155235)]

In [33]:
# funcão para analisar as dez letras que mais aparecem em um texto
def as_dez_mais(texto):
    aparicoes = Counter(texto.lower())
    total_caracteres = sum(aparicoes.values())

    proporcoes = [(letra, frequencia / total_caracteres) for letra, frequencia in aparicoes.items()]
    proporcoes = Counter(dict(proporcoes))
    mais_comuns = proporcoes.most_common(10)

    for caractere, proporcao in mais_comuns:
        print("[{}] => {:.2f}%".format(caractere, proporcao * 100))

In [34]:
as_dez_mais(texto1)

[ ] => 16.61%
[a] => 11.19%
[o] => 10.29%
[e] => 5.78%
[s] => 5.42%
[r] => 5.32%
[i] => 4.60%
[d] => 4.51%
[l] => 4.42%
[n] => 4.06%


In [35]:
as_dez_mais(texto2)

[ ] => 16.10%
[e] => 11.07%
[a] => 9.42%
[o] => 7.58%
[s] => 7.18%
[r] => 5.65%
[m] => 4.91%
[n] => 4.40%
[t] => 4.24%
[i] => 4.04%
