# Introdução à Ciência de Dados - UFPB
Professor: Yuri Malheiros

## Python - Dicionários, Counters e Sets

### Dicionários

Dicionários são estruturas que associam chaves a valores. Esses valores podem ser acessados rapidamente através da sua chave

Criando um dicionário:

In [1]:
grades = {"João": 9, "Maria": 10}

Acessando um valor através de sua chave:

In [2]:
grades["João"]

9

Erro se uma chave não existir:

In [3]:
grades["Pedro"]

KeyError: 'Pedro'

Podemos tratar o erro capturando a exceção lançada:

In [4]:
try:
    print(grades["Pedro"])
except KeyError:
    print("Pedro não fez a prova")

Pedro não fez a prova


Usando o operador `in` checamos a existência de uma chave:

In [5]:
"João" in grades

True

In [6]:
"Pedro" in grades

False

Podemos usar o método `.get()` para especificar um valor default quando a chave não existir:

In [7]:
grades.get("Pedro", 0)

0

In [8]:
grades.get("João", 0)

9

Usando os métodos `.keys()` e `.values()` obtemos apenas as chaves e os valores de um dicionário respectivamente:

In [9]:
grades.keys()

dict_keys(['João', 'Maria'])

In [10]:
grades.values()

dict_values([9, 10])

Ou podemos obter ambos em uma estrutura iterável:

In [11]:
grades.items()

dict_items([('João', 9), ('Maria', 10)])

### Counters

Um uso comum para dicionários é criar uma estrutura onde as chaves representam um elemento e os valores representam a quantidade de vezes que aquele elemento apareceu.

Abaixo eu tenho uma lista com todos os campeões do campeonato brasileiro de futebol:

In [12]:
champions = ["Bahia", "Palmeiras", "Santos", "Santos", "Santos",
             "Santos", "Santos", "Cruzeiro", "Palmeiras", "Palmeiras",
             "Botafogo", "Santos", "Palmeiras", "Fluminense",
             "Atlético Mineiro", "Palmeiras", "Palmeiras",
             "Vasco da Gama", "Internacional", "Internacional",
             "São Paulo", "Guarani", "Internacional", "Flamengo",
             "Grêmio", "Flamengo", "Flamengo", "Fluminense",
             "Coritiba", "São Paulo", "Flamengo", "Sport", "Bahia",
             "Vasco da Gama", "Corinthians", "São Paulo", "Flamengo",
             "Palmeiras", "Palmeiras", "Botafogo", "Grêmio",
             "Vasco da Gama", "Corinthians", "Corinthians",
             "Vasco da Gama", "Atlético Paranaense", "Santos",
             "Cruzeiro", "Santos", "Corinthians", "São Paulo",
             "São Paulo", "São Paulo", "Flamengo", "Fluminense",
             "Corinthians", "Fluminense", "Cruzeiro", "Cruzeiro",
             "Corinthians", "Palmeiras", "Corinthians", "Palmeiras",
             "Flamengo"]

Quantas vezes cada time ganhou?

In [13]:
from collections import Counter

champions_counter = Counter(champions)

In [14]:
champions_counter

Counter({'Bahia': 2,
         'Palmeiras': 10,
         'Santos': 8,
         'Cruzeiro': 4,
         'Botafogo': 2,
         'Fluminense': 4,
         'Atlético Mineiro': 1,
         'Vasco da Gama': 4,
         'Internacional': 3,
         'São Paulo': 6,
         'Guarani': 1,
         'Flamengo': 7,
         'Grêmio': 2,
         'Coritiba': 1,
         'Sport': 1,
         'Corinthians': 7,
         'Atlético Paranaense': 1})

Usamos o método `.most_common()` para obter um ranking com os elementos com maiores contagens:

In [15]:
champions_counter.most_common(5)

[('Palmeiras', 10),
 ('Santos', 8),
 ('Flamengo', 7),
 ('Corinthians', 7),
 ('São Paulo', 6)]

### Sets

Um set (ou conjunto) é uma estrutura de dados que representa uma coleção de elementos distintos.

In [16]:
numbers = {1, 3, 5, 7}
numbers

{1, 3, 5, 7}

In [17]:
numbers = {1, 1, 3, 3, 3, 5, 7, 7}
numbers

{1, 3, 5, 7}

A operação para checar se um elemento pertence a um conjunto é muito mais rápido que em uma lista:

In [18]:
big_list = list(range(10000000))

In [19]:
%time 999999 in big_list

CPU times: user 19.8 ms, sys: 447 µs, total: 20.2 ms
Wall time: 24.2 ms


True

In [20]:
big_set = set(range(10000000))

In [21]:
%time 999999 in big_set

CPU times: user 5 µs, sys: 1 µs, total: 6 µs
Wall time: 10 µs


True

Operações de conjuntos como união, interseção, contido e contém são todas suportadas pelos Sets.

Abaixo temos a lista com os campeões da Copa do Brasil. Com o auxílio dos Sets, podemos responder a pergunta: que times venceram o Campeonato Brasileiro e a Copa do Brasil?

In [22]:
cup_champions = ["Grêmio", "Flamengo", "Criciúma", "Internacional",
                 "Cruzeiro", "Grêmio", "Corinthians", "Cruzeiro",
                 "Grêmio", "Palmeiras", "Juventude", "Cruzeiro", 
                 "Grêmio", "Corinthians", "Cruzeiro", "Santo André", 
                 "Paulista", "Flamengo", "Fluminense", "Sport", 
                 "Corinthians", "Santos", "Vasco da Gama", 
                 "Palmeiras", "Flamengo", "Atlético Mineiro", 
                 "Palmeiras", "Grêmio", "Cruzeiro", "Cruzeiro",
                 "Atlético Paranaense"]

In [23]:
set_champions = set(champions)
set_cup_champions = set(cup_champions)

set_champions.intersection(set_cup_champions)

{'Atlético Mineiro',
 'Atlético Paranaense',
 'Corinthians',
 'Cruzeiro',
 'Flamengo',
 'Fluminense',
 'Grêmio',
 'Internacional',
 'Palmeiras',
 'Santos',
 'Sport',
 'Vasco da Gama'}

O operador `&` também executa a interseção de dois conjuntos:

In [24]:
set_champions & set_cup_champions

{'Atlético Mineiro',
 'Atlético Paranaense',
 'Corinthians',
 'Cruzeiro',
 'Flamengo',
 'Fluminense',
 'Grêmio',
 'Internacional',
 'Palmeiras',
 'Santos',
 'Sport',
 'Vasco da Gama'}

O Set também é útil para transformar uma lista com elementos repetidos em uma estrutura com elementos únicos:

In [25]:
item_list = [1, 2, 3, 1, 2, 3]
set_list = set(item_list)
set_list

{1, 2, 3}

Mais detalhes sobre os Sets: https://docs.python.org/3/library/stdtypes.html#set-types-set-frozenset