# Analisando Dados Simples

Nesse módulo iremos iniciar a análise de dados em Python. No momento, vamos assumir que os dados já se encontram carregados em alguma lista ou dicionário. Formas de carregar esses dados aparecerão nos próximos módulos.

<h1>Conteúdo<span class="tocSkip"></span></h1>
<div class="toc"><ul class="toc-item"><li><span><a href="#Máximos,-Mínimos-e-Média" data-toc-modified-id="Máximos,-Mínimos-e-Média-1"><span class="toc-item-num">1&nbsp;&nbsp;</span>Máximos, Mínimos e Média</a></span><ul class="toc-item"><li><span><a href="#Média-e-o-módulo-statistics" data-toc-modified-id="Média-e-o-módulo-statistics-1.1"><span class="toc-item-num">1.1&nbsp;&nbsp;</span>Média e o módulo <code>statistics</code></a></span></li><li><span><a href="#Exercícios" data-toc-modified-id="Exercícios-1.2"><span class="toc-item-num">1.2&nbsp;&nbsp;</span>Exercícios</a></span></li></ul></li><li><span><a href="#Filtragem-de-Dados" data-toc-modified-id="Filtragem-de-Dados-2"><span class="toc-item-num">2&nbsp;&nbsp;</span>Filtragem de Dados</a></span><ul class="toc-item"><li><span><a href="#Criando-uma-Lista-Aleatória" data-toc-modified-id="Criando-uma-Lista-Aleatória-2.1"><span class="toc-item-num">2.1&nbsp;&nbsp;</span>Criando uma Lista Aleatória</a></span></li><li><span><a href="#Filtrando-Listas" data-toc-modified-id="Filtrando-Listas-2.2"><span class="toc-item-num">2.2&nbsp;&nbsp;</span>Filtrando Listas</a></span></li><li><span><a href="#Filtrando-Dicionários" data-toc-modified-id="Filtrando-Dicionários-2.3"><span class="toc-item-num">2.3&nbsp;&nbsp;</span>Filtrando Dicionários</a></span><ul class="toc-item"><li><span><a href="#Qual-o-nome-das-pessoas-nascidas-depois-de-1950?" data-toc-modified-id="Qual-o-nome-das-pessoas-nascidas-depois-de-1950?-2.3.1"><span class="toc-item-num">2.3.1&nbsp;&nbsp;</span>Qual o nome das pessoas nascidas depois de 1950?</a></span></li></ul></li></ul></li></ul></div>

## Máximos, Mínimos e Média

No nosso primeiro exemplo, vamos lidar com o número de refeições servidas nos restaurantes do campus principal da UNICAMP entre 2009 e 2018. Esses dados estão disponíveis na página 249 do [Anuário Estatístico da UNICAMP](https://www.aeplan.unicamp.br/anuario/2019/anuario2019.pdf)

In [1]:
meals = [1854100, 1854855, 1942484, 1961558, 2062858,
         2070967, 2250395, 2478171, 2636224, 2444550]

Podemos determinar o máximo de uma lista de números usando a função embutida `max()`:

In [5]:
max(meals)

2636224

Com isso descobrimos que no ano em que mais refeições foram servidas, serviram 2.636.224 refeições.

O mínimo de uma lista de números também pode ser obtida com uma função nativa do Python, a função `min()`:

In [6]:
min(meals)

1854100

O que mostra que no ano com menor número de refeições, serviram 1.854.100 refeições.

Podemos também somar os elementos de uma lista com `sum()`:

In [15]:
sum(meals)

21556162

Portanto, de 2009 a 2018, foram servidas 21.556.162 refeições

### Média e o módulo `statistics`

Desde a versão 3.4, Python inclui o módulo `statistics`, que contém uma série de funções úteis para análises estatísticas. Você pode ver a referência oficial dele [aqui](https://docs.python.org/pt-br/3.7/library/statistics.html)

> Como você pode ter notado, algumas partes da documentação oficial do Python estão em Português e outras em Inglês. Existe um grupo de voluntários que colabora com essa tradução! Caso você queira, pode encontrar mais informações sobre como nos ajudar a traduzir [nesse post](https://rgth.co/blog/python-ptbr-como-traduzir)

Para começar, vamos importar o módulo `statistics`:

In [16]:
import statistics

Se você abrir uma nova linha de código aqui no Jupyter - clicando no ícone "+" ali na barra ou apertando a tecla 'b', você pode agora digitar `statistics` seguido de um ponto e então apertar a tecla "TAB". O Jupyter depois de alguns segundos irá te mostrar sugestões de todas as funções contidas no módulo!

Veja o exemplo:

![exemplo](statistics.gif)

No vídeo acima, selecionei a função `mean`. Você pode encontrar mais detalhes dessa função na [documentação oficial](https://docs.python.org/pt-br/3.7/library/statistics.html#statistics.mean). Ela retornará a média dos dados, ou seja, a soma de todos os dados dividido pela quantidade deles

In [17]:
statistics.mean(meals)

2155616.2

Portanto, em média, os bandejões da UNICAMP servem 2.155.616,2 refeições por ano

Nós também poderíamos combinar as funções `sum` e `len` para calcular a média de forma mais manual. Como já vimos, `sum` retorna a soma de todos os itens numa lista. `len` retorna o tamanho da lista:

In [18]:
len(meals)

10

Portanto uma forma simples de calcular a média é:

In [19]:
sum(meals)/len(meals)

2155616.2

No entanto, o módulo `statistics` faz bem mais do que isso, como veremos adiante

### Exercícios

Considere a seguinte lista, que contém o número de alunos matriculados na UNICAMP de 2009 a 2018 (Fonte: p.31 do [Anuário Estatístico](https://www.aeplan.unicamp.br/anuario/2019/anuario2019.pdf)).

**Selecione a célula abaixo e aperte CTRL+Enter para que a variável seja criada para você**

In [16]:
students = [32772, 36801, 44519, 40850, 34533, 34616, 35656, 36598, 37494, 37927]

1. Encontre o número de alunos no ano que tivemos mais alunos matriculados

In [17]:
# Note que essa célula permite que você insira códigos aqui!
# Basta editar e apertar ctrl+enter para executar

2. Complete o código abaixo para imprimir a média do número de alunos:

In [None]:
mean = ...
print(f"A média do número de alunos é {mean})

3. O módulo `statistics` oferece também o método `median`, que retorna a mediana dos dados. Utilize dessa função para computar a mediana. Se você tiver um erro do tipo `ImportError`, basta adicionar `import statistics` ao seu código

In [29]:
# Qual a mediana?

4. Correlacione os dados de refeições com os de alunos. No caso, **divida o número de refeições pelo número de alunos em cada ano específico**.

Existem várias formas de resolver esse exercício. Algumas delas estão no arquivo `03.1-Soluções.ipynb` Os valores finais são:

```
56.57573538386428
50.40229885057471
43.63269615220468
48.01855569155447
59.7358468711088
59.82687196672059
63.114062149427866
67.71329034373463
70.31055635568357
64.45408284335697
```

## Filtragem de Dados

Uma tarefa comum em processamento de dados é filtrar as informações que não fazem sentido para o nosso problema ou que simplesmente não importam para o que estamos analisando. Para começar essa seção, vamos gerar números inteiros aleatórios com a função `randint` do módulo `random`. [Documentação](https://docs.python.org/pt-br/3.7/library/random.html?highlight=random#random.randint)

In [15]:
from random import randint

randint(1, 100)

25

A função `randint(a, b)` irá sortear um número aleatório x, `a <= x <= b`. Se você clicar na célula acima e apertar `CTRL+Enter` para reexecutá-la, você verá o número mudando. Tente!

### Criando uma Lista Aleatória

Para começar, vamos criar uma lista com 100 números sorteados entre -200 e 200. Existem duas formas principais de criar essa lista - loop `for` e _list comprehensions_.

Vamos começar com o loop `for`:

In [19]:
numbers = []

for _ in range(100):
    n = randint(-200, 200)
    numbers.append(n)

In [20]:
print(numbers)

[88, -27, -199, -59, 82, -88, -40, 107, -97, 132, -119, 65, -91, 123, 97, -118, -123, -145, -42, -177, 37, -74, -141, -80, -95, 111, 14, 74, -158, -154, 154, 78, 40, -17, -139, -127, 140, -199, -91, -148, 164, 58, -95, 175, 56, 161, 47, -142, 176, 169, -199, 200, -118, -142, 83, -13, -62, -11, 138, 60, -171, 41, -138, -148, 23, 110, -164, 85, -136, -173, -6, -91, 61, -172, 88, -56, -111, 53, -97, 199, 157, 33, 154, -80, 153, -116, 102, 27, -1, 199, -31, 109, -182, -34, -82, 197, -135, 118, -18, 71]


Usando uma _list comprehension_ , podemos criar a lista de forma mais direta, "embutindo" o loop `for` dentro da definição da lista:

In [22]:
numbers = [randint(-200, 200) for _ in range(100)]

print(numbers)

[163, 140, 110, 170, 67, 186, 163, -5, -103, -186, -111, 122, 84, -98, -170, -51, -28, 74, -136, 174, 144, -15, -47, -157, -48, -179, -41, -124, -88, 146, 4, -19, 29, 36, -63, 178, -195, 49, 160, 186, 129, -99, -121, 152, -1, -64, -35, -91, 57, 55, 81, -166, -11, 192, 119, -84, 198, 82, 55, 86, 158, 25, -55, 18, -42, 176, -33, 169, 33, -62, 109, -169, 110, 79, -164, -91, 199, 98, 114, -160, -138, 104, 98, -126, -155, 94, -64, 166, 111, 97, -15, 142, -70, 87, -93, 109, -171, -118, 172, -33]


### Filtrando Listas

Suponha que o nosso problema agora seja pegar apenas os números positivos em uma lista. Mais uma vez, podemos fazer isso usando de loop `for` ou de _list comprehensions_.

Usando de _list comprehensions_ temos algo assim:

In [24]:
positive_numbers = [n for n in numbers if n > 0]
print(positive_numbers)

[163, 140, 110, 170, 67, 186, 163, 122, 84, 74, 174, 144, 146, 4, 29, 36, 178, 49, 160, 186, 129, 152, 57, 55, 81, 192, 119, 198, 82, 55, 86, 158, 25, 18, 176, 169, 33, 109, 110, 79, 199, 98, 114, 104, 98, 94, 166, 111, 97, 142, 87, 109, 172]


Note como a estrutura de `for` e `if` ficou dentro da definição. Como você escreveria esse exemplo usado de um loop for explícito? Caso você esteja com dúvidas sobre esses dois conceitos, pode ser um exercício interessante!

### Filtrando Dicionários

Listas são muito úteis para armazenar sequências de informação mas elas são só uma das muitas estruturas de dados nativas do Python. Dicionários, por exemplo, permitem que a gente lide com informações bem mais complexas. Para mais informações, veja o capítulo 2, de Revisão de Dicionários

Considere a seguinte lista de dicionários contendo informações sobre algumas pessoas da televisão brasileira:

In [4]:
tv = [
    {
        "nome": "Faustão",
        "nascimento": 1950,
        "estado": "SP"
    },
    {
        "nome": "Sílvio Santos",
        "nascimento": 1930,
        "estado": "RJ"
    },
    {
        "nome": "Ana Maria Braga",
        "nascimento": 1949,
        "estado": "SP"
    },
    {
        "nome": "Maísa Silva",
        "nascimento": 2002,
        "estado": "SP"
    },
    {
        "nome": "Renato Aragão",
        "nascimento": 1935,
        "estado": "CE"
    },
    {
        "nome": "Celso Portiolli",
        "nascimento": 1967,
        "estado": "PR"
    },
    {
        "nome": "Xuxa",
        "nascimento": 1963,
        "estado": "RS"
    }
]

Vamos responder três perguntas:

1. Qual o nome das pessoas nascidas depois de 1950?
2. Qual a média de idade dos apresentadores nascidos em SP?
3. Qual a média de idade dos apresentadores nascidos fora de SP?

Se você quiser, pare a leitura do material e tente resolver esses três problemas! As respostas e o raciocínio desenvolvido estão logo em seguida

**Se os códigos a seguir falharem com um erro do tipo `NameError: name 'tv' is not defined`, volte na célula que define a variável tv e aperte SHIFT+Enter**

#### Qual o nome das pessoas nascidas depois de 1950?

Vamos começar fazendo a filtragem de maneira mais explícita, criando uma nova lista e filtrando usando um loop for:

In [9]:
after_1950 = []

for person in tv:
    if person["nascimento"] > 1950:
        after_1950.append(person["nome"])
        
print(after_1950)

['Maísa Silva', 'Celso Portiolli', 'Xuxa']


Esse código possui 3 partes principais:

1. Um loop que percorre todos os elemento na lista `tv`, linha 3
2. Na linha 4, comparamos o campo `nascimento` de cada pessoa com o valor 1950
3. Finalmente, na linha 5, adicionamos apenas o valor do campo nome na lista `after_1950`

Como converter esse código para uma _list comprehension_? Vamos fazer parte a parte, com base nos três itens listados em cima:

In [11]:
# Primeiro percorremos toda a lista "tv"
after_1950 = [person for person in tv]
print(after_1950)

[{'nome': 'Faustão', 'nascimento': 1950, 'estado': 'SP'}, {'nome': 'Sílvio Santos', 'nascimento': 1930, 'estado': 'RJ'}, {'nome': 'Ana Maria Braga', 'nascimento': 1949, 'estado': 'SP'}, {'nome': 'Maísa Silva', 'nascimento': 2002, 'estado': 'SP'}, {'nome': 'Renato Aragão', 'nascimento': 1935, 'estado': 'CE'}, {'nome': 'Celso Portiolli', 'nascimento': 1967, 'estado': 'PR'}, {'nome': 'Xuxa', 'nascimento': 1963, 'estado': 'RS'}]


Observe que esse código não fez filtragem nenhuma, não cortou nenhum campo, nada! Ele apenas copiou tudo o que estava numa lista para outra

In [12]:
# Vamos refazer o código de cima adicionando a filtragem da linha 2:
after_1950 = [person for person in tv if person["nascimento"] > 1950]
print(after_1950)

[{'nome': 'Maísa Silva', 'nascimento': 2002, 'estado': 'SP'}, {'nome': 'Celso Portiolli', 'nascimento': 1967, 'estado': 'PR'}, {'nome': 'Xuxa', 'nascimento': 1963, 'estado': 'RS'}]


Note que agora nós já temos uma filtragem!
Finalmente, vamos modificar o código novamente para adicionar só o campo que queremos:

In [13]:
# Agora, vamos tomar cuidado para adicionar apenas o campo "nome"
after_1950 = [person["nome"] for person in tv if person["nascimento"] > 1950]
print(after_1950)

['Maísa Silva', 'Celso Portiolli', 'Xuxa']


E pronto! Temos o resultado esperado.

As outras duas atividades ficam como exercício. Relembrando, elas são:

1. Qual a média de idade dos apresentadores nascidos em SP?
2. Qual a média de idade dos apresentadores nascidos fora de SP?

Caso você tenha dificuldades, confira a resolução no arquivo `03.1-Soluções`

Dicas:

1. Considere o ano atual como sendo um valor fixo. Caso queira, você pode depois pesquisar como obter o ano atual em Python. As duas soluções estão no arquivo de soluções

2. Caso você enrosque em alguma parte, leia a solução aos poucos, volte e tente continuar ao invés de ler tudo de uma vez. Isso pode ajudar você a resolver pelo menos uma parte do problema sem ler a resposta!