# Analisando Dados Simples

Nesse módulo iremos iniciar a análise de dados em Python. No momento, vamos assumir que os dados já se encontram carregados em alguma lista ou dicionário. Formas de carregar esses dados aparecerão nos próximos módulos.

## Máximos, Mínimos e Média

No nosso primeiro exemplo, vamos lidar com o número de refeições servidas nos restaurantes do campus principal da UNICAMP entre 2009 e 2018. Esses dados estão disponíveis na página 249 do [Anuário Estatístico da UNICAMP](https://www.aeplan.unicamp.br/anuario/2019/anuario2019.pdf)

In [1]:
meals = [1854100, 1854855, 1942484, 1961558, 2062858,
         2070967, 2250395, 2478171, 2636224, 2444550]

Podemos determinar o máximo de uma lista de números usando a função embutida `max()`:

In [5]:
max(meals)

2636224

Com isso descobrimos que no ano em que mais refeições foram servidas, serviram 2.636.224 refeições.

O mínimo de uma lista de números também pode ser obtida com uma função nativa do Python, a função `min()`:

In [6]:
min(meals)

1854100

O que mostra que no ano com menor número de refeições, serviram 1.854.100 refeições.

Podemos também somar os elementos de uma lista com `sum()`:

In [15]:
sum(meals)

21556162

Portanto, de 2009 a 2018, foram servidas 21.556.162 refeições

### Média e o módulo `statistics`

Desde a versão 3.4, Python inclui o módulo `statistics`, que contém uma série de funções úteis para análises estatísticas. Você pode ver a referência oficial dele [aqui](https://docs.python.org/pt-br/3.7/library/statistics.html)

> Como você pode ter notado, algumas partes da documentação oficial do Python estão em Português e outras em Inglês. Existe um grupo de voluntários que colabora com essa tradução! Caso você queira, pode encontrar mais informações sobre como nos ajudar a traduzir [nesse post](https://rgth.co/blog/python-ptbr-como-traduzir)

Para começar, vamos importar o módulo `statistics`:

In [16]:
import statistics

Se você abrir uma nova linha de código aqui no Jupyter - clicando no ícone "+" ali na barra ou apertando a tecla 'b', você pode agora digitar `statistics` seguido de um ponto e então apertar a tecla "TAB". O Jupyter depois de alguns segundos irá te mostrar sugestões de todas as funções contidas no módulo!

Veja o exemplo:

![exemplo](statistics.gif)

No vídeo acima, selecionei a função `mean`. Você pode encontrar mais detalhes dessa função na [documentação oficial](https://docs.python.org/pt-br/3.7/library/statistics.html#statistics.mean). Ela retornará a média dos dados, ou seja, a soma de todos os dados dividido pela quantidade deles

In [17]:
statistics.mean(meals)

2155616.2

Portanto, em média, os bandejões da UNICAMP servem 2.155.616,2 refeições por ano

Nós também poderíamos combinar as funções `sum` e `len` para calcular a média de forma mais manual. Como já vimos, `sum` retorna a soma de todos os itens numa lista. `len` retorna o tamanho da lista:

In [18]:
len(meals)

10

Portanto uma forma simples de calcular a média é:

In [19]:
sum(meals)/len(meals)

2155616.2

No entanto, o módulo `statistics` faz bem mais do que isso, como veremos adiante

### Exercícios

Considere a seguinte lista, que contém o número de alunos matriculados na UNICAMP de 2009 a 2018 (Fonte: p.31 do [Anuário Estatístico](https://www.aeplan.unicamp.br/anuario/2019/anuario2019.pdf)). Selecione a célula abaixo e aperte CTRL+Enter para que a variável seja criada para você

In [28]:
students = [32772, 36801, 44519, 40850, 34533, 34616, 35656, 36598, 37494, 37927]

1. Encontre o número de alunos no ano que tivemos mais alunos matriculados

In [25]:
# Note que essa célula permite que você insira códigos aqui!
# Basta editar e apertar ctrl+enter para executar

2. Complete o código abaixo para imprimir a média do número de alunos:

In [23]:
mean = ...
print(f"A média do número de alunos é {mean})

3. O módulo `statistics` oferece também o método `median`, que retorna a mediana dos dados. Utilize dessa função para computar a mediana. Se você tiver um erro do tipo `ImportError`, basta adicionar `import statistics` ao seu código

In [29]:
# Qual a mediana?

4. Correlacione os dados de refeições com os de alunos. No caso, divida o número de refeições pelo número de alunos em cada ano específico.

Existem várias formas de resolver esse exercício. Algumas delas estão no arquivo `03.1-Soluções.ipynb` Os valores finais são:

```
56.57573538386428
50.40229885057471
43.63269615220468
48.01855569155447
59.7358468711088
59.82687196672059
63.114062149427866
67.71329034373463
70.31055635568357
64.45408284335697
```

## Filtragem de Dados

Uma tarefa comum em processamento de dados é filtrar as informações que não fazem sentido para o nosso problema ou que simplesmente não importam para o que estamos analisando. Para começar essa seção, vamos gerar números inteiros aleatórios com a função `randint` do módulo `random`. [Documentação](https://docs.python.org/pt-br/3.7/library/random.html?highlight=random#random.randint)