# 140 quebra-cabeças pandas

Inspirado por [100 exercícios de Numpy](https://github.com/rougier/numpy-100), aqui estão 140(*) pequenos quebra-cabeças para testar seu conhecimento sobre o poder do pandas.

Como o pandas é uma biblioteca grande com muitos recursos e funções especializadas diferentes, esses exercícios se concentram principalmente nos fundamentos da manipulação de dados (indexação, agrupamento, agregação, limpeza), utilizando os objetos principais DataFrame e Series.

Muitos dos exercícios aqui são diretos no sentido de que as soluções não exigem mais do que algumas linhas de código (em pandas ou NumPy... não use Python puro ou Cython!). Escolher os métodos certos e seguir as melhores práticas é o objetivo subjacente.

Os exercícios são vagamente divididos em seções. Cada seção tem uma classificação de dificuldade; essas classificações são subjetivas, é claro, mas devem ser vistas como um guia aproximado sobre quão inventiva a solução necessária é.

Se você está apenas começando com pandas e procura alguns outros recursos, a documentação oficial é muito extensa. Em particular, alguns bons lugares para obter uma visão geral mais ampla do pandas são...

- [10 minutos para pandas](http://pandas.pydata.org/pandas-docs/stable/10min.html)
- [Conceitos básicos do pandas](http://pandas.pydata.org/pandas-docs/stable/basics.html)
- [Tutoriais](http://pandas.pydata.org/pandas-docs/stable/tutorials.html)
- [Cookbook e idiomáticos](http://pandas.pydata.org/pandas-docs/stable/cookbook.html#cookbook)

Aproveite os quebra-cabeças!

* Esta lista de exercícios foi criada a partir da original, <b>[100 pandas puzzles](https://github.com/ajcr/100-pandas-puzzles/blob/master/100-pandas-puzzles.ipynb) </b> , trazudiza para o Português e incrementada com exercícios adicionais que trazem diferentes graus de dificuldade.

----

## Importando pandas

Começando e verificando sua configuração do pandas

Dificuldade: fácil

1. Importe pandas com o alias pd.
2. Imprima a versão do pandas que foi importada.
3. Imprima todas as informações de versão das bibliotecas necessárias pela biblioteca pandas.

## Noções básicas de DataFrame

Algumas das rotinas fundamentais para selecionar, ordenar, adicionar e agregar dados em DataFrames

Dificuldade: fácil

Nota: lembre-se de importar numpy usando:

```python
import numpy as np
```

Considere o seguinte dicionário Python `data` e a lista Python `labels`:

```python
data = {'animal': ['cat', 'cat', 'snake', 'dog', 'dog', 'cat', 'snake', 'cat', 'dog', 'dog'],
        'age': [2.5, 3, 0.5, np.nan, 5, 2, 4.5, np.nan, 7, 3],
        'visits': [1, 3, 2, 3, 2, 3, 1, 1, 2, 1],
        'priority': ['yes', 'yes', 'no', 'yes', 'no', 'no', 'no', 'yes', 'no', 'no']}

labels = ['a', 'b', 'c', 'd', 'e', 'f', 'g', 'h', 'i', 'j']
```

(Esses são apenas alguns dados sem sentido que inventei com o tema de animais e visitas ao veterinário.)

4. Crie um DataFrame `df` a partir deste dicionário `data` que tem as etiquetas `labels`.

```python
import numpy as np

data = {'animal': ['cat', 'cat', 'snake', 'dog', 'dog', 'cat', 'snake', 'cat', 'dog', 'dog'],
        'age': [2.5, 3, 0.5, np.nan, 5, 2, 4.5, np.nan, 7, 3],
        'visits': [1, 3, 2, 3, 2, 3, 1, 1, 2, 1],
        'priority': ['yes', 'yes', 'no', 'yes', 'no', 'no', 'no', 'yes', 'no', 'no']}

labels = ['a', 'b', 'c', 'd', 'e', 'f', 'g', 'h', 'i', 'j']

df = # (complete esta linha de código)
```

5. Exiba um resumo das informações básicas sobre este DataFrame e seus dados (dica: existe um único método que pode ser chamado no DataFrame).
6. Retorne as primeiras 3 linhas do DataFrame `df`.
7. Selecione apenas as colunas 'animal' e 'age' do DataFrame `df`.
8. Selecione os dados nas linhas [3, 4, 8] e nas colunas ['animal', 'age'].
9. Selecione apenas as linhas onde o número de visitas é maior que 3.
10. Selecione as linhas onde a idade está faltando, ou seja, é NaN.
11. Selecione as linhas onde o animal é um gato e a idade é menor que 3.
12. Selecione as linhas onde a idade está entre 2 e 4 (inclusive).
13. Altere a idade na linha 'f' para 1.5.
14. Calcule a soma de todas as visitas em `df` (ou seja, encontre o número total de visitas).
15. Calcule a idade média para cada animal diferente em `df`.
16. Adicione uma nova linha 'k' a `df` com os valores de sua escolha para cada coluna. Em seguida, exclua essa linha para retornar ao DataFrame original.
17. Conte o número de cada tipo de animal em `df`.
18. Ordene `df` primeiro pelos valores na coluna 'age' em ordem decrescente e depois pelos valores na coluna 'visits' em ordem crescente (então a linha i deve ser a primeira, e a linha d deve ser a última).
19. A coluna 'priority' contém os valores 'yes' e 'no'. Substitua essa coluna por uma coluna de valores booleanos: 'yes' deve ser True e 'no' deve ser False.
20. Na coluna 'animal', altere as entradas 'snake' para 'python'.
21. Para cada tipo de animal e cada número de visitas, encontre a idade média. Em outras palavras, cada linha é um animal, cada coluna é um número de visitas e os valores são as idades médias (dica: use uma tabela dinâmica).

## DataFrames: além do básico

Um pouco mais complicado: você pode precisar combinar dois ou mais métodos para obter a resposta certa

Dificuldade: média

A seção anterior foi um passeio por algumas operações básicas, mas essenciais de DataFrame. Abaixo estão algumas maneiras que você pode precisar de cortar seus dados, mas para as quais não há um método "pronto para uso".

22. Você tem um DataFrame `df` com uma coluna 'A' de inteiros. Por exemplo:

```python
df = pd.DataFrame({'A': [1, 2, 2, 3, 4, 5, 5, 5, 6, 7, 7]})
```

Como você filtra as linhas que contêm o mesmo inteiro que a linha imediatamente acima?

Você deve ficar com uma coluna contendo os seguintes valores:

1, 2, 3, 4, 5, 6, 7

23. Dado um DataFrame de valores numéricos, por exemplo:

```python
df = pd.DataFrame(np.random.random(size=(5, 3))) # um frame de 5x3 de valores float
```

como você subtrai a média da linha de cada elemento na linha?

24. Suponha que você tenha um DataFrame com 10 colunas de números reais, por exemplo:

```python
df = pd.DataFrame(np.random.random(size=(5, 10)), columns=list('abcdefghij'))
```

Qual coluna de números tem a menor soma? Retorne o rótulo dessa coluna.

25. Como você conta quantas linhas únicas um DataFrame tem (ou seja, ignore todas as linhas que são duplicatas)? Como entrada, use um DataFrame de zeros e uns com 10 linhas e 3 colunas.

```python
df = pd.DataFrame(np.random.randint(0, 2, size=(10, 3)))
```

Os próximos três quebra-cabeças são um pouco mais difíceis.

26. Na célula abaixo, você tem um DataFrame `df` que consiste em 10 colunas de números de ponto flutuante. Exatamente 5 entradas em cada linha são valores NaN.

Para cada linha do DataFrame, encontre a coluna que contém o terceiro valor NaN.

Você deve retornar uma Série de rótulos de coluna: e, c, d, h, d

```python
nan = np.nan

data = [[0.04,  nan,  nan, 0.25,  nan, 0.43, 0.71, 0.51,  nan,  nan],
        [ nan,  nan,  nan, 0.04, 0.76,  nan,  nan, 0.67, 0.76, 0.16],
        [ nan,  nan, 0.5 ,  nan, 0.31, 0.4 ,  nan,  nan, 0.24, 0.01],
        [0.49,  nan,  nan, 0.62, 0.73, 0.26, 0.85,  nan,  nan,  nan],
        [ nan,  nan, 0.41,  nan, 0.05,  nan, 0.61,  nan, 0.48, 0.68]]

columns = list('abcdefghij')

df = pd.DataFrame(data, columns=columns)
```

27. Um DataFrame

 tem uma coluna de grupos 'grps' e uma coluna de valores inteiros 'vals':

```python
df = pd.DataFrame({'grps': list('aaabbcaabcccbbc'),
                   'vals': [12,345,3,1,45,14,4,52,54,23,235,21,57,3,87]})
```

Para cada grupo, encontre a soma dos três maiores valores. Você deve obter a resposta da seguinte forma:

```
grps
a    409
b    156
c    345
```

28. O DataFrame `df` construído abaixo tem duas colunas inteiras 'A' e 'B'. Os valores em 'A' estão entre 1 e 100 (inclusive).

Para cada grupo de 10 inteiros consecutivos em 'A' (ou seja, (0, 10], (10, 20], ...), calcule a soma dos valores correspondentes na coluna 'B'.

A resposta deve ser uma Série da seguinte forma:

```
A
(0, 10]      635
(10, 20]     360
(20, 30]     315
(30, 40]     306
(40, 50]     750
(50, 60]     284
(60, 70]     424
(70, 80]     526
(80, 90]     835
(90, 100]    852
```

```python
df = pd.DataFrame(np.random.RandomState(8765).randint(1, 101, size=(100, 2)), columns = ["A", "B"])
```

## DataFrames: problemas mais difíceis

Esses podem exigir um pouco de pensamento fora da caixa... mas todos são solucionáveis usando apenas os métodos usuais do pandas/NumPy (e assim evite usar loops explícitos).

Dificuldade: difícil

29. Considere um DataFrame `df` onde há uma coluna inteira 'X':

```python
df = pd.DataFrame({'X': [7, 2, 0, 3, 4, 2, 5, 0, 3, 4]})
```

Para cada valor, conte a diferença até o zero anterior (ou o início da Série, o que for mais próximo). Esses valores devem ser

```
[1, 2, 0, 1, 2, 3, 4, 0, 1, 2]
```

Faça desta uma nova coluna 'Y'.

30. Considere o DataFrame construído abaixo que contém linhas e colunas de dados numéricos.

Crie uma lista dos locais índice de linha-coluna dos 3 maiores valores neste DataFrame. Neste caso, a resposta deve ser:

```
[(5, 7), (6, 4), (2, 5)]
```

```python
df = pd.DataFrame(np.random.RandomState(30).randint(1, 101, size=(8, 8)))
```

31. Você recebeu o DataFrame abaixo com uma coluna de IDs de grupo, 'grps', e uma coluna de valores inteiros correspondentes, 'vals'.

```python
df = pd.DataFrame({"vals": np.random.RandomState(31).randint(-30, 30, size=15),
                   "grps": np.random.RandomState(31).choice(["A", "B"], 15)})
```

Crie uma nova coluna 'patched_values' que contém os mesmos valores que 'vals' substituindo quaisquer valores negativos em 'vals' pela média do grupo:

```
    vals grps  patched_vals
0    -12    A          13.6
1     -7    B          28.0
2    -14    A          13.6
3      4    A           4.0
4     -7    A          13.6
5     28    B          28.0
6     -2    A          13.6
7     -1    A          13.6
8      8    A           8.0
9     -2    B          28.0
10    28    A          28.0
11    12    A          12.0
12    16    A          16.0
13   -24    A          13.6
14   -12    A          13.6
```

32. Implemente uma média móvel sobre grupos com tamanho de janela 3, que ignora valores NaN. Por exemplo, considere o seguinte DataFrame:

```python
>>> df = pd.DataFrame({'group': list('aabbabbbabab'),
                       'value': [1, 2, 3, np.nan, 2, 3, np.nan, 1, 7, 3, np.nan, 8]})
>>> df
   group  value
0      a    1.0
1      a    2.0
2      b    3.0
3      b    NaN
4      a    2.0
5      b    3.0
6      b    NaN
7      b    1.0
8      a    7.0
9      b    3.0
10     a    NaN
11     b    8.0
```

O objetivo é calcular a Série:

```
0     1.000000
1     1.500000
2     3.000000
3     3.000000
4     1.666667
5     3.000000
6     3.000000
7     2.000000
8     3.666667
9     2.000000
10    4.500000
11    4.000000
```

Por exemplo, a primeira janela de tamanho três para o grupo 'b' tem valores 3.0, NaN e 3.0 e ocorre no índice de linha 5. Em vez de ser NaN, o valor na nova coluna neste índice de linha deve ser 3.0 (apenas os dois valores não NaN são usados para calcular a média (3+3)/2).

## Series e DatetimeIndex

Exercícios para criar e manipular Series com dados de datetime

Dificuldade: fácil/médio

pandas é fantástico para trabalhar com datas e horários. Esses quebra-cabeças exploram algumas dessas funcionalidades.

33. Crie um DatetimeIndex que contenha cada dia útil de 2015 e use-o para indexar uma Série de números aleatórios. Vamos chamar esta Série de `s`.
34. Encontre a soma dos valores em `s` para cada quarta-feira.
35. Para cada mês do calendário em `s`, encontre a média dos valores.
36. Para cada grupo de quatro meses consecutivos no calendário em `s`, encontre a data em que ocorreu o valor mais alto.
37. Crie um DateTimeIndex consistindo na terceira quinta-feira de cada mês para os anos 2015 e 2016.

## Limpando Dados

Tornando um DataFrame mais fácil de trabalhar

Dificuldade: fácil/médio

Isso acontece o tempo todo: alguém lhe dá dados contendo strings malformadas, listas do Python e dados faltantes. Como você limpa isso para poder prosseguir com a análise?

Tome esta monstruosidade como o DataFrame a ser usado nos quebra-cabeças seguintes:

```python
df = pd.DataFrame({'From_To': ['LoNDon_paris', 'MAdrid_miLAN', 'londON_StockhOlm',
                               'Budapest_PaRis', 'Brussels_londOn'],
              'FlightNumber': [10045, np.nan, 10065, np.nan, 10085],
              'RecentDelays': [[23, 47], [], [24, 43, 87], [13], [67, 32]],
                   'Airline': ['KLM(!)', '<Air France> (12)', '(British Airways. )',
                               '12. Air France', '"Swiss Air"']})
```

Formatado, parece assim:

```
            From_To  FlightNumber  RecentDelays              Airline
0      LoNDon_paris       10045.0      [23, 47]               KLM(!)
1      MAdrid_miLAN           NaN            []    <Air France> (12)
2  londON_StockhOlm       10065.0  [24, 43, 87]  (British Airways. )
3    Budapest_PaRis           NaN          [13]       12. Air France
4   Brussels_londOn       10085.0      [67, 32]          "Swiss Air"
```

(É apenas alguns dados de voo que inventei; não é para ser preciso de forma alguma.)

38. Alguns valores na coluna FlightNumber estão faltando (eles são NaN). Esses números devem aumentar em 10 com cada linha, então 10055 e 10075 precisam ser colocados no lugar. Modifique `df` para preencher esses números ausentes e torne a coluna uma coluna de inteiros (em vez de uma coluna de float).
39. A coluna From_To seria melhor como duas colunas separadas! Divida cada string no delimitador sublinhado `_` para dar um novo DataFrame temporário chamado 'temp' com os valores corretos. Atrib

ua os nomes de coluna corretos 'From' e 'To' a este DataFrame temporário.
40. Observe como a capitalização dos nomes das cidades está toda misturada neste DataFrame temporário 'temp'. Padronize as strings para que apenas a primeira letra esteja em maiúscula (por exemplo, "londON" deve se tornar "London").
41. Exclua a coluna From_To de `df` e anexe o DataFrame temporário 'temp' das questões anteriores.
42. Na coluna Airline, você pode ver alguns símbolos e pontuações extras ao redor dos nomes das companhias aéreas. Extraia apenas o nome da companhia aérea. Por exemplo, '(British Airways. )' deve se tornar 'British Airways'.
43. Na coluna RecentDelays, os valores foram inseridos no DataFrame como uma lista. Gostaríamos que cada primeiro valor estivesse em sua própria coluna, cada segundo valor em sua própria coluna e assim por diante. Se não houver um N-ésimo valor, o valor deve ser NaN.

Expanda a Série de listas em um DataFrame chamado `delays`, renomeie as colunas como delay_1, delay_2, etc., e substitua a coluna RecentDelays indesejada em `df` por `delays`.

O DataFrame deve parecer muito melhor agora.

```
   FlightNumber          Airline      From         To  delay_1  delay_2  delay_3
0         10045              KLM    London      Paris     23.0     47.0      NaN
1         10055       Air France    Madrid      Milan      NaN      NaN      NaN
2         10065  British Airways    London  Stockholm     24.0     43.0     87.0
3         10075       Air France  Budapest      Paris     13.0      NaN      NaN
4         10085        Swiss Air  Brussels     London     67.0     32.0      NaN
```

## Usando MultiIndexes

Vá além dos DataFrames planos com níveis adicionais de índice

Dificuldade: média

Os exercícios anteriores nos viram analisando dados de DataFrames equipados com um único nível de índice. No entanto, pandas também oferece a possibilidade de indexar seus dados usando vários níveis. Isso é muito parecido com adicionar novas dimensões a uma Série ou a um DataFrame. Por exemplo, uma Série é 1D, mas ao usar um MultiIndex com 2 níveis, ganhamos muita da mesma funcionalidade que um DataFrame 2D.

O conjunto de quebra-cabeças abaixo explora como você pode usar vários níveis de índice para melhorar a análise de dados.

Para aquecer, vamos criar uma Série com dois níveis de índice.

44. Dadas as listas `letters = ['A', 'B', 'C']` e `numbers = list(range(10))`, construa um objeto MultiIndex a partir do produto das duas listas. Use-o para indexar uma Série de números aleatórios. Chame esta Série de `s`.
45. Verifique se o índice de `s` está lexicograficamente ordenado (isso é uma propriedade necessária para que a indexação funcione corretamente com um MultiIndex).
46. Selecione os rótulos 1, 3 e 6 do segundo nível da Série MultiIndexed.
47. Fatie a Série `s`; fatie até o rótulo 'B' para o primeiro nível e a partir do rótulo 5 em diante para o segundo nível.
48. Some os valores em `s` para cada rótulo no primeiro nível (você deve ter uma Série dando um total para os rótulos A, B e C).
49. Suponha que `sum()` (e outros métodos) não aceitem um argumento de palavra-chave `level`. Como mais você poderia realizar o equivalente a `s.sum(level=1)`?
50. Troque os níveis do MultiIndex para que tenhamos um índice na forma (letters, numbers). Esta nova Série está devidamente ordenada lexicograficamente? Se não, ordene-a.

## Minesweeper

Gere os números para quadrados seguros em uma grade de Minesweeper

Dificuldade: média a difícil

Se você já usou uma versão mais antiga do Windows, há uma boa chance de ter jogado Minesweeper:

[Minesweeper (video game)](https://en.wikipedia.org/wiki/Minesweeper_(video_game))

Se você não está familiarizado com o jogo, imagine uma grade de quadrados: alguns desses quadrados escondem uma mina. Se você clicar em uma mina, você perde instantaneamente. Se você clicar em um quadrado seguro, você revela um número que informa quantas minas são encontradas nos quadrados que estão imediatamente adjacentes. O objetivo do jogo é descobrir todos os quadrados na grade que não contêm uma mina.

Nesta seção, faremos um DataFrame que contém os dados necessários para um jogo de Minesweeper: coordenadas dos quadrados, se o quadrado contém uma mina e o número de minas encontradas nos quadrados adjacentes.

51. Vamos supor que estamos jogando Minesweeper em uma grade de 5 por 4, ou seja,

```python
X = 5
Y = 4
```

Para começar, gere um DataFrame `df` com duas colunas, 'x' e 'y' contendo todas as coordenadas para esta grade. Ou seja, o DataFrame deve começar:

```
   x  y
0  0  0
1  0  1
2  0  2
```

52. Para este DataFrame `df`, crie uma nova coluna de zeros (seguro) e uns (mina). A probabilidade de uma mina ocorrer em cada local deve ser 0,4.
53. Agora crie uma nova coluna para este DataFrame chamada 'adjacent'. Esta coluna deve conter o número de minas encontradas nos quadrados adjacentes na grade.

(Por exemplo, para a primeira linha, que é a entrada para a coordenada (0, 0), conte quantas minas são encontradas nas coordenadas (0, 1), (1, 0) e (1, 1).)

54. Para as linhas do DataFrame que contêm uma mina, defina o valor na coluna 'adjacent' como NaN.
55. Finalmente, converta o DataFrame em uma grade dos contagens de minas adjacentes: as colunas são a coordenada x, as linhas são a coordenada y.

## Plotando

###Visualize tendências e padrões nos dados

Dificuldade: média

Para realmente obter uma boa compreensão dos dados contidos em seu DataFrame, muitas vezes é essencial criar gráficos: se você tiver sorte, as tendências e anomalias saltarão imediatamente aos seus olhos. Essa funcionalidade está embutida no pandas e os quebra-cabeças abaixo exploram um pouco do que é possível com a biblioteca.

56. Pandas é altamente integrado com a biblioteca de plotagem matplotlib, e torna a plotagem de DataFrames muito fácil! Plotar em um ambiente de notebook geralmente usa o seguinte código boilerplate:

```python
import matplotlib.pyplot as plt
%matplotlib inline
plt.style.use('ggplot')
```

matplotlib é a biblioteca de plotagem na qual a funcionalidade de plotagem do pandas é construída, e geralmente é apelidada de `plt`.

`%matplotlib inline` diz ao notebook para mostrar os gráficos embutidos, em vez de criá-los em uma janela separada.

`plt.style.use('ggplot')` é um tema de estilo que a maioria das pessoas acha agradável, baseado no estilo do pacote ggplot do R.

Para começar, faça um gráfico de dispersão desses dados aleatórios, mas use X's pretos em vez dos marcadores padrão.

```python
df = pd.DataFrame({"xs":[1,5,2,8,1], "ys":[4,2,1,9,6]})
```

###Consulte a documentação se ficar preso!

57. As colunas do seu DataFrame também podem ser usadas para modificar cores e tamanhos. Bill tem acompanhado seu desempenho no trabalho ao longo do tempo, bem como como ele estava se sentindo naquele dia e se ele tomou uma xícara de café pela manhã. Faça um gráfico que incorpore todos os quatro recursos deste DataFrame.

(Dica: se você estiver tendo dificuldade em ver o gráfico, tente multiplicar a Série que você escolheu para representar o tamanho por 10 ou mais)

O gráfico não precisa ser bonito: este não é um curso de visualização de dados!

```python
df = pd.DataFrame({"productivity":[5,2,3,1,4,5,6,7,8,3,4,8,9],
                   "hours_in"    :[1,9,6,5,3,9,2,9,1,7,4,2,2],
                   "happiness"   :[2,1,3,2,3,1,2,3,1,2,2,1,3],
                   "caffienated" :[0,0,1,1,0,0,0,0,1,1,0,1,0]})
```

58. E se quisermos plotar várias coisas? Pandas permite que você passe um objeto de Eixo do matplotlib para gráficos, e os gráficos também retornarão um objeto de Eixo.

Faça um gráfico de barras da receita mensal com um gráfico de linha dos gastos mensais com publicidade (números em milhões)

```python
df = pd.DataFrame({"revenue":[

57,68,63,71,72,90,80,62,59,51,47,52],
                   "advertising":[2.1,1.9,2.7,3.0,3.6,3.2,2.7,2.4,1.8,1.6,1.3,1.9],
                   "month":range(12)
                  })
```

Agora estamos finalmente prontos para criar um gráfico de velas, que é uma ferramenta muito comum usada para analisar dados de preços de ações. Um gráfico de velas mostra o preço de abertura, fechamento, máximo e mínimo de uma ação durante uma janela de tempo. A cor da "vela" (a parte grossa da barra) é verde se a ação fechou acima do preço de abertura, ou vermelha se abaixo.

#### Exemplo de Gráfico de Velas

Isso foi inicialmente projetado para ser um desafio de plotagem com pandas, mas acontece que esse tipo de gráfico simplesmente não é viável usando os métodos do pandas. Se você não estiver familiarizado com matplotlib, fornecemos uma função que plotará o gráfico para você, desde que você possa usar pandas para colocar os dados no formato correto.

Seu primeiro passo deve ser colocar os dados no formato correto usando a função de agrupamento de séries temporais do pandas. Gostaríamos que cada vela representasse uma hora de dados. Você pode escrever sua própria função de agregação que retorna a abertura/alta/baixa/fechamento, mas o pandas tem uma função interna que também faz isso.

A célula abaixo contém funções auxiliares. Chame `day_stock_data()` para gerar um DataFrame contendo os preços de uma ação hipotética vendidos e a hora em que a venda ocorreu. Chame `plot_candlestick(df)` em seus dados de ações devidamente agregados e formatados para imprimir o gráfico de velas.

```python
import numpy as np
def float_to_time(x):
    return str(int(x)) + ":" + str(int(x%1 * 60)).zfill(2) + ":" + str(int(x*60 % 1 * 60)).zfill(2)

def day_stock_data():
    #NYSE está aberto das 9:30 às 16:00
    time = 9.5
    price = 100
    results = [(float_to_time(time), price)]
    while time < 16:
        elapsed = np.random.exponential(.001)
        time += elapsed
        if time > 16:
            break
        price_diff = np.random.uniform(.999, 1.001)
        price *= price_diff
        results.append((float_to_time(time), price))
    
    df = pd.DataFrame(results, columns = ['time','price'])
    df.time = pd.to_datetime(df.time)
    return df

#Não me leia a menos que você esteja preso!
def plot_candlestick(agg):
    """
    agg é um DataFrame que tem um DatetimeIndex e cinco colunas: ["open","high","low","close","color"]
    """
    fig, ax = plt.subplots()
    for time in agg.index:
        ax.plot([time.hour] * 2, agg.loc[time, ["high","low"]].values, color = "black")
        ax.plot([time.hour] * 2, agg.loc[time, ["open","close"]].values, color = agg.loc[time, "color"], linewidth = 10)

    ax.set_xlim((8,16))
    ax.set_ylabel("Preço")
    ax.set_xlabel("Hora")
    ax.set_title("OHLC do Valor das Ações Durante o Dia de Negociação")
    plt.show()
```

59. Gere dados de ações aleatórios de um dia e agregue/reformate para que tenha resumos horários dos preços de abertura, máximo, mínimo e fechamento.
60. Agora que você tem seus dados devidamente formatados, tente plotá-los como um gráfico de velas. Use a função `plot_candlestick(df)` acima, ou a documentação de plotagem do matplotlib se ficar preso.

---
## Noções básicas de DataFrame

Dificuldade: fácil

61. Adicione uma nova coluna 'color' ao DataFrame `df` criada anteriormente, contendo cores para cada animal. Escolha as cores que quiser.

62. Remova a coluna 'priority' do DataFrame `df`.

63. Renomeie a coluna 'visits' para 'num_visits' no DataFrame `df`.

64. Converta a coluna 'num_visits' para o tipo de dado float.

65. Adicione uma nova coluna 'height' ao DataFrame `df`, com valores aleatórios entre 0 e 1.

66. Calcule a correlação entre as colunas 'age' e 'height'.

67. Adicione uma nova coluna 'weight' ao DataFrame `df`, com valores aleatórios entre 1 e 10.

68. Calcule o desvio padrão da coluna 'weight'.

69. Selecione as linhas onde a 'age' está entre 2 e 6 (inclusive).

70. Encontre o valor máximo da coluna 'weight' para cada tipo de animal.
---
## DataFrames: além do básico

Dificuldade: média

71. Crie um DataFrame `df2` com duas colunas 'A' e 'B' de números inteiros de 1 a 10.

72. Calcule a diferença entre as colunas 'A' e 'B' e armazene em uma nova coluna 'C'.

73. Crie uma nova coluna 'D' em `df2` que é a soma cumulativa da coluna 'C'.

74. Adicione uma nova coluna 'E' em `df2` que é a média móvel da coluna 'C' com uma janela de tamanho 3.

75. Crie um novo DataFrame `df3` que é o DataFrame `df2` transposto.

76. Adicione uma nova linha ao DataFrame `df3` com a soma de cada coluna.

77. Adicione uma nova coluna 'F' em `df2` que é o produto das colunas 'A' e 'B'.

78. Filtre as linhas de `df2` onde a coluna 'F' é maior que 20.

79. Substitua todos os valores negativos na coluna 'C' de `df2` por zero.

80. Adicione uma nova coluna 'G' em `df2` que é a classificação de 'A' em ordem decrescente.
---
## Trabalhando com Séries Temporais

Dificuldade: média

81. Crie uma Série de datas que vão de '2023-01-01' a '2023-12-31' com frequência diária.

82. Crie uma Série de números aleatórios com o mesmo índice de datas.

83. Encontre a média dos valores para cada mês.

84. Encontre o valor máximo para cada trimestre.

85. Encontre a data em que ocorreu o valor mínimo em cada semestre.

86. Calcule a diferença diária dos valores na Série.

87. Calcule a média móvel dos valores com uma janela de tamanho 7.

88. Crie uma nova coluna que contenha a soma acumulativa dos valores.

89. Filtre os valores que são maiores que a média.

90. Plotar os valores da Série usando matplotlib.
---
## Limpando e Preparando Dados

Dificuldade: média

91. Carregue um DataFrame a partir de um arquivo CSV.

92. Encontre e substitua valores ausentes no DataFrame.

93. Remova linhas duplicadas no DataFrame.

94. Normalize os dados de uma coluna para o intervalo [0, 1].

95. Converta os tipos de dados de colunas especificadas.

96. Divida uma coluna de strings em várias colunas.

97. Mescle dois DataFrames com base em uma chave comum.

98. Agrupe os dados por uma coluna e calcule estatísticas agregadas.

99. Remova outliers de uma coluna.

100. Salve o DataFrame limpo em um novo arquivo CSV.
---
## Usando Gráficos para Visualização

Dificuldade: média/alta

101. Crie um gráfico de barras da contagem de cada tipo de animal no DataFrame `df`.

102. Crie um gráfico de dispersão da idade versus peso dos animais no DataFrame `df`.

103. Crie um histograma da distribuição das idades dos animais.

104. Crie um gráfico de pizza das proporções de cada tipo de animal.

105. Crie um gráfico de linha das visitas ao longo do tempo.

106. Crie um gráfico de caixa das idades dos animais agrupados por tipo de animal.

107. Crie um gráfico de área cumulativa da soma das visitas.

108. Crie um gráfico de violino das distribuições das idades dos animais.

109. Crie um gráfico de mapa de calor da correlação entre todas as colunas numéricas.

110. Crie um gráfico de par de todas as colunas numéricas no DataFrame.

---

## Explorando Recursos Avançados

Dificuldade: alta

111. Use a função `pivot_table` para criar uma tabela dinâmica do DataFrame `df`.

112. Use a função `melt` para reorganizar o DataFrame `df`.

113. Use `apply` para aplicar uma função personalizada a cada linha do DataFrame.

114. Use `groupby` e `transform` para normalizar os dados dentro de cada grupo.

115. Use `merge` para combinar dados de duas fontes diferentes.

116. Use `concat` para combinar vários DataFrames.

117. Use `map` para substituir valores em uma coluna com base em um dicionário.

118. Use `rolling` para calcular a média móvel ponderada exponencialmente.

119. Use `resample` para agregar dados de séries temporais por mês.

120. Use `cut` para segmentar dados em intervalos específicos.
---
## Trabalhando com Dados Geoespaciais

Dificuldade: alta

121. Carregue um shapefile de dados geoespaciais usando geopandas.

122. Crie um DataFrame geoespacial a partir de coordenadas latitude/longitude.

123. Realize operações de união espacial entre dois DataFrames geoespaciais.

124. Calcule a área de polígonos geoespaciais.

125. Crie um mapa de calor geoespacial das localizações dos dados.

126. Crie um gráfico de dispersão geoespacial das localizações dos dados.

127. Realize uma interpolação espacial dos dados.

128. Crie buffers ao redor de pontos geoespaciais.

129. Filtre dados geoespaciais por um polígono específico.

130. Salve os dados geoespaciais em um novo shapefile.
---
## Explorando Bibliotecas de Gráficos Avançados

Dificuldade: alta

131. Use seaborn para criar um gráfico de regressão da idade versus peso dos animais.

132. Use plotly para criar um gráfico interativo de linhas das visitas ao longo do tempo.

133. Use bokeh para criar um gráfico interativo de barras da contagem de cada tipo de animal.

134. Use altair para criar um gráfico de dispersão interativo da idade versus peso dos animais.

135. Use folium para criar um mapa interativo das localizações dos dados geoespaciais.

136. Use seaborn para criar um gráfico de violino das distribuições das idades dos animais.

137. Use plotly para criar um gráfico de bolhas interativo da idade versus peso dos animais.

138. Use bokeh para criar um gráfico de área interativo da soma das visitas.

139. Use altair para criar um gráfico de calor interativo da correlação entre todas as colunas numéricas.

140. Use folium para criar um mapa de densidade das localizações dos dados geoespaciais.

Esses exercícios adicionais ajudam a explorar mais profundamente as funcionalidades do pandas e a visualização de dados usando bibliotecas avançadas.