# 100 pandas puzzles

Como o pandas é uma grande biblioteca com muitos recursos e funções especializadas diferentes, esses exercícios se concentram principalmente nos fundamentos da manipulação de dados (indexação, agrupamento, agregação, limpeza), fazendo uso dos principais objetos DataFrame e Series.

Muitos dos exercícios aqui são diretos, pois as soluções não requerem mais do que algumas linhas de código (em pandas ou NumPy... não use Python ou Cython puro!). Escolher os métodos corretos e seguir as melhores práticas é o objetivo subjacente.

Os exercícios são divididos livremente em seções. Cada seção possui uma classificação de dificuldade; essas classificações são subjetivas, é claro, mas devem ser vistas como um guia aproximado do quão inventiva é a solução necessária.

Divirta-se!



## Importando pandas

### Getting started and checking your pandas setup

Dificuldade: *easy* 

**1.** Importando pandas usando o alias `pd`.

**2.** Imprima a versão dos pandas que foi importada.

**3.** Imprima todas as informações de **versão** das bibliotecas exigidas pela biblioteca pandas.

## DataFrame 

### Algumas das rotinas fundamentais para selecionar, classificar, adicionar e agregar dados em DataFrame

Difficulty: *easy*

Nota: lembre-se de importar numpy usando:
```python
import numpy as np
```

Consider the following Python dictionary `data` and Python list `labels`:

``` python
data = {'animal': ['cat', 'cat', 'snake', 'dog', 'dog', 'cat', 'snake', 'cat', 'dog', 'dog'],
        'age': [2.5, 3, 0.5, np.nan, 5, 2, 4.5, np.nan, 7, 3],
        'visits': [1, 3, 2, 3, 2, 3, 1, 1, 2, 1],
        'priority': ['yes', 'yes', 'no', 'yes', 'no', 'no', 'no', 'yes', 'no', 'no']}

labels = ['a', 'b', 'c', 'd', 'e', 'f', 'g', 'h', 'i', 'j']
```
(This is just some meaningless data I made up with the theme of animals and trips to a vet.)

**4.**Crie um DataFrame `df` a partir deste dicionário `data` que possui o índice `labels`.

In [None]:
import numpy as np

data = {'animal': ['cat', 'cat', 'snake', 'dog', 'dog', 'cat', 'snake', 'cat', 'dog', 'dog'],
        'age': [2.5, 3, 0.5, np.nan, 5, 2, 4.5, np.nan, 7, 3],
        'visits': [1, 3, 2, 3, 2, 3, 1, 1, 2, 1],
        'priority': ['yes', 'yes', 'no', 'yes', 'no', 'no', 'no', 'yes', 'no', 'no']}

labels = ['a', 'b', 'c', 'd', 'e', 'f', 'g', 'h', 'i', 'j']

df = # (complete this line of code)

**5.** Exibe um resumo das informações básicas sobre este DataFrame e seus dados (*dica: existe um único método que pode ser chamado no DataFrame*).

**6.** Retorne as 3 primeiras linhas do DataFrame `df`.

**7.** Selecione apenas as colunas 'animal' e 'idade' do DataFrame `df`.

**8.** Selecione os dados nas linhas `[3, 4, 8]` *e* nas colunas `['animal', 'age']`.

**9.** Selecione apenas as linhas onde o número de visitas é maior que 3.

**10.** Selecione as linhas onde falta a idade, ou seja, é `NaN`..

**11.** Selecione as linhas onde o animal é um gato *e* a idade é menor que 3 anos.

**12.** Selecione as linhas em que a idade está entre 2 e 4 anos (inclusive).

**13.** Altere a idade na linha 'f' para 1.5.

**14.** Calcule a soma de todas as visitas em `df` (ou seja, encontre o número total de visitas).

**15.** Calcule a idade média de cada animal diferente em `df`.

**16.** Anexe uma nova linha 'k' ao df com sua escolha de valores para cada coluna. Em seguida, exclua essa linha para retornar o DataFrame original.

**17.** Conte o número de cada tipo de animal em `df`.

**18.** Classifique `df` primeiro pelos valores em 'idade' em ordem *decrescente*, depois pelo valor na coluna 'visitas' em ordem *crescente* (então a linha `i` deve ser a primeira, e a linha `d` deve ser o último).

**19.** A coluna 'prioridade' contém os valores 'sim' e 'não'. Substitua esta coluna por uma coluna de valores booleanos: 'yes' deve ser `True` e 'no' deve ser `False`.

**20.** Na coluna ‘animal’, altere as entradas ‘snake’ para ‘python’

**21.** Para cada tipo de animal e cada número de visitas, encontre a idade média. Em outras palavras, cada linha é um animal, cada coluna é um número de visitas e os valores são as idades médias (*dica: use uma tabela dinâmica*).

## DataFrames: além do básico

### Um pouco mais complicado: pode ser necessário combinar dois ou mais métodos para obter a resposta certa



A seção anterior foi um tour por algumas operações básicas, mas essenciais, do DataFrame. Abaixo estão algumas maneiras pelas quais você pode precisar cortar seus dados, mas para as quais não existe um método único "pronto para uso".

**22.** Você tem um DataFrame `df` com uma coluna 'A' de números inteiros. Por exemplo:
```python
df = pd.DataFrame({'A': [1, 2, 2, 3, 4, 5, 5, 5, 6, 7, 7]})
```

Como você filtra linhas que contêm o mesmo número inteiro da linha imediatamente acima?

Você deve ficar com uma coluna contendo os seguintes valores:

```python
1, 2, 3, 4, 5, 6, 7
```

**23.** Dado um DataFrame de valores numéricos, digamos
```python
df = pd.DataFrame(np.random.random(size=(5, 3))) # a 5x3 frame of float values
```

como você subtrai a média da linha de cada elemento da linha?

**24.** Suponha que você tenha um DataFrame com 10 colunas de números reais, por exemplo:

```python
df = pd.DataFrame(np.random.random(size=(5, 10)), columns=list('abcdefghij'))
```
Qual coluna de números tem a menor soma? Retorne o rótulo dessa coluna.

**25.** Como você conta quantas linhas exclusivas um DataFrame possui (ou seja, ignora todas as linhas duplicadas)? Como entrada, use um DataFrame de zeros e uns com 10 linhas e 3 colunas.

```python
df = pd.DataFrame(np.random.randint(0, 2, size=(10, 3)))
```

Os próximos três desafios são um pouco mais difíceis..


**26.** Na célula abaixo, você tem um DataFrame `df` que consiste em 10 colunas de números de ponto flutuante. Exatamente 5 entradas em cada linha são valores NaN.

Para cada linha do DataFrame, encontre a *coluna* que contém o *terceiro* valor NaN.

Você deve retornar uma série de rótulos de coluna: `e, c, d, h, d`

In [1]:
nan = np.nan

data = [[0.04,  nan,  nan, 0.25,  nan, 0.43, 0.71, 0.51,  nan,  nan],
        [ nan,  nan,  nan, 0.04, 0.76,  nan,  nan, 0.67, 0.76, 0.16],
        [ nan,  nan, 0.5 ,  nan, 0.31, 0.4 ,  nan,  nan, 0.24, 0.01],
        [0.49,  nan,  nan, 0.62, 0.73, 0.26, 0.85,  nan,  nan,  nan],
        [ nan,  nan, 0.41,  nan, 0.05,  nan, 0.61,  nan, 0.48, 0.68]]

columns = list('abcdefghij')

df = pd.DataFrame(data, columns=columns)

# write a solution to the question here

NameError: name 'np' is not defined

**27.** Um DataFrame possui uma coluna de grupos 'grps' e uma coluna de valores inteiros 'vals': 

```python
df = pd.DataFrame({'grps': list('aaabbcaabcccbbc'), 
                   'vals': [12,345,3,1,45,14,4,52,54,23,235,21,57,3,87]})
```
Para cada *grupo*, encontre a soma dos três maiores valores. Você deve terminar com a resposta da seguinte forma:
```
grps
a    409
b    156
c    345
```

In [None]:
df = pd.DataFrame({'grps': list('aaabbcaabcccbbc'), 
                   'vals': [12,345,3,1,45,14,4,52,54,23,235,21,57,3,87]})

# write a solution to the question here

**28.** O DataFrame `df` construído abaixo possui duas colunas inteiras 'A' e 'B'. Os valores em 'A' estão entre 1 e 100 (inclusive).. 

Para cada grupo de 10 inteiros consecutivos em 'A' (ou seja, `(0, 10]`, `(10, 20]`, ...), calcule a soma dos valores correspondentes na coluna 'B'.

A resposta deverá ser um Series com a seguinte:

```
A
(0, 10]      635
(10, 20]     360
(20, 30]     315
(30, 40]     306
(40, 50]     750
(50, 60]     284
(60, 70]     424
(70, 80]     526
(80, 90]     835
(90, 100]    852
```

In [None]:
df = pd.DataFrame(np.random.RandomState(8765).randint(1, 101, size=(100, 2)), columns = ["A", "B"])

# write a solution to the question here

## DataFrames: problemas mais difíceis 

### Isso pode exigir um pouco de reflexão fora da caixa...

...mas todos podem ser resolvidos usando apenas os métodos habituais do pandas/NumPy (e, portanto, evite usar loops `for` explícitos).



**29.** Consider a DataFrame `df` where there is an integer column 'X':
```python
df = pd.DataFrame({'X': [7, 2, 0, 3, 4, 2, 5, 0, 3, 4]})
```
Para cada valor, conte a diferença até o zero anterior (ou o início da Série, o que estiver mais próximo). Esses valores devem, portanto, ser:

```
[1, 2, 0, 1, 2, 3, 4, 0, 1, 2]
```

Make this a new column 'Y'.

**30.** Considere o DataFrame construído abaixo, que contém linhas e colunas de dados numéricos. 

Crie uma lista dos locais de índice coluna-linha dos 3 maiores valores neste DataFrame. Neste caso, a resposta deveria ser:
```
[(5, 7), (6, 4), (2, 5)]
```

In [2]:
df = pd.DataFrame(np.random.RandomState(30).randint(1, 101, size=(8, 8)))


NameError: name 'pd' is not defined

**31.**Você recebe o DataFrame abaixo com uma coluna de IDs de grupo, 'grps', e uma coluna de valores inteiros correspondentes, 'vals'.

```python
df = pd.DataFrame({"vals": np.random.RandomState(31).randint(-30, 30, size=15), 
                   "grps": np.random.RandomState(31).choice(["A", "B"], 15)})
```

Crie uma nova coluna 'patched_values' que contenha os mesmos valores que 'vals', so que os valores negativos em 'vals' devem receber a média do grupo:

```
    vals grps  patched_vals
0    -12    A          13.6
1     -7    B          28.0
2    -14    A          13.6
3      4    A           4.0
4     -7    A          13.6
5     28    B          28.0
6     -2    A          13.6
7     -1    A          13.6
8      8    A           8.0
9     -2    B          28.0
10    28    A          28.0
11    12    A          12.0
12    16    A          16.0
13   -24    A          13.6
14   -12    A          13.6
```

**32.** mplemente uma média móvel sobre grupos com tamanho de janela 3, que ignora o valor NaN. Por exemplo, considere o seguinte DataFrame:

```python
>>> df = pd.DataFrame({'group': list('aabbabbbabab'),
                       'value': [1, 2, 3, np.nan, 2, 3, np.nan, 1, 7, 3, np.nan, 8]})
>>> df
   group  value
0      a    1.0
1      a    2.0
2      b    3.0
3      b    NaN
4      a    2.0
5      b    3.0
6      b    NaN
7      b    1.0
8      a    7.0
9      b    3.0
10     a    NaN
11     b    8.0
```
O objetivo é uma Series:

```
0     1.000000
1     1.500000
2     3.000000
3     3.000000
4     1.666667
5     3.000000
6     3.000000
7     2.000000
8     3.666667
9     2.000000
10    4.500000
11    4.000000
```
E.g. a primeira janela de tamanho três para o grupo 'b' tem valores 3,0, NaN e 3,0 e ocorre no índice de linha 5. Em vez de ser NaN, o valor na nova coluna neste índice de linha deve ser 3,0 (apenas os dois valores não-NaN são usados ​​para calcular a média (3+3)/2)

## Series and DatetimeIndex

### Exercises for creating and manipulating Series with datetime data



Exercícios para criação e manipulação de séries com dados de data e hora


**33.** Crie um DatetimeIndex que contenha cada dia útil de 2015 e use-o para indexar uma série de números aleatórios. Vamos chamar esta série de `s`.

**34.** Encontre a soma dos valores em `s` para todas as quartas-feiras.

**35.** Para cada mês em `s`, encontre a média dos valores.

**36.** Para cada grupo de quatro meses consecutivos em `s`, encontre a data em que ocorreu o valor mais alto.

**37.** Crie um DateTimeIndex que consiste na terceira quinta-feira de cada mês para os anos de 2015 e 2016.

## Limpeza de dados
### Tornando um DataFrame mais fácil de trabalhar


Isso acontece o tempo todo: alguém fornece dados contendo strings malformadas, Python, listas e dados ausentes. Como você arruma tudo para poder prosseguir com a análise?

Use esta monstruosidade como o DataFrame para usar nos seguintes desafios:

```python
df = pd.DataFrame({'From_To': ['LoNDon_paris', 'MAdrid_miLAN', 'londON_StockhOlm', 
                               'Budapest_PaRis', 'Brussels_londOn'],
              'FlightNumber': [10045, np.nan, 10065, np.nan, 10085],
              'RecentDelays': [[23, 47], [], [24, 43, 87], [13], [67, 32]],
                   'Airline': ['KLM(!)', '<Air France> (12)', '(British Airways. )', 
                               '12. Air France', '"Swiss Air"']})
```
Formatted, it looks like this:

```
            From_To  FlightNumber  RecentDelays              Airline
0      LoNDon_paris       10045.0      [23, 47]               KLM(!)
1      MAdrid_miLAN           NaN            []    <Air France> (12)
2  londON_StockhOlm       10065.0  [24, 43, 87]  (British Airways. )
3    Budapest_PaRis           NaN          [13]       12. Air France
4   Brussels_londOn       10085.0      [67, 32]          "Swiss Air"
```


(São alguns dados de voo que inventei; não foi feito para ser preciso de forma alguma.)


**38.** Alguns valores na coluna **FlightNumber** estão faltando (são `NaN`). Esses números devem aumentar em 10 a cada linha, portanto, 10.055 e 10.075 precisam ser colocados no lugar. Modifique `df` para preencher esses números ausentes e tornar a coluna uma coluna inteira (em vez de uma coluna flutuante).

**39.** The **From\_To** coluna seria melhor como duas colunas separadas! Divida cada string no delimitador de sublinhado `_` para fornecer um novo DataFrame temporário chamado 'temp' com os valores corretos. Atribua os nomes de coluna corretos 'De' e 'Para' a este DataFrame temporário. 

**40.** Observe como as letras maiúsculas dos nomes das cidades estão todas misturadas neste 'temp' temporário do DataFrame. Padronize as strings para que apenas a primeira letra fique maiúscula (por exemplo, "londON" deve se tornar "London".)

**41.** Exclua a coluna **From_To** de `df` e anexe o DataFrame temporário 'temp' das perguntas anteriores.

**42**. Na coluna **Companhia Aérea**, você pode ver algumas pontuações extras e símbolos que apareceram ao redor dos nomes das companhias aéreas. Retire apenas o nome da companhia aérea. Por exemplo. `'(British Airways.)'` deveria se tornar `'British Airways'`.

**43**. Na coluna RecentDelays, os valores foram inseridos no DataFrame como uma lista. Gostaríamos que cada primeiro valor estivesse em sua própria coluna, cada segundo valor em sua própria coluna e assim por diante. Se não houver um enésimo valor, o valor deverá ser NaN.

Expanda a série de listas em um DataFrame chamado `delays`, renomeie as colunas `delay_1`, `delay_2`, etc. e substitua a coluna indesejada RecentDelays em `df` por `delays`.

O DataFrame deve estar muito melhor agora.
```
   FlightNumber          Airline      From         To  delay_1  delay_2  delay_3
0         10045              KLM    London      Paris     23.0     47.0      NaN
1         10055       Air France    Madrid      Milan      NaN      NaN      NaN
2         10065  British Airways    London  Stockholm     24.0     43.0     87.0
3         10075       Air France  Budapest      Paris     13.0      NaN      NaN
4         10085        Swiss Air  Brussels     London     67.0     32.0      NaN
```

## Usando MultiIndexes

### Vá além dos DataFrames simples com níveis de índice adicionais

Difficulty: *medium*

Nos exercícios anteriores, analisamos dados de DataFrames equipados com um único nível de índice. No entanto, o pandas também oferece a possibilidade de indexar seus dados usando *múltiplos* níveis. Isso é muito parecido com adicionar novas dimensões a uma série ou DataFrame. Por exemplo, uma série é 1D, mas ao usar um MultiIndex com 2 níveis ganhamos praticamente a mesma funcionalidade de um DataFrame 2D.

O conjunto de desafios abaixo explora como você pode usar vários níveis de índice para aprimorar a análise de dados.

Para aquecer, vamos fazer uma série com dois níveis de índice.

**44**. Dadas as listas `letters = ['A', 'B', 'C']` e `numbers = list(range(10))`, construa um objeto MultiIndex a partir do produto das duas listas. Use-o para indexar uma série de números aleatórios. Chame esta série de `s`.

**45.** Verifique se o índice de s está classificado lexicograficamente (esta é uma propriedade necessária para que a indexação funcione corretamente com um MultiIndex).

**46**. Selecione os rótulos `1`, `3` e `6` do segundo nível da série MultiIndexed.

**47**. Fatie a série `s`; divida até o rótulo 'B' para o primeiro nível e do rótulo 5 em diante para o segundo nível.

**48**. Some os valores em `s` para cada rótulo no primeiro nível (você deve ter a Série fornecendo um total para os rótulos A, B e C).

**49**. Suponha que `sum()` (e outros métodos) não aceitem um argumento de palavra-chave `level`. De que outra forma você poderia executar o equivalente a `s.sum(level=1)`?

**50**.Troque os níveis do MultiIndex para que tenhamos um índice na forma (letras, números). Esta nova série está devidamente ordenada? Se não, resolva

## Campo Minado

### Gere os números para quadrados seguros em uma grade do Campo Minado


Se você já usou uma versão mais antiga do Windows, há uma boa chance de já ter jogado com o Campo Minado

Se você não conhece o jogo, imagine uma grade de quadrados: alguns desses quadrados escondem uma mina. Se você clicar em uma mina, você perde instantaneamente. Se você clicar em um quadrado seguro, você revelará um número que indica quantas minas foram encontradas nos quadrados imediatamente adjacentes. O objetivo do jogo é descobrir todos os quadrados da grade que não contenham minas.

Nesta seção, faremos um DataFrame que contém os dados necessários para um jogo de Campo Minado: coordenadas dos quadrados, se o quadrado contém uma mina e o número de minas encontradas nos quadrados adjacentes.

**51**. Suponhamos que estamos jogando o Campo Minado em uma grade de 5 por 4, ou seja,
```
X = 5
Y = 4
```
Para começar, gere um DataFrame `df` com duas colunas, `'x'` e `'y'` contendo todas as coordenadas desta grade. Ou seja, o DataFrame deverá iniciar:
```
   x  y
0  0  0
1  0  1
2  0  2
```

**52**. Para este DataFrame `df`, crie uma nova coluna de zeros (seguro) e uns (minas). A probabilidade de uma mina ocorrer em cada local deveria ser de 0.4.

**53**. Agora crie uma nova coluna para este DataFrame chamada `'adjacent'`. Esta coluna deve conter o número de minas encontradas em quadrados adjacentes na grade.

Por exemplo. para a primeira linha, que é a entrada para a coordenada `(0, 0)`, conte quantas minas são encontradas nas coordenadas `(0, 1)`, `(1, 0)` e `(1, 1) )`.)

**54**. Para linhas do DataFrame que contêm uma mina, defina o valor na coluna 'adjacente' como NaN..

**55**. Finalmente, converta o DataFrame em grade das contagens de minas adjacentes: as colunas são a coordenada `x`, as linhas são a coordenada `y`.

## Plotting

### Visualize tendências e padrões em dados

Difficulty: *medium*

Para realmente entender bem os dados contidos em seu DataFrame, muitas vezes é essencial criar gráficos: se você tiver sorte, tendências e anomalias surgirão na sua frente. ssa funcionalidade está incorporada aos pandas e os desafios abaixo exploram algumas das possibilidades da biblioteca

**56.** O Pandas é altamente integrado à biblioteca de plotagem matplotlib e torna a plotagem de DataFrames muito fácil de usar! A plotagem em um ambiente de notebook geralmente faz uso do seguinte padrão:

```python
import matplotlib.pyplot as plt
%matplotlib inline
plt.style.use('ggplot')
```

matplotlib é a biblioteca de plotagem sobre a qual a funcionalidade de plotagem do pandas é construída, e geralmente tem o alias de ```plt```.

```%matplotlib inline``` diz ao notebook para mostrar os gráficos em linha, em vez de criá-los em uma janela separada.  

```plt.style.use('ggplot')``` é um tema de estilo que a maioria das pessoas acha agradável, baseado no estilo do pacote ggplot do R.

Para começar, faça um gráfico de dispersão desses dados aleatórios, mas use X pretos em vez dos marcadores padrão. 

```df = pd.DataFrame({"xs":[1,5,2,8,1], "ys":[4,2,1,9,6]})```

Consulte a [documentation](https://pandas.pydata.org/pandas-docs/stable/generated/pandas.DataFrame.plot.html)

**57.** colunas em seu DataFrame também podem ser usadas para modificar cores e tamanhos. Bill tem acompanhado seu desempenho no trabalho ao longo do tempo, bem como o quão bem ele estava se sentindo naquele dia e se tomou uma xícara de café pela manhã.  Faça um gráfico que incorpore todos os quatro recursos deste DataFrame.

(Dica: se você estiver tendo problemas para visualizar o gráfico, tente multiplicar a série que você escolheu para representar o tamanho por 10 ou mais)

*TO gráfico não precisa ser bonito: este não é um curso de visualização de dados!*

```
df = pd.DataFrame({"productivity":[5,2,3,1,4,5,6,7,8,3,4,8,9],
                   "hours_in"    :[1,9,6,5,3,9,2,9,1,7,4,2,2],
                   "happiness"   :[2,1,3,2,3,1,2,3,1,2,2,1,3],
                   "caffienated" :[0,0,1,1,0,0,0,0,1,1,0,1,0]})
```

**58.** E se quisermos traçar várias coisas? O Pandas permite que você passe um objeto matplotlib *Axis* para gráficos, e os gráficos também retornarão um objeto Axis.

Faça um gráfico de barras da receita mensal com um gráfico de linhas dos gastos mensais com publicidade (números em milhões)

```
df = pd.DataFrame({"revenue":[57,68,63,71,72,90,80,62,59,51,47,52],
                   "advertising":[2.1,1.9,2.7,3.0,3.6,3.2,2.7,2.4,1.8,1.6,1.3,1.9],
                   "month":range(12)
                  })
```

Agora estamos finalmente prontos para criar um gráfico de velas, que é uma ferramenta muito comum usada para analisar dados de preços de ações.  Um gráfico de velas mostra o preço de abertura, fechamento, preço mais alto e mais baixo de uma ação durante uma janela de tempo.  A cor da “vela” (a parte grossa da barra) é verde se a ação fechou acima do preço de abertura, ou vermelha se estiver abaixo.

![Candlestick Example](img/candle.jpg)

Isso foi inicialmente projetado para ser um desafio de plotagem de pandas, mas acontece que esse tipo de plotagem simplesmente não é viável usando os métodos dos pandas.  Se você não está familiarizado com o matplotlib, fornecemos uma função que irá traçar o gráfico para você, desde que você possa usar o pandas para colocar os dados no formato correto.

Seu primeiro passo deve ser obter os dados no formato correto usando a função de agrupamento de série temporal do pandas.  Gostaríamos que cada vela representasse uma hora de dados.  Você pode escrever sua própria função de agregação que retorna abertura/alta/baixa/fechamento, mas o pandas tem uma função integrada que também faz isso.

A célula abaixo contém funções auxiliares. Chame ```day_stock_data()``` para gerar um DataFrame contendo os preços pelos quais uma ação hipotética foi vendida e o horário em que a venda ocorreu. Chame ```plot_candlestick(df)``` em seus dados de ações devidamente agregados e formatados para imprimir o gráfico de velas.

In [1]:
import numpy as np
def float_to_time(x):
    return str(int(x)) + ":" + str(int(x%1 * 60)).zfill(2) + ":" + str(int(x*60 % 1 * 60)).zfill(2)

def day_stock_data():
    #NYSE is open from 9:30 to 4:00
    time = 9.5
    price = 100
    results = [(float_to_time(time), price)]
    while time < 16:
        elapsed = np.random.exponential(.001)
        time += elapsed
        if time > 16:
            break
        price_diff = np.random.uniform(.999, 1.001)
        price *= price_diff
        results.append((float_to_time(time), price))
    
    
    df = pd.DataFrame(results, columns = ['time','price'])
    df.time = pd.to_datetime(df.time)
    return df

#Don't read me unless you get stuck!
def plot_candlestick(agg):
    """
    agg is a DataFrame which has a DatetimeIndex and five columns: ["open","high","low","close","color"]
    """
    fig, ax = plt.subplots()
    for time in agg.index:
        ax.plot([time.hour] * 2, agg.loc[time, ["high","low"]].values, color = "black")
        ax.plot([time.hour] * 2, agg.loc[time, ["open","close"]].values, color = agg.loc[time, "color"], linewidth = 10)

    ax.set_xlim((8,16))
    ax.set_ylabel("Price")
    ax.set_xlabel("Hour")
    ax.set_title("OHLC of Stock Value During Trading Day")
    plt.show()

**59.** Gere dados aleatórios de ações de um dia e agregue/reformate-os para que tenham resumos de hora em hora dos preços de abertura, mais alto, mais baixo e de fechamento

**60.** Agora que você tem seus dados formatados corretamente, tente plotá-los você mesmo como um gráfico de velas.  Use o ```plot_candlestick(df)``` function above, or matplotlib's [```plot``` documentation](https://matplotlib.org/api/_as_gen/matplotlib.axes.Axes.plot.html) if you get stuck.

*More exercises to follow soon...*