<a href="https://colab.research.google.com/github/FGalvao77/Machine-Learning/blob/main/04_Introdu%C3%A7%C3%A3o_ao_k_NN.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# **k-NN**

---

Em estatística, o algoritmo `k-NN` (k-vizinhos mais próximos), é um método de **classificação não paramétrico** desenvolvido pela primeira vez por Evelyn Fix e Joseph Hodges em 1951, e posteriormente expandido por Thomas Cover. É usado para `classificação` e `regressão`. Em ambos os casos, a entrada consiste nos k exemplos de treinamento mais próximos no conjunto de dados. A saída depende se KNN é usado para classificação ou regressão:

  - Na _classificação k-NN_ , a saída é uma associação de classe. Um objeto é classificado por uma pluralidade de votos de seus vizinhos, com o objeto sendo atribuído à classe mais comum entre seus `k-vizinhos mais próximos` (k é um número inteiro positivo , tipicamente pequeno). Se `k = 1`, então o objeto é simplesmente atribuído à classe daquele único vizinho mais próximo.
  - Na _regressão k-NN_, a saída é o valor da propriedade do objeto. Este valor é a média dos valores dos k vizinhos mais próximos.

O KNN é um tipo de classificação onde a função é aproximada apenas localmente e todos os cálculos são adiados até a avaliação da função. Como esse algoritmo depende da distância para classificação, se os recursos representarem unidades físicas diferentes ou vierem em escalas muito diferentes, a normalização dos dados de treinamento pode melhorar drasticamente sua precisão.

Tanto para classificação quanto para regressão, uma técnica útil pode ser atribuir pesos às contribuições dos vizinhos, de modo que os vizinhos mais próximos contribuam mais para a média do que os mais distantes. Por exemplo, um esquema de ponderação comum consiste em dar a cada vizinho um peso de `1 / d`, onde d é a distância ao vizinho.

Os vizinhos são obtidos de um conjunto de objetos para os quais a classe (para a classificação k-NN) ou o valor da propriedade do objeto (para a regressão k-NN) é conhecido. Isso pode ser considerado o conjunto de treinamento para o algoritmo, embora nenhuma etapa de treinamento explícita seja necessária.

Uma peculiaridade do algoritmo k-NN é que ele é sensível à estrutura local dos dados.


## **Fazendo previsões com o k-NN**

O k-NN faz previsões usando o conjunto de dados de treinamento diretamente.

As previsões são feitas para uma nova instância (x) pesquisando todo o conjunto de treinamento para as K instâncias mais semelhantes (os vizinhos) e resumindo a variável de saída para essas instâncias de K. Para a regressão, essa pode ser a variável de saída média; na classificação, esse pode ser o valor de classe do modo (ou mais comum).

Para determinar quais das instâncias do K no conjunto de dados de treinamento são mais semelhantes a uma nova entrada, uma medida de distância é usada. Para variáveis ​​de entrada de valor real, a medida de distância mais popular é a `distância euclidiana`.

  **Distância euclidiana**

  Em matemática, a distância euclidiana entre dois pontos no espaço euclidiano é o comprimento de um segmento de linha entre os dois pontos. Pode ser calculada a partir das coordenadas cartesianas dos pontos usando o `teorema de Pitágoras`, sendo ocasionalmente chamada de **distância pitagórica**. Esses nomes vêm dos antigos matemáticos gregos `Euclides e Pitágoras`, embora Euclides não representasse as distâncias como números, e a conexão do teorema de Pitágoras com o cálculo da distância não foi feita até o século XVIII.

  A distância entre dois objetos que não são pontos geralmente é definida como a menor distância entre pares de pontos dos dois objetos. As fórmulas são conhecidas por calcular distâncias entre diferentes tipos de objetos, como a distância de um ponto a uma linha. Na matemática avançada, o conceito de distância foi generalizado para abstrair espaços métricos, e outras distâncias além da euclidiana foram estudadas. Em algumas aplicações em estatística e otimização, o quadrado da distância euclidiana é usado em vez da própria distância.
  - fonte: 
    - **Wikipedia:** https://bit.ly/3gtJ5mO


A distância euclidiana é calculada como a raiz quadrada da soma das diferenças quadráticas entre um novo ponto (x) e um ponto existente (xi) em todos os atributos de entrada j.

Distância Euclidiana (x, xi) = sqrt (soma ((xj – xij) ^ 2))

Outras medidas populares de distância incluem:

- Distância de Hamming: Calcula a distância entre os vetores binários ( mais ).
Manhattan Distance: Calcula a distância entre vetores reais usando a soma de sua diferença absoluta. Também chamado de City Block Distance ( mais ).
- Distância Minkowski: Generalização da distância Euclidiana e Manhattan ( mais ).

Existem muitas outras medidas de distância que podem ser usadas, como a distância de Tanimoto, Jaccard , Mahalanobis e cosseno. Você pode escolher a melhor métrica de distância com base nas propriedades de seus dados. Se não tiver certeza, você pode experimentar diferentes métricas de distância e valores diferentes de K juntos e ver qual mistura resulta nos modelos mais precisos.

Euclidean é uma boa medida de distância para usar se as variáveis ​​de entrada forem semelhantes em tipo (por exemplo, todas as larguras e alturas medidas). A distância de Manhattan é uma boa medida para usar se as variáveis ​​de entrada não forem semelhantes em tipo (como idade, sexo, altura, etc.).

O valor para K pode ser encontrado por ajuste de algoritmo. É uma boa ideia tentar vários valores diferentes para K (por exemplo, valores de 1 a 21) e ver o que funciona melhor para o seu problema.

A complexidade computacional do KNN aumenta com o tamanho do conjunto de dados de treinamento. Para conjuntos de treinamento muito grandes, o KNN pode ser estocástico tomando uma amostra do conjunto de dados de treinamento a partir do qual calcular as instâncias mais semelhantes.




- Conheça mais em:
  - **Portal Data Science - O Algorítmo K-Nearest Neighbors (KNN) em Machine Learning:** https://bit.ly/3pLk76G
  - **Wikipedia - k-nearest neighbors algorithm:** https://bit.ly/3wjKHq3


**Conhecendo na prática a matemática por trás do `k-NN`.**
  - usaremos como base a **distância euclidiana.**

In [None]:
# calculando a distância entre dois pontos quaisquer
2-5

-3

> Como sabe, no mundo real não existe distância negativa!
  - pra isso, é necessário elevar o resultado a segunda potência.

In [None]:
# calculando a distância entre dois pontos quaisquer
# elevando a segunda potência para não termos valor negativo
(2-5)**2

9

>> Mas ainda, não é o resultado esperado!
  - agora devemos tirar a raiz quadrada para obter o valor real da distância.

In [None]:
# calculando a distância entre dois pontos quaisquer
# elevando a segunda potência para não termos valor negativo
# e extraindo sua raiz quadrada para obter o valor real da distância entre os pontos
((2-5)**2)**(0.5) # 0.5 equivale a 1/2

3.0

**E para situações onde temos valores bi-dimensionais. Como fazemos para calcular a distância?**
  - segue exemplo:

In [None]:
# instanciando os dados em duas variáveis com duas dimensões cada
a = [5.0, 0.75]
b = [2.0, 0.50]

In [None]:
# calculando a distância entre as variáveis
# utilizando o conceito apresentado acima
((5.0 - 2.0)**2 + (0.75 - 0.50)**2)**0.5

3.010398644698074

> Pronto esta aí! Este é a coordenada entre dois pontos quaisquer com duas dimensões.
  - agora, vamos para a prática com dados do mundo real!

## **k-NN para classificação**
  - utilizaremos a função `KNeighborsClassifier` do **sklearn.neighbords**

In [None]:
# importando as bibliotecas
import pandas as pd
from sklearn.neighbors import KNeighborsClassifier

In [None]:
# instanciando o modelo na variável "knn"
# e como argumento, passamos o número 3 para "n_neighbors"
# o classificador irar classificar em três grupos os dados
knn = KNeighborsClassifier(n_neighbors=3)

> o argumento `n_neighbors=3` estamos indicando ao **k-NN** que cada novo elemento ele deverá comparar aos três vizinho mais próximos.

In [None]:
# importando a base de dados para o google colab
# para isso, utilizaremos a biblioteca fornecida pela google
from google.colab import files
uploaded = files.upload()

Saving fruit_data_with_colors.txt to fruit_data_with_colors.txt


In [None]:
# realizando a leitura da base de dados
# utilizando a função do pandas ".read_table()"
# e instanciando na variável "data"
data = pd.read_table('fruit_data_with_colors.txt')

# visualizando as 5 primeiras linhas da variável
data.head()

Unnamed: 0,fruit_label,fruit_name,fruit_subtype,mass,width,height,color_score
0,1,apple,granny_smith,192,8.4,7.3,0.55
1,1,apple,granny_smith,180,8.0,6.8,0.59
2,1,apple,granny_smith,176,7.4,7.2,0.6
3,2,mandarin,mandarin,86,6.2,4.7,0.8
4,2,mandarin,mandarin,84,6.0,4.6,0.79


In [None]:
# visualizando a quantidade de linhas e colunas
print('Linhas: ', data.shape[0]); print('Colunas: ', data.shape[1])

Linhas:  59
Colunas:  7


In [None]:
# visualizando o tipo de dados em cada coluna
data.dtypes

fruit_label        int64
fruit_name        object
fruit_subtype     object
mass               int64
width            float64
height           float64
color_score      float64
dtype: object

> Iremos utilizar as colunas com valores numéricos para realizar nossa predição. Que são elas:
  - `'fruit_label'` (nosso alvo), a variável dependente e,
  - `'mass', 'height', 'width'` e `'color_score'`, as nossas variáveis independentes.

In [None]:
# instanciando na variável "X" as variáveis independentes da base de dados
X = data[['mass', 'height', 'width', 'color_score']]
X.head()  # visualizando as 5 primeiras linhas 

Unnamed: 0,mass,height,width,color_score
0,192,7.3,8.4,0.55
1,180,6.8,8.0,0.59
2,176,7.2,7.4,0.6
3,86,4.7,6.2,0.8
4,84,4.6,6.0,0.79


In [None]:
# instanciando na variável "y" a variável dependente (alvo) da base de dados
y = data.fruit_label
y.head()  # visualizando as 5 primeiras linhas

0    1
1    1
2    1
3    2
4    2
Name: fruit_label, dtype: int64

In [None]:
# para realizar a divisão dos dados em treino e teste
# importaremos do sklearn.model_selection a função "train_test_split"
from sklearn.model_selection import train_test_split

In [None]:
# realizando a divisão dos dados em treino e teste em 4 partes
# "X_train", "X_test", "y_train", "y_test" e instanciando
# com a função "train_test_split" e, passando como argumento "X" e "y"
X_train, X_test, y_train, y_test = train_test_split(X, y)

In [None]:
# utilizando o modelo com a função ".fit()" para treinar os dados de treino - "X_train" e "y_train"
knn.fit(X_train, y_train)

KNeighborsClassifier(algorithm='auto', leaf_size=30, metric='minkowski',
                     metric_params=None, n_jobs=None, n_neighbors=3, p=2,
                     weights='uniform')

In [None]:
# avaliando a performance do modelo
knn.score(X_test, y_test)

0.8

> O modelo apresentou uma performance de 80%.

>> A grandeza dos atributos tem forte influência na performance do modelo, portanto é necessário deixar os atributos na mesma escala.

In [None]:
# realizando o pré-processamento dos dados, onde iremos escalar os dados
# para tentar melhorar a performance do nosso modelo
# para isso, importaremos a biblioteca "MinMaxScalar" do sklearn.preprocessing
from sklearn.preprocessing import MinMaxScaler

In [None]:
# instanciando a função "MinMaxScalar" na variável "mm"
mm = MinMaxScaler()

In [None]:
# aplicando a função instanciada
# e realizando o treino e a transformação dos dados do "X_train"
# para isso, utilizaremos a função ".fit_transform()"
X_train = mm.fit_transform(X_train)

In [None]:
# visualizando a transformação
X_train # veja que, os dados estão entre 0 e 1

array([[0.46099291, 0.59677419, 0.51351351, 0.71052632],
       [0.28368794, 0.51612903, 0.43243243, 0.81578947],
       [0.39007092, 0.61290323, 0.43243243, 0.5       ],
       [0.14184397, 0.66129032, 0.02702703, 0.5       ],
       [0.13475177, 0.59677419, 0.        , 0.44736842],
       [0.26241135, 0.48387097, 0.37837838, 0.63157895],
       [0.17730496, 0.62903226, 0.02702703, 0.42105263],
       [0.26241135, 0.4516129 , 0.2972973 , 0.86842105],
       [0.26950355, 0.51612903, 0.45945946, 0.31578947],
       [0.24822695, 0.58064516, 0.32432432, 0.52631579],
       [0.12765957, 0.67741935, 0.05405405, 0.42105263],
       [0.34751773, 0.56451613, 0.32432432, 0.97368421],
       [0.39716312, 0.48387097, 0.67567568, 0.        ],
       [0.43971631, 0.79032258, 0.43243243, 0.57894737],
       [0.34042553, 0.46774194, 0.40540541, 0.13157895],
       [0.29078014, 0.4516129 , 0.43243243, 0.73684211],
       [0.9787234 , 0.79032258, 0.89189189, 0.52631579],
       [0.33333333, 0.93548387,

In [None]:
# realizando a transformação dos dados de teste - "X_test"
X_test = mm.transform(X_test)

In [None]:
# visualizando a transformação
X_test

array([[ 0.29078014,  0.46774194,  0.40540541,  0.78947368],
       [ 0.32624113,  0.53225806,  0.32432432,  0.97368421],
       [ 0.29787234,  0.5483871 ,  0.37837838,  0.39473684],
       [ 0.22695035,  0.5       ,  0.24324324,  0.52631579],
       [ 0.35460993,  0.40322581,  0.56756757,  0.10526316],
       [ 0.18439716,  0.70967742, -0.02702703,  0.47368421],
       [-0.0141844 , -0.0483871 , -0.02702703,  0.68421053],
       [ 0.27659574,  0.51612903,  0.32432432,  0.63157895],
       [ 0.35460993,  0.62903226,  0.45945946,  0.63157895],
       [ 0.        ,  0.        , -0.02702703,  0.57894737],
       [ 0.41134752,  0.87096774,  0.37837838,  0.44736842],
       [ 0.0212766 ,  0.06451613,  0.08108108,  0.65789474],
       [ 0.31205674,  0.53225806,  0.43243243,  0.47368421],
       [ 0.37588652,  0.79032258,  0.35135135,  0.44736842],
       [ 0.21985816,  0.56451613,  0.45945946,  0.52631579]])

In [None]:
# instanciando o modelo e definindo 3 grupos
knn = KNeighborsClassifier(n_neighbors=3)

In [None]:
# com a função ".fit()" passando com argumento os dados de treino
knn.fit(X_train, y_train)

KNeighborsClassifier(algorithm='auto', leaf_size=30, metric='minkowski',
                     metric_params=None, n_jobs=None, n_neighbors=3, p=2,
                     weights='uniform')

In [None]:
# avaliando a precisão do modelo com os dados de teste
knn.score(X_test, y_test)

0.9333333333333333

> Com o tratamento da escala dos atributos, o modelo apresentou uma melhora considerável na sua performance.

In [None]:
# com a função ".predict()" visualizando as predições
knn.predict(X_test)

array([1, 1, 1, 3, 1, 4, 2, 3, 3, 2, 4, 2, 3, 4, 3])

In [None]:
# visualizando os dados de teste
y_test

19    1
11    1
13    1
39    3
1     1
49    4
7     2
30    3
41    3
5     2
47    4
3     2
17    1
45    4
34    3
Name: fruit_label, dtype: int64

## **k-NN para regressão**
  - utilizaremos a função `KNeighborsRegressor` do **sklearn.neighbords**

In [None]:
# importando a biblioteca e a função para regressão
from sklearn.neighbors import KNeighborsRegressor

In [None]:
# instanciando o modelo
knn = KNeighborsRegressor(n_neighbors=3)

**Para essa atividade, iremos utilizar um conjunto de dados que já vem embutido no próprio** `sklearn`, **que é sobre preço de apartamentos em Boston e, além deste temos outros conjuntos de dados.**
  - utilizaremos o seguinte comando para importar o conjunto de dados:
   - `from sklearn.datasets import load_boston`


In [None]:
# importando a biblioteca e a função que carrega o conjunto de dados
from sklearn.datasets import load_boston

In [None]:
# instanciando o conjunto de dados na variável "data"
data = load_boston()

In [None]:
# visualizando o conjunto de dados
data

{'DESCR': ".. _boston_dataset:\n\nBoston house prices dataset\n---------------------------\n\n**Data Set Characteristics:**  \n\n    :Number of Instances: 506 \n\n    :Number of Attributes: 13 numeric/categorical predictive. Median Value (attribute 14) is usually the target.\n\n    :Attribute Information (in order):\n        - CRIM     per capita crime rate by town\n        - ZN       proportion of residential land zoned for lots over 25,000 sq.ft.\n        - INDUS    proportion of non-retail business acres per town\n        - CHAS     Charles River dummy variable (= 1 if tract bounds river; 0 otherwise)\n        - NOX      nitric oxides concentration (parts per 10 million)\n        - RM       average number of rooms per dwelling\n        - AGE      proportion of owner-occupied units built prior to 1940\n        - DIS      weighted distances to five Boston employment centres\n        - RAD      index of accessibility to radial highways\n        - TAX      full-value property-tax rate p

> Note que, temos um dicionário de dados.

In [None]:
# realizando a separação do dados
X, y = load_boston(return_X_y=True)

In [None]:
# visualizando a quantidade de dados de "X"
X.shape

(506, 13)

In [None]:
# visualizando a quantidade de dados de "y"
y.shape

(506,)

In [None]:
# agora iremos visualizar a descrição do conjunto de dados
# que fornece uma visão geral de informações
print(load_boston()['DESCR'])

.. _boston_dataset:

Boston house prices dataset
---------------------------

**Data Set Characteristics:**  

    :Number of Instances: 506 

    :Number of Attributes: 13 numeric/categorical predictive. Median Value (attribute 14) is usually the target.

    :Attribute Information (in order):
        - CRIM     per capita crime rate by town
        - ZN       proportion of residential land zoned for lots over 25,000 sq.ft.
        - INDUS    proportion of non-retail business acres per town
        - CHAS     Charles River dummy variable (= 1 if tract bounds river; 0 otherwise)
        - NOX      nitric oxides concentration (parts per 10 million)
        - RM       average number of rooms per dwelling
        - AGE      proportion of owner-occupied units built prior to 1940
        - DIS      weighted distances to five Boston employment centres
        - RAD      index of accessibility to radial highways
        - TAX      full-value property-tax rate per $10,000
        - PTRATIO  pu

In [None]:
# importando a biblioteca para realizar a divisão dos dados em treino e teste
from sklearn.model_selection import train_test_split

In [None]:
# instanciando os dados das variáveis "X" e "y"
# e dividindo cada qual em duas partes - treino e teste
X_train, X_test, y_train, y_test = train_test_split(X, y)

In [None]:
# treinando o modelo com as dados de treino
knn.fit(X_train, y_train)

KNeighborsRegressor(algorithm='auto', leaf_size=30, metric='minkowski',
                    metric_params=None, n_jobs=None, n_neighbors=3, p=2,
                    weights='uniform')

In [None]:
# avaliando a performance do modelo
knn.score(X_test, y_test)

0.43823829800419783

> O modelo apresentou uma performance pífia.

>> Como exercício, que tal transformar a escala dos atributos e avaliar se há algum melhora na performance do modelo? 
  - vamos nessa!

In [None]:
# importando a função "MinMaxScaler" do sklearn
from sklearn.preprocessing import MinMaxScaler

In [None]:
# instanciando o modelo na variável "mm"
mm = MinMaxScaler()

In [None]:
# realizando a transformação da escala dos atributos
# e já treinando o modelo com os dados transformados
# para isso, utilizaremos a função ".fit_transform()"
X_train = mm.fit_transform(X_train)

In [None]:
# visualizando a transformação dos atributos
X_train

array([[0.00748107, 0.        , 0.28152493, ..., 0.89361702, 0.94951838,
        0.39588378],
       [0.00698068, 0.        , 0.28152493, ..., 0.89361702, 0.9967724 ,
        0.20399516],
       [0.        , 0.18947368, 0.06781525, ..., 0.28723404, 1.        ,
        0.09836562],
       ...,
       [0.00599967, 0.21052632, 0.12866569, ..., 0.04255319, 0.98966161,
        0.23789346],
       [0.12478133, 0.        , 0.64662757, ..., 0.80851064, 1.        ,
        1.        ],
       [0.02746109, 0.        , 0.70087977, ..., 0.22340426, 0.83140854,
        0.29025424]])

In [None]:
# realizando a transformação dos dados de teste
X_test = mm.transform(X_test)

In [None]:
# visualizando a transformação dos dados de teste
X_test

array([[1.81274831e-03, 0.00000000e+00, 2.53665689e-01, ...,
        7.44680851e-01, 1.00000000e+00, 1.65556901e-01],
       [8.99180711e-05, 1.05263158e+00, 3.15249267e-02, ...,
        2.65957447e-01, 9.89913763e-01, 6.71912833e-02],
       [8.71643302e-04, 0.00000000e+00, 4.53445748e-01, ...,
        6.48936170e-01, 9.97881890e-01, 2.23062954e-01],
       ...,
       [3.87569366e-03, 0.00000000e+00, 2.53665689e-01, ...,
        7.44680851e-01, 1.00000000e+00, 1.80690073e-01],
       [8.95123159e-03, 0.00000000e+00, 2.81524927e-01, ...,
        8.93617021e-01, 7.27898532e-01, 3.01452785e-01],
       [1.21052203e-04, 9.47368421e-01, 5.71847507e-02, ...,
        4.68085106e-01, 9.68631802e-01, 8.38377724e-02]])

In [None]:
# instanciando o modelo
knn = KNeighborsRegressor(n_neighbors=3)

In [None]:
# realizando o treinamento do modelo com os dados de treino escalados 
knn.fit(X_train, y_train)

KNeighborsRegressor(algorithm='auto', leaf_size=30, metric='minkowski',
                    metric_params=None, n_jobs=None, n_neighbors=3, p=2,
                    weights='uniform')

In [None]:
# avaliando a performance do modelo
knn.score(X_test, y_test)

0.8170125879543185

> Perceba que, com o tratamento da escala dos atributos, o modelo apresentou uma melhora considerável.
  - podemos de fato concluir que, a `ordem de grandeza` dos dados tem forte influência na performance do modelo.

In [None]:
# com a função ".predict()" visualizando as predições realizadas pelo modelo dos dados de teste - "X_test"
knn.predict(X_test)

array([23.03333333, 33.56666667, 22.33333333, 12.7       , 19.86666667,
       19.63333333, 18.86666667, 20.26666667, 22.4       , 12.8       ,
       10.93333333, 21.3       , 14.6       , 23.3       , 16.93333333,
        9.2       , 18.7       , 20.26666667, 40.56666667, 15.23333333,
       43.2       , 14.13333333, 11.4       , 13.93333333, 19.43333333,
       19.03333333, 24.83333333, 21.7       , 11.56666667, 13.96666667,
       21.4       , 18.1       , 31.1       , 31.1       , 21.73333333,
       39.4       , 12.36666667, 26.7       , 19.8       , 22.26666667,
       30.8       , 35.13333333, 25.56666667, 14.13333333, 14.7       ,
       20.9       ,  9.23333333, 21.9       , 24.6       , 20.16666667,
       25.33333333, 39.9       , 30.8       , 36.86666667, 18.76666667,
       23.46666667, 21.73333333, 16.1       , 22.93333333, 26.73333333,
       24.73333333, 29.4       , 16.83333333, 14.        , 19.66666667,
       20.1       , 20.53333333, 34.76666667, 33.16666667, 20.83

In [None]:
# visualizando os acertos dos dados de teste - "y_test"
y_test

array([23.8, 31.6, 20.3, 10.9, 21.4, 19.5, 16. , 18.3, 22.8, 23.1, 12.1,
       21.4, 15.4, 29.8, 15.6,  9.5, 19.2, 17.5, 50. , 13.8, 50. , 14.9,
       10.2,  7. , 18.7, 22.6, 26.6, 20. ,  8.3, 13.8, 21.2, 19.6, 31.6,
       34.7, 17.4, 48.3, 14.9, 31.1, 17.2, 21.4, 35.4, 50. , 22.9, 16.4,
       10.2, 20. ,  8.4, 23.8, 19.6, 18.8, 21.7, 50. , 23.6, 48.8, 20.6,
       21.7, 25. , 13.3, 20.5, 42.8, 26.6, 28.7, 16.2, 17.8, 17.8, 19.4,
       19.4, 33.2, 31.5, 19.7, 22.2, 19. , 15.2, 19.4, 18.7, 42.3, 14.9,
       21.4, 19.4, 29.4, 36. , 16.8, 23.3, 18.3, 21.2, 16.7, 22.2, 20.4,
       35.1, 15.1, 10.2, 17.1, 19.8, 19.8, 21.5, 11.7, 18.4, 21.9, 20.1,
       20.8, 21.6,  7. , 29.8, 30.3, 21.2, 18. , 27.5, 14.4, 24.8, 24.8,
       15. , 10.9, 20.4, 21.7, 30.5, 17.4, 20. , 23. ,  8.8, 13.4, 21. ,
       13.8, 23.5, 11. , 20.4, 20.2, 30.1])