# Hoje, começaremos a tratar de algoritmos um pouco mais avançados. Começaremos falando de clusters, usando K-Means!

In [None]:
#Importando bibliotecas básicas
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt

<h3> Sempre bom conhecer nossa base de dados antes de começar a trabalhar, certo? Dê uma olhada: 
    
https://raw.githubusercontent.com/gilvandrocesardemedeiros/GEDataScience/master/Codes/Data/INMET-Dados_Mensais_Natal_1968-2018.csv

In [None]:
#Lendo os dados
dataSet = pd.read_csv("https://raw.githubusercontent.com/gilvandrocesardemedeiros/GEDataScience/master/Codes/Data/INMET-Dados_Mensais_Natal_1968-2018.csv",
                      sep=';')

In [None]:
#Visualizando cabeçalho dos dados
dataSet.head()

In [None]:
#Visualizando descrição resumida dos dados
dataSet.describe()

In [None]:
#Transformando data em variável do tipo datetime
dataSet["Data"] = pd.to_datetime(dataSet["Data"], format = "%d/%m/%Y")

# Nosso objetivo com K-Means é agrupar ("clusterizar") os dados de precipitação mensal, na tentativa de criar um padrão para identificar se um dado evento configura-se como um mês chuvoso ou não relativamente à cidade de Natal.

In [None]:
#Declarando variáveis auxiliares para determinar o período de análise dos dados
diaInicial = pd.to_datetime("01/01/2008", format = "%d/%m/%Y")
diaFinal = pd.to_datetime("31/12/2018", format = "%d/%m/%Y")

In [None]:
#Retornando apenas o dataset correspondente ao período acima mencionado
dataSetPrec = dataSet[(dataSet["Data"] >= diaInicial) & (dataSet["Data"] <= diaFinal)]

In [None]:
#Visualizando cabeçalho dos dados
dataSetPrec.head()

In [None]:
#Visualizando descrição resumida dos dados
dataSetPrec.describe()

In [None]:
#Vamos trabalhar apenas com as variáveis "NumDiasPrecipitacao" e "PrecipitacaoTotal"
dataSetPrec = dataSetPrec[["NumDiasPrecipitacao","PrecipitacaoTotal"]].dropna().reset_index(drop = True)

In [None]:
#Visualizando relação dos dados
plt.scatter(dataSetPrec["NumDiasPrecipitacao"], dataSetPrec["PrecipitacaoTotal"])
plt.title("Distribuição de chuva mensal de 2008 à 2018")
plt.xlabel("Dias em que ocorreu precipitação")
plt.ylabel("Precipitação acumulada mensalmente")
plt.show()

In [None]:
#Importando biblioteca para trabalhar com KMeans
from sklearn.cluster import KMeans

<h3> Documentação para a biblioteca: 
    
https://scikit-learn.org/stable/modules/generated/sklearn.cluster.KMeans.html

In [None]:
#Modelagem computacional com KMeans
kmeans = KMeans(n_clusters = 2, random_state = 5)

In [None]:
#Modelando e guardando resultados na variável "results"
results = kmeans.fit_predict(dataSetPrec)

In [None]:
#Visualizando quais são os centróides dos clusters obtidos na modelagem
centroides = kmeans.cluster_centers_
print(centroides)

In [None]:
#Visualizando resultados
print(results)

In [None]:
#Mostrando um dos grupos de dados obtidos
dataSetPrec[results == 0]

In [None]:
#Mostrando o outro grupo de dados obtido
dataSetPrec[results == 1]

In [None]:
#Visualizando relação dos dados
plt.scatter(dataSetPrec["NumDiasPrecipitacao"], dataSetPrec["PrecipitacaoTotal"], c = results)
plt.scatter(centroides[:,0], centroides[:,1], marker = "*", s = 500)
plt.title("Distribuição de chuva mensal de 2008 à 2018")
plt.xlabel("Dias em que ocorreu precipitação")
plt.ylabel("Precipitação acumulada mensalmente")
plt.show()

<font size="5" color="black"> Um Jupyter-Notebook escrito por <b> Gilvandro César de Medeiros </b> sob a orientação do Professor <b> Orivaldo Vieira de Santana Junior </b> </font>
<br> Contatos:
<br> Links para Github
<br> Gilvandro - https://github.com/gilvandrocesardemedeiros
<br> Orivaldo - https://github.com/orivaldosantana
<br> Link para Linkedin 
<br> Gilvandro - https://www.linkedin.com/in/gilvandromedeiros/