{
 "cells": [
  {
   "cell_type": "markdown",
   "metadata": {},
   "source": [
    "# Pesquisa: Clusterização de Dados Georeferenciados usando Machine Learning\n",
    "\n",
    "## Introdução\n",
    "\n",
    "A clusterização é uma técnica de aprendizado não supervisionado amplamente utilizada para identificar agrupamentos naturais em dados. Quando aplicada a dados georeferenciados, permite detectar padrões espaciais, como zonas urbanas, hotspots de eventos, agrupamentos de clientes ou áreas de risco.\n",
    "\n",
    "## Algoritmos comuns para clusterização geoespacial:\n",
    "- K-Means\n",
    "- DBSCAN\n",
    "- Hierarchical Clustering\n",
    "\n",
    "---\n",
    "## Aplicação Exemplo\n",
    "Um projeto exemplo de clusterização está disponível em [Kaggle - Clustering with K-Means](https://www.kaggle.com/code/ryanholbrook/clustering-with-k-means).\n",
    "\n",
    "Neste notebook, será demonstrado o uso do algoritmo DBSCAN para clusterização espacial.\n"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": null,
   "metadata": {},
   "outputs": [],
   "source": [
    "# Importar bibliotecas\n",
    "import pandas as pd\n",
    "import numpy as np\n",
    "import matplotlib.pyplot as plt\n",
    "from sklearn.cluster import DBSCAN\n",
    "import geopandas as gpd\n",
    "from shapely.geometry import Point\n"
   ]
  },
  {
   "cell_type": "markdown",
   "metadata": {},
   "source": [
    "## Carregar e visualizar o dataset\n",
    "Suponha que seu dataset esteja em um arquivo CSV com colunas `latitude` e `longitude`.\n",
    "\n",
    "Altere o caminho do arquivo conforme necessário."
   ]
  },
  {
   "cell_type": "code",
   "execution_count": null,
   "metadata": {},
   "outputs": [],
   "source": [
    "# Exemplo de leitura do CSV\n",
    "df = pd.read_csv('seu_dataset.csv')  # <- ajuste o nome do arquivo\n",
    "\n",
    "# Visualizar as primeiras linhas\n",
    "df.head()"
   ]
  },
  {
   "cell_type": "markdown",
   "metadata": {},
   "source": [
    "## Plotar os pontos no mapa"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": null,
   "metadata": {},
   "outputs": [],
   "source": [
    "# Criar GeoDataFrame\n",
    "geometry = [Point(xy) for xy in zip(df.longitude, df.latitude)]\n",
    "gdf = gpd.GeoDataFrame(df, geometry=geometry)\n",
    "\n",
    "# Plotar os pontos\n",
    "fig, ax = plt.subplots(figsize=(10,6))\n",
    "gdf.plot(ax=ax, marker='o', color='blue', alpha=0.5, markersize=5)\n",
    "plt.title('Distribuição dos Pontos Georeferenciados')\n",
    "plt.show()"
   ]
  },
  {
   "cell_type": "markdown",
   "metadata": {},
   "source": [
    "## Aplicar DBSCAN para clusterização espacial"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": null,
   "metadata": {},
   "outputs": [],
   "source": [
    "# Preparar dados para DBSCAN\n",
    "coords = df[['latitude', 'longitude']].to_numpy()\n",
    "\n",
    "# Constante para converter distância para radianos\n",
    "kms_per_radian = 6371.0088\n",
    "\n",
    "# Epsilon: 0.5 km convertido para radianos\n",
    "epsilon = 0.5 / kms_per_radian\n",
    "\n",
    "db = DBSCAN(eps=epsilon, min_samples=10, algorithm='ball_tree', metric='haversine').fit(np.radians(coords))\n",
    "\n",
    "# Adicionar coluna de cluster no dataframe\n",
    "df['cluster'] = db.labels_\n",
    "gdf['cluster'] = db.labels_"
   ]
  },
  {
   "cell_type": "markdown",
   "metadata": {},
   "source": [
    "## Visualizar os clusters encontrados"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": null,
   "metadata": {},
   "outputs": [],
   "source": [
    "fig, ax = plt.subplots(figsize=(10,6))\n",
    "gdf.plot(column='cluster', categorical=True, legend=True, markersize=10, ax=ax)\n",
    "plt.title('Clusters Geoespaciais Identificados com DBSCAN')\n",
    "plt.show()"
   ]
  },
  {
   "cell_type": "markdown",
   "metadata": {},
   "source": [
    "# Conclusão\n",
    "\n",
    "O algoritmo DBSCAN identificou agrupamentos naturais de pontos geoespaciais com base na densidade e distância.\n",
    "Ele permite descobrir clusters de formato arbitrário e detectar ruídos, o que o torna ideal para dados georeferenciados reais, que nem sempre formam agrupamentos convexos ou bem definidos.\n",
    "\n",
    "## Referências\n",
    "- [DBSCAN Paper](https://www.aaai.org/Papers/KDD/1996/KDD96-037.pdf)\n",
    "- [Kaggle - Clustering with K-Means](https://www.kaggle.com/code/ryanholbrook/clustering-with-k-means)\n",
    "\n",
    "## Integrantes do grupo\n",
    "- Nome 1\n",
    "- Nome 2\n",
    "- Nome 3\n",
    "- Nome 4"
   ]
  }
 ],
 "metadata": {
  "kernelspec": {
   "display_name": "Python 3",
   "language": "python",
   "name": "python3"
  },
  "language_info": {
   "codemirror_mode": {
    "name": "ipython",
    "version": 3
   },
   "file_extension": ".py",
   "mimetype": "text/x-python",
   "name": "python",
   "nbconvert_exporter": "python",
   "pygments_lexer": "ipython3",
   "version": "3.11.5"
  }
 },
 "nbformat": 4,
 "nbformat_minor": 5
}
