# ACTA 1. Obtención y extracción de los datos

## Índice
- [Introducción](#Introducción)
- [Descarga del conjunto de datos](#Descarga-del-conjunto-de-datos)

## Introducción<a name="Introducción"></a>

En el marco del presente proyecto se utilizarán datos de la ciudad de San Francisco debido a la disponibilidad de información detallada en el sistema OpenDatSF de esta ciudad. 
La fuente de datos seleccionada para este estudio es DataSF Open Data, una plataforma de datos abiertos de la ciudad de San Francisco en California. Esta plataforma ofrece una amplia gama de conjuntos de datos y recursos para que los usuarios puedan acceder, descargar y visualizar los datos de manera efectiva, lo que promueve la transparencia y la innovación en el sector público. La elección de esta fuente de datos permitirá al estudio contar con información relevante y actualizada para la aplicación de las técnicas de patrullaje predictivo y teoría de grafos en el ámbito policial.

Para la descarga de los datos necesarios para este proyecto, se empleará el lenguaje de programación Python junto con la librería Sócrata y Requests. La librería Sócrata se utiliza comúnmente por organizaciones gubernamentales para alojar datos en la nube, incluyendo la ciudad de San Francisco. Para utilizar esta librería, se requerirá la creación de una cuenta developer en la página web OpenDataSF. Además, se hará uso de la librería Requests para descargar conjuntos de datos que no requieran de una clave de API, permitiendo la realización de solicitudes para obtener dicha información

Una vez detallado el método a emplear en la extracción de datos procederemos a seleccionar los conjuntos de datos de nuestro interés. 
1. El primer dataset será el dataset de Police Department Incident Reports: Historical 2003 to May 2018. (https://data.sfgov.org/Public-Safety/Police-Department-Incident-Reports-2018-to-Present/wg3w-h783)
Este dataset contiene registros de los incidentes (crímenes y delitos) registrados en San Francisco desde 2003 hasta 2018. Cada registro incluye información como el distrito o vecindario en el que ocurrió el incidente, la fecha y hora, el tipo de incidente, la descripción del delito, la resolución y el número de identificación del caso. Además, se proporciona información sobre la ubicación geográfica del incidente en términos de latitud y longitud. 

2. El segundo conjunto de datos es el publicado por el Departamento de Planificación de San Francisco en la plataforma OpenData, en el que se encuentran las coordenadas geográficas de todas las ciudades pertenecientes al Área de la Bahía de San Francisco (https://data.sfgov.org/Geographic-Locations-and-Boundaries/Bay-Area-Counties/s9wg-vcph). Este conjunto de datos nos permitirá determinar en la limpieza y en la visualización de resultados el territorio de San Francisco.

3. En tercer lugar, los polígonos que definen los distritos policiales de San Francisco publicados en la plataforma OpenData (https://data.sfgov.org/Public-Safety/Current-Police-Districts/wkhw-cjsf)

4. En cuarto lugar, información relacionada con los códigos de incidente y su correspondencia con las categorías y subcategorías de incidentes del primer dataset descargados. (https://data.sfgov.org/Public-Safety/Reference-Police-Department-Incident-Code-Crosswal/ci9u-8awy)
 Estos datos han sido publicados por el departamento de Policía de San Francisco en la misma plataforma que los datos anteriores. Esta información nos permitirá detectar correspondencias atípicas entre las tres variables presentes en este conjunto de datos. 

5. También descargaremos el conjunto de datos Analysis neighborhoods (https://data.sfgov.org/Geographic-Locations-and-Boundaries/Analysis-Neighborhoods/p5b7-5n3h) en el que tenemos los polígonos que determinan los distintos vecindarios del condado de San Francisco. También se ha descargado de la plataforma OpenData. 
Este archivo nos permitirá calcular el vecindario a partir de nuestros registros iniciales.

6. Por último, descargaremos las distintas calles que hay en San Francisco de la plataforma OpenData para poder estudiar los valores de calle que tengamos en nuestro dataset principal (https://data.sfgov.org/Geographic-Locations-and-Boundaries/Street-Names/6d9h-4u5v)

## Descarga del conjunto de datos<a name="Descarga-del-conjunto-de-datos"></a>

1. Police Department Incident Reports

In [None]:
import pandas as pd
from sodapy import Socrata
import requests
import line_profiler


client = Socrata("data.sfgov.org",
                 'hNtDoSx9tmIL1lkyE4C8gctC3',
                 username="faelao@inf.upv.es",
                 password="622451732Omaima")

where_clause="incident_datetime >= '2018-01-01T00:00:00.000'"

incidents_since_2018 = client.get("wg3w-h783", where=where_clause,limit=5000000000)

incidents_since_2018_df = pd.DataFrame.from_records(incidents_since_2018)
 
incidents_since_2018_df.to_csv('SFIncidents.csv', header=True, index=False)

2. Bay Area Countries

In [None]:
import requests


geojson_url = "https://data.sfgov.org/api/geospatial/s9wg-vcph?method=export&format=GeoJSON"

geojson_filename = "bay_area_counties.geojson"


response = requests.get(geojson_url)
with open(geojson_filename, "wb") as file:
    file.write(response.content)
print(f"Archivo GeoJSON: '{geojson_filename}'.")


csv_url = "https://data.sfgov.org/api/views/s9wg-vcph/rows.csv?accessType=DOWNLOAD"


csv_filename = "bay_area_counties.csv"


response = requests.get(csv_url)
with open(csv_filename, "wb") as file:
    file.write(response.content)
print(f"Archivo CSV : '{csv_filename}'.")


Archivo GeoJSON: 'bay_area_counties.geojson'.
Archivo CSV : 'bay_area_counties.csv'.


3. Police Districts

In [None]:

geojson_url = "https://data.sfgov.org/api/geospatial/wkhw-cjsf?method=export&format=GeoJSON"


geojson_filename = "Current Police Districts.geojson"


response = requests.get(geojson_url)
with open(geojson_filename, "wb") as file:
    file.write(response.content)
print(f"Archivo GeoJSON ha sido descargado como '{geojson_filename}'.")


csv_url = "https://data.sfgov.org/api/views/wkhw-cjsf/rows.csv?accessType=DOWNLOAD"


csv_filename = "current_police_districts.csv"


response = requests.get(csv_url)
with open(csv_filename, "wb") as file:
    file.write(response.content)
print(f"Archivo CSV ha sido descargado como '{csv_filename}'.")


Archivo GeoJSON ha sido descargado como 'current_police_districts.geojson'.
Archivo CSV ha sido descargado como 'current_police_districts.csv'.


4. Incident Code Crosswalk

In [None]:

csv_url = "https://data.sfgov.org/api/views/ci9u-8awy/rows.csv?accessType=DOWNLOAD"


csv_filename = "Reference__Police_Department_Incident_Code.csv"

response = requests.get(csv_url)
with open(csv_filename, "wb") as file:
    file.write(response.content)
print(f"Archivo CSV: '{csv_filename}'.")


Archivo CSV: 'Reference__Police_Department_Incident_Code.csv'.


5. Analysis neighborhoods

In [None]:

geojson_url = "https://data.sfgov.org/api/geospatial/p5b7-5n3h?method=export&format=GeoJSON"


geojson_filename = "neighborhoods.geojson"


response = requests.get(geojson_url)
with open(geojson_filename, "wb") as file:
    file.write(response.content)
print(f"Archivo GeoJSON: '{geojson_filename}'.")


Archivo GeoJSON: 'neighborhoods.geojson'.


6. Streets CSV

In [None]:


csv_url = "https://data.sfgov.org/api/views/6d9h-4u5v/rows.csv?accessType=DOWNLOAD"


csv_filename = "Street_Names.csv"


response = requests.get(csv_url)
with open(csv_filename, "wb") as file:
    file.write(response.content)
print(f"Archivo CSV : '{csv_filename}'.")


Archivo CSV : 'Street_Names.csv'.
