
###*Pontificia Universidad Javeriana*

**Fecha**: 3 de abril 2024

**Profesor**: John Corredor, PhD

**Materia**: Procesamiento de Alto Volumen de Datos

**Objetivo**: Primera entrega proyectyo

###**Nombres de los Estudiantes**: 

- Juan Sebastian Cordoba Valderrama

- Samuel Peña Garcia

- Tomas de Aza Marquez

In [0]:
##Importar librerias a utilizar

from pyspark import SparkContext
from pyspark.sql import *
from pyspark.sql.functions import *
from pyspark.sql.types import *
import pandas as pd
import os

In [0]:
##Se instancia Pyspark
sc = SparkContext.getOrCreate()
sql_sc = SQLContext(sc)
sc



In [0]:
path1 = 'https://raw.githubusercontent.com/TommyDS2005/Proyecto-Procesamiento-de-Datos/main/NYPD_Arrest_Data_Part1.csv'
path2 = 'https://raw.githubusercontent.com/TommyDS2005/Proyecto-Procesamiento-de-Datos/main/NYPD_Arrest_Data_Part2.csv'

df1 = pd.read_csv(path1, sep=',')
df2 = pd.read_csv(path2, sep=',')

dfpd = pd.concat([df1,df2])

df = spark.createDataFrame(dfpd)

# Muestra las primeras filas del DataFrame de Spark para verificar
df.show()

+----------+-----------+-----+--------------------+-----+--------------------+----------+----------+-----------+---------------+-----------------+---------+--------+---------+----------+----------+----------------+-----------------+------------------------+
|ARREST_KEY|ARREST_DATE|PD_CD|             PD_DESC|KY_CD|           OFNS_DESC|  LAW_CODE|LAW_CAT_CD|ARREST_BORO|ARREST_PRECINCT|JURISDICTION_CODE|AGE_GROUP|PERP_SEX|PERP_RACE|X_COORD_CD|Y_COORD_CD|        Latitude|        Longitude|New Georeferenced Column|
+----------+-----------+-----+--------------------+-----+--------------------+----------+----------+-----------+---------------+-----------------+---------+--------+---------+----------+----------+----------------+-----------------+------------------------+
| 261265483| 01/03/2023|397.0|ROBBERY,OPEN AREA...|105.0|             ROBBERY|PL 1600500|         F|          B|             49|                0|    18-24|       M|    BLACK|   1027430|    251104|       40.855793|       -73.8

In [0]:
##Tipos de datos.
df.printSchema()

root
 |-- ARREST_KEY: long (nullable = true)
 |-- ARREST_DATE: string (nullable = true)
 |-- PD_CD: double (nullable = true)
 |-- PD_DESC: string (nullable = true)
 |-- KY_CD: double (nullable = true)
 |-- OFNS_DESC: string (nullable = true)
 |-- LAW_CODE: string (nullable = true)
 |-- LAW_CAT_CD: string (nullable = true)
 |-- ARREST_BORO: string (nullable = true)
 |-- ARREST_PRECINCT: long (nullable = true)
 |-- JURISDICTION_CODE: long (nullable = true)
 |-- AGE_GROUP: string (nullable = true)
 |-- PERP_SEX: string (nullable = true)
 |-- PERP_RACE: string (nullable = true)
 |-- X_COORD_CD: long (nullable = true)
 |-- Y_COORD_CD: long (nullable = true)
 |-- Latitude: double (nullable = true)
 |-- Longitude: double (nullable = true)
 |-- New Georeferenced Column: string (nullable = true)




###Significado de cada atributo

ARREST_KEY: Identificador único y persistente generado aleatoriamente para cada arresto. Tipo de dato texto plano.

ARREST_DATE: Fecha exacta del arresto del evento reportado. Tipo de dato fecha y hora.

PD_CD: Código de clasificación interna de tres dígitos (más detallado que el Código Clave). Tipo de dato número.

PD_DESC: Descripción de la clasificación interna que corresponde con el código PD (más detallada que la Descripción de la Ofensa). Tipo de dato texto plano.

KY_CD: Código de clasificación interna de tres dígitos (categoría más general que el código PD). Tipo de dato número.

OFNS_DESC: Descripción de la clasificación interna que corresponde con el código KY (categoría más general que la descripción PD). Tipo de dato texto plano.

LAW_CODE: Códigos de la ley correspondientes al Código Penal de Nueva York, VTL y otras leyes locales diversas. Tipo de dato texto plano.

LAW_CAT_CD: Nivel del delito: delito mayor (felony), delito menor (misdemeanor), infracción (violation). Tipo de dato texto plano.

ARREST_BORO: Barrio del arresto. B (Bronx), S (Staten Island), K (Brooklyn), M (Manhattan), Q (Queens). Tipo de dato texto plano.

ARREST_PRECINCT: Precinto donde ocurrió el arresto. Tipo de dato número.

JURISDICTION_CODE: Código de jurisdicción responsable del arresto. Los códigos de jurisdicción 0 (Patrulla), 1 (Tránsito) y 2 (Vivienda) representan al NYPD, mientras que los códigos 3 en adelante representan jurisdicciones ajenas al NYPD. Tipo de dato número.

AGE_GROUP: Edad del perpetrador dentro de una categoría establecida. Tipo de dato texto plano.

PERP_SEX: Descripción del sexo del perpetrador. Tipo de dato texto plano.

PERP_RACE: Descripción de la raza del perpetrador. Tipo de dato texto plano.

X_COORD_CD: Coordenada X del punto medio de la cuadra para el Sistema de Coordenadas Planas del Estado de Nueva York, Zona de Long Island, NAD 83, unidades en pies (FIPS 3104). Tipo de dato número.

Y_COORD_CD: Coordenada Y del punto medio de la cuadra para el Sistema de Coordenadas Planas del Estado de Nueva York, Zona de Long Island, NAD 83, unidades en pies (FIPS 3104). Tipo de dato número.

Latitude: Coordenada de latitud para el Sistema de Coordenadas Global, WGS 1984, grados decimales (EPSG 4326). Tipo de dato número.

Longitude: Coordenada de longitud para el Sistema de Coordenadas Global, WGS 1984, grados decimales (EPSG 4326). Tipo de dato número.


###Descripcion del dataset

Este conjunto de datos contiene registros detallados de arrestos efectuados por el Departamento de Policía de Nueva York (NYPD) durante el año en curso, incluyendo información demográfica del detenido, el tipo de delito, la ubicación exacta y la fecha del arresto, así como el código y descripción de la ley asociada con el arresto.


In [0]:
####Exploracionde datos

##Identificar a forma del dataset
print("El conjunto de datos cuenta con " + str(df.count()) + " filas y " + str(len(df.columns)) + " columnas")

El conjunto de datos cuenta con 226872 filas y 19 columnas


In [0]:
###Verificar si existen valores nulos en el dataset
df.select([count(when(isnan(c) | col(c).isNull() , c)).alias(c) for c in df.columns]).show()

+----------+-----------+-----+-------+-----+---------+--------+----------+-----------+---------------+-----------------+---------+--------+---------+----------+----------+--------+---------+------------------------+
|ARREST_KEY|ARREST_DATE|PD_CD|PD_DESC|KY_CD|OFNS_DESC|LAW_CODE|LAW_CAT_CD|ARREST_BORO|ARREST_PRECINCT|JURISDICTION_CODE|AGE_GROUP|PERP_SEX|PERP_RACE|X_COORD_CD|Y_COORD_CD|Latitude|Longitude|New Georeferenced Column|
+----------+-----------+-----+-------+-----+---------+--------+----------+-----------+---------------+-----------------+---------+--------+---------+----------+----------+--------+---------+------------------------+
|         0|          0|    2|      0|   17|        0|       0|      1599|          0|              0|                0|        0|       0|        0|         0|         0|       0|        0|                       0|
+----------+-----------+-----+-------+-----+---------+--------+----------+-----------+---------------+-----------------+---------+------

In [0]:
#Se busca un patron dentro de las variables directamente relacionadas en el dataset para rellenar valores nulos de la variable "LAW_CAT_CD"

df.filter(isnan("LAW_CAT_CD") | col("LAW_CAT_CD").isNull()).select("PD_CD","PD_DESC","LAW_CODE","LAW_CAT_CD").show()


+-----+--------------------+----------+----------+
|PD_CD|             PD_DESC|  LAW_CODE|LAW_CAT_CD|
+-----+--------------------+----------+----------+
| 49.0|U.S. CODE UNCLASS...|FOA9000049|      NULL|
| 49.0|U.S. CODE UNCLASS...|FOA9000049|      NULL|
| 49.0|U.S. CODE UNCLASS...|FOA9000049|      NULL|
| 49.0|U.S. CODE UNCLASS...|FOA9000049|      NULL|
| 15.0|FUGITIVE/OTHER JU...|FOA9000015|      NULL|
| 49.0|U.S. CODE UNCLASS...|FOA9000049|      NULL|
| 29.0|NYS PAROLE VIOLATION|FOA9000029|      NULL|
| 49.0|U.S. CODE UNCLASS...|FOA9000049|      NULL|
| 49.0|U.S. CODE UNCLASS...|FOA9000049|      NULL|
| 49.0|U.S. CODE UNCLASS...|FOA9000049|      NULL|
| 49.0|U.S. CODE UNCLASS...|FOA9000049|      NULL|
| 49.0|U.S. CODE UNCLASS...|FOA9000049|      NULL|
| 49.0|U.S. CODE UNCLASS...|FOA9000049|      NULL|
| 49.0|U.S. CODE UNCLASS...|FOA9000049|      NULL|
| 16.0|FUGITIVE/OTHER ST...|FOA9000016|      NULL|
| 49.0|U.S. CODE UNCLASS...|FOA9000049|      NULL|
| 49.0|U.S. CODE UNCLASS...|FOA

In [0]:
#Nos remitimos a la dcoumentacion y observamos que para este tipo de ley, son leyes para autoridades fuera de la policia de nueva york, por lo tanto se le asignara un valor (NC: not classified) consiguiente,ya que no se conoce con certeza el nivel de gravedad del delito

df = df.withColumn("LAW_CAT_CD", when((isnan("LAW_CAT_CD") | col("LAW_CAT_CD").isNull()),"NC").otherwise(df["LAW_CAT_CD"]))


In [0]:
##Eliminamos valores faltantes nulos irrelevantes
df = df.na.drop(subset = ["PD_CD" , "KY_CD"])


###Verificar si existen valores nulos en el dataset
df.select([count(when(isnan(c) | col(c).isNull() , c)).alias(c) for c in df.columns]).show()


+----------+-----------+-----+-------+-----+---------+--------+----------+-----------+---------------+-----------------+---------+--------+---------+----------+----------+--------+---------+------------------------+
|ARREST_KEY|ARREST_DATE|PD_CD|PD_DESC|KY_CD|OFNS_DESC|LAW_CODE|LAW_CAT_CD|ARREST_BORO|ARREST_PRECINCT|JURISDICTION_CODE|AGE_GROUP|PERP_SEX|PERP_RACE|X_COORD_CD|Y_COORD_CD|Latitude|Longitude|New Georeferenced Column|
+----------+-----------+-----+-------+-----+---------+--------+----------+-----------+---------------+-----------------+---------+--------+---------+----------+----------+--------+---------+------------------------+
|         0|          0|    0|      0|    0|        0|       0|         0|          0|              0|                0|        0|       0|        0|         0|         0|       0|        0|                       0|
+----------+-----------+-----+-------+-----+---------+--------+----------+-----------+---------------+-----------------+---------+------

In [0]:
#Se hace un resumen estadisticos de la informacion
display(df.describe())

summary,ARREST_KEY,ARREST_DATE,PD_CD,PD_DESC,KY_CD,OFNS_DESC,LAW_CODE,LAW_CAT_CD,ARREST_BORO,ARREST_PRECINCT,JURISDICTION_CODE,AGE_GROUP,PERP_SEX,PERP_RACE,X_COORD_CD,Y_COORD_CD,Latitude,Longitude,New Georeferenced Column
count,226855.0,226855,226855.0,226855,226855.0,226855,226855,226855,226855,226855.0,226855.0,226855,226855,226855,226855.0,226855.0,226855.0,226855.0,226855
mean,270647794.2499129,,424.7379691873664,,249.3451323532653,,,9.0,,63.43004562385665,0.928601970421635,,,,1005785.7063630952,208288.62870115272,40.73815239689834,-73.92191851341298,
stddev,5304085.08862895,,274.4712183362193,,147.68673264760517,,,0.0,,34.6355597884016,7.538846930732832,,,,21509.135289932983,29744.392827654214,0.1182382531886722,0.1733425120556788,
min,261180920.0,01/01/2023,1.0,"A.B.C.,FALSE PROOF OF AGE",101.0,ADMINISTRATIVE CODE,ABC00000MA,9,B,1.0,0.0,18-24,F,AMERICAN INDIAN/ALASKAN NATIVE,0.0,0.0,0.0,-74.253256,POINT (-73.70059684703173 40.7390218775969)
max,279779734.0,12/31/2023,997.0,"WEAPONS,MFR,TRANSPORT,ETC.",995.0,VEHICLE AND TRAFFIC LAWS,VTL21300A5,V,S,123.0,97.0,<18,U,WHITE HISPANIC,1067220.0,271819.0,40.912714,0.0,POINT (0 0)


In [0]:
#Parece exisitir un error de digitacion en la variable "LAW_CAT_CD" se debe buscar
filtered_df = df.filter(df["LAW_CAT_CD"]=="9").select("PD_CD","PD_DESC","LAW_CODE","LAW_CAT_CD")
filtered_df.show()

+-----+--------------------+----------+----------+
|PD_CD|             PD_DESC|  LAW_CODE|LAW_CAT_CD|
+-----+--------------------+----------+----------+
|849.0|NY STATE LAWS,UNC...|CPL5700600|         9|
|849.0|NY STATE LAWS,UNC...|CPL5700600|         9|
|849.0|NY STATE LAWS,UNC...|CPL5700600|         9|
|849.0|NY STATE LAWS,UNC...|CPL5700600|         9|
|849.0|NY STATE LAWS,UNC...|CPL5700600|         9|
|849.0|NY STATE LAWS,UNC...|CPL5700600|         9|
|849.0|NY STATE LAWS,UNC...|CPL5700600|         9|
|849.0|NY STATE LAWS,UNC...|CPL5700600|         9|
|849.0|NY STATE LAWS,UNC...|CPL5700600|         9|
|849.0|NY STATE LAWS,UNC...|CPL5700600|         9|
|849.0|NY STATE LAWS,UNC...|CPL5700600|         9|
|849.0|NY STATE LAWS,UNC...|CPL5700600|         9|
|849.0|NY STATE LAWS,UNC...|CPL5700600|         9|
|849.0|NY STATE LAWS,UNC...|CPL5700600|         9|
|849.0|NY STATE LAWS,UNC...|CPL5700600|         9|
|849.0|NY STATE LAWS,UNC...|CPL5700600|         9|
|849.0|NY STATE LAWS,UNC...|CPL

In [0]:
#Se mira la cantidad de registros con el error

filtered_df.count()

611

In [0]:
#Se decide asignar el valor asociado a la descripcion "UV:uncalssified violnece" Ya que no esta dentro de la misma serie de leyes que NC: not classified, y no se puede realizar una asociacion directa de una con otra 

df = df.withColumn("LAW_CAT_CD", when(df["LAW_CAT_CD"] == "9", "UV").otherwise(df["LAW_CAT_CD"]))

In [0]:
#Ya que los datos son del año 2023 se extraera el mes para manejar los arrestos en diferentes periodos del año

df = df.withColumn("Mes", regexp_extract(col('ARREST_DATE'), "^(0[1-9]|1[0-2])\/", 1))

df.select("Mes").distinct().show()

+---+
|Mes|
+---+
| 07|
| 11|
| 01|
| 09|
| 05|
| 08|
| 03|
| 02|
| 06|
| 10|
| 12|
| 04|
+---+



In [0]:
##Se evidencian la necesidad de realizar imputacion a variables categoricas tales como: "LAW_CAT_CD, ARREST_BORO, ARREST_PRECINT, AGE_GRUOP, PERP_SEX y PERP_RACE"
#Tambien paran simplicidad se separara la fecha para tomr solo el mes en una nueva variable llamda "MONTH"

from pyspark.ml.feature import StringIndexer
from pyspark.ml import Pipeline


columnas = ["LAW_CAT_CD", "ARREST_BORO", "ARREST_PRECINCT", "AGE_GROUP", "PERP_SEX", "PERP_RACE"]
for columna in columnas:
    indexer = StringIndexer(inputCol=columna, outputCol=columna + "Ind")
    model = indexer.fit(df)
    df = model.transform(df)
    print(f"Mapping de {columna} a índices: {model.labels}")


Mapping de LAW_CAT_CD a índices: ['M', 'F', 'NC', 'V', 'UV', 'I']
Mapping de ARREST_BORO a índices: ['K', 'B', 'M', 'Q', 'S']
Mapping de ARREST_PRECINCT a índices: ['14', '75', '44', '40', '103', '46', '52', '43', '73', '120', '113', '110', '47', '25', '109', '42', '48', '105', '67', '18', '114', '115', '41', '60', '79', '84', '102', '70', '5', '72', '45', '77', '106', '13', '34', '83', '49', '121', '90', '71', '32', '23', '1', '63', '107', '28', '62', '6', '68', '108', '33', '7', '9', '104', '61', '81', '19', '10', '24', '69', '101', '78', '30', '122', '112', '50', '88', '66', '26', '94', '76', '20', '100', '123', '17', '111', '22']
Mapping de AGE_GROUP a índices: ['25-44', '45-64', '18-24', '<18', '65+']
Mapping de PERP_SEX a índices: ['M', 'F', 'U']
Mapping de PERP_RACE a índices: ['BLACK', 'WHITE HISPANIC', 'BLACK HISPANIC', 'WHITE', 'ASIAN / PACIFIC ISLANDER', 'UNKNOWN', 'AMERICAN INDIAN/ALASKAN NATIVE']


<h1>Bono Parte 1</h1>

In [0]:
###Librería para Web Scrapping
%pip install Selenium
###Librería para graficar
%pip install geopandas matplotlib mapclassify

[43mNote: you may need to restart the kernel using dbutils.library.restartPython() to use updated packages.[0m
[43mNote: you may need to restart the kernel using dbutils.library.restartPython() to use updated packages.[0m
[43mNote: you may need to restart the kernel using dbutils.library.restartPython() to use updated packages.[0m
[43mNote: you may need to restart the kernel using dbutils.library.restartPython() to use updated packages.[0m


In [0]:
from selenium import webdriver
from selenium.webdriver.common.by import By
import pandas as pd

In [0]:
from selenium import webdriver
from selenium.webdriver.chrome.options import Options

chrome_options = Options()
chrome_options.add_argument("--headless")
chrome_options.add_argument("--no-sandbox")
chrome_options.add_argument("--disable-dev-shm-usage")
chrome_options.add_argument("--disable-gpu")
chrome_options.add_argument("--remote-debugging-port=9222")
chrome_options.add_argument("--enable-logging")
chrome_options.add_argument("--v=1")

###Se crea el driver que navegará de forma automatizada en chrome y se accede a la página web
driver = webdriver.Chrome(options=chrome_options)
driver.get("https://www.health.ny.gov/statistics/cancer/registry/appendix/neighborhoodpop.htm")

[0;31m---------------------------------------------------------------------------[0m
[0;31mSessionNotCreatedException[0m                Traceback (most recent call last)
File [0;32m<command-1589088060930851>, line 14[0m
[1;32m     11[0m chrome_options[38;5;241m.[39madd_argument([38;5;124m"[39m[38;5;124m--v=1[39m[38;5;124m"[39m)
[1;32m     13[0m [38;5;66;03m###Se crea el driver que navegará de forma automatizada en chrome y se accede a la página web[39;00m
[0;32m---> 14[0m driver [38;5;241m=[39m webdriver[38;5;241m.[39mChrome(options[38;5;241m=[39mchrome_options)
[1;32m     15[0m driver[38;5;241m.[39mget([38;5;124m"[39m[38;5;124mhttps://www.health.ny.gov/statistics/cancer/registry/appendix/neighborhoodpop.htm[39m[38;5;124m"[39m)

File [0;32m/local_disk0/.ephemeral_nfs/envs/pythonEnv-31de2ece-121d-4be7-9907-c5648bcd40da/lib/python3.11/site-packages/selenium/webdriver/chrome/webdriver.py:45[0m, in [0;36mWebDriver.__init__[0;34m(self, options, serv

In [0]:
###En esta celda se realiza el proceso de recolección de la API a través de Selenium y del Xpath de la página web
headers = ["Borough", "region", "Males", "Females", "Total Population"]
data = []
for j in range(1, 56):
    union=[]
    th=[]
    td=[]
    if j <= 10:
        th.append(driver.find_element(By.XPATH,f"/html/body/div[2]/div/div[2]/table/tbody/tr[{1}]/th[1]").text)
    if j >= 11 and j < 29:
        th.append(driver.find_element(By.XPATH,f"/html/body/div[2]/div/div[2]/table/tbody/tr[{11}]/th[1]").text)
    if j >= 29 and j < 39:
        th.append(driver.find_element(By.XPATH,f"/html/body/div[2]/div/div[2]/table/tbody/tr[{29}]/th[1]").text)
    if j >= 39 and j < 53:
        th.append(driver.find_element(By.XPATH,f"/html/body/div[2]/div/div[2]/table/tbody/tr[{39}]/th[1]").text)
    if j >= 53:
        th.append(driver.find_element(By.XPATH,f"/html/body/div[2]/div/div[2]/table/tbody/tr[{53}]/th[1]").text)
    for i in range(1, 4):
        if i != 3:
            if i != 1:
                th.append(driver.find_element(By.XPATH,f"/html/body/div[2]/div/div[2]/table/tbody/tr[{j}]/th[{i}]").text)
            td.append(driver.find_element(By.XPATH,f"/html/body/div[2]/div/div[2]/table/tbody/tr[{j}]/td[{i}]").text)
        else:
            td.append(driver.find_element(By.XPATH,f"/html/body/div[2]/div/div[2]/table/tbody/tr[{j}]/td[{i}]").text)
            union=th+td
            data.append(union)
dfBono = pd.DataFrame(data, columns=headers)

In [0]:
dfBono.head()

In [0]:
###La idea de esta celda es actualizar los nombres del dataframe que se tiene del web scrapping para que los nombres de los distritos de nueva york sea igual tanto en el df como en GeoJSON que ayudará a graficar
nombre_mapper = {
    'Richmond (Staten Island)': 'Staten Island',
    'New York (Manhattan)': 'Manhattan',
    'Kings (Brooklyn)': 'Brooklyn'
}

dfBono['Borough'] = dfBono['Borough'].replace(nombre_mapper)

In [0]:
###Debido al formato de la tabla de la página web se tuvo que cambiar los valores de los atributos que son numéricos ya que al contener "," se identifica como un string y se tuvo que quitar para poder operar con ellos
dfBono['Males'] = dfBono['Males'].str.replace(',', '').astype(float)
dfBono['Females'] = dfBono['Females'].str.replace(',', '').astype(float)

# Sumar las columnas 'Males' y 'Females' para obtener 'Total Population'
dfBono['Total Population'] = dfBono['Males'] + dfBono['Females']

# Ahora realiza la suma de población por 'Borough'
df_suma_poblacion = dfBono.groupby('Borough')['Total Population'].sum().reset_index()

In [0]:
import geopandas as gpd
import matplotlib.pyplot as plt
import mapclassify

###Se usa el enlace al GeoJSON que se encuentra en el repositorio de GitHub y de ahí extraer las formas geométricas de los distritos de nueva york
url = 'https://raw.githubusercontent.com/TommyDS2005/Proyecto-Procesamiento-de-Datos/main/new-york-city-boroughs.geojson'
gdf = gpd.read_file(url)

In [0]:
###Se JUntan en un solo dataset los atributos de df_suma_poblacion y de gdf para que se tenga en una sola tabla los atributos de población y de forma geométrica, es como un Join
gdf_merge = gdf.merge(df_suma_poblacion, left_on='name', right_on='Borough')

gdf_merge['Total Population'] = pd.to_numeric(gdf_merge['Total Population'], errors='coerce')

# Crear etiquetas con el nombre del distrito y la población total
gdf_merge['label'] = gdf_merge.apply(lambda x: f"{x['Borough']}\n{int(x['Total Population']):,}", axis=1)

# Graficar el GeoDataFrame con la columna 'Total Population'
fig, ax = plt.subplots(1, 1, figsize=(15, 10))
gdf_merge.plot(column='Total Population', cmap='OrRd', linewidth=0.8, edgecolor='0.8', ax=ax)
# Añadir las etiquetas a la figura
for idx, row in gdf_merge.iterrows():
    # El color del texto depende de la luminosidad del color del fondo
    # Utilizamos una simple estimación de la luminosidad para decidir el color del texto
    # basado en la población total (esto podría no ser exacto y es una simplificación)
    if row['Total Population'] > 2200000:
        text_color = 'white'
    else:
        text_color = 'black'
    
    plt.annotate(text=row['label'], xy=(row['geometry'].centroid.x, row['geometry'].centroid.y),
                 ha='center', va='center', fontsize=8, color = text_color)

# Ajustar la posición del título
ax.set_title('Population Heat Map of New York City Boroughs', fontdict={'fontsize': 20}, loc='center')

# Desactivar los ejes
ax.set_axis_off()

# Ajustar el layout y mostrar la figura
plt.tight_layout()
plt.show()