In [1]:
import requests
import pandas as pd

In [2]:
url = "https://data.cityofnewyork.us/resource/erm2-nwe9.json"

## 1. Identificar los tipos principales de quejas

In [6]:
# Consulta SQL para obtener los 5 tipos principales de quejas
query = """
SELECT complaint_type, COUNT(*) AS complaint_count
GROUP BY complaint_type
ORDER BY complaint_count DESC
LIMIT 5
"""

# Realizar la solicitud a la API
response = requests.get(url, params={"$query": query})

df_1 = pd.DataFrame(response.json())

In [7]:
df_1

Unnamed: 0,complaint_type,complaint_count
0,Noise - Residential,3434076
1,Illegal Parking,2606283
2,HEAT/HOT WATER,2230909
3,Blocked Driveway,1608696
4,Street Condition,1281918


* Las 5 quejas principales son el ruido en distrito residencial, el aparcamiento ilegal, el agua caliente, carreteras bloqueadas y la condicion de las calles.

## 2. Analizar quejas por distrito

In [8]:
# Consulta SQL para calcular el número total de quejas para cada distrito
query = """
SELECT city, COUNT(*) AS complaint_count
GROUP BY city
ORDER BY complaint_count DESC
"""

# Realizar la solicitud a la API
response = requests.get(url, params={"$query": query})

df_2 = pd.DataFrame(response.json())

In [9]:
df_2

Unnamed: 0,city,complaint_count
0,BROOKLYN,10955196
1,NEW YORK,6904832
2,BRONX,6864025
3,,2141924
4,STATEN ISLAND,1765242
...,...,...
995,HUNGTINGTON,2
996,BRISTOL,2
997,huntington,2
998,HOPKINTON,2


* Los distritos con mas quejas son brooklyn, nueva york, bronx, un distrito que aparece como NaN y Staten Island.

## 3. Filtrar tipos de quejas de alto volumen

In [10]:
# Consulta SQL para filtrar tipos de quejas que tienen más de 1000 quejas registradas
query = """
SELECT complaint_type, COUNT(*) AS complaint_count
GROUP BY complaint_type
HAVING COUNT(*) > 1000
ORDER BY complaint_count DESC
"""

# Realizar la solicitud a la API
response = requests.get(url, params={"$query": query})

df_3 = pd.DataFrame(response.json())

In [11]:
df_3

Unnamed: 0,complaint_type,complaint_count
0,Noise - Residential,3434076
1,Illegal Parking,2606283
2,HEAT/HOT WATER,2230909
3,Blocked Driveway,1608696
4,Street Condition,1281918
...,...,...
240,Pet Shop,1159
241,Weatherization,1157
242,Animal Facility - No Permit,1062
243,Special Natural Area District (SNAD),1034


* Hay 244 quejas distintas con un recuento de mas de 1000 quejas

## 4. Comparación de distritos para un tipo especifico de queja

In [12]:
# queja a analizar
queja = 'Noise - Residential'  # Reemplaza con el tipo de queja que deseas analizar

# Consulta SQL para comparar el número de quejas del tipo específico en cada distrito
query = f"""
SELECT city, COUNT(*) AS complaint_count
WHERE complaint_type = '{queja}'
GROUP BY city
ORDER BY complaint_count DESC
"""

# Realizar la solicitud a la API
response = requests.get(url, params={"$query": query})

df_4 = pd.DataFrame(response.json())

In [13]:
df_4

Unnamed: 0,city,complaint_count
0,BRONX,995343
1,BROOKLYN,939241
2,NEW YORK,696658
3,STATEN ISLAND,96558
4,JAMAICA,84700
5,ASTORIA,48302
6,FLUSHING,41789
7,RIDGEWOOD,37300
8,CORONA,34625
9,,34494


* Hay un gran numero de quejas por ruido: el recuento mas alto es en el bronx, luego brooklyn, etc. Se observan entradas repetidas que habria que limpiar si quisieramos hacer un buen analisis.