# Proyecto: Análisis socioeconómico de Los Ángeles—crimen, negocios y bienes raíces

## Objetivo

Analizar la relación entre la tasa de crimen, actividad comercial y precios de bienes raíces en la ciudad de Los Ángeles utilizando datasets reales. 
Es necesario desarrollar indicadores que puedan relacionar las tres dimensiones de la ciudad. Para ello, el estudiante deberá utilizar los datos geoespaciales
de los tres datasets para poder lograr la unión. 

## Contexto

Eres el nuevo alcalde de Los Ángeles. Con una población de 3.8 millones de personas es difícil concentrarte en todos los problemas que ocurren en la ciudad. Sin embargo, a los angelinos les preocupa mayormente: 

* Crimen
* Pequeños negocios (una economía ágil)
* Precios de sus propiedades

Los Ángeles se divide en ~114 vecindarios, esto te ayudará a dividir y conquistar el problema. Para que puedas apoyar al mayor número de personas, podrías responder preguntas como: 

* ¿Qué vecindarios tienen una mayor tasa de *muerte de negocios*?, ¿se relaciona con la tasa de crimen?
* ¿Qué vecindarios tienen la mayor tasa de crimen?, ¿necesitan mayor atención policial?
* ¿Está esto afectando a los precios de las propiedades?

## Datasets

1.  **Crime Data (2020-Present):** [link](https://data.lacity.org/Public-Safety/Crime-Data-from-2020-to-Present/2nrs-mtv8/about_data)
    *   **Fuente:** Los Angeles Open Data portal 
    *   **Granularidad:** Nivel incidente, gravedad, tipo de crimen, fecha, hora, ubicación (con coordenadas), etc.
    *   **Variables potenciales:**
        *   Tasa de crimen por vecindario
        *   Tipos de crimen (violentos vs. no violentos)
        *   Frecuencia de tipos de crimen (por año)
    *   **Nota:** Podríamos también usar 2010-2019 [link](https://data.lacity.org/Public-Safety/Crime-Data-from-2010-to-2019/63jg-8b9z/about_data)

2.  **Negocios Activos e Inactivos:** [link](https://data.lacity.org/Administration-Finance/Listing-of-All-Businesses/r4uk-afju/about_data)
    *   **Fuente:** Los Angeles Open Data portal
    *   **Granularidad:** Negocio, dirección, nombre, tipo de negocio, fecha de inicio, fecha de cierre (si existe)
    *   **Variables potenciales:**
        *   Densidad de negocios (por vecindario o por kilómetro cuadrado)
        *   Tipos de negocios (e.g., retail, restaurants, servicios)
        *   Churn rate de negocios por vecindario
        *   Edad promedio de los negocios

3.  **Zillow Housing Prices:** [link](https://www.zillow.com/research/data/) 
    *   **Pasos para descarga**
        *   Ir a Home Values
        *   Geography: 'Neighborhood'
        *   Data Type: 'ZHVI All Homes (SFR, Condo/Co-op) Time Series, Smoothed, Seasonally Adjusted($)'
    *   **Fuente:** Zillow Research Data
    *   **Granularidad:** Nivel vecindario, mes a mes, mediana del precio de las propiedades.
    *   **Variables potenciales:**
        *   Mediana del precio de las propiedades
        *   Cambio de la mediana a través del tiempo en el vecindario (e.g., YoY)

### Helper Datasets de los vecindarios

4. **Área por vecindario:** [link](https://geohub.lacity.org/datasets/691805703915458da4b35d8088f29501_0/explore?location=34.019250%2C-118.411774%2C9.84)
    *   *Helper Dataset* que servirá para obtener el área de un vecindario en millas cuadradas. 

5. **Coordenadas por vecindario:** [link](https://geohub.lacity.org/datasets/d6c55385a0e749519f238b77135eafac_0/explore?location=34.065299%2C-118.425582%2C11.05)
    *   *Helper Dataset* que servirá para convertir las coordenadas en el dataset de crimen y dataset de Negocios en un **vecindario** y unir los datasets.

6. **Población por vecindario:** [link](https://data.lacity.org/Community-Economic-Development/Census-Data-by-Neighborhood-Council/nwj3-ufba/about_data)
    *   *Helper Dataset* que servirá para obtener variables demográficas como: población total y desglose de población por etnicidad. 

# Etapas del proyecto

## Fase 1: Adquisición y Limpieza de datos

1.  **Environment Setup:**
    *   Instalación de librerías necesarias: pandas, numpy, geopandas, matplotlib, seaborn, sklearn, statsmodels. 
2.  **Adquisición de datos:**
    *   Descarga de datasets.
3.  **Exploración y limpieza de datos:**
    *   **Dataset de crimen:**
        *   Manejo de nulos
        *   Manejo de variables geoespaciales
        *   Manejo de variables categóricas (texto)
        *   Manejo de variables de fecha
    *   **Dataset de negocios**
        *   Manejo de nulos
        *   Manejo de variables geoespaciales
        *   Manejo de variables categóricas (texto)
        *   Manejo de variables de fecha
    *   **Dataset de Zillow:**
        *   Manejo de nulos
        *   Manejo de variables categóricas (texto)
        *   Manejo de variables de fecha
4.  **Transformación e integración de datos:**
    *   **Agregación Espacial:** 
        *   Los estudiantes tendrán que unir los datasets por medio del **vecindario**. Para ello, necesitarán correr un algoritmo, posiblemente provisto por el profesor para
        que los pares de coordenadas se localicen dentro de un **vecindario**.

## Fase 2: Análisis y diseño de indicadores

1.  **Definición y cálculo de indicadores:**
    *   Proponer al menos **cuatro KPIs** que capturen distintos aspectos de la relación entre crimen, negocios y bienes raíces en un vecindario. 
    *   Explica cada indicador, porqué crees que es relevante y porqué lo calculaste de esa manera. 

2.  **Perfil de un vecindario:**
    *   Selecciona de 3-5 vecindarios con características contrastantes (e.g., alto y bajo crimen, alto y bajo valor de propiedades).
    *   Describe sus características. 

## Fase 3: Análisis Avanzado

1.  **Correlaciones:**
    *   Calcula correlaciones entre indicadores, recuerda que **no** indican causalidad. 
    *   Visualiza las correlaciones. 
    *   ¿Tienen sentido?

2.  **Regresión:**
    *   Construye modelos de regresión para medir factores que pueden influenciar a variables.

3.  **Análisis de clusters:**
    *   Agrupa a los vecindarios de acuerdo a tus indicadores.
    *   Determina el número óptimo de clusters utilizando las técnicas vistas en clase.
    *   **Interpreta** los clusters.
    *   Visualiza los clusters en un mapa. 

4.  **SEM:**
    *   Utilizando tus KPIs, determina una variable latente como la felicidad de los habitantes del vecindario.
    *   Utiliza SEM para medir esa variable. 
    *   ¿Tiene sentido?

5.  **Series de tiempo:**
    *   Analiza las tendencias en tus KPIs.
    *   Utiliza series de tiempo para identificar tendencias, temporalidad y patrones cíclicos, si es que aplica. 
    *   Potencialmente, podrías aplicar técnicas para hacer un forecast de futuras tendencias. 

# Evaluación

*   **Adquisición y Limpieza de datos (15%)**
*   **Análisis y Diseño de Indicadores (25%)** 
*   **Análisis Avanzado (40%)**
*   **Presentación de Resultados (20%)**

**Entregables:**

*   **Presentación Ejecutiva**
    *   Presentación al grupo

4.  **Transformación e integración de datos:**
    *   **Agregación Espacial:** 
        *   Los estudiantes tendrán que unir los datasets por medio del **vecindario**. Para ello, necesitarán correr un algoritmo, posiblemente provisto por el profesor para
        que los pares de coordenadas se localicen dentro de un **vecindario**.


In [6]:
# 1. Environment Setup: Instalación de librerías necesarias: pandas, numpy, geopandas, matplotlib, seaborn, sklearn, statsmodels.
import pandas as pd, numpy, geopandas as gpd, matplotlib, seaborn, sklearn, statsmodels

In [7]:
# 2. Adquisición de datos: Descarga de datasets.

# Crime Data from 2020 to Present
url_csv = "https://data.lacity.org/api/views/2nrs-mtv8/rows.csv?accessType=DOWNLOAD"
df_crime_data = pd.read_csv(url_csv)

# Listing of All Businesses
url_csv = "https://data.lacity.org/api/views/r4uk-afju/rows.csv?accessType=DOWNLOAD"
df_listinig_businesses = pd.read_csv(url_csv)

# Housing Data
url_zhvi = "https://files.zillowstatic.com/research/public_csvs/zhvi/Metro_zhvi_uc_sfrcondo_tier_0.33_0.67_sm_sa_month.csv?t=1746293544"
df_housing_data = pd.read_csv(url_zhvi)

# Neighborhood Demographics
url_geojson = "https://geohub.lacity.org/datasets/691805703915458da4b35d8088f29501_0.geojson"
gdf_neighborhood_demograph = gpd.read_file(url_geojson)

# LA Times Neighborhood Boundaries
url_geojson = "https://geohub.lacity.org/datasets/d6c55385a0e749519f238b77135eafac_0.geojson"
gdf_neighborhood_boundaries = gpd.read_file(url_geojson)

# Census Data by Neighborhood Council
url_csv = "https://data.lacity.org/api/views/nwj3-ufba/rows.csv?accessType=DOWNLOAD"
df_census_by_neighborhood = pd.read_csv(url_csv)

In [9]:
df_crime_data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1005109 entries, 0 to 1005108
Data columns (total 28 columns):
 #   Column          Non-Null Count    Dtype  
---  ------          --------------    -----  
 0   DR_NO           1005109 non-null  int64  
 1   Date Rptd       1005109 non-null  object 
 2   DATE OCC        1005109 non-null  object 
 3   TIME OCC        1005109 non-null  int64  
 4   AREA            1005109 non-null  int64  
 5   AREA NAME       1005109 non-null  object 
 6   Rpt Dist No     1005109 non-null  int64  
 7   Part 1-2        1005109 non-null  int64  
 8   Crm Cd          1005109 non-null  int64  
 9   Crm Cd Desc     1005109 non-null  object 
 10  Mocodes         853403 non-null   object 
 11  Vict Age        1005109 non-null  int64  
 12  Vict Sex        860379 non-null   object 
 13  Vict Descent    860367 non-null   object 
 14  Premis Cd       1005093 non-null  float64
 15  Premis Desc     1004521 non-null  object 
 16  Weapon Used Cd  327259 non-null   fl

In [10]:
df_listinig_businesses.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1607924 entries, 0 to 1607923
Data columns (total 16 columns):
 #   Column                     Non-Null Count    Dtype  
---  ------                     --------------    -----  
 0   LOCATION ACCOUNT #         1607924 non-null  object 
 1   BUSINESS NAME              1607924 non-null  object 
 2   DBA NAME                   246256 non-null   object 
 3   STREET ADDRESS             1607822 non-null  object 
 4   CITY                       1607814 non-null  object 
 5   ZIP CODE                   1607924 non-null  object 
 6   LOCATION DESCRIPTION       1607801 non-null  object 
 7   MAILING ADDRESS            369932 non-null   object 
 8   MAILING CITY               369944 non-null   object 
 9   MAILING ZIP CODE           369813 non-null   object 
 10  NAICS                      628889 non-null   float64
 11  PRIMARY NAICS DESCRIPTION  628889 non-null   object 
 12  COUNCIL DISTRICT           1607924 non-null  int64  
 13  LOCATION STA

In [11]:
df_housing_data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 895 entries, 0 to 894
Columns: 308 entries, RegionID to 2025-03-31
dtypes: float64(303), int64(2), object(3)
memory usage: 2.1+ MB


In [12]:
gdf_neighborhood_demograph.info()

<class 'geopandas.geodataframe.GeoDataFrame'>
RangeIndex: 138 entries, 0 to 137
Data columns (total 9 columns):
 #   Column          Non-Null Count  Dtype   
---  ------          --------------  -----   
 0   objectid        138 non-null    int32   
 1   name            138 non-null    object  
 2   description     138 non-null    object  
 3   infographic     138 non-null    object  
 4   site_area_type  138 non-null    object  
 5   COMMUNITY       138 non-null    object  
 6   Shape__Area     138 non-null    float64 
 7   Shape__Length   138 non-null    float64 
 8   geometry        138 non-null    geometry
dtypes: float64(2), geometry(1), int32(1), object(5)
memory usage: 9.3+ KB


In [13]:
gdf_neighborhood_boundaries.info()

<class 'geopandas.geodataframe.GeoDataFrame'>
RangeIndex: 114 entries, 0 to 113
Data columns (total 3 columns):
 #   Column    Non-Null Count  Dtype   
---  ------    --------------  -----   
 0   OBJECTID  114 non-null    int32   
 1   name      114 non-null    object  
 2   geometry  114 non-null    geometry
dtypes: geometry(1), int32(1), object(1)
memory usage: 2.4+ KB


In [14]:
df_census_by_neighborhood.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 97 entries, 0 to 96
Data columns (total 13 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   NC_Name           97 non-null     object 
 1   Total Population  97 non-null     float64
 2   White_pop         97 non-null     float64
 3   Black_pop         97 non-null     float64
 4   Ameri_es_pop      97 non-null     float64
 5   Asian_pop         97 non-null     float64
 6   Hawn_pi_pop       97 non-null     float64
 7   Hispanic_pop      0 non-null      float64
 8   Other_pop         97 non-null     float64
 9   Multi_pop         97 non-null     float64
 10  In_Poverty        97 non-null     float64
 11  Owner_occ         97 non-null     float64
 12  Renter_occ        97 non-null     float64
dtypes: float64(12), object(1)
memory usage: 10.0+ KB


3.  **Exploración y limpieza de datos:**
    *   **Dataset de crimen:**
        *   Manejo de nulos
        *   Manejo de variables geoespaciales
        *   Manejo de variables categóricas (texto)
        *   Manejo de variables de fecha
    *   **Dataset de negocios**
        *   Manejo de nulos
        *   Manejo de variables geoespaciales
        *   Manejo de variables categóricas (texto)
        *   Manejo de variables de fecha
    *   **Dataset de Zillow:**
        *   Manejo de nulos
        *   Manejo de variables categóricas (texto)
        *   Manejo de variables de fecha

In [16]:
print(df_crime_data.isna().sum().sort_values(ascending=False).head(10))

Crm Cd 4          1005045
Crm Cd 3          1002795
Crm Cd 2           935955
Cross Street       850872
Weapon Used Cd     677850
Weapon Desc        677850
Mocodes            151706
Vict Descent       144742
Vict Sex           144730
Premis Desc           588
dtype: int64


In [18]:
print(df_listinig_businesses.isna().sum().sort_values(ascending=False).head(10))

DBA NAME                     1361668
MAILING ZIP CODE             1238111
MAILING ADDRESS              1237992
MAILING CITY                 1237980
NAICS                         979035
PRIMARY NAICS DESCRIPTION     979035
LOCATION                      938192
LOCATION END DATE             597313
LOCATION START DATE             1558
LOCATION DESCRIPTION             123
dtype: int64


In [19]:
print(df_housing_data.isna().sum().sort_values(ascending=False).head(10))

2000-01-31    464
2000-02-29    463
2000-03-31    462
2000-04-30    460
2000-05-31    458
2000-06-30    457
2000-07-31    456
2000-08-31    455
2000-09-30    454
2000-10-31    454
dtype: int64


In [20]:
print(gdf_neighborhood_demograph.isna().sum().sort_values(ascending=False).head(10))

objectid          0
name              0
description       0
infographic       0
site_area_type    0
COMMUNITY         0
Shape__Area       0
Shape__Length     0
geometry          0
dtype: int64
