In [None]:
import geopandas as gpd
import pandas as pd
from shapely.geometry import Polygon,mapping,LineString, Point
import math
import tqdm
import sqlite3
from calculo_predial import *
from Valor_catastral_construccion import *
from Valor_catastral_terreno import *
from Herramientas import *

In [None]:
# Inputs

# Modelo IA
path_modelo_casas = '/home/hector/Documentos/Infis/Geo/Data/Shapes/Ixtapan_de_la_sal/Ixtapan_Sal_casas.shp'
# Manzanas del municipio
path_manzanas     = '/home/hector/Documentos/Infis/Geo/Data/Shapes/Ixtapan_de_la_sal/Manzana_Ixtapan_Sal.shp'
# Cruce de valores unitarios vs Manzana
#path_vu_and_mz    = '/home/hector/Documentos/Infis/Geo/Data/Shapes/Valores_Unitarios_con_Manzanas_Naucalpan.shp'
# Valores unitarios
path_sql          ='Data/Valores_Unitarios_2022_v2'
# shape 15m 
path_info = '/home/hector/Documentos/Infis/Geo/Data/Shapes/15m/15m.shp'
# path de chinchetas
path_chinchetas = '/home/hector/Documentos/Infis/Geo/Data/Shapes/Ixtapan_de_la_sal/chinchetas_limpieza1/Centro_chinchetas_limpieza1.shp'
# ruta a dnue
path_dnue = '/home/hector/Documentos/Infis/Geo/Data/Shapes/Dnue/DENUE_EDOMEX_2022.shp'
# Lista de afirmaciones en minisculas
afirmativo = np.array(['si','1',1,'yes','claro','obvio','of course','sip','sipi','neta','ok'])
# Municipio a procesar
municipio = 'Ixtapan_de_la_sal'

## Proceso 0

In [None]:
# Importar valores de SQL

conexion = sqlite3.connect(path_sql)
df_area = pd.read_sql(f'''
SELECT Zona,Manzanas,COD,Tipo,Frente,Fondo,Area as Area_AH,[Val m2],
        Pseudo_clave_cat, Municipio
FROM area_homogenea	
WHERE Municipio = '{municipio}'
    ''', conexion)
df_banda = pd.read_sql(f'''
SELECT [Tipo calle], [Nombre Calle], [Zona], [Manzanas], COD,
       [Val m2], Pseudo_clave_cat, Municipio
FROM banda_valores
WHERE Municipio = '{municipio}'
''', conexion)

conexion.close()

In [None]:
# Corregir formato del val m2 en ambas
df_area['Val m2'] = df_area['Val m2'].map(lambda x: corregir_formato(str(x)))
df_banda['Val m2'] = df_banda['Val m2'].map(lambda x: corregir_formato(str(x)))

In [None]:
# Visualizar que tenemos el municipio adecuado
df_area['Municipio'].value_counts(), df_banda['Municipio'].value_counts()

In [None]:
# Borramos duplicados
print('Shape inicial de Area_H ', df_area.shape)
print('Shape inicial de bandaV ', df_banda.shape)
df_area.drop_duplicates(subset=['Zona', 'Manzanas', 'COD', 'Tipo', 'Frente', 'Fondo', 'Area_AH',
       'Val m2', 'Pseudo_clave_cat'],
       inplace=True)
df_banda.drop_duplicates(subset=['Tipo calle', 'Nombre Calle', 'Zona', 'Manzanas', 'COD', 'Val m2',
       'Pseudo_clave_cat'], inplace=True)
print('Shape Final de Area_H ', df_area.shape)
print('Shape Final de bandaV ', df_banda.shape)

In [None]:
# Cargamos el shape de manzanas para analisis
shape = gpd.read_file(path_manzanas)
shape=shape.to_crs("3857")
shape['key'] = shape['cve_cat'].map(lambda x: str(x)[:8])
shape['Lon'] = shape['geometry'].centroid.x
shape['Lat'] = shape['geometry'].centroid.y
shape.shape

In [None]:
print(f'Shape de Area Homo= {df_area.shape}')
print(f'Shape de Banda    = {df_banda.shape}')
print(f'Shape de Manzanas = {shape.shape}')

In [None]:
len(df_banda[~df_banda["Manzanas"].isin(df_area["Manzanas"])]["Manzanas"].unique())

In [None]:
# Cruce area_h vs Mzs
cruce1 = df_area.merge(shape, 
                       left_on='Pseudo_clave_cat', right_on='key', 
                       how='outer', indicator=True, 
                       suffixes=('_AreaH', '_Manz'))
cruce1['Tipo_cruce1'] = cruce1['_merge'].map({'both':'AreaH_&_Manzana', 'left_only':'AreaH', 'right_only':'Manzanas' })
cruce1.drop(columns=['_merge'], inplace=True)
cruce1.shape

In [None]:
# Cruce anterior vs BandaV
cruce1 = df_banda.merge(cruce1, 
                        left_on='Pseudo_clave_cat', right_on='key', 
                        how='outer', indicator=True, 
                        suffixes=('_BandaV', '_Manz'))
cruce1['Tipo_cruce2'] = cruce1['_merge'].map({'both':'BandaV_&_Manzana_&_AreaH', 'left_only':'BandaV', 'right_only':'Manzanas_&_AreaH' })
cruce1.drop(columns=['_merge'], inplace=True)
# Revisamos el tipo de variable
for col in ['Val m2_BandaV','Val m2_Manz']:
    cruce1[col] = cruce1[col].astype('float')
cruce1[['Val m2_BandaV','Val m2_Manz']].fillna(0, inplace=True)
# cruce1.sort_values('Val m2_Manz',inplace=True)
cruce1.shape

In [None]:
# Borramos duplicados por clave catastral y geomety
print('Shape original --> ', cruce1.shape)
cruce1.drop_duplicates(subset=['cve_cat','geometry'],inplace=True)
print('Shape final    --> ', cruce1.shape)

In [None]:
print(f'AreaH solo tiene  {len(df_area["Manzanas"].unique())} manzanas')
print(f'BandaV solo tiene {len(df_banda["Manzanas"].unique())} manzanas')
print(f'Total de manzanas diferentes que abarcan los valores unitarios {len(df_area["Manzanas"].unique()) + len(df_banda[~df_banda["Manzanas"].isin(df_area["Manzanas"])]["Manzanas"].unique())}')
print(f'Manzanas en el cruce BandaV: {len(cruce1["Manzanas_BandaV"].unique())}')
print(f'Manzanas en el cruce AreaH: {len(cruce1["Manzanas_Manz"].unique())}')

In [None]:
# Identificamos los que no tienen valores
cruce1.loc[(cruce1['Val m2_BandaV'].fillna(0)==0) & (cruce1['Nombre Calle'].fillna(0)==0),['No_BandaV']] = 1
cruce1.loc[(cruce1['Val m2_Manz'].fillna(0)==0) & (cruce1['Tipo calle'].fillna('0')=='0'),'No_AreaH'] = 1


In [None]:
# Interpolamos para rellenar faltantes
cruce1['Val_m2_AH_I'] = cruce1['Val m2_Manz'].interpolate(method='pad') 

In [None]:
# Convertir a Geodataframe el cruce1
cruce1 = gpd.GeoDataFrame(cruce1, geometry='geometry').to_crs(3857)

## Proceso 1
Asociar un valor unitario a cada registro del modelo IA, para poder aproximar su valor catastral

In [None]:
# Revisamos las columnas para llenar la sig celda
cruce1.columns

In [None]:
# Definimos columnas utiles
# Valores unitarios para banda de valores
col_vu_bv = 'Val m2_BandaV'
# Valores unitarios para area homogenea
col_vu_ah = 'Val_m2_AH_I'

In [None]:
# Revision de valores 0, no permitidos en ambos Val m2
cruce1[(cruce1[col_vu_ah].fillna(0)==0)&(cruce1[col_vu_bv].fillna(0)==0)].shape

In [None]:
# Cargamos el GeoDataFrame del modelo de la IA
gdf_modelo_c = gpd.read_file(path_modelo_casas).to_crs(3857)
gdf_modelo_c.rename(columns={'area':'Area_Modelo'}, inplace=True)
print('Shape original -> ',gdf_modelo_c.shape)
gdf_modelo_c.drop_duplicates(subset='geometry', inplace=True)
print('Shape final -> ',gdf_modelo_c.shape)

In [None]:
len(gdf_modelo_c.geometry.unique())

In [None]:
# Intentamos borrar la clase carros si es que existe
existe_categoria = False
try:
    s = gdf_modelo_c.shape[0]
    gdf_modelo_c.drop(index=gdf_modelo_c[gdf_modelo_c['clase_dete']=='carros'].index, inplace=True)
    print('Se borraron: ',s-gdf_modelo_c.shape[0])
    # Columnas de categorias
    casas = ['casas', 'establecimiento','multivivienda']
    terrenos = ['area_verde','terreno_baldio',]
    existe_categoria = True
except:
    print('Revise que la columnas para borrar carros exista')
    print(gdf_modelo_c.columns)

In [None]:
# Cruce de modelo IA vs Valores Unitarios & mz
cruce2 = gpd.sjoin(gdf_modelo_c,cruce1, how='left', lsuffix='_Cruce1', rsuffix='_ModeloIA')
#cruce2['Tipo_cruce1'] = cruce2['Tipo_cruce1'].astype(str)
#cruce2['Tipo_cruce2'] = cruce2['Tipo_cruce2'].astype(str)
print('Shape original = ', cruce2.shape)
cruce2.reset_index(drop=True,inplace=True)
cruce2.dropna(subset=['cve_cat','geometry'], inplace=True)
print('Shape final    = ', cruce2.shape) 

In [None]:
# Volvemos a revisar que los val por m2 esten llenos
cruce2[(cruce2[col_vu_bv].fillna(0)==0)&(cruce2[col_vu_ah].fillna(0)==0)]

In [None]:
# Obtener las medidas de los lados
cruce2['Medida_lx'] = cruce2['geometry'].map(lambda x: get_lados_xy(x)[0]) 
cruce2['Medida_ly'] = cruce2['geometry'].map(lambda x: get_lados_xy(x)[1]) 

In [None]:
# Cargamos 15m

# Clave de municipio
cve_mun = '040'


gdf_15m = gpd.read_file(path_info).to_crs(3857)

# Filtramos
gdf_15m = gdf_15m[gdf_15m['CVE_MUN']==cve_mun] 
gdf_15m['geometry'].tail(3)

In [None]:
# Cruzamos 15m con el cruce2 (cruce IA vs Manzanas)
# Cruce 
cruce3 = gpd.sjoin(cruce2, gdf_15m,
                   how='left',lsuffix='_cruce2',rsuffix='_15m')
cruce3.tail(3)

In [None]:
cruce3.columns

In [None]:
if cruce3[cruce3['manz'].fillna('vacio')=='vacio'].shape[0] == 0:
    print('ok')
    drop_mz = ['Zona_Manz','Manzanas_Manz','CVE_MZA']
else:
    print('revisa las filas vacias y buscales una manzana')
    drop_mz = []

In [None]:
# Borrar cols inecesarias
cols_drop = ['index__Cruce1','key','Pseudo_clave_cat_BandaV','Pseudo_clave_cat_Manz',
             'Municipio_BandaV','Municipio_Manz','mun','index__15m','CVE_MUN',
             'CVE_ENT','CVE_LOC'] + drop_mz
print('Shape original: ', cruce3.shape)
cruce3.drop(columns=cols_drop,inplace=True)
print('Shape final: ', cruce3.shape)

In [None]:
cruce3['AMBITO'].value_counts()

In [None]:
cruce3['TIPOMZA'].value_counts()

## Proceso 1.1
Cruzamos con valores de chinchetas

In [None]:
gdf_chinchetas = gpd.read_file(path_chinchetas)
gdf_dnue = gpd.read_file(path_dnue)

In [None]:
schema_crs={'set_ch':3857,'to_ch':3857,'set_dnue':6364,'to_dnue':3857}


In [None]:
gdf_chinchetas = gdf_chinchetas.set_crs(schema_crs['set_ch'],allow_override=True)
gdf_dnue   = gdf_dnue.set_crs(schema_crs['set_dnue'],allow_override=True)
gdf_chinchetas.set_geometry('geometry',inplace=True)

In [None]:
gdf_chinchetas = cruzar_chinchetas_vs_dnue(gdf_chinchetas, gdf_dnue,
                                           municipio='Ixtapan de la Sal',
                                           show_crs=True,
                                           show_results=True)

In [None]:
cruce3.columns

In [None]:
cruce3.shape

In [None]:
def agrupar_cruce_chinchetas( cruce1, cols_agg):
    '''
    Luego de hacer un primer cruce, es razonable pensar que un id, este en 1 o mas poligonos de chinchetas, las razones pueden ser; <br>
    - Es una plaza <br>
    - Es un mercado <br>
    - La separacion entre poligonos es minima <br>
    - otra <br>

    Entonces compactaremos todos esos id, en un solo registro de manere que concatenemos los posibles id que se corresponden a esa chincheta.
    '''
    # Hacemos todo str menos la geometry para agrupar
    for col in cols_agg:
        if col == 'geometry':
            print('omitio ', col)
            continue
        cruce1[col] = cruce1[col].astype(str)


    # Creamos diccionario de agrupacion
    dict_agg = {}
    for k in cols_agg:
        dict_agg[k] = '|'.join


    # Agrupamos para concatenar los datos duplicados de cada geometria
    cruce1_ = cruce1.groupby('geometry', as_index=False,sort=False).agg(dict_agg).reset_index(drop=True)
    # Hacemos GeoDataFrame
    cruce1_ = gpd.GeoDataFrame(cruce1_, geometry='geometry')
    
    # Encontrar los repetidos
    ind_f = pd.Series(cruce1_.id.str.replace('nan','').str.strip('|').value_counts().index)
    ind_f = ind_f.map(lambda y: y if str(y).find('|')>0 else 'vacio')
    ind_f[ind_f != 'vacio']
    
    # Borramos duplicados
    print('Shape original: ', cruce1.shape)
    cruce1.drop_duplicates(['geometry','cve_cat'],inplace=True)
    print('Shape final  : ',cruce1.shape)

    # Asignamos lo encontrado al de chinchetas
    for i in tqdm.tqdm(cruce1_[cruce1_.id.isin(ind_f)].index):
        for col in cols_agg:
            cruce1.loc[cruce1['geometry'] == cruce1.loc[i,'geometry'], col] = cruce1_.loc[i,col]
    return cruce1

In [None]:
# Hacemos cruce IA vs chinchetas
cruce4 = gpd.sjoin(cruce3, gdf_chinchetas, how='left',
          lsuffix='IA', rsuffix='ch')

cruce4.tail()

In [None]:
cols_agg = ['Clase','tipoCenCom', 'tipo_asent', 'nombre_act', 'clee','id']
cruce = agrupar_cruce_chinchetas(cruce3,cruce4,cols_agg)

In [None]:
from shapely.geometry import Point
c = pd.read_csv('/home/hector/Descargas/temporal/test_igecem_ch.csv',)

geometry = [eval(x) for x in c.geometry.str.replace('POINT ','Point').str.replace(' ',',')]
c = gpd.GeoDataFrame(c, geometry=geometry,crs=6364)
print(c.crs)
c.head()


In [None]:
cruce4.shape

In [None]:

cruce_f = gpd.sjoin(cruce4, c, how='left',
          rsuffix='IA',lsuffix='test')
cruce_f.shape

## Proceso 2
Hacer una identificacion geodesica de cada registro en el modelo IA para poder obtener factores necesarios para la aproximacion del valor catastral

In [None]:
# Hacemos un cambio de variable para mejor visualizacion
gdf = cruce3
gdf.reset_index(drop=False, inplace=True)
gdf.rename(columns={'index':'Indice_gdf'}, inplace=True)
gdf = gdf.to_crs(3857)
gdf['Esquinero|Intermedio'] = 0
gdf.shape

In [None]:
# Matamos variables para liberar memoria
if input('Esta seguro de matar las variables?').lower() in afirmativo:
    if input('Realmente esta seguro de matar las variables?').lower() in afirmativo:
        del cruce2, cruce1, gdf_modelo_c
        print('Matamos las variables cruce2, cruce1, gdf_modelo_c, ya no hay vuelta atras')

In [None]:
# Cargamos el shape de manzanas para analisis
shape = gpd.read_file(path_manzanas)
shape=shape.to_crs("3857")
shape["centroid"]=shape.centroid
shape.shape

In [None]:
# Volvemos a revisar que los val por m2 esten llenos
gdf[(gdf[col_vu_bv].fillna(0)==0)&(gdf[col_vu_ah].fillna(0)==0)]

In [None]:
# Buscamos por distancias los mas cercanos al perimetro de la manzana

nuevos = get_polygons_nearest_perimeter(falta_fp=gdf,
                                        shape=shape,
                                        col_cve_cat='cve_cat',
                                        distancia_max=4,
                                        col_id='Indice_gdf')

In [None]:
# etiquetamos los valores que son corner_polygons con el otro algoritmo
gdf.loc[gdf['Indice_gdf'].isin(np.unique(nuevos['Indice_gdf'].values)), 'Esquinero|Intermedio'] = 1

In [None]:
# Revision de conteos nuevos en el gdf
gdf['Esquinero|Intermedio'].value_counts()

In [None]:
# Borrar duplicados
print('Shape original ', gdf.shape)
gdf.drop_duplicates(subset=['geometry','cve_cat'],inplace=True)
print('Shape fianl ', gdf.shape)

In [None]:
# Volvemos a revisar que los val por m2 esten llenos
gdf[(gdf[col_vu_bv].fillna(0)==0)&(gdf[col_vu_ah].fillna(0)==0)]

## Proceso 3
Ahora ya tenemos la info necesaria para el calculo de los factores lo que nos llevara al valor catastral

Todo este procedimiento a implementar es un seguimiento detallado del [manual catastral](!https://igecem.edomex.gob.mx/sites/igecem.edomex.gob.mx/files/files/ArchivosPDF/Servicios-catastrales/Manual%20Catastral%20del%20Estado%20de%20Mexico.pdf) que el IGECEM publica para el calculo del valor catastral. 

In [None]:
datos = gdf
datos.fillna(0,inplace=True)

In [None]:
# Matamos variables para liberar memoria
if input('Esta seguro de matar las variables?').lower() in afirmativo:
    if input('Realmente esta seguro de matar las variables?').lower() in afirmativo:
        del gdf
        print('Matamos las variables cgdf   , ya no hay vuelta atras')

In [None]:
# borrar duplicados again
print('Shape original -> ',datos.shape)
datos.drop_duplicates(subset=['geometry','cve_cat'],inplace=True)
print('Shape nuevo    -> ',datos.shape)

In [None]:
vu_const = pd.read_excel('./Data/Valor de construccion unitario habitacional naucalpan.xlsx')
vu_const.shape

In [None]:
# Obtenemos las columnas de altura, nivel, y valores para borrarlas, ya que se hara de nuevo la clasificacion
cols_altura = np.array([])
cols_nivel = np.array([])
cols_valor_uni = np.array([])
cols_otros = np.array([])
col_categoria = None
datos.fillna(0, inplace=True)


for col in datos:
    if col.lower().strip().startswith('altura'):
        cols_altura = np.append(cols_altura, col)
    elif col.lower().strip().startswith('nivel'):
        cols_nivel = np.append(cols_nivel, col)
    elif col.lower().strip().startswith('val'):
        cols_valor_uni = np.append(cols_valor_uni,col)
    elif col in list(vu_const['Categoría']):
        cols_otros = np.append(cols_otros, col)
    elif col.lower().strip().startswith('clase_dete'):
        col_categoria = col
len(cols_altura), len(cols_nivel), len(cols_valor_uni), len(cols_otros), col_categoria

In [None]:
# Diccionarios utiles para clasificacion
dict_intervalos = {
    'Medio'    :(60,250),'Popular'  :(40,80),
    'Interes'  :(0,70),'Campestre':(50, 400),
    'Rural'    :(50, 400),'Comercial':(400,10000000000000000)
}
dict_niveles = {
    'NivelesM_HMEA' :18,'NivelesM_HMEM' :10,
    'NivelesM_HMEB' :4,'NivelesP_HPOM' :8,
    'NivelesP_HPOB' :6,'NivelesIS_HISM':8,
    'NivelesIS_HISB':6,'NivelesC_HCAM' :2,
    'NivelesR_HRUR' :3,'NivelesCom'    :14
}
dict_alturas = {
    'AlturaM_HMEA' :75.6,'AlturaM_HMEM' :42,
    'AlturaM_HMEB' :16.8,'AlturaP_HPOM' :33.6,
    'AlturaP_HPOB' :25.2,'AlturaIS_HISM':33.6,
    'AlturaIS_HISB':25.2,'AlturaC_HCAM' :8.4,
    'AlturaR_HRUR' :12.6,'AlturaCom'    :35
}
dict_construccion = {}
for i in range(len(vu_const)):
  dict_construccion[str(vu_const['Categoría'][i])]=(vu_const['min'][i],vu_const['Max'][i])

dict_vu_construccion = {}
for i in range(len(vu_const)):
    dict_vu_construccion['VU_'+str(vu_const['Categoría'][i])] = vu_const['Valor m2'][i]

In [None]:
dict_vu_construccion

In [None]:
# Renombramos en caso de ser necesario
renombres = {'Area_H':'Area_AH'}
datos.rename(columns=renombres,inplace=True)

In [None]:
# Columnas a utilizar, pueden variar, por eso se definen aqui
col_area_modelo = 'Area_Model'
col_area_h = 'Area_AH'

In [None]:
# Categorizar superficies por valor de construccion
import warnings
warnings.simplefilter('ignore')
for key, val in dict_construccion.items():
    print(key, val)
    if existe_categoria:
        datos.loc[datos[col_categoria].isin(casas),key] = datos[datos[col_categoria].isin(casas)][col_area_modelo].map(lambda x: Categorizar_por_intervalos(x, val[0], val[1]) )  
    else:
        datos[key] = datos[col_area_modelo].map(lambda x: Categorizar_por_intervalos(x, val[0], val[1]) )

In [None]:
datos['Comercial buena'].value_counts()

In [None]:
# Categorizar superficies
for key, val in dict_intervalos.items():
    print(key, val)
    datos[key] = datos[col_area_modelo].map(lambda x: Categorizar_por_intervalos(x, val[0], val[1]) )

In [None]:
# Poner niveles maximos
for key,val in dict_niveles.items():
    print(key,val)
    datos[key] = val
    if key.find('AlturaM')>=0:
        datos[key] = datos[key]*datos['Medio']
    elif key.find('AlturaP') >= 0:
        datos[key] = datos[key]*datos['Popular']
    elif key.find('AlturaIS') >= 0:
        datos[key] = datos[key]*datos['Interes']
    elif key.find('AlturaC') >= 0:
        datos[key] = datos[key]*datos['Campestre']
    elif key.find('AlturaR') >= 0:
        datos[key] = datos[key]*datos['Rural']
    elif key.find('AlturaCom') >= 0:
        datos[key] = datos[key]*datos['Comercial']
datos['Nivel_minimo'] = 1

In [None]:
# Poner alturas maximas
for key,val in dict_alturas.items():
    print(key,val)
    datos[key] = val
    if key.find('NivelesM')>=0:
        datos[key] = datos[key]*datos['Medio']
    elif key.find('NivelesP') >= 0:
        datos[key] = datos[key]*datos['Popular']
    elif key.find('NivelesIS') >= 0:
        datos[key] = datos[key]*datos['Interes']
    elif key.find('NivelesC') >= 0:
        datos[key] = datos[key]*datos['Campestre']
    elif key.find('NivelesR') >= 0:
        datos[key] = datos[key]*datos['Rural']
    elif key.find('NivelesCom') >= 0:
        datos[key] = datos[key]*datos['Comercial']
datos['Altura_min'] = 2.5

In [None]:
# Poner valores unitarios de construccion

cols_vu_cons = np.array([])
for key, val in dict_vu_construccion.items():
    print(key,val)
    nombre_cat = str(key).split('_')[-1]
    datos.loc[(datos[nombre_cat]!=0), key] = val
    cols_vu_cons = np.append(cols_vu_cons,key)

In [None]:
# Obtenemos las columnas de altura, nivel, y valores
cols_altura = np.array([])
cols_nivel = np.array([])
cols_valor_uni = np.array([])
cols_const = np.array([])
datos.fillna(0, inplace=True)

for col in datos:
    if col.lower().strip().startswith('altura'):
        cols_altura = np.append(cols_altura, col)
    elif col.lower().strip().startswith('nivel'):
        cols_nivel = np.append(cols_nivel, col)
    elif col.lower().strip().startswith('val'):
        cols_valor_uni = np.append(cols_valor_uni,col)
    elif col in list(vu_const['Categoría']):
        cols_const = np.append(cols_const,col)
len(cols_altura), len(cols_nivel), len(cols_valor_uni), len(cols_const)

In [None]:
# Campos faltantes
datos['Frente_base'] = datos['Frente']
datos['Fondo_base']  = datos['Fondo']
datos['Area_base']   = datos[col_area_h]

if existe_categoria:
    datos.loc[datos[col_categoria].isin(casas),'grado_conservacion'] = datos.loc[datos[col_categoria].isin(casas)][col_area_h].map(lambda x:get_grado_conservacion())
else:
    datos['grado_conservacion'] = datos[col_area_h].map(lambda x:get_grado_conservacion())
datos['Area_inscrita']     = datos[col_area_modelo].map(lambda x: float(x)*random.uniform(0.65,1))
datos['Area_construccion'] = datos[col_area_modelo]*.9

In [None]:
# Columnas a utilizar, pueden variar, por eso se definen aqui
col_esquinero = 'Esquinero|Intermedio'

In [None]:
# Factores catastral del terreno

datos.fillna(0, inplace=True)
cols_factor_top = np.array([])

datos['Factor_posicion']      = datos[col_esquinero].fillna(0).map(lambda x: get_factor_posicion(x))
datos['Terreno_Posicion']     = datos['Factor_posicion'].map(lambda x: 'Interior' if x==0.5 else 'otro')
datos['factor_frente']        = datos.apply(lambda x: factor_frente(x['Medida_lx'], x['Terreno_Posicion']),axis=1)
datos['factor_fondo']         = datos.apply(lambda x: factor_fondo(x['Medida_ly'], x['Fondo_base'], x['Terreno_Posicion']), axis=1)

for col in cols_altura:
    nombre_col = 'Factor_Topografia_'+col
    cols_factor_top = np.append(cols_factor_top, nombre_col)
    datos[nombre_col] = datos.apply(lambda x: factor_topografia(x[col], x['Medida_ly'], x['Terreno_Posicion']), axis=1)


datos['factor_irregularidad'] = datos.apply(lambda x: factor_irregularidad(x[col_area_modelo], x['Area_inscrita'], x['Terreno_Posicion']), axis=1)
datos['factor_area']          = datos.apply(lambda x: factor_area(x[col_area_modelo],x['Area_base'],x['Terreno_Posicion']), axis=1)
datos['factor_restriccion']   = datos.apply(lambda x: factor_restriccion(x[col_area_modelo],x[col_area_modelo]*0.8,x['Terreno_Posicion']), axis=1)

In [None]:
# Revison de valores 0 en los factores de terreno y correccion

cols_ft = {'factor_frente':0.5,'factor_fondo':0.6,'factor_irregularidad':0.5,'factor_area':0.7,'factor_restriccion':0.5}

for col, val in cols_ft.items():
    s = datos[datos[col].fillna(0)==0].shape
    
    if s[0] != 0:
        datos.loc[datos[col].fillna(0)==0, col] = val
        print(col)
    print(s)
    
for col in cols_factor_top:
    s = datos[datos[col].fillna(0)==0].shape
    if s[0] != 0:
        print(col)
    print(s)

In [None]:
# Factores catastral de la construcción

cols_factor_nvl = np.array([])

if existe_categoria:
    datos.loc[datos[col_categoria].isin(casas),'factor_grado_conservacion'] = datos[datos[col_categoria].isin(casas)]['grado_conservacion'].map(lambda x: factor_grado_conservacion(x))
    datos.loc[datos[col_categoria].isin(casas),'factor_edad']               = 0.6
else:
    datos['factor_grado_conservacion'] = datos['grado_conservacion'].map(lambda x: factor_grado_conservacion(x))
    datos['factor_edad']               = 0.6


for col in cols_nivel:
    nombre = 'factor_numero_niveles_'+col
    cols_factor_nvl = np.append(cols_factor_nvl, nombre)
    if existe_categoria:
        datos.loc[datos[col_categoria].isin(casas),nombre] = datos[datos[col_categoria].isin(casas)].apply(lambda x: factor_numero_niveles(x[col],x['grado_conservacion']), axis=1)
    else:
        datos[nombre] = datos.apply(lambda x: factor_numero_niveles(x[col],x['grado_conservacion']), axis=1)

In [None]:
# Revision de valores 0 en los factores de construccion
if existe_categoria:
    print(datos[(datos[col_categoria].isin(casas))&(datos['factor_grado_conservacion'].fillna(0)==0.0)].shape)
    print(datos[(datos[col_categoria].isin(casas))&(datos['factor_edad'].fillna(0)==0.0)].shape)
    
    for col in cols_factor_nvl:
        s = datos[(datos[col_categoria].isin(casas))&(datos[col].fillna(0)==0.0)].shape
        if s[0] != 0:
            print(col)
        print(s)
else:
    print(datos[(datos['factor_grado_conservacion'].fillna(0)==0.0)].shape)
    print(datos[(datos['factor_edad'].fillna(0)==0.0)].shape)
    
    for col in cols_factor_nvl:
        s = datos[(datos[col].fillna(0)==0.0)].shape
        if s[0] != 0:
            print(col)
        print(s)



In [None]:
# Conversion a flotantes de los valores que necesitamos

cols_using = [col_area_modelo,'factor_frente','factor_fondo', 'factor_irregularidad','factor_area',
              'Factor_posicion','factor_restriccion']
datos.fillna(0,inplace=True)
for col in cols_using:
    datos[col] = datos[col].astype(float)

![alt text](Data/Valor_cat_terreno.png) 

Formula para obtener el valor catastral del terreno

In [None]:
# Valor catastral del terreno

cols_vc_terr = np.array([])

for col_vu in cols_valor_uni:
    name = col_vu.split('_')[-1]
    
    for col_ft in cols_factor_top:
        name_col = 'Valor_catastral_terreno_'+name+'_'+col_ft.split('_')[-1]
        datos[name_col] = datos[col_area_modelo].astype(float).fillna(0)*datos[col_vu].astype(float).fillna(0)*datos['factor_frente'].astype(float).fillna(0)*datos['factor_fondo'].fillna(0)*datos['factor_irregularidad'].fillna(0)*datos['factor_area'].fillna(0)*datos[col_ft].fillna(0)*datos['Factor_posicion'].fillna(0)*datos['factor_restriccion'].fillna(0)
        cols_vc_terr = np.append(cols_vc_terr,name_col)

![alt text](Data/Valor_cat_const.png) <br>
 Formula para obtener el valor catastral de la construccion

In [None]:
# Valor catastral de la construccion
cols_vc_const = np.array([])
for col_vu in cols_vu_cons:
    i = 0
    name = col_vu.split('_')[-1]
    for col_nv in cols_factor_nvl:
        name_col = 'Valor_catastral_construccion_'+name+'_'+str(i)
        cols_vc_const = np.append(cols_vc_const,name_col)
        datos[name_col] = datos['Area_Model'].astype(float).fillna(0)*datos[col_vu].astype(float).fillna(0)*datos['factor_edad'].astype(float).fillna(0)*datos['factor_grado_conservacion'].astype(float).fillna(0)*datos[col_nv].astype(float).fillna(0)
        i += 1

In [None]:
# Revicion del total de columnas creadas
print(f'Cols construccion -> {len(cols_vc_const)} \nCols terreno      -> {len(cols_vc_terr)} \nShape Final       -> {datos.shape}')

In [None]:
jhkjhl1

#### Checkpoint opcional
 <br>Hasta este punto hemos aproximado tantos valores catastrales como el numero de columnas creadas arriba.
El siguiente proceso consume muchos recurso asi que se recomienda llevarlo a google colab

In [None]:
nombre_file = 'New_casas_Naucalpan_proces2_v1'

In [None]:
# Crear en CSV para no truncar el nombre de columnas
pd.DataFrame(datos).to_csv('Data/Completados/Modelo_Final/'+nombre_file+'.csv',
                           index=False,
                           encoding='utf8')

In [None]:
# Crear el geopandas solo con las columnas utiles para reponerselas al csv
datos[['geometry', 'cve_cat','Indice_gdf']].to_file('Data/Completados/Modelo_Final/Recuperacion_geometry/'+nombre_file+'.shp',
                                         index=False)

#### Checkpoint opcional

In [None]:
# Camnibio de variable otra vez
df = datos
df.reset_index(drop=False, inplace=True)
df.rename(columns={'index':'Indice_Modelo'}, inplace=True)
df.shape

In [None]:
# Matamos variables para liberar memoria
if input('Esta seguro de matar las variables?').lower() in afirmativo:
    if input('Realmente esta seguro de matar las variables?').lower() in afirmativo:
        del datos
        print('Matamos las variables datos   , ya no hay vuelta atras')

In [None]:
# Obtenemos las columnas de interes
cols_terreno = np.array([])
cols_const = np.array([])
for col in df.columns:
    if col.lower().find('valor_catastral_construccion')>=0:
        cols_const = np.append(cols_const, col)
    elif col.lower().find('valor_catastral_terreno')>=0:
        cols_terreno = np.append(cols_terreno, col)
len(cols_terreno), len(cols_const)

In [None]:
# Volvemos a revisar que los val por m2 esten llenos
df[(df['Val m2_Ban'].fillna(0)==0)&(df['Val m2_Man'].fillna(0)==0)]

In [None]:
# Obtenemos los estadisticos de interes, esta parte es la mas pesada
df['Estadisticos_terreno'] = df.apply(lambda x: statistics_values(x[cols_terreno]), axis=1)
df[df['Estadisticos_terreno']=='Revisar'].shape

In [None]:
# Obtenemos los estadisticos de interes, esta parte es la mas pesada
df['Estadisticos_construccion'] = df.apply(lambda x: statistics_values(x[cols_const]), axis=1)
df[df['Estadisticos_construccion']=='Revisar'].shape

In [None]:
df['Len']

In [None]:
# Damos formatoa las cols Minimo, Maximo, Media, desviacion_estandar, largo, media_percentil, desviacion_std_percentiles, moda_percentiles
df = pd.concat([df,
                df['Estadisticos_terreno'].str.split('|', expand=True).rename(columns={0:   'Min_terreno',
                                                                                       1:   'Max_terreno',
                                                                                       2: 'Media_terreno',
                                                                                       3:   'STD_terreno',
                                                                                       4:   'Len_terreno',
                                                                                       5:'MediaP_terreno',
                                                                                       6:  'STDP_terreno',
                                                                                       7: 'ModaP_terreno'})], axis=1)

df = pd.concat([df,
                df['Estadisticos_construccion'].str.split('|', expand=True).rename(columns={0:   'Min_construccion',
                                                                                            1:   'Max_construccion',
                                                                                            2: 'Media_construccion',
                                                                                            3:   'STD_construccion',
                                                                                            4:   'Len_construccion',
                                                                                            5:'MediaP_construccion',
                                                                                            6:  'STDP_construccion',
                                                                                            7: 'ModaP_construccion'})], axis=1)

Calculo del intervalo de confianza suponiendo distribucion normal en los valores catastrales

In [None]:
# Valor z con nivel de significancia al 95%
z = stats.norm.ppf(.95)
z

![alt text](./Data/Valor_cat_final.png)

Formula para obtener el valor catastral final 

![alt text](./Data/Intervalo_confianza_norm.png) Formula para intervalo de confianza

In [None]:
cols_estadisticos = ['Media_terreno','STD_terreno','Len_terreno','Media_construccion','STD_construccion','Len_construccion']

for col in cols_estadisticos:
    try:
        df[col] = df[col].astype(float)
    except:
        print(col)

In [None]:
df.head(2)

In [None]:
df['Media_terreno']#- (z*df['STD_terreno']/df['Len_terreno'])

In [None]:
# Limite inferior (LI) y superior (LS) de cada valor catastral
df['LI_95%_vc_terreno'] = df['Media_terreno']- (z*df['STD_terreno']/df['Len_terreno'])
df['LS_95%_vc_terreno'] = df['Media_terreno']+ (z*df['STD_terreno']/df['Len_terreno']) 

df['LI_95%_vc_construccion'] = df['Media_construccion']- (z*df['STD_construccion']/df['Len_construccion'])
df['LS_95%_vc_construccion'] = df['Media_construccion']+ (z*df['STD_construccion']/df['Len_construccion']) 

df['LI_95%_catastral_final'] = df['LI_95%_vc_terreno'] + df['LI_95%_vc_construccion'] 
df['LS_95%_catastral_final'] = df['LS_95%_vc_terreno'] + df['LS_95%_vc_construccion'] 

In [None]:
shape.head(10)

In [None]:
df.head(10)

In [None]:
# Solo cols de interes
df[np.append(cols_estadisticos,[])]

#### En caso de haber hecho checkpoint

In [None]:
# En caso de haber hecho checkpoint
path_gdf =  'Data/Completados/Modelo_Final/Recuperacion_geometry/'+nombre_file+'.shp'
gdf = gpd.read_file(path_gdf)
gdf.rename(columns={'Indice_gdf':'Indice_gdf1'},inplace=True)

final = gpd.GeoDataFrame(pd.concat([gdf[['geometry', 'cve_cat','Indice_gdf1']] , df[cols_new]], axis=1), geometry='geometry')
final.tail(2)

gdf.shape, final.shape

In [None]:
# Revision de empatamiento 
final[final['Indice_gdf']!=final['Indice_gdf1']]

In [None]:
# Exportar el GeoDataFrame
final.to_file('/content/drive/MyDrive/Equipo_Agua/Geo/Data/Completados/Modelo_Final/Solo_VC_Final/NewCasas_Valor_Catastral_Naucalpan_Final_v1.shp',
                                                  index=False)

#### En caso de no haber hecho checkpoint

In [None]:
# Calculo del predial
calculo_predial(83783)

In [None]:
# Ya terminamos solo exportamos el geodataframe
df.to_file('/content/drive/MyDrive/Equipo_Agua/Geo/Data/Completados/Modelo_Final/Solo_VC_Final/NewCasas_Valor_Catastral_Naucalpan_Final_v1.shp',
                                                  index=False)