# Pregunta 1, parte 1

## Importacion

Se importa el módulo `pandas`, y se importa un módulo personal llamado `paths`, que contiene los paths que utilizaremos en este análisis.

In [None]:
import pandas as pd

from paths import *

Esta es la documentación de `paths` (decomentar para verlas).

In [None]:
# Documentación del módulo 'paths'.
# import paths
# help(paths)

## Carga de datos

### Creación de la tabla mezclada

Cargar todos los .csv en dos listas distinguidas por la aparición de `furnished` en el nombre.

In [None]:
# Lista de DataFrames (Sin 'furnished' en el nombre)
L_DF_a = [pd.read_csv(dict_csv_mc_a[wNN]) for wNN in L_WNN]

# Lista de DataFrames (Con 'furnished' en el nombre)
L_DF_f = [pd.read_csv(dict_csv_mc_f[wNN]) for wNN in L_WNN]

Se unen los `DataFrames` de las listas en un único `DataFrame`, luego se crea una nueva columna llamada `'furnished'` y finalmente se unen los dos `DataFrames` en uno, con la nueva columna incluida.

In [None]:
# se unen todos los data_frame en cada lista con el comando concat
DF_a = pd.concat(L_DF_a)
DF_f = pd.concat(L_DF_f)

# Se eliminan las filas duplicadas de cada data frame por separado
DF_a.drop_duplicates(subset=DF_a.columns, ignore_index=True, inplace=True, keep='last')
DF_f.drop_duplicates(subset=DF_f.columns, ignore_index=True, inplace=True, keep='last')

# Se crea una columna con tantos ceros como la cantidad de filas de DF_a
# y con tantos unos como la cantidad de filas de DF_f 
furnished_col = pd.DataFrame(data={'furnished':[0]*(DF_a.shape[0]) + [1]*(DF_f.shape[0])})

# Concateno los data frames DF_a y DF_f y le agrego al final la columna furnished_col
df = pd.concat([DF_a, DF_f], ignore_index=True) 
df = pd.concat([df, furnished_col], axis=1)

In [None]:
# vemos cuantas filas tiene cada data frame (para reportar si hay filas en furnished 
# que no estan en all)
# print(DF_a.shape[0])
# print(DF_f.shape[0])
# nota: DF_a tiene 16295 filas y DF_f tiene 2099 filas  

Para terminar, se quitan las filas duplicadas en ambos grupos, furnished y all

In [None]:
# Quitamos las filas que sean iguales en todas las columnas con excepcion de
# la columna furnished y reindexamos
df.drop_duplicates(subset=df.columns[:-1], ignore_index=True, inplace=True, keep='last')

# comentario 1: si hay filas duplicadas con distintos valores de furnished, se eliminan las primera
# comentario 2: el comentario 1 asegura que si hay dos filas iguales con distintos valores de furnished,
# se elimine la que tiene el valor 0 para furnished, lo que tiene sentido dado que furnished puede estar
# contenido en all

In [None]:
# reportar si Reporte si existen observaciones de archivos con texto ’furnished’ que no estén
# contenidos en archivos con texto ’all’
# print(df[df['furnished'] == 0].shape[0])
# print(df[df['furnished'] == 1].shape[0])
# como ambas selecciones de filas en el dataframe tienen las mismas filas que los originales
# luego de eliminar las filas iguales, se conluye que no hay filas en furnished que no esten
# en all

## Pregunta 1, parte 2

### a) Limpieza de datos

Se crea un diccionario llamado `valores_nulos` que contendrá el nombre de las columnas de `df` como llave, y el valor de la llave será lo que reemplazará el valor `NaN`.

In [None]:
# Creamos valores a reemplazar
valores_nulos = {
#     'property_type|rent_type|location':'Sin nombre',
    'price':'$0',
    'n_rooms':'NA',
    'n_bath':'NA',
    'surface':'0.0 m2',
#     'details':'',
#     'url':'',
#     'metrocuadrado_index':0.0,
#     'furnished':0
}

In [None]:
# Reemplazamos los valores
df.fillna(value=valores_nulos, inplace=True)

#### Reemplazo de los tipos de algunas columnas

Además, en esta etapa se cambiará el tipo de algunas columnas.

##### Funciones auxiliares

In [None]:
# Función que mapeará la columna `price`
def precio_to_int(s:str)->int:
    """
    Toma un precio en forma de `str`, en el formato `'$XXX.XXX.XXX'` 
    con X algún número, y retorna el número entero de ese precio.
    """
    return int(s.replace('$', '').replace('.', ''))

# Función que mapeará la columna `surface`
def n_surface(s:str)->float:
    """
    Toma un `str` en formato "XX.Xm2" y retorna el número real con los metros cuadrados.
    """
    return float(s.replace('m2', ''))

##### Reemplazo de columnas

In [None]:
# Columna de precios
precios_col = df['price'].map(precio_to_int)
# Columna de superficie
superficie_col = df['surface'].map(n_surface)

df['price'] = precios_col
df['surface'] = superficie_col
df.rename(columns={
    'price':'price_$',
    'surface':'surface_m2'
}, inplace=True)

### b) Obtención de 3 columnas a partir de `'property_type|rent_type|location'`

`lower_case_col` es una columna con todas las palabras en minusculas.

In [None]:
lower_case_col = df['property_type|rent_type|location'].str.lower()

#### Columna `tipo de inmueble`

In [None]:
# `casa_bool_col` y `apart_bool_col` son columnas que tienen un -1 si la palabra no está 
# y un número entero positivo si la palabra está.
casa_bool_col = lower_case_col.str.find('casa')
apart_bool_col = lower_case_col.str.find('apartamento')

# Se crea una lista con la infomacion del tipo de inmueble recorriendo las dos columnas anteriores
tipo_inm_list = []
for index in range(len(lower_case_col)):
    if casa_bool_col[index] >= 0:
        tipo_inm_list.append('Casa')
    elif apart_bool_col[index] >= 0:
        tipo_inm_list.append('Apartamento')
    else:
        tipo_inm_list.append('No hay info')

# columna de tipo de inmueble
tipo_inm_col = pd.DataFrame(data = {'tipo_de_inmueble': tipo_inm_list})

# Nota: no hay columnas que no tengan una de las dos informaciones

#### Columna `Tipo de oferta`



In [None]:
# `vent_bool_col` y `arr_bool_col` son columnas que tienen un -1 si la palabra no está 
# y un número entero positivo si la palabra está.
vent_bool_col = lower_case_col.str.find('venta')
arr_bool_col = lower_case_col.str.find('arriendo')

# Se crea una lista con la infomacion del tipo de oferta recorriendo las dos columnas anteriores
tipo_ofer_list = []
for index in range(len(lower_case_col)):
    if (vent_bool_col[index] >= 0) and (arr_bool_col[index] >= 0):
        tipo_ofer_list.append('Arriendo y venta')
    elif arr_bool_col[index] >= 0:
        tipo_ofer_list.append('Arriendo')
    else:
        tipo_ofer_list.append('No hay info')

# columna de tipo de oferta
tipo_ofer_col = pd.DataFrame(data = {'tipo_de_oferta': tipo_ofer_list})

# Nota: no hay columnas que no tengan una de las dos informaciones

#### Columna `location`



In [None]:
# `sep_comas` es una serie que contiene en cada elemento una lista del string correspondiente 
# que separa por comas los grupos de strings
sep_comas = df['property_type|rent_type|location'].str.split(pat = ",")

# Se crea una lista con la infomacion location recorriendo los segundos elementos de la columna anterior
# se asume que la direccion esta al final de cada string
location_list = []
for index in range(len(sep_comas)):
    lista_strings = sep_comas[index]
    location_list.append(lista_strings[1]) 
    
# columna location
location_col = pd.DataFrame(data = {'location': location_list})

#### Agregar las 3 columnas anteriores a `df`

In [None]:
df = pd.concat([df,tipo_inm_col], axis=1)
df = pd.concat([df,tipo_ofer_col], axis=1)
df = pd.concat([df,location_col], axis=1)

In [None]:
# prueba de que location_col no tiene el string de arriendo (solo tiene direcciones)
# prueba_0 = location_col['location'].str.lower()
# prueba_1 = prueba_0.str.find('arriendo')
# for index in range(len(prueba_1)):
#     if prueba_1[index] >= 0:
#         print('error')

## Pregunta 1, parte 3

### Esquema para agregar las columnas `price per m2` y `garajes`

* Se desarrollarán funciones que procesen las columnas `url`.
* Se crearán nuevas columnas a partir de las columnas mapeadas a partir de las funciones creadas.
* Se agregarán estas columnas a `df`.

#### Funciones

Se detallan las funciones que mapearán las columnas a continuación:

In [None]:
# Función que mapeará la columna `url`
def n_garaje(s:str)->str: 
    """
    Función que toma una url en forma de `str` y retorna un `str`, que será
    el número de garajes para la vivienda de esa url.
    """
    i_garaje = s.find('-garajes')
    
    # No se encuentra el garaje
    if i_garaje is -1: 
        return '0'
    
    # rescata el str con el número. Puede ser un número de la forma '4+'
    s_hasta_garaje = s[:i_garaje] # Se recortará el str hasta la aparición de '-garajes'
    i_garaje_ = s_hasta_garaje.rfind('-') + 1 # Se encontrará el índice siguiente de un guión '-'
    
    return s_hasta_garaje[i_garaje_:] # Se entrega el resto después de ese índice

#### Procesamiento de columnas

Se crearán las columnas y se procesarán para ser entregadas.

In [None]:
#columna de los garajes
garajes_col = df['url'].map(n_garaje)

# Columna producto de la división entre las columnas de precio y superficie
p_por_s_col = (df['price_$'] / df['surface_m2']).map(lambda x: round(x, 2))

#### Rotulación de columnas y añadirlas a `df`

In [None]:
df_ppm_and_g = pd.DataFrame(
    data={
        'price_per_m2_$/m2':p_por_s_col,
        'garajes':garajes_col
    }
)

df = pd.concat([df, df_ppm_and_g], axis=1)

## Pregunta 1, parte 4

### Esquema para clasificar:

In [None]:
# crear las 8 clasificaciones con el comando query, ademas, se crean columnmas con enteros 
# que representan dicha clasificacion

expr_base = 'tipo_de_inmueble == "{tipo_inmueble}" ' \
          + 'and surface_m2 >= {cota_inf} ' \
          + 'and surface_m2 {desig} {cota_sup}'

L_inmuebles = ['Casa']*5 + ['Apartamento']*3
bnds_sym_r = ['<']*4 + ['<='] \
           + ['<']*2 + ['<=']

L_bnds_casa = list(map(str, [80, 120, 180, 240, 360, 460]))
L_bnds_apart = list(map(str, [40, 60, 80, 120]))

bnds = [(L_bnds_casa[i], L_bnds_casa[i+1]) for i in range(len(L_bnds_casa)-1)] \
     + [(L_bnds_apart[i], L_bnds_apart[i+1]) for i in range(len(L_bnds_apart)-1)]

L_expr = [expr_base.format(
    tipo_inmueble=L_inmuebles[i], 
    cota_inf=bnds[i][0], 
    desig=bnds_sym_r[i], 
    cota_sup=bnds[i][1]
) for i in range(len(bnds))]

In [None]:
L_prod = []
tipo_prod_list = []

for i in range(len(L_expr)):
    prod = df.query(L_expr[i], inplace=False)
    list_prod = [i+1]*(prod.shape[0])
    
    L_prod.append(prod)
    tipo_prod_list += list_prod

# concateno todos los productos reseteando los indices
df = pd.concat(L_prod, ignore_index=True) 
# creo la columna con el tipo de producto
tipo_prod = pd.DataFrame(data={'Tipo_de_prod': tipo_prod_list})
# agrego la columna de tipo de producto
df = pd.concat([df, tipo_prod], axis=1)

## Pregunta 1, parte 5

In [None]:
# Cargar data
df_upz = pd.read_csv(path_csv_barrio_upz)

In [None]:
# se crea la columna location que es la columna 'location' de df, a la que 
# se le cambian todas las letras por minusculas y se le hace un split 
# para ver las palabras enlistadas   
location = df['location'].str.lower()
location = location.str.split(pat=" ")

# se crea la columna pro_location que es la columna 'pro_location' de df_upz, a la que 
# se le cambian todas las letras por minusculas y se le hace un split 
# para ver las palabras enlistadas   
pro_location = df_upz['pro_location'].str.lower()
pro_location = pro_location.str.split(pat=" ")

In [None]:
# Se crea una lista con los codigos de upz de df_upz que corresponden a cada fila de df
# en caso de que no se encuentre ningun representante en df_upz, se pone un -1
# Se usa el hecho de que uan fila en df se puede asignar a lo mas a una fila en upz 
# (algoritmo celda siguiente)
upz_list = []

# Se elige un elemento (lista por el split) de location
for name_df_completo in location:
    # Se acorta para sacar el primer elemento (['']) y el los dos ultimos (['Bogota', 'D.C..'])
    name_df = name_df_completo[1:-2] 
    # se fija un indice inicial para iterar sobre todos los indices de df_upz hasta encontrar
    # un representante
    indice_upz = 0  
    index_encontrado = False 
    while not(index_encontrado) and indice_upz < len(pro_location):
        # nos aseguramos que es una lista desde el split y no un 'nan'
        if type(pro_location[indice_upz]) is list:
            # vemos si pro_location[indice_upz] es el representante 
            if pro_location[indice_upz] == name_df:
                # en este caso paramos el loop
                index_encontrado = True 
            # sino, se continua con el otro indice 
            else:
                indice_upz = indice_upz + 1
        # sino, se continua con el otro indice 
        else:
            indice_upz = indice_upz + 1 
    # Luego terminar el loop, tenemos dos casos
    # se encontro un indice
    if index_encontrado:
        upz_list.append(df_upz['UPlCodigo'][indice_upz]) 
    else:
        upz_list.append(-1)

In [None]:
# crear columna de codigo upz y agregar al dataframe df
upz_code = pd.DataFrame(data={'upz_codigo': upz_list})
df = pd.concat([df, upz_code], axis=1)

In [None]:
# Numero de observaciones que no tienen codigo upz asignado
print('Numero de observaciones sin codigo upz asignado:', df[df['upz_codigo'] == -1].shape[0])

In [None]:
# barrios que no tienen codigo upz asigando (sin repeticion por el set)
barrios = set((df[df['upz_codigo'] == -1]['location']).tolist())
# Numero de barrios sin codigo upz
print('Numero de barrios sin codigo upz:', len(barrios))

## Pregunta 1, parte 6

In [None]:
df_upz

In [None]:
df