# Grupo 03 - Desafío 01
## Estrategia de construcción
>**OBJETIVO:** Crear un df de post-producción que luego se transformará en producción para realizar análisis del dataset.
> * Se trabajará depurando cada columna del dataset con la finalidad de reconstruir datos perdidos y/o crear nuevas columnas que serán utilizadas a posteriori en la fase de análisis.

### Instalación de librerías

In [None]:
#!pip install unidecode


### Importación de librerías

In [1]:
import sys
sys.path.append("../src")
import g3utils as g3

import pandas as pd
import numpy as np
import re as re
import unidecode

### Carga e inicialización de df

In [34]:
# Carga del dataset en un df

df = pd.DataFrame(pd.read_csv("../data/properatti_minusculas.csv", encoding='UTF-8'))
#!head nombreArchivo.cvs --> comando de linux para ver las 5 primeras lineas. Se puede utilizar para ver como estan separados los datos

In [None]:
# Para ver el contenido total de las columnas

pd.set_option('display.max_colwidth', -1)

In [35]:
# Reemplado de NaN's
df = g3.reemplaza_nan('sin datos',df)

In [36]:
# Verificación del reemplazo
df.sample(1)

Unnamed: 0.2,Unnamed: 0,Unnamed: 0.1,operation,property_type,place_name,place_with_parent_names,country_name,state_name,geonames_id,lat-lon,...,surface_covered_in_m2,price_usd_per_m2,price_per_m2,floor,rooms,expenses,properati_url,description,title,image_thumbnail
28274,28274,28274,sell,apartment,mar del plata,|argentina|buenos aires costa atlantica|mar de...,Argentina,buenos aires costa atlantica,3430860.0,"-38.0054187,-57.546268",...,50,1918,1918,sin datos,2,sin datos,http://www.properati.com.ar/17vyc_venta_depart...,el departamento se encuentra refaccionado en s...,av colon 2210 - 2 ambientes lateral abierto c/...,https://thumbs4.properati.com/6/pxmiiWxJOAj-uW...


### Armado inicial de df post-produccion
* Este bloque se reserva para realizar la precarga inicial dentro de un df de post-producción que finalmente se transformará en dataset de producción.
* Comenzar incluyendo aquellas columnas útiles dentro del df post-produccion.

### Pruebas de campos

In [37]:
# Para verificar el contenido de alguna fila al azar
df.sample(1)['description']

51741    codigo: 2729-ven0011 ubicado en: japon 3500 - ...
Name: description, dtype: object

In [18]:
# Para verificar algún problema en alguna fila en particular
df.iloc[293]['description']

'corredor responsable: florencia balague - cmcpdjlm 722contacto: ingrid cannata - mls id # 420141062-113exc. chalet en zona exclusiva y residencial de haedo. barrio guemes. s/ lote de 10 x 21 pb: jardin al fte, cochera cubierta, amplio living con hogar, toilette, excelente comedor diario, todo con piso de escalla de marmol en perfecto estado. cocina totalmente equipada con muebles de bajo mesada y alacenas, con muy buena iluminacion y acceso de servicio. patio y fondo parquizado con cuarto guardautiles, y parrilla. pa: gran family room central con acceso a terraza al contrafrente. bano completo totalmente reciclado a nvo. con revestimiento en porcellanato e hidromasaje. 3 amplios dormitorios al frente con placards y piso de parquet. todo impecable!!!!! para mudarse ya!!! valor u$s 320.000.- se toman propiedades en pago haedo o ramos mejia'

### Patterns

In [19]:
# Comentar lo que no se deba ejecutar
# Listado de todos los paterns configurados
# regex = re.compile(pattern, flags = re.IGNORECASE) # Se ejecuta dentro de funciones específicas

#pattern = r'(\d+)\s[m]2' # Patron para buscar metros cuadrados (m2)
#pattern = r'(\d*\w*)\s*amb'  # Patron para buscar metros ambientes
#pattern = r'(\d*)\s?\b[aA]mbientes\w*'
#pattern = r'(\d*\w*)\s*usd'
#pattern = r'(\d*\w*)\s*habitacion|(\d*\w*)\s?cuarto|(\d*\w*)\s?dorm|(\d*\w*)\s?pieza'
#pattern = r"(pileta)|(piscina)|(SUM)|(laundry)|(lavadero)|(terraza)|(solarium)|(baulera)|(sauna)|(gimnasio)|(salon de usos multiples)|(cochera)|(garage)|(gim)|(gym)" # amenities
#pattern = r"(casa)|(departamento)|(triplex)|(duplex)|(frente)|(contrafrente)|(PH)|(chalet)" # casa
#pattern = r"(\d*)\,?\d*\s?(?:m²|mts\s?2|metros\s?2|mts²|m2|metros\s?cuadrado|mts\s?cuadrado)" # superficie
pattern = r"(\d+\.?\,?\d+\.?\,?\d+)\s?u[$sd]\w?|u[$sd]\w?\s*(\d+\.?\,?\d+\.?\,?\d+)" # precio_usd
#pattern = r"(\d+\.?\,?\d+\.?\,?\d+)\s?\$|\$\s*(\d+\.?\,?\d+\.?\,?\d+)" # precio



### Regex

In [None]:
def tuples2lists(df):
    for i in range(len(df.index)):
        l = []
        for j in range(len(df.columns)):
            if df.iloc[i,j] != None:
                if type(df.iloc[i,j]) == str:
                    l.append(df.iloc[i,j])
                else:
                    for h in df.iloc[i,j]:
                        if h != "":
                            l.append(h)
        if len(l) == 0:
            df.iloc[i,0] = None
        elif len(l) == 1:
            df.iloc[i,0] = l[0]
        else:
            df.iloc[i,0] = l
    df = df[[0]]
    return df

In [44]:
# Ejecuta función de busqueda de claves en base a los Patterns previamente configurados

df1 = g3.busca_claves(pattern,'description',df.head(300)) # Para trabajar con un DF acotado
#df1 = g3.busca_claves(pattern,'description',df) # Para trabajar con el DF completo
#df1.iloc[1][1]
#df1 = g3.reemplaza_nan('sin datos',df1)
df1
#df1.iloc[2]
#len(df1.iloc[2])

0             None
1       (, 20.000)
2             None
3             None
4             None
5             None
6             None
7             None
8             None
9             None
10            None
11            None
12            None
13            None
14            None
15     (, 250.000)
16            None
17            None
18            None
19            None
20            None
21            None
22            None
23            None
24      (, 71.000)
25      (, 71.800)
26            None
27            None
28      (, 72.500)
29            None
          ...     
270      (, 95000)
271     (, 181000)
272     (, 143000)
273           None
274     (, 120000)
275           None
276     (, 160000)
277           None
278           None
279           None
280           None
281           None
282           None
283           None
284           None
285     (, 30.000)
286           None
287           None
288           None
289           None
290           None
291         

### Procesamiento de limpieza y carga de columna depurada en df post-produccion
> *** Modo de uso:** 
>* Una vez determinado la finalización de la depuración de columna, confeccionar un grupo de código con todas las lineas de carga.
> * Cada grupo de código se utiliza para realizar el proceso de limpieza x clave. Si se cambia de clave, armar otro grupo de código.
>  1. DataFrame posproduccion = `dfpos`.
>  2. Determinar patron regex  `pattern`.
>  3. Ejecutar busqueda de claves en una determinada columna `g3.busca_claves()`.
>  3. Determinar diccionario de claves y sus significados `dic`.
>  4. Ejecutar limpieza basada en diccionario de claves `g3.limpiar_columna_x_clave()`.
>  5. Cargar columna depurada dentro del df post-produccion `g3.agregar_columna()`.



In [11]:
# Depuración 'ambientes'

pattern = r'(\d*\w*)\s*amb'  # Patron para buscar metros ambientes
df1 = g3.busca_claves(pattern,'description',df.head(30))
dic = {'mono': 1, 'un':1, 'uno':1, 'dos':2, 'tres':3, 'cuatro':4, 'cinco':5 ,'seis':6 ,'siete':7}
df_temp = g3.limpiar_columna_x_clave(dic, df1)
#dfpos = g3.agregar_columna('ambiente', dfpos, df_temp)

In [None]:
# Depuración 'ambientes'


### [FIN] Procesamiento de limpieza y carga de columna depurada en df post-produccion

### Procesamiento de armado intermedio de df de post-produccion
> * Modo de uso temporal hasta terminar de depurar todas las claves necesarias
> * Cada grupo de código se utiliza para realizar consolidado de filas dentro del DF que luego será el definitivo

### Armado de DF definitivo

In [None]:
# Agregado de columna limpia a DF definitivo
dfx = g3.agregar_columna('ambiente', dfx, df_temp)

# SIN USO

In [None]:
#tmp_df = df["cases"].str.extract("([a-z])([0-9]+)([0-9]{2})",expand=True) 
tmp_df = df["description"].str.extract("((\d*)\s?\b[aA]mb\w*)",expand=True) 
tmp_df.dropna(axis=0)

In [None]:
# TEST: Regex de prueba. Alimenta un DF con el resultado
# CONDICION: No lee NaN's
# NOTA: Me di cuenta que REGEX analiza todo el str y en muchos casos detecta la KEY en varias partes del 
#   str, ergo, al capturar el siguiente dato, lo incluye dentro de una lista y eso lo representa en otra columna
#   Entonces ponerle nombre a una única columna no tendría sentido. Si verificamos con .head(10) no vamos
#   a tener problemas porque justo las 10 primeras filas no tienen mas de una KEY en el str a analizar...

#m = pd.DataFrame([regex.findall(n) for n in df_a1['description'].head(10)], columns=["ambientes"] )
m = pd.DataFrame([regex.findall(n) for n in df_a1['description'].head(50)])
#m = pd.DataFrame([regex.findall(n) for n in df_a1['description']])
display(len(m))
#m
m[0]


In [None]:
# Coloco nombre en la columna para luego hacer merge

df1.rename(columns={0:'ambientes'}, inplace=True)

### Reemplazo de NaN's
Esto se realiza porque la función de búsqueda explotaba 

In [None]:
df_a1=df.replace(np.nan,'sin-dato')
#df_a1.head(2)

In [None]:
def reemplaza_nan(df, clave):
    return df.replace(np.nan,clave)

### Funciones

In [None]:
# Busca claves segun pattern en columna dentro de dataFrame 
# Entrada: pattern, columna, df
# Salida: DataFrame

def busca_claves(pattern, columna, df_aux):
    regex = re.compile(pattern, flags = re.IGNORECASE)
    m = pd.DataFrame([regex.findall(n) for n in df_aux[columna].head(10000)])
    return m[0]

In [None]:
def existe_clave(key, columna, df_aux):    
    m = []
    for frase in df_aux[columna]:
        if key in frase:
            m.append(True)
        else:
            m.append(False)
    return sum(m)


In [None]:
# No se está utilizando mas desde que el dataset se encuentra en minúsculas y sin acentos
def quitar_caracteres(column):
    for i in range(len(column)):
        if type(column[i]) == str:
            column[i] = str.lower(unidecode.unidecode(column[i]))

In [None]:
# Cambia los literales numericos x floats. En caso de no detectar la clave en un diccionario, reemplaza por NaN.
# El reemplazo x NaN se hace para poder realizar operaciones.
# Mejoras: debiera recibir diccionario y lista_prop como parametros para dejar una función polimorfica. 
# Entrada: DataFrame
# Salida: DataFrame

def cambiar_x_nros(df):
    dic = {'mono': 1, 'un':1, 'uno':1, 'dos':2, 'tres':3, 'cuatro':4, 'cinco':5 ,'seis':6 ,'siete':7}
    lista_prop = ['mono','un','uno','dos','tres','cuatro','cinco','seis','siete']
    serie_1 = pd.Series([x if x not in lista_prop else dic.get(x) for x in df])
    serie_2 = pd.to_numeric(serie_1, errors='coerse', downcast='float') # coerse: pasa a NaN los no-numericos
    return pd.DataFrame(serie_2)

In [None]:
quitar_caracteres(df["place_name"])
quitar_caracteres(df["place_with_parent_names"])
quitar_caracteres(df["country_name"])
quitar_caracteres(df["state_name"])
quitar_caracteres(df["description"])
quitar_caracteres(df["title"])
