# Import de librerias

In [None]:
!pip install pyhive sqlalchemy
!pip install thrift
!pip install thrift_sasl
!pip install sqlalchemy pyhive thrift
!pip install psycopg2-binary
!pip install mysql-connector-python
!pip install mariadb
!pip install pymysql
!pip install py4j
!pip install thrift_sasl
!pip install elasticsearch
!pip install langdetect
!pip install googletrans
!pip install deep-translator
!pip install pymongo
!pip install pandas

## PostgresSQL
### Conexion postgre para crear tabla *viviendas*

In [None]:
import psycopg2
conn_postgre = psycopg2.connect( #Conexion a PostgresSQL
    dbname='postgres',
    user='hive',
    password='password',
    host='localhost',
    port='5432'
)

In [None]:
conn_postgre.autocommit=True
cursor = conn_postgre.cursor()

# Tabla viviendas
query = """ 
CREATE TABLE viviendas (
    propertyCode INT PRIMARY KEY,
    url VARCHAR(255),
    address VARCHAR(255),
    size FLOAT,
    floor VARCHAR(50),
    province VARCHAR(100),
    municipality VARCHAR(100),
    district VARCHAR(100),
    price FLOAT,
    rooms INT,
    hasLift BOOLEAN,
    hasParking BOOLEAN,
    hasTerrace BOOLEAN,
    hasSwimmingPool BOOLEAN,
    hasAirConditioning BOOLEAN,
    hasGarden BOOLEAN,
    bathrooms INT
);
 """
cursor.execute(query)

### Insercion datos en PostgresSQL

In [None]:
import pandas as pd
from sqlalchemy import create_engine
conn_postgre_insercion = create_engine('postgresql://hive:password@localhost:5432/postgres')

csv = pd.read_csv(r'../data/structured/vivienda.csv')

csv.to_sql(name='viviendas', con=conn_postgre_insercion, if_exists='replace', index=False)

## MariaDB
### Conexión Mariadb para crear tabla *location*

In [None]:
import mysql.connector
conn_mariadb = mysql.connector.connect(
    user="root",
    password="my_password",
    host="localhost",
    database="mariaGESDB",
    port="3307"
)

In [None]:
conn_mariadb.autocommit=True
cursor = conn_mariadb.cursor()
query = query = """ CREATE TABLE location (
    propertyCode INT PRIMARY KEY,
    latitude FLOAT,
    longitude FLOAT
);
 """
cursor.execute(query)

## Inserción datos en Mariadb

In [None]:
conn_mariadb_insercion = create_engine('mariadb+pymysql://root:my_password@localhost:3307/mariaGESDB')

csv_loc = pd.read_csv(r'../data/structured/location.csv')

csv_loc.to_sql(name='location', con=conn_mariadb_insercion, if_exists='replace', index=False)

## Hive
### Conexión a Hive y creación de tablas para acceso a datos de PostgresSQL y MariaDB

In [24]:
from pyhive import hive
try:
    conn = hive.Connection(host="hiveserver2", port=10000, username="hive", database="estructurados")
    cursor = conn.cursor()
    cursor.execute("SHOW TABLES")
    print(cursor.fetchall())
except Exception as e:
    print(f"Connection failed: {e}")

[('location_in_mariadb',), ('viviendas_in_postgres',)]


### Hive -> PostgresSQL

In [None]:
cursor.execute('''CREATE EXTERNAL TABLE IF NOT EXISTS VIVIENDAS_IN_POSTGRES (
    propertyCode INT,
    url STRING,
    address STRING,
    size FLOAT,
    `floor` STRING,
    province STRING,
    municipality STRING,
    district STRING,
    price FLOAT,
    rooms INT,
    hasLift BOOLEAN,
    hasParking BOOLEAN,
    hasTerrace BOOLEAN,
    hasSwimmingPool BOOLEAN,
    hasAirConditioning BOOLEAN,
    hasGarden BOOLEAN,
    bathrooms INT
)
STORED BY 'org.apache.hive.storage.jdbc.JdbcStorageHandler'
TBLPROPERTIES (
  "hive.sql.database.type" = "POSTGRES",
  "hive.sql.jdbc.url" = "jdbc:postgresql://hive4-postgres:5432/postgres",
  "hive.sql.dbcp.username" = "hive",
  "hive.sql.dbcp.password" = "password",
  "hive.sql.jdbc.driver" = "org.postgresql.Driver",
  "hive.sql.table" = "viviendas"
)
''')

In [None]:
import pandas as pd

# Ejecuta tu consulta
cursor.execute('''SELECT * FROM VIVIENDAS_IN_POSTGRES''')

# Obtén los resultados y conviértelos en un DataFrame
resultados = cursor.fetchall()
column_names = [desc[0] for desc in cursor.description]
df = pd.DataFrame(resultados, columns=column_names)

# Muestra el DataFrame en la notebook
df.head()  # Muestra las primeras filas del resultado


### Hive -> MariaDB

In [None]:
cursor.execute('''CREATE EXTERNAL TABLE IF NOT EXISTS LOCATION_IN_MARIADB (
    propertyCode INT,
    latitude STRING,
    longitude STRING
      
)
STORED BY 'org.apache.hive.storage.jdbc.JdbcStorageHandler'
TBLPROPERTIES (
  "hive.sql.database.type" = "MYSQL",
  "hive.sql.jdbc.url" = "jdbc:mariadb://hive4-mariadb:3306/mariaGESDB",
  "hive.sql.dbcp.username" = "root",
  "hive.sql.dbcp.password" = "my_password",
  "hive.sql.jdbc.driver" = "org.mariadb.jdbc.Driver",
  "hive.sql.table" = "location"
)
''')

In [None]:
import pandas as pd

# Ejecuta tu consulta
cursor.execute('''SELECT * FROM LOCATION_IN_MARIADB''')

# Obtén los resultados y conviértelos en un DataFrame
resultados = cursor.fetchall()
column_names = [desc[0] for desc in cursor.description]
df = pd.DataFrame(resultados, columns=column_names)

# Muestra el DataFrame en la notebook
df.head()  # Muestra las primeras filas del resultado

In [None]:
cursor.execute('''SELECT md.propertyCode, md.latitude, vp.haslift, vp.url
FROM LOCATION_IN_MARIADB as md 
INNER JOIN VIVIENDAS_IN_POSTGRES as vp 
ON md.propertyCode = vp.propertyCode ''')

# Obtén los resultados y conviértelos en un DataFrame
resultados = cursor.fetchall()
column_names = [desc[0] for desc in cursor.description]
df = pd.DataFrame(resultados, columns=column_names)

df.head()


# DATOS NO ESTRUCTURADOS

# Preprocesamiento

Primero, traducimos todas las descripciones que están en inglés al español, tras esto eliminamos algunos carácteres especiales como "!", "?" o "²" y ponemos todas las palabras en minúscula.

In [2]:
import pprint
import json
from elasticsearch import Elasticsearch

In [None]:
import json
from deep_translator import GoogleTranslator

# Cargar el JSON
with open('../data/unstructured/archivo.json', 'r', encoding='utf-8') as file:
    data = json.load(file)

# Traducir las descripciones en inglés a español
for item in data:
    description = item.get("description", "")
    if description:
        # Traducir directamente desde inglés a español
        try:
            translation = GoogleTranslator(source='en', target='es').translate(description)
            item["description"] = translation
            print(f'Description "{description}" ha sido traducida.')
        except Exception as e:
            print(f"Error al traducir '{description}': {e}")

# Guardar el JSON traducido
with open('../data/unstructured/archivo_traducido.json', 'w', encoding='utf-8') as file:
    json.dump(data, file, ensure_ascii=False, indent=4)

print("Traducción completada. Archivo guardado como 'archivo_traducido.json'.")


In [None]:
import unicodedata

def quitar_tildes(texto):
    # Descomponer los caracteres en su forma base
    texto_normalizado = unicodedata.normalize('NFD', texto)
    # Filtrar y eliminar caracteres diacríticos
    texto_sin_tildes = ''.join(
        char for char in texto_normalizado 
        if unicodedata.category(char) != 'Mn' and char not in '¡!¿?²³¨ºª'
    )
    return texto_sin_tildes.lower()

In [None]:
# Función para recorrer el JSON y aplicar quitar_tildes a cada descripción
def procesar_json(json_data):
    for item in json_data:
        if "description" in item:
            if item["description"]:
                item["description"] = quitar_tildes(item["description"])
    return json_data

# Ejemplo de uso con un JSON cargado desde un archivo
with open('../data/unstructured/archivo_traducido.json', 'r', encoding='utf-8') as file:
    data = json.load(file)

# Procesar el JSON
data_procesada = procesar_json(data)

# Guardar el JSON procesado en un nuevo archivo
with open('../data/unstructured/archivo_procesado.json', 'w', encoding='utf-8') as file:
    json.dump(data_procesada, file, ensure_ascii=False, indent=4)

## Elasticsearch
### Creamos la conexión con Elasticsearch

In [5]:
# Leer el archivo JSON original
with open("../data/unstructured/archivo_procesado.json", "r") as file:
    documents = json.load(file)


In [6]:
INDEX_NAME = "descripciones_index"

In [11]:
es = Elasticsearch("http://elasticsearch:9200")

### Creación del índice

In [12]:
mapping = {
     "mappings": {
         "properties": {
             "propertyCode": { "type": "text" }, 
             "description": { "type": "text" }
         }
     }
}
if not es.indices.exists(index=INDEX_NAME):
 es.indices.create(index=INDEX_NAME, body=mapping)
 print(f"Index '{INDEX_NAME}' created with mapping.")
else:
 print(f"Index '{INDEX_NAME}' already exists.")

Index 'descripciones_index' already exists.


In [None]:
es.indices.delete(index=INDEX_NAME)

In [None]:
from elasticsearch import Elasticsearch, helpers
import json

for doc in documents:
    res = es.index(index=INDEX_NAME, document=doc)
    print(res)

Ejemplo: Buscar todas las descripciones que contengas la palabra "codiciado"

In [None]:
res = es.search(index=INDEX_NAME, body={
    'query': {
        'match': {
            'description': 'luminoso'
        }
    }
})

print(json.dumps(res.body, indent=4))

QUERIES HACKATHON

¿Cuales son las viviendas cuya descripcion contiene "luminoso" con terraza, jardín o piscina, y cuales son los municipios con mas cantidad de viviendas de estas caracteristicas?

In [34]:
res = es.search(index=INDEX_NAME, body={
    'query': {
        'match': {
            'description': 'luminoso'
        }
    }
})

print(json.dumps(res.body, indent=4))

{
    "took": 80,
    "timed_out": false,
    "_shards": {
        "total": 1,
        "successful": 1,
        "skipped": 0,
        "failed": 0
    },
    "hits": {
        "total": {
            "value": 342,
            "relation": "eq"
        },
        "max_score": 2.6991498,
        "hits": [
            {
                "_index": "descripciones_index",
                "_id": "YToRIZMBhfj1IYFcIZGg",
                "_score": 2.6991498,
                "_source": {
                    "propertyCode": "105526724",
                    "description": "a escasos metros de las calles de goya y alcala, encontramos este amplio y luminoso piso exterior de 149m2 construidos. la vivienda transmite sensacion de espacio en cada una de sus estancias, y resulta muy agradable y luminosa gracias a su orientacion este al exterior y a los amplios patios interiores que banan de luz natural cada rincon de la casa. situado en una calle tranquila, pero a pocos minutos andando del corte ingles de goy

In [35]:
list_propery = []
for hit in res['hits']['hits']:
    property_code = hit['_source'].get('propertyCode') 
    list_propery.append(property_code)# Accede al campo 'propertyCode'
    print(property_code)    

property_code = pd.DataFrame(list_propery, columns=['propertyCode'])

105526724
105229239
106094454
105191525
105191525
104278555
104377549
105596269
105764161
106269224


In [31]:
import pandas as pd
cursor.execute('''SELECT md.propertyCode, vp.hasTerrace, vp.hasGarden, vp.hasSwimmingPool, md.latitude, md.longitude
FROM LOCATION_IN_MARIADB as md 
INNER JOIN VIVIENDAS_IN_POSTGRES as vp 
ON md.propertyCode = vp.propertyCode 
WHERE vp.hasTerrace= TRUE OR vp.hasGarden =TRUE OR vp.hasSwimmingPool = TRUE''')

# Obtén los resultados y conviértelos en un DataFrame
resultados = cursor.fetchall()
column_names = [desc[0] for desc in cursor.description]
df = pd.DataFrame(resultados, columns=column_names)

df.head()

Unnamed: 0,md.propertycode,vp.hasterrace,vp.hasgarden,vp.hasswimmingpool,md.latitude,md.longitude
0,105792251,True,False,False,40.4348221,-3.6939341
1,105376875,False,False,True,40.4168341,-3.6996125
2,106190483,True,True,True,40.4504015,-3.652252
3,104662130,True,True,True,40.4505033,-3.6418927
4,104079750,True,True,True,40.4603199,-3.6536889


In [None]:
resultado_final = pd.merge(df, list_propery, left_on='md.propertyCode', right_on='propertyCode', left_index=False, right_index=True, how='inner')
resultado_final.head()

¿Cúal es el precio medio en viviendas a reformar (descripcion) de mas de 100m2 y dos habitaciones?

In [None]:
res = es.search(index=INDEX_NAME, body={
    'query': {
        'match': {
            'description': 'a reformar'
        }
    }
})


print(json.dumps(res.body, indent=4))

In [None]:
list_propery = []
for hit in res['hits']['hits']:
    property_code = hit['_source'].get('propertyCode')
    list_propery.append(property_code)# Accede al campo 'propertyCode'
    print(property_code)

property_code = pd.DataFrame(list_propery, columns=['propertyCode'])

In [None]:
import pandas as pd
cursor.execute('''SELECT vp.propertyCode, vp.price
FROM VIVIENDAS_IN_POSTGRES as vp 
WHERE vp.size > 100 AND vp.rooms = 2''')

# Obtén los resultados y conviértelos en un DataFrame
resultados = cursor.fetchall()
column_names = [desc[0] for desc in cursor.description]
df = pd.DataFrame(resultados, columns=column_names)

df.head()

In [None]:
resultado_final = pd.merge(df, list_propery, left_on='vp.propertyCode', right_on='propertyCode', left_index=False, right_index=True, how='inner')
print(resultado_final['vp.price'].mean())

¿Cuál es la media y la desviacion tipica del precio por m2 en casas con piscina y aire acondicionado que contengan en la descripción XXXX y esten a menos de 10 Km del Parque del Retiro?

In [None]:
res = es.search(index=INDEX_NAME, body={
    'query': {
        'match': {
            'description': 'XXXXXXX'
        }
    }
})

print(json.dumps(res.body, indent=4))

In [None]:
list_propery = []
for hit in res['hits']['hits']:
    property_code = hit['_source'].get('propertyCode')
    list_propery.append(property_code)# Accede al campo 'propertyCode'
    print(property_code)

property_code = pd.DataFrame(list_propery, columns=['propertyCode'])

In [None]:
import pandas as pd
cursor.execute('''SELECT vp.propertyCode, vp.price, md.latitude, md.longitude
FROM LOCATION_IN_MARIADB as md 
FROM VIVIENDAS_IN_POSTGRES as vp 
WHERE vp.hasSwimmingPool = TRUE AND vp.hasAirConditioning = TRUE''')

# Obtén los resultados y conviértelos en un DataFrame
resultados = cursor.fetchall()
column_names = [desc[0] for desc in cursor.description]
df = pd.DataFrame(resultados, columns=column_names)

df.head()

In [None]:
resultado_final = pd.merge(df, list_propery, left_on='vp.propertyCode', right_on='propertyCode', left_index=False, right_index=True, how='inner')
print(resultado_final['vp.price'].mean())

In [None]:
!pip install geopy

In [None]:
from geopy.distance import geodesic
loc_retiro = (40.41553, -3.68447)

# Función para calcular la distancia al Retiro
def distancia_al_retiro(row):
    propiedad_coords = (row['latitude'], row['longitude'])
    return geodesic(loc_retiro, propiedad_coords).kilometers

resultado_final['distancia_retiro'] = resultado_final.apply(distancia_al_retiro, axis=1)
resultado_final['precio_por_m2'] = resultado_final['vp.price'] / resultado_final['vp.size']
resultado_final = resultado_final['distancia_retiro' < 10]

print(f"La el precio medio por m2 es: {resultado_final['precio_por_m2'].mean()} y la desviacion tipica es: {resultado_final['precio_por_m2'].std()}")
