**<center><h1>HOUM</h1></center>**
<center>Jonathan Domínguez Aldana</center>

<br></br>

**Introducción:**

Houm es una startup que permite administrar, arrendar y vender propiedades rápido, seguro y fácil a miles de usuarios en Latinoamérica. En su desafío por entregar la mejor experiencia de usuarios, la empresa y su head de operaciones le pide hacer un estudio sobre el comportamiento de sus visitas en torno al clima. Es por esto que lo contactan a usted para dar respuestas a las preguntas de la compañía.

Carlos, nuestro data scientist, le informa que existen tres fuentes de información relevantes, las cuales contienen información de la operación que podrían ser de utilidad. Los tres archivos se detallan a continuación (presentes en el archivo dataset.zip adjunto):

<ul>
  <li><b>properties.csv: </b> Contiene información básica de las características de la propiedad y su información geográfica. Las columnas de este archivo son las siguientes: property_id, business_type, type, bedrooms, bathrooms, latitude, longitude, locality, city & country.</li>
  <li><b>users.csv: </b> Contiene la información de los propietarios y su relación con la propiedad. Las columnas de este archivo son las siguientes: property_id, user_id, name, last_name & country.</li>
  <li><b>visits.csv:</b> Contiene la información de los clientes que se han registrado en alguna visita a una propiedad. Las columnas de este archivo son las siguientes: schedule_id, property_id, begin_date, end_date, type_visit & status.</li>
</ul>

Por otro lado, Carlos le comenta que existe un servicio para obtener información de las condiciones climáticas de cada país. Se puede consultar este servicio por medio de su API, la cual esta documentada aquí. Se puede consultar la temperatura y clima de una localidad mediante la siguiente consulta. 

<br></br>

**Ejemplo de Request API Wheather VisualCrossing:**

﻿ https://weather.visualcrossing.com/VisualCrossingWebServices/rest/services/timeline/{lat},{lng}/{start_date}/{end_date}?key={API_KEY}&include=days

<br></br>

**Posibles condiciones climáticas retornada por la API:**

https://github.com/visualcrossing/WeatherApi/blob/master/lang/en.txt

**Nota:** Para la utilización de la api se debe proveer el siguiente API KEY. Esta tiene un límite de 1.000 registros al día. Debes registrarte en https://www.visualcrossing.com/sign-up para obtener la KEY.

<br></br>

**Preguntas del desafío:**

<ul>
<li>¿Cuántas visitas se realizaron en total?</li>
<li>¿Cuál es el promedio de propiedades por usuario?</li>
<li>¿Cuál era la temperatura promedio de todas las visitas que realizó el usuario con ID 2?</li>
<li>¿Cuál es la temperatura promedio de las visitas para los días con lluvia?</li>
<li>¿Cuál es la temperatura promedio para las visitas realizadas en la localidad de Suba?</li>
</ul>

**<h1>Importando Librerías</h1>**

Todas las librerías que serán requeridas para la solución de esta prueba técnica se enlistan a continuación:

In [114]:
import numpy as np
import pandas as pd
import requests
from tqdm import tqdm

**<h1>1. Extracción y Eploración de Datos:</h1>**

**<h3>1.1 Condiciones climáticas por API:</h3>**

Comenzaremos por realizar la conexión a la API. Para eso usaremos la librería de requests de Python. Vamos a realizar un ejercicio sencillo estableciendo datos de ubicación y de fechas como prueba. 

In [152]:
# Me gustaría ver datos de mi ciudad: Querétaro, México. 
lat = 20.835996656
lng = -99.85082993

# Podemos observar de la documentación de la API 
# que el formato de fecha es el universal: YYYY-MM-DD
# https://www.visualcrossing.com/resources/blog/how-to-load-historical-weather-data-using-python-without-scraping/
start_date = '2022-03-01'
end_date = '2022-03-31'

# No es la mejor manera de almacenar una llave privada
# sería mejor usar variables de entorno.
with open('api_key.txt', 'r') as f:
  API_KEY = f.readlines()[0]

# Let us look at the data from March
response = requests.get(f"https://weather.visualcrossing.com/VisualCrossingWebServices/rest/services/timeline/{lat},{lng}/{start_date}/{end_date}?key={API_KEY}&include=days")
print(response)
json_response = response.json()
json_response

<Response [200]>


{'address': '20.835996656,-99.85082993',
 'days': [{'cloudcover': 0.0,
   'conditions': 'Clear',
   'datetime': '2022-03-01',
   'datetimeEpoch': 1646114400,
   'description': 'Clear conditions throughout the day.',
   'dew': 32.6,
   'feelslike': 59.0,
   'feelslikemax': 78.9,
   'feelslikemin': 34.9,
   'humidity': 46.7,
   'icon': 'clear-day',
   'moonphase': 1.0,
   'precip': 0.0,
   'precipcover': None,
   'precipprob': 0.0,
   'preciptype': None,
   'pressure': 1020.6,
   'severerisk': 10.0,
   'snow': 0.0,
   'snowdepth': 0.0,
   'solarenergy': 19.7,
   'solarradiation': 274.6,
   'source': 'obs',
   'stations': ['MMQT', '76625099999'],
   'sunrise': '06:59:32',
   'sunriseEpoch': 1646139572,
   'sunset': '18:44:08',
   'sunsetEpoch': 1646181848,
   'temp': 59.7,
   'tempmax': 80.7,
   'tempmin': 37.3,
   'uvindex': 10.0,
   'visibility': 10.8,
   'winddir': 100.1,
   'windgust': 10.1,
   'windspeed': 18.3},
  {'cloudcover': 3.3,
   'conditions': 'Clear',
   'datetime': '2022-03

In [3]:
# Podemos ver que la llave "days" contiene todos los datos climáticos 
# que necesitamos. Corroboramos que sean los 31 días que recolectamos
print(f'Número de días recolectados: {len(json_response["days"])}')

Número de días recolectados: 31


**<h3>1.2 Propiedades:</h3>**

Ya que entendemos como están organizados los datos climatológicos de la API podemos proceder con el entendimiento de los datos de las propiedades.
<br></br>
Se hará un análisis exploratorio de los datos de propiedades para poder responder las preguntas del desafío:

In [4]:
properties = pd.read_csv('properties.csv')
print(properties.info())
print(properties.describe())

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 80 entries, 0 to 79
Data columns (total 15 columns):
 #   Column         Non-Null Count  Dtype  
---  ------         --------------  -----  
 0   property_id    80 non-null     int64  
 1   type_house     80 non-null     object 
 2   business_type  80 non-null     object 
 3   bedrooms       80 non-null     int64  
 4   bathrooms      80 non-null     int64  
 5   parking_lots   80 non-null     int64  
 6   services       19 non-null     float64
 7   balcony        80 non-null     int64  
 8   pool           80 non-null     bool   
 9   latitude       80 non-null     float64
 10  longitude      80 non-null     float64
 11  localidad      80 non-null     object 
 12  city           80 non-null     object 
 13  region         80 non-null     object 
 14  country        80 non-null     object 
dtypes: bool(1), float64(3), int64(5), object(6)
memory usage: 9.0+ KB
None
       property_id   bedrooms  bathrooms  parking_lots       services  \


Se puede ver que se tienen 80 propiedades registradas. Algunos insights que podemos  ver son los siguientes:

<ul>
  <li>Vemos que 61 propiedades no cuentan con servicios.</li>
  <li>Pareciera que las propiedades más grandes tienen 5 cuartos, 2 estacionamientos y hasta 4 baños. Una hipótesis de correlación con el precio  sería interesante de comprobar.</li>
  <li>Las propiedades más pequeñas tienen 1 cuarto, 1 estacionamiento y 1 baño.</li>
</ul>

**<h3>1.3 Usuarios:</h3>**

Vamos a dar un entendimiento superficial de los datos de los usuarios.


In [119]:
users = pd.read_csv('users.csv')
print(users.info())
print(users.describe())

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 80 entries, 0 to 79
Data columns (total 5 columns):
 #   Column       Non-Null Count  Dtype 
---  ------       --------------  ----- 
 0   property_id  80 non-null     int64 
 1   user_id      80 non-null     int64 
 2   first_name   80 non-null     object
 3   last_name    80 non-null     object
 4   address      80 non-null     object
dtypes: int64(2), object(3)
memory usage: 3.2+ KB
None
       property_id  user_id
count      80.0000  80.0000
mean       40.5000  40.5000
std        23.2379  23.2379
min         1.0000   1.0000
25%        20.7500  20.7500
50%        40.5000  40.5000
75%        60.2500  60.2500
max        80.0000  80.0000


Se observa que se tienen 80 usuarios, una cantidad igual al número de propiedades. En primera instancia, pareciera que cada propiedad pertenece a un solo usuario. Es decir, en nuestro modelo de datos se tiene una relación 1 a 1. Aún así, sería bueno comprobar que esta relación sea correcta.

Algo interesante que se podría hacer es extraer la dirección del usuario y calcular su ubicación geográfica, de tal forma que podamos ver la cercanía del usuario respecto a la propiedad.

**<h3>1.4 Visitas:</h3>**

Vamos a dar un entendimiento superficial de los datos de las visitas.

In [120]:
visits = pd.read_csv('visits.csv')
print(visits.info())
print(visits.describe())
print('Fecha de ingreso de la primera visita: ', visits.begin_date.min())
print('Fecha de ingreso de la última visita: ', visits.begin_date.max())
print('Valores de status: ', visits.status.unique())
print('Valores de tipo de visita: ', visits.type_visit.unique())

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 425 entries, 0 to 424
Data columns (total 6 columns):
 #   Column        Non-Null Count  Dtype 
---  ------        --------------  ----- 
 0   scheduled_id  425 non-null    int64 
 1   property_id   425 non-null    int64 
 2   begin_date    425 non-null    object
 3   end_date      425 non-null    object
 4   type_visit    425 non-null    object
 5   status        425 non-null    object
dtypes: int64(2), object(4)
memory usage: 20.0+ KB
None
        scheduled_id  property_id
count     425.000000   425.000000
mean   188094.894118    40.087059
std     13820.402675    22.943521
min    160130.000000     1.000000
25%    176671.000000    21.000000
50%    190273.000000    38.000000
75%    200307.000000    61.000000
max    208926.000000    80.000000
Fecha de ingreso de la primera visita:  2022-01-01T16:00:00-03:00
Fecha de ingreso de la última visita:  2022-02-28T21:00:00-03:00
Valores de status:  ['Cancelled' 'Done']
Valores de tipo de visita:

En este caso, vemos que nuestra relación es de uno a varios. Es decir, que se tienen varias visitas por propiedad. Además, algo interesante sería calcular el tiempo de estadía promedio de los visitantes en las propiedades.

**<h1>2. Preguntas del desafío:</h1>**

**<h3>2.1. ¿Cuántas visitas se realizaron en total?</h3>**

Si bien la pregunta no especifica, es importante destacar la diferencia entre visitas totales las cuales incluyen tanto las canceladas como las realizadas.

Para contestar esta pregunta se realizará el cálculo para los tres casos:
<ul>
  <li>Canceladas y realizadas</li>
  <li>Canceladas</li>
  <li>Realizadas</li>
</ul>

In [121]:
# Primer caso: total = canceladas + realizadas
num_total_visits = len(visits)
print(f'Total: {num_total_visits}')
num_cancelled_visits = len(visits.loc[visits["status"] == "Cancelled"])
print(f'Canceladas: {num_cancelled_visits}')
num_done_visits = len(visits.loc[visits["status"] == "Done"])
print(f'Realizadas: {num_done_visits}')

# Verificamos que haga sentido el cálculo
print(num_total_visits == num_done_visits + num_cancelled_visits)

Total: 425
Canceladas: 286
Realizadas: 139
True


**RESPUESTA :**

<ul>
<li>Total de visitas: 425</li>
<li>Visitas Canceladas: 286</li>
<li>Visitas Realizadas: 139</li>
</ul>

**<h3>2.2. ¿Cuál es el promedio de propiedades por usuario?</h3>**

Para responder esta pregunta lo primero que tenemos que hacer es verificar el número de propiedades únicas por ID en la tabla de "properties" y compararlo con el número de propiedades únicas en la tabla de "users". De esta manera nos aseguramos si es una correspondencia 1 a 1.

In [122]:
unique_properties = set(properties.property_id.unique())
print(f'Número de propiedades por ID únicas: {len(unique_properties)}')

unique_properties_in_users = set(users.property_id.unique())
print(f'Número de propiedades por ID únicas: {len(unique_properties)}')

print(f'Do we have the same properties? --> {unique_properties == unique_properties_in_users}')

Número de propiedades por ID únicas: 80
Número de propiedades por ID únicas: 80
Do we have the same properties? --> True


Con esto podemos hacer una agrupación por usuario y contar el número de propiedades que tiene cada usuario. De esta forma podremos sacar el promedio de propiedades por usuario:

In [181]:
num_properties_by_user = users.groupby(by='user_id').property_id.count()
print(num_properties_by_user)
print(f'\nPromedio de propiedades por usuario: {num_properties_by_user.mean()}')

user_id
1     1
2     1
3     1
4     1
5     1
     ..
76    1
77    1
78    1
79    1
80    1
Name: property_id, Length: 80, dtype: int64

Promedio de propiedades por usuario: 1.0


**RESPUESTA :**

<ul>
<li>Número de propiedades por usuario: 1</li>
</ul>

**<h3>2.3. ¿Cuál era la temperatura promedio de todas las visitas que realizó el usuario con ID 2?</h3>**

Para responder esta pregunta, lo primero que tenemos que hacer es realizar un right join donde la tabla izquierda sería la de usuarios y la tabla de la derecha sería la de visitas. La razón radica en que por usuario tenemos una sola propiedad y por propiedad tenemos varias visitas.

Aún así, queremos tener toda la información disponible (usuarios, propiedades y visitas) en una sola tabla ya que requerimos las latitudes y longitudes para extraer las temperaturas por usuario. Así entonces haremos dos joins consecutivos lo que nos permitirá saber todas las visitas realizadas de un determinado usuario.

In [182]:
# Garantizamos que sean las mismas propiedades 
# también para la tabla de visits.
print('\nSon las mismas propiedades en las tres tablas? --> ' ,
      set(visits.property_id) == set(properties.property_id) == set(users.property_id))
print()

# Hacemos el primer inner join entre "users" y "properties"
users_and_properties = pd.merge(left=users, 
                                right=properties, 
                                how='inner', 
                                on=['property_id', 'property_id'])
print(users_and_properties.info())
print()

# Hacemos el segundo join con "visits"
houm_data = pd.merge(left=users_and_properties, 
                     right=visits, 
                     how='right',
                     on='property_id')
print(houm_data.info())


Son las mismas propiedades en las tres tablas? -->  True

<class 'pandas.core.frame.DataFrame'>
Int64Index: 80 entries, 0 to 79
Data columns (total 19 columns):
 #   Column         Non-Null Count  Dtype  
---  ------         --------------  -----  
 0   property_id    80 non-null     int64  
 1   user_id        80 non-null     int64  
 2   first_name     80 non-null     object 
 3   last_name      80 non-null     object 
 4   address        80 non-null     object 
 5   type_house     80 non-null     object 
 6   business_type  80 non-null     object 
 7   bedrooms       80 non-null     int64  
 8   bathrooms      80 non-null     int64  
 9   parking_lots   80 non-null     int64  
 10  services       19 non-null     float64
 11  balcony        80 non-null     int64  
 12  pool           80 non-null     bool   
 13  latitude       80 non-null     float64
 14  longitude      80 non-null     float64
 15  localidad      80 non-null     object 
 16  city           80 non-null     object 
 1

Ahora si obtenemos las propiedades y visitas del usuario con ID 2:

In [125]:
user_2_data = houm_data.loc[houm_data['user_id'] == 2]
user_2_data

Unnamed: 0,property_id,user_id,first_name,last_name,address,type_house,business_type,bedrooms,bathrooms,parking_lots,...,longitude,localidad,city,region,country,scheduled_id,begin_date,end_date,type_visit,status
177,34,2,Art,Venere,8 W Cerritos Ave #54,departamento,Rental,1,1,0,...,-74.0735,Teusaquillo,Bogotá,Región De Cundinamarca,Colombia,186033,2022-01-29T12:00:00-03:00,2022-01-29T14:00:00-03:00,Visit,Cancelled
178,34,2,Art,Venere,8 W Cerritos Ave #54,departamento,Rental,1,1,0,...,-74.0735,Teusaquillo,Bogotá,Región De Cundinamarca,Colombia,187080,2022-01-28T11:00:00-03:00,2022-01-29T01:00:00-03:00,Visit,Done
179,34,2,Art,Venere,8 W Cerritos Ave #54,departamento,Rental,1,1,0,...,-74.0735,Teusaquillo,Bogotá,Región De Cundinamarca,Colombia,186857,2022-01-28T11:30:00-03:00,2022-01-28T14:00:00-03:00,Visit,Done
180,34,2,Art,Venere,8 W Cerritos Ave #54,departamento,Rental,1,1,0,...,-74.0735,Teusaquillo,Bogotá,Región De Cundinamarca,Colombia,180698,2022-01-22T20:00:00-03:00,2022-01-22T22:00:00-03:00,Visit,Cancelled
181,34,2,Art,Venere,8 W Cerritos Ave #54,departamento,Rental,1,1,0,...,-74.0735,Teusaquillo,Bogotá,Región De Cundinamarca,Colombia,177506,2022-01-23T13:00:00-03:00,2022-01-23T15:00:00-03:00,Visit,Cancelled
182,34,2,Art,Venere,8 W Cerritos Ave #54,departamento,Rental,1,1,0,...,-74.0735,Teusaquillo,Bogotá,Región De Cundinamarca,Colombia,178172,2022-01-21T18:00:00-03:00,2022-01-21T20:00:00-03:00,Visit,Cancelled
183,34,2,Art,Venere,8 W Cerritos Ave #54,departamento,Rental,1,1,0,...,-74.0735,Teusaquillo,Bogotá,Región De Cundinamarca,Colombia,177505,2022-01-23T09:00:00-03:00,2022-01-23T11:00:00-03:00,Visit,Cancelled


Observamos que es la misma propiedad en las 7 visitas, por lo que lo único que cambia son las fechas en las que ingreso y salió en cada visita. Realizaremos una función que nos permitirá extraer la temperatura promedio en un rango de fechas específico y para una latitud y longitud concretas:

In [126]:
def get_tmp_avg_by_date_range(start_date: str, 
                              end_date: str, 
                              lat: float, 
                              lng: float) -> float:
  """
    Returns the average temperature value for a specific time interval
    specified between a starting date and an ending date. Furthermore,
    it extracts the average temperature from the corresponding location
    specified by latitude and longitude coordinates.

    API used: https://www.visualcrossing.com/weather-api 

    params: 
      start_date: starting date with string format 'YYYY-MM-dd'
      end_date:   ending date with string format 'YYYY-MM-dd' 
      lat:        latitude coordinate
      lng:        longitude coordinate
    
    returns
      avg_temp: average temperature in the specific time interval and location. 
  """

  # Get data from API 
  with open('api_key.txt', 'r') as f:
    API_KEY = f.readlines()[0]
  response = requests.get(f"https://weather.visualcrossing.com/VisualCrossingWebServices/rest/services/timeline/{lat},{lng}/{start_date}/{end_date}?key={API_KEY}&include=days")
  json_response = response.json()

  # Extract all temperatures registered in that time interval
  climate_days = json_response["days"]
  temperatures = [climate_day['temp'] for climate_day in climate_days]

  # Return mean temperature
  return np.mean(temperatures)

# Testing the function using the first visit of user 2
first_visit = user_2_data.iloc[0]
first_visit_start_date = first_visit.begin_date.split('T')[0]
first_visit_end_date = first_visit.end_date.split('T')[0]
first_visit_lat = first_visit.latitude
first_visit_lng = first_visit.longitude

avg_tmp_first_visit = get_tmp_avg_by_date_range(start_date=first_visit_start_date, 
                                                end_date=first_visit_end_date,
                                                lat=first_visit_lat, 
                                                lng=first_visit_lng)
print(f'First visit average temperature: {avg_tmp_first_visit}')

First visit average temperature: 56.1


Ya que pudimos encapsular la lógica para obtener la temperatura promedio por visita, ahora podemos usarla para sacar las temperaturas promedios de todas las visitas de cualquier usuario:

In [127]:
def get_avg_tmp_visit(data: pd.DataFrame, 
                      user_id: int, 
                      scheduled_id: int) -> float:
  """
    Returns the average temperature for the ellapsed time for a specific visit 
    related to any user.

    params: 
      data:           DataFrame containing data of properties, users and visits
      user_id:        id for a specific user. 
      scheduled_id:   id to recognize a specific visit 
    
    returns
      avg_temp: average temperature of a specific visit related to a user.
  """

  # Extract data related to the specific user
  user_data = houm_data.loc[houm_data['user_id'] == user_id]

  # Get visit dates and location of the property to extract temperature
  visit = user_data.loc[user_data['scheduled_id'] == scheduled_id]
  visit_start_date = visit.begin_date.values[0].split('T')[0]
  visit_end_date = visit.end_date.values[0].split('T')[0]
  visit_lat = visit.latitude.values[0]
  visit_lng = visit.longitude.values[0]

  # Extract mean temperature
  avg_tmp_visit = get_tmp_avg_by_date_range(start_date=visit_start_date,
                                            end_date=visit_end_date,
                                            lat=visit_lat,
                                            lng=visit_lng)
  
  return avg_tmp_visit
  
# Testing the function for a random visit of user 2
user_id = 2
random_idx = np.random.choice(len(user_2_data))
scheduled_id = user_2_data.iloc[random_idx].scheduled_id
print(f'Random scheduled id: {scheduled_id}')

avg_visit_tmp = get_avg_tmp_visit(houm_data,
                                  user_id=user_id,
                                  scheduled_id=scheduled_id)
print(avg_visit_tmp)

Random scheduled id: 187080
57.2


Finalmente podemos usar está última función para encontrar la respuesta final: la temperatura promedio de todas las visitas que realizó el usuario 2. De hecho, esta lógica nos permite dar respuesta para cualquier usuario en los datos.

In [128]:
#Input
user_id = 2

# Get user data
user_data = houm_data.loc[houm_data['user_id'] == user_id]
scheduled_ids = user_data['scheduled_id'].to_list()

# Extract average temperature per each visit for that user
avg_visit_tmps = {}
for scheduled_id in scheduled_ids:
  avg_visit_tmps[scheduled_id] = get_avg_tmp_visit(houm_data,
                                                   user_id=user_id,
                                                   scheduled_id=scheduled_id)
  
print(f'Temperatures per visit for user {user_id}: {avg_visit_tmps}')
print(f'Mean temperature for all visits: {np.mean(np.mean(list(avg_visit_tmps.values())))}')

Temperatures per visit for user 2: {186033: 56.1, 187080: 57.2, 186857: 58.3, 180698: 58.1, 177506: 59.3, 178172: 57.7, 177505: 59.3}
Mean temperature for all visits: 58.0


**RESPUESTA :**

<ul>
<li>Temperatura promedio de todas las visitas que realizó el usuario con ID 2: 58.0</li>
</ul>

**<h3>2.4. ¿Cuál es la temperatura promedio de las visitas para los días con lluvia??</h3>**

Lo primero que se puede hacer para saber si hay lluvia es revisar dos campos en la API:

<ul>
  <li>condition</li>
  <li>precip</li>
</ul>

Para eso vamos a extraer todos los días de un mes y ver si en efecto esos dos campos nos permitirían saber si llovió o no.

In [184]:
start_date = '2022-02-01'
end_date = '2022-02-28'

with open('api_key.txt', 'r') as f:
  API_KEY = f.readlines()[0]

response = requests.get(f"https://weather.visualcrossing.com/VisualCrossingWebServices/rest/services/timeline/{lat},{lng}/{start_date}/{end_date}?key={API_KEY}&include=days")
json_response = response.json()
print(f'Número de días recolectados: {len(json_response["days"])}')

Número de días recolectados: 28


In [185]:
# Extraemos ambos campos y vemos los valores únicos
rain_data = {day['datetime']: {'condition': day['conditions'], 'precip': day['precip']}
             for day in json_response["days"]}
rain_df = pd.DataFrame.from_dict(rain_data).T
print(rain_df.head(5))
print(f'Unique conditions: {rain_df.condition.value_counts()}')

                         condition precip
2022-02-01  Rain, Partially cloudy   0.06
2022-02-02  Rain, Partially cloudy   0.08
2022-02-03  Rain, Partially cloudy   0.06
2022-02-04  Rain, Partially cloudy   0.11
2022-02-05  Rain, Partially cloudy   0.17
Unique conditions: Rain, Partially cloudy    28
Name: condition, dtype: int64


Vemos que si podemos usar el campo "condition" para extraer aquellos días que fueron lluviosos. Por lo tanto, vamos a hacer la lógica que nos permita extraer todas aquellas visitas que tuvieron lluvia.

In [166]:
def get_rainy_visits(data: pd.DataFrame) -> pd.DataFrame:
  """
    Returns a DataFrame with all visits when it rained.

    params: 
      data:           DataFrame containing data of properties, users and visits
    
    returns
      rainy_visits:   DataFrame with all visits when it rained. 
  """

  # Getting API key
  with open('api_key.txt', 'r') as f:
    API_KEY = f.readlines()[0]

  # Initializing list of visits when it rained
  rainy_visits = []

  # Let us process each visit individually to determine whether it rained or not
  # during that date
  for i in tqdm(range(len(data))):

    # Get visit data
    visit = data.iloc[i]
    lat = visit['latitude']
    lng = visit['longitude']
    start_date = visit['begin_date'].split('T')[0]
    end_date = visit['end_date'].split('T')[0]

    # Get data from API using visit dates and location
    response = requests.get(f"https://weather.visualcrossing.com/VisualCrossingWebServices/rest/services/timeline/{lat},{lng}/{start_date}/{end_date}?key={API_KEY}&include=days")
    json_response = response.json()

    # Extract all climate data registered in time interval
    climate_days = json_response["days"]

    # Define array of ones and zeros where each position represents a day. 
    # One represents that it rained at least one day 0 means it did not rain
    rain_array =  np.array([  1 if 'rain' in day['conditions'].lower() 
                              else 0 
                              for day in climate_days ])
    
    it_rained = np.isin(1, rain_array).tolist()

    if it_rained:
      # We add rainy conditions and temperature
      visit = visit.append(pd.Series({'rainy_conditions': 
                                      str([day['conditions'] for day in climate_days ])}))
      visit = visit.append(pd.Series({'temperature':
                                      np.mean([day['temp'] for day in json_response['days']])}))
      rainy_visits.append(visit)

  return rainy_visits

# Test function
rainy_visits = get_rainy_visits(houm_data)

print(f'Número de visitas lluviosas: {len(rainy_visits)}')
print(f'Total de visitas lluviosas: {len(houm_data)}')

100%|██████████| 425/425 [00:46<00:00,  9.06it/s]

Número de visitas lluviosas: 379
Total de visitas lluviosas: 425





Si vemos el número de días que llovieron podemos ver que fueron 379, lo cual representa una gran proporción de días lluviosos. Por lo tanto, se hará una verificación sacando la estadística de ubicaciones y días de todas las visitas en las que llovió.

In [192]:
# Transform list of Series to DataFrame for an easier manipulation
rainy_visits_df = pd.concat(rainy_visits, axis=1, keys=[s.name for s in rainy_visits]).T

print(f'\nNúmero de días de lluvia por ubicación:\n\n{rainy_visits_df.address.value_counts()}')
print(f'\nDías cuando llovío:\n\n{rainy_visits_df.begin_date.str.split("T").str[0].value_counts()}')
print('\nTodas las condiciones de lluvia en eso días y ubicaciones:\n')
rainy_visits_df.rainy_conditions.unique()


Número de días de lluvia por ubicación:

1088 Pinehurst St       10
762 S Main St           10
34 Center St            10
322 New Horizon Blvd     9
775 W 17th St            9
                        ..
128 Bransten Rd          1
6 Kains Ave              1
4545 Courthouse Rd       1
2 Cedar Ave #84          1
74874 Atlantic Ave       1
Name: address, Length: 76, dtype: int64

Días cuando llovío:

2022-02-12    19
2022-02-28    15
2022-02-21    14
2022-01-23    14
2022-01-14    14
2022-02-19    13
2022-02-26    13
2022-01-10    12
2022-01-20    11
2022-02-02    10
2022-02-24    10
2022-01-24    10
2022-02-05     9
2022-02-07     9
2022-01-17     9
2022-01-18     9
2022-02-20     9
2022-01-26     8
2022-02-08     8
2022-02-13     8
2022-01-13     8
2022-02-27     8
2022-02-03     8
2022-02-17     8
2022-01-11     8
2022-02-16     8
2022-01-21     7
2022-01-29     7
2022-01-28     7
2022-02-22     6
2022-02-06     6
2022-01-12     6
2022-01-15     6
2022-01-25     6
2022-02-14     5
2022

array(["['Rain, Partially cloudy']",
       "['Partially cloudy', 'Rain, Partially cloudy']",
       "['Rain, Partially cloudy', 'Rain, Partially cloudy']"],
      dtype=object)

Con esto garantizamos que llovió en todas esas ubicaciones y en esos días. Ahora procedemos a calcular la temperatura promedio:

In [195]:
print(f'\nNúmero de temperaturas promedio por visitas que tuvieron lluvia:\n {len(rainy_visits_df)}')
print(f'\nTodas las temperaturas promedio:\n {rainy_visits_df.temperature.to_list()}')
print(f'\nTemperatura promedio global:\n {rainy_visits_df.temperature.mean()}')


Número de temperaturas promedio por visitas que tuvieron lluvia:
 379

Todas las temperaturas promedio:
 [55.1, 58.9, 58.1, 59.0, 59.0, 55.1, 57.7, 55.1, 55.8, 58.2, 58.2, 56.1, 56.1, 55.2, 55.7, 57.6, 56.1, 57.7, 56.0, 55.2, 58.1, 59.0, 56.0, 55.5, 56.0, 56.1, 56.0, 57.3, 55.3, 56.0, 55.3, 57.7, 56.0, 55.9, 58.0, 58.0, 55.5, 58.8, 57.8, 59.1, 57.5, 58.0, 57.5, 55.4, 56.0, 57.4, 55.9, 57.2, 55.9, 55.9, 55.8, 59.3, 57.7, 59.1, 58.2, 58.2, 59.3, 57.7, 56.1, 55.4, 57.35, 56.2, 57.3, 56.2, 57.3, 54.9, 56.3, 57.5, 56.3, 58.0, 56.1, 58.0, 58.2, 56.1, 56.75, 55.9, 55.1, 57.7, 57.7, 55.9, 55.9, 57.4, 55.4, 57.6, 56.0, 56.0, 56.0, 59.6, 59.6, 55.6, 57.4, 58.0, 58.0, 58.0, 58.8, 57.9, 57.2, 54.8, 57.5, 57.4, 57.7, 55.9, 55.9, 57.5, 56.0, 56.4, 56.4, 56.4, 56.4, 59.5, 59.4, 55.2, 55.5, 58.0, 59.2, 59.2, 57.8, 57.9, 57.5, 55.5, 56.1, 55.7, 56.0, 56.3, 55.7, 57.6, 57.8, 57.7, 56.3, 56.3, 57.3, 57.3, 58.0, 56.1, 57.2, 58.3, 58.1, 59.3, 57.7, 59.3, 59.1, 58.0, 58.0, 58.0, 58.0, 57.5, 57.8, 57.2, 57.

**RESPUESTA:**

Temperatura promedio de las visitas para los días con lluvia: 57.30725593667546

**<h3>2.5. ¿Cuál es la temperatura promedio para las visitas realizadas en la localidad de Suba?</h3>**

Esta pregunta se puede responder haciendo una segmentación de datos solo de la localidad mencionada. Este código nos sirve para obtener la temperatura promedio de todas las visitas hechas en cualquier localidad.

In [177]:
# Input
location = 'Suba'

# Initializing visits from that location with average temperatures
location_visits_with_temp = []

# Get all data from the specified location
location_data = houm_data.loc[houm_data['localidad'] == location]
print(f'Total number of registries for location of {location}: {len(location_data)}')

# Getting API key
with open('api_key.txt', 'r') as f:
  API_KEY = f.readlines()[0]

# Let us use our previous definition to extract average temperatures
for i in tqdm(range(len(location_data))):
  
  # Get visit data
  visit = location_data.iloc[i]
  lat = visit['latitude']
  lng = visit['longitude']
  start_date = visit['begin_date'].split('T')[0]
  end_date = visit['end_date'].split('T')[0]

  # Get data from API using visit dates and location
  response = requests.get(f"https://weather.visualcrossing.com/VisualCrossingWebServices/rest/services/timeline/{lat},{lng}/{start_date}/{end_date}?key={API_KEY}&include=days")
  json_response = response.json()

  # Extract all climate data registered in time interval
  climate_days = json_response["days"]

  # We use our previous definition
  avg_tmp = get_tmp_avg_by_date_range(start_date=start_date,
                                      end_date=end_date,
                                      lat=lat,
                                      lng=lng)
  
  # Add average temperature
  visit = visit.append(pd.Series({'temperature': avg_tmp}))
  location_visits_with_temp.append(visit)
  
location_visits_with_temp_df = pd.concat(location_visits_with_temp, 
                                         axis=1, 
                                         keys=[s.name for s in location_visits_with_temp]).T

print(location_visits_with_temp_df.head(5))

Total number of registries for location of Suba: 86


100%|██████████| 86/86 [00:19<00:00,  4.39it/s]

    property_id user_id first_name last_name           address    type_house  \
NaN           4      23    Maryann   Royster  74 S Westgate St  departamento   
NaN           9      27    Ezekiel      Chui   2 Cedar Ave #84  departamento   
NaN           9      27    Ezekiel      Chui   2 Cedar Ave #84  departamento   
NaN           9      27    Ezekiel      Chui   2 Cedar Ave #84  departamento   
NaN           9      27    Ezekiel      Chui   2 Cedar Ave #84  departamento   

     business_type bedrooms bathrooms parking_lots  ... localidad    city  \
NaN  Rental & Sale        3         2            1  ...      Suba  Bogotá   
NaN         Rental        3         1            0  ...      Suba  Bogotá   
NaN         Rental        3         1            0  ...      Suba  Bogotá   
NaN         Rental        3         1            0  ...      Suba  Bogotá   
NaN         Rental        3         1            0  ...      Suba  Bogotá   

                     region   country scheduled_id      




Ahora procedemos a calcular la temperatura promedio:

In [199]:
print(f'\nNúmero de temperaturas promedio registradas en la localidad de {location}:\n {len(location_visits_with_temp_df)}')
print(f'\nTodas las temperaturas promedio de la localidad de {location}:\n {location_visits_with_temp_df.temperature.to_list()}')
print(f'\nTemperatura global promedio de las visitas hechas en la localidad de {location}:\n {location_visits_with_temp_df.temperature.mean()}')


Número de temperaturas promedio registradas en la localidad de Suba:
 86

Todas las temperaturas promedio de la localidad de Suba:
 [57.8, 55.2, 55.9, 57.6, 57.7, 59.3, 56.7, 56.7, 59.3, 56.2, 57.3, 56.2, 57.3, 58.6, 58.6, 57.7, 57.7, 57.7, 55.9, 55.9, 57.3, 57.3, 55.1, 58.0, 59.5, 59.6, 59.6, 59.6, 59.5, 59.5, 55.5, 57.2, 59.0, 57.2, 55.5, 55.8, 55.8, 55.3, 59.6, 59.5, 59.5, 56.0, 58.7, 58.7, 59.3, 59.5, 56.5, 55.4, 59.3, 55.6, 58.8, 58.8, 59.0, 59.0, 57.4, 57.4, 57.6, 57.2, 57.8, 55.35, 57.4, 55.8, 55.8, 55.6, 59.1, 59.1, 56.4, 57.7, 57.2, 55.2, 55.7, 57.4, 57.4, 57.4, 57.4, 59.2, 59.3, 59.3, 57.6, 59.5, 59.5, 56.9, 57.9, 58.6, 56.9, 56.9]

Temperatura global promedio de las visitas hechas en la localidad de Suba:
 57.60174418604649


**RESPUESTA:**

Temperatura promedio para las visitas realizadas en la localidad de Suba: 57.60174418604649

**CONCLUSIÓN:**

Fue un excelente reto técnico. La mayor parte del esfuerzo se enfoco en el entendimiento de la API y la extracción de datos de la misma. Así mismo, una limitante importante fue el umbral máximo permitido de "requests" que se podían hacer a la misma por día. Debido a esto, se observan varias mejoras de optimización que se podrían hacer en el futuro:

<ul>
  <li>Se pudo haber hecho la extracción de datos de la API para todas las visitas, en lugar de repetir la extracción en cada pregunta. Evidentemente, debido a que es un desafío técnico se repitió la lógica para reiterar el procedimiento de extracción, transformación y carga en cada pregunta</li>
  <li>Hubo una gran repetiión de código, lo que significa que se pudo haber encapsulado aún más la lógica en nuevas funciones.</li>
</ul>

Finalmente, solo me queda decir que me siento muy emocionado de poder trabajar en Houm y colaborar con un gran equipo de datos para lograr que la empresa crezca tecnológicamente y se convierta en un referente mundial en la venta y renta de propiedades.

Espero poder formar parte de la familia de Houm.