**NOTA: Variables filtradas por cada filtro**

Filtro a → Variable: id_anfitrion (se seleccionan 5 anfitriones distintos y se ordenan por ID).

Filtro b → Variable: antiguedad_host (solo registros con año de unión > 2020).

Filtro c → Variable: tiempo_respuesta_host (solo valores que indiquen respuesta en 1 día o menos).

Filtro d → Filas: múltiplos de 200 (400, 600, 800, …) en todo el dataset.

Filtro e → Variable: tipo_habitacion (solo registros con valores “Entire home/apt” o “Private room”).

Filtro f → Variable: camas (solo registros con ≤ 4 camas).

Filtro g → Variable: es_superhost (solo registros donde el host es superhost).

Filtro h → Columnas seleccionadas: todas las columnas con índice impar en pandas (1, 3, 5, …).

In [35]:
# Importar librerías
import pandas as pd
import os

In [36]:
# Configuración de rutas
INPUT_PATH = r"C:\Users\navae\OneDrive\Escritorio\Tec\Semestre 5\Plataformas de analítica de negocios para organizaciones\Clonación Github\Extraccion_de_Datos\Actividad 2.2\listings_filtrado_es.csv"
OUTPUT_DIR = r"C:\Users\navae\OneDrive\Escritorio\Tec\Semestre 5\Plataformas de analítica de negocios para organizaciones\Clonación Github\Extraccion_de_Datos\Actividad 2.2"

In [37]:
# Leer CSV
df = pd.read_csv(INPUT_PATH, low_memory=False)

In [38]:
# a) Registros de 5 “host” diferentes en orden
# Usamos 'id_anfitrion' en lugar de 'host_name'
filtro_a = df[df["id_anfitrion"].isin(df["id_anfitrion"].unique()[:5])]
filtro_a = filtro_a.sort_values(by="id_anfitrion")  # ordena para que salgan juntos
filtro_a.to_csv(os.path.join(OUTPUT_DIR, "Filtro_A.csv"), index=False)
print("a) Se filtraron 5 anfitriones distintos y se ordenaron por id_anfitrion (columna: id_anfitrion)")

a) Se filtraron 5 anfitriones distintos y se ordenaron por id_anfitrion (columna: id_anfitrion)


In [39]:
# b) Hosts que se unieron después de 2020 (antiguedad_host)
df["antiguedad_host"] = pd.to_datetime(df["antiguedad_host"], errors="coerce")
filtro_b = df[df["antiguedad_host"].dt.year > 2020]
filtro_b.to_csv(os.path.join(OUTPUT_DIR, "Filtro_B.csv"), index=False)
print("b) Se filtraron hosts con antigüedad después de 2020 (columna: antiguedad_host)")

b) Se filtraron hosts con antigüedad después de 2020 (columna: antiguedad_host)


In [40]:
# c) Hosts que responden a más tardar en 1 día (tiempo_respuesta_host)
filtro_c = df[df["tiempo_respuesta_host"].str.contains("day", case=False, na=False)]
filtro_c.to_csv(os.path.join(OUTPUT_DIR, "Filtro_C.csv"), index=False)
print("c) Se filtraron hosts con tiempo de respuesta <= 1 día (columna: tiempo_respuesta_host)")

c) Se filtraron hosts con tiempo de respuesta <= 1 día (columna: tiempo_respuesta_host)


In [41]:
# d) Filas múltiplos de 200 (400, 600, 800…)
filtro_d = df.iloc[::200, :]  # cada fila múltiplo de 200
filtro_d.to_csv(os.path.join(OUTPUT_DIR, "Filtro_D.csv"), index=False)
print("d) Se filtraron filas múltiplos de 200 (todas las columnas)")

d) Se filtraron filas múltiplos de 200 (todas las columnas)


In [42]:
# e) Tipos de cuarto: Entire home y Private room
filtro_e = df[df["tipo_habitacion"].isin(["Entire home/apt", "Private room"])]
filtro_e.to_csv(os.path.join(OUTPUT_DIR, "Filtro_E.csv"), index=False)
print("e) Se filtraron registros con tipo de habitación Entire home/apt o Private room (columna: tipo_habitacion)")

e) Se filtraron registros con tipo de habitación Entire home/apt o Private room (columna: tipo_habitacion)


In [43]:
# f) A lo mucho 4 camas (camas <= 4)
filtro_f = df[df["camas"] <= 4]
filtro_f.to_csv(os.path.join(OUTPUT_DIR, "Filtro_F.csv"), index=False)
print("f) Se filtraron registros con máximo 4 camas (columna: camas)")

f) Se filtraron registros con máximo 4 camas (columna: camas)


In [44]:
# g) Superhost (es_superhost = 't')
filtro_g = df[df["es_superhost"] == "t"]
filtro_g.to_csv(os.path.join(OUTPUT_DIR, "Filtro_G.csv"), index=False)
print("g) Se filtraron registros que son superhost (columna: es_superhost)")

g) Se filtraron registros que son superhost (columna: es_superhost)


In [45]:
# h) Columnas impares
filtro_h = df.iloc[:, 1::2]
filtro_h.to_csv(os.path.join(OUTPUT_DIR, "Filtro_H.csv"), index=False)
print("h) Se filtraron columnas impares del dataframe (todas las filas)")

h) Se filtraron columnas impares del dataframe (todas las filas)
