# Proyecto ETL de Datos Inmobiliarios con Python
Flores Ledezma Fabricio Lennart 

In [1]:
# Importar la librería requests
import requests

# Definir la URL del archivo ZIP a descargar (reemplazar con la URL deseada)
url = 'URL_AQUI'

# Especificar la ruta local donde deseamos guardar el archivo ZIP.
# ¡Asegúrate de reemplazar 'TU_RUTA_LOCAL' con la ubicación deseada!
ruta_local = 'TU_RUTA_LOCAL/PPR-ALL.zip'

# Realizar la solicitud GET para descargar el archivo
response = requests.get(url)

# Verificar si la descarga fue exitosa
if response.status_code == 200:
    # Abrir el archivo en modo binario y escribir el contenido descargado
    with open(ruta_local, 'wb') as archivo_local:
        archivo_local.write(response.content)
        print(f'¡Archivo ZIP descargado y guardado en {ruta_local}!')
else:
    print('Error al descargar el archivo.')

¡Archivo ZIP descargado y guardado en C:/Users/fabri/Downloads/etl/PPR-ALL.zip!


In [2]:
# Importar el método requerido para trabajar con archivos ZIP
from zipfile import ZipFile

# Especificar la ruta local donde se guardó el archivo ZIP
ruta_local = 'TU_RUTA_LOCAL/PPR-ALL.zip'

# Verificar si el archivo ZIP existe en la ubicación local
with ZipFile(ruta_local, mode="r") as archivo_zip:
    # Obtener la lista de nombres de archivos dentro del archivo ZIP y mostrarla
    nombres_de_archivos = archivo_zip.namelist()
    print(nombres_de_archivos)
    
    # Extraer el archivo CSV del archivo ZIP descargado
    # Estamos extrayendo el primer archivo de la lista
    archivo_csv = nombres_de_archivos[0]
    
    # Utilizamos el método 'extract()' para extraer el archivo CSV del archivo ZIP
    ruta_csv_extraido = archivo_zip.extract(archivo_csv)
    
    # Imprimimos la ruta al archivo CSV extraído para verificar dónde se guardó
    print(f'Ruta del archivo CSV extraído: {ruta_csv_extraido}')

['ppr-all.csv']
Ruta del archivo CSV extraído: c:\Users\fabri\OneDrive\Escritorio\practice\ppr-all.csv


In [4]:
# Importo la biblioteca Pandas para trabajar con datos tabulares
import pandas as pd

# Defino el diccionario de mapeo de nombres de columnas
mapeo_nombres_columnas = {
    "Date of Sale (dd/mm/yyyy)": "date_of_sale",
    "Address": "address",
    "Postal Code": "postal_code",
    "County": "cities",
    "Price (€)": "price",
    "Description of Property": "description",
}

# Leo el archivo CSV utilizando la codificación 'windows-1252'.
# Asegúrate de reemplazar 'INSERTA_LA_RUTA_DEL_ARCHIVO_AQUÍ'
# con la ubicación de tu archivo CSV.
df = pd.read_csv('INSERTA_LA_RUTA_DEL_ARCHIVO_AQUÍ/ppr-all.csv', 
                 encoding='windows-1252')

# Renombro las columnas utilizando el diccionario de mapeo
df.rename(columns=mapeo_nombres_columnas, inplace=True)

# Muestro las primeras 15 filas del DataFrame con los nombres de columnas actualizados
df.head(15)

Unnamed: 0,date_of_sale,address,postal_code,cities,price,description
0,03/01/2021,"16 BURLEIGH COURT, BURLINGTON ROAD, DUBLIN 4",Dublin 4,Dublin,"€450,000.00",Second-Hand Dwelling house /Apartment
1,04/01/2021,"1 CASTLEGAL CROSS, CLIFFONEY, CO. SLIGO",,Sligo,"€148,000.00",Second-Hand Dwelling house /Apartment
2,04/01/2021,"1 PLAZA VIEW, FAIR GREEN, MALLOW",,Cork,"€158,590.30",New Dwelling house /Apartment
3,04/01/2021,"1 THE BIRCHES, TUAM, CO GALWAY",,Galway,"€153,000.00",Second-Hand Dwelling house /Apartment
4,04/01/2021,"11 RIVERVISTA, OUGHTERARD, GALWAY",,Galway,"€91,000.00",Second-Hand Dwelling house /Apartment
5,04/01/2021,"12 Oileain Na Cranoige.Cranogue Isl, Balbutche...",Dublin 11,Dublin,"€192,951.00",New Dwelling house /Apartment
6,04/01/2021,"13 ARDSALLAGH WOODS, ROSCOMMON, ROSCOMMON",,Roscommon,"€237,000.00",Second-Hand Dwelling house /Apartment
7,04/01/2021,"14 Oak Park Square, Oak Park, Craddockstown",,Kildare,"€290,748.88",New Dwelling house /Apartment
8,04/01/2021,"16 COIS TEAMPAILL, FOYNES ROAD, NEWCASTLE WEST",,Limerick,"€120,000.00",Second-Hand Dwelling house /Apartment
9,04/01/2021,"17 Belltree Lane, Beltree, Clonggriffin",,Dublin,"€343,612.00",New Dwelling house /Apartment


In [5]:
# Para limpiar la columna "price", eliminamos el símbolo de moneda 
# y otros caracteres no numéricos.
df['price'] = df['price'].str.replace('[^\d.]', '', regex=True)

# Luego, convertimos la columna "price" a tipo de dato numérico.
df['price'] = df['price'].astype(float)

# Para la columna "date_of_sale", la convertimos a tipo de dato fecha.
df['date_of_sale'] = pd.to_datetime(df['date_of_sale'], 
                                    format='%d/%m/%Y')

# Ahora, el DataFrame tiene las columnas 
# con los tipos de datos adecuados para el análisis.
# Muestro las primeras 15 filas con los tipos de datos actualizados
df.head(15)

Unnamed: 0,date_of_sale,address,postal_code,cities,price,description
0,2021-01-03,"16 BURLEIGH COURT, BURLINGTON ROAD, DUBLIN 4",Dublin 4,Dublin,450000.0,Second-Hand Dwelling house /Apartment
1,2021-01-04,"1 CASTLEGAL CROSS, CLIFFONEY, CO. SLIGO",,Sligo,148000.0,Second-Hand Dwelling house /Apartment
2,2021-01-04,"1 PLAZA VIEW, FAIR GREEN, MALLOW",,Cork,158590.3,New Dwelling house /Apartment
3,2021-01-04,"1 THE BIRCHES, TUAM, CO GALWAY",,Galway,153000.0,Second-Hand Dwelling house /Apartment
4,2021-01-04,"11 RIVERVISTA, OUGHTERARD, GALWAY",,Galway,91000.0,Second-Hand Dwelling house /Apartment
5,2021-01-04,"12 Oileain Na Cranoige.Cranogue Isl, Balbutche...",Dublin 11,Dublin,192951.0,New Dwelling house /Apartment
6,2021-01-04,"13 ARDSALLAGH WOODS, ROSCOMMON, ROSCOMMON",,Roscommon,237000.0,Second-Hand Dwelling house /Apartment
7,2021-01-04,"14 Oak Park Square, Oak Park, Craddockstown",,Kildare,290748.88,New Dwelling house /Apartment
8,2021-01-04,"16 COIS TEAMPAILL, FOYNES ROAD, NEWCASTLE WEST",,Limerick,120000.0,Second-Hand Dwelling house /Apartment
9,2021-01-04,"17 Belltree Lane, Beltree, Clonggriffin",,Dublin,343612.0,New Dwelling house /Apartment


In [6]:
# Contar la cantidad de valores NaN en la columna 'postal_code'
nan_count = df['postal_code'].isna().sum()

# Imprimir la cantidad de valores NaN
print("Cantidad de valores NaN en 'postal_code':", 
      nan_count)

# Reemplazar los valores NaN en 'postal_code' 
# con la palabra "Unknown"
df['postal_code'].fillna("Unknown", inplace=True)

# Mostrar las primeras 15 filas del DataFrame para verificar 
# que se realizaron los cambios correspondientes.
df.head(15)

Cantidad de valores NaN en 'postal_code': 9650


Unnamed: 0,date_of_sale,address,postal_code,cities,price,description
0,2021-01-03,"16 BURLEIGH COURT, BURLINGTON ROAD, DUBLIN 4",Dublin 4,Dublin,450000.0,Second-Hand Dwelling house /Apartment
1,2021-01-04,"1 CASTLEGAL CROSS, CLIFFONEY, CO. SLIGO",Unknown,Sligo,148000.0,Second-Hand Dwelling house /Apartment
2,2021-01-04,"1 PLAZA VIEW, FAIR GREEN, MALLOW",Unknown,Cork,158590.3,New Dwelling house /Apartment
3,2021-01-04,"1 THE BIRCHES, TUAM, CO GALWAY",Unknown,Galway,153000.0,Second-Hand Dwelling house /Apartment
4,2021-01-04,"11 RIVERVISTA, OUGHTERARD, GALWAY",Unknown,Galway,91000.0,Second-Hand Dwelling house /Apartment
5,2021-01-04,"12 Oileain Na Cranoige.Cranogue Isl, Balbutche...",Dublin 11,Dublin,192951.0,New Dwelling house /Apartment
6,2021-01-04,"13 ARDSALLAGH WOODS, ROSCOMMON, ROSCOMMON",Unknown,Roscommon,237000.0,Second-Hand Dwelling house /Apartment
7,2021-01-04,"14 Oak Park Square, Oak Park, Craddockstown",Unknown,Kildare,290748.88,New Dwelling house /Apartment
8,2021-01-04,"16 COIS TEAMPAILL, FOYNES ROAD, NEWCASTLE WEST",Unknown,Limerick,120000.0,Second-Hand Dwelling house /Apartment
9,2021-01-04,"17 Belltree Lane, Beltree, Clonggriffin",Unknown,Dublin,343612.0,New Dwelling house /Apartment


In [11]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 11999 entries, 0 to 11998
Data columns (total 6 columns):
 #   Column        Non-Null Count  Dtype         
---  ------        --------------  -----         
 0   date_of_sale  11999 non-null  datetime64[ns]
 1   address       11999 non-null  object        
 2   postal_code   11999 non-null  object        
 3   cities        11999 non-null  object        
 4   price         11999 non-null  float64       
 5   description   11999 non-null  object        
dtypes: datetime64[ns](1), float64(1), object(4)
memory usage: 562.6+ KB


In [None]:
# Importar las bibliotecas necesarias
import psycopg2
from sqlalchemy import create_engine

# Configura los parámetros de conexión a la base de datos PostgreSQL
host = "INSERTA_LA_DIRECCIÓN_DEL_SERVIDOR"
database = "INSERTA_EL_NOMBRE_DE_LA_BASE_DE_DATOS"
user = "INSERTA_EL_NOMBRE_DE_USUARIO"
password = "INSERTA_LA_CONTRASEÑA"

# Conectarse a la base de datos
conn = psycopg2.connect(host=host, database=database, user=user,
                        password=password)

# Crear un motor SQLAlchemy para insertar datos desde el archivo CSV
engine = create_engine(f'postgresql://{user}:{password}@{host}/{database}')


In [None]:
# Crear una tabla en la base de datos (si no existe)
# En este caso, ya se tenía la base de datos creada y solo hacía falta crear
# la tabla. Si en tu caso tanto la tabla como la base de datos ya están creadas,
# este paso no sería necesario.
create_table_query = """
CREATE TABLE IF NOT EXISTS datos_inmuebles (
    id SERIAL PRIMARY KEY,
    date_of_sale DATE,
    address VARCHAR(255),
    postal_code VARCHAR(10),
    cities VARCHAR(50),
    price NUMERIC(10, 2),
    description TEXT
);
"""
conn.cursor().execute(create_table_query)
conn.commit()

In [None]:
# Crear un archivo CSV con codificación 'windows-1252'
df.to_csv('data_inmuebles_windows1252.csv', index=False, 
          encoding='windows-1252')

# Leer los datos desde el archivo CSV con codificación 'windows-1252'
df = pd.read_csv('data_inmuebles_windows1252.csv', 
                 encoding='windows-1252')

# Insertar registros desde el DataFrame en la tabla
df.to_sql('datos_inmuebles', engine, if_exists='replace', 
          index=False)

# Cerrar la conexión
conn.close()