In [2]:
import pandas as pd
import zipfile

## Introducción 

Este proyecto quiere utilizar el auge positivo del mundo inmobiliario, intentando darle una solución aquellas aplicaciones que se dedican a la venta y alquileres de departamentos, casas y otras propiedades.

Problema:
 En una gran inmobiliaria, estan realizando una modernización para llegar ampliar su alcance a mayores clientes, incorporando la tecnologia. Para ello, estan creando un sotware innovador para publicar, vender, alquilar y realizar otras operaciones. Una de las actualizaciones es la tarea de los tasadores, que estan llevando su rol de manera tradicional, un proceso díficil y a veces subjetivo.

Solución:
 Para dar una respuesta a ello, se propondrá crear un modelo de Machine Learning que a ciertas caracteristicas de las propiedaes, prediga el precio de los inmuebles. 

Dataset original: data_properati

El dataset contiene información sobre propiedades y sus caracterticas dentro de Latinoamerica. A continuación, se describe cada columna:

| **Columna**        | **Descripción**                                                                 | **Tipo**                 |
|--------------------|---------------------------------------------------------------------------------|--------------------------|
| **id**            | Identificador único de cada propiedad.                                           | Categórico (String)      |
| **ad_type**       | Tipo de anuncio (si corresponde a una propiedad en alquiler o venta).           | Categórico (String)      |
| **start_date**    | Fecha en la que se publicó el anuncio.                                          | Categórico (String)      |
| **end_date**      | Fecha en la que el anuncio dejó de estar disponible.                            | Categórico (String)      |
| **created_on**    | Fecha de creación del registro en la base de datos.                            | Categórico (String)      |
| **lat**          | Latitud de la ubicación de la propiedad.                                        | Numérico (Flotante)      |
| **lon**          | Longitud de la ubicación de la propiedad.                                       | Numérico (Flotante)      |
| **l1**           | País en el que se encuentra la propiedad.                                       | Categórico (String)      |
| **l2**           | Provincia o estado donde se encuentra la propiedad.                            | Categórico (String)      |
| **l3**           | Ciudad o localidad donde se encuentra la propiedad.                            | Categórico (String)      |
| **rooms**        | Cantidad total de ambientes de la propiedad.                                   | Numérico (Flotante)      |
| **bedrooms**     | Cantidad de dormitorios de la propiedad.                                       | Numérico (Flotante)      |
| **bathrooms**    | Cantidad de baños de la propiedad.                                             | Numérico (Flotante)      |
| **surface_total**  | Superficie total de la propiedad en metros cuadrados.                        | Numérico (Flotante)      |
| **surface_covered**| Superficie cubierta de la propiedad en metros cuadrados.                     | Numérico (Flotante)      |
| **price**        | Precio de la propiedad en la moneda indicada.                                 | Numérico (Flotante)      |
| **currency**     | Moneda en la que está expresado el precio (por ejemplo, USD, ARS, UYU).      | Categórico (String)      |
| **price_period** | Periodo de tiempo al que corresponde el precio (por ejemplo, mensual, anual). | Categórico (String)      |
| **title**        | Título del anuncio de la propiedad.                                           | Categórico (String)      |
| **description**  | Descripción detallada de la propiedad en el anuncio. Puede incluir etiquetas HTML. | Categórico (String)  |
| **property_type**| Tipo de propiedad (por ejemplo, departamento, casa, PH, local comercial).    | Categórico (String)      |
| **operation_type**| Tipo de operación (venta o alquiler).                                       | Categórico (String)      |


## Data Wrangling

### 1) Exploración

In [3]:
zip_path= '../data/---raw/ar_properties.csv.zip'
csv_filename='ar_properties.csv'

with zipfile.ZipFile(zip_path) as z:
    with z.open(csv_filename) as f:
        data_ar = pd.read_csv(f)

print(data_ar.head())

                         id    ad_type  start_date    end_date  created_on  \
0  fmHRPwLNda4lAWnkAHuqUA==  Propiedad  2020-12-26  2021-01-11  2020-12-26   
1  ya84G5MFlLS5AhrvoE8BDA==  Propiedad  2020-12-26  2020-12-27  2020-12-26   
2  aVHalWslWRaUFFVXOwcKCQ==  Propiedad  2020-12-26  9999-12-31  2020-12-26   
3  uTw1Fc2aS1k/ic+idHpUsQ==  Propiedad  2020-12-26  9999-12-31  2020-12-26   
4  ZGyAXBl38Bp3zOUNNw47QA==  Propiedad  2020-12-26  9999-12-31  2020-12-26   

         lat        lon         l1                        l2         l3  ...  \
0 -34.466060 -58.614506  Argentina  Bs.As. G.B.A. Zona Norte      Tigre  ...   
1 -34.386038 -58.674186  Argentina  Bs.As. G.B.A. Zona Norte      Tigre  ...   
2 -34.648427 -58.630494  Argentina  Bs.As. G.B.A. Zona Oeste      Morón  ...   
3 -34.649915 -58.590843  Argentina  Bs.As. G.B.A. Zona Oeste      Morón  ...   
4 -34.640844 -58.669036  Argentina                Corrientes  Ituzaingó  ...   

  bathrooms surface_total  surface_covered     pri

In [4]:
print(data_ar.info())

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1000000 entries, 0 to 999999
Data columns (total 25 columns):
 #   Column           Non-Null Count    Dtype  
---  ------           --------------    -----  
 0   id               1000000 non-null  object 
 1   ad_type          1000000 non-null  object 
 2   start_date       1000000 non-null  object 
 3   end_date         1000000 non-null  object 
 4   created_on       1000000 non-null  object 
 5   lat              882875 non-null   float64
 6   lon              882632 non-null   float64
 7   l1               1000000 non-null  object 
 8   l2               1000000 non-null  object 
 9   l3               967428 non-null   object 
 10  l4               284385 non-null   object 
 11  l5               5834 non-null     object 
 12  l6               0 non-null        float64
 13  rooms            678008 non-null   float64
 14  bedrooms         618956 non-null   float64
 15  bathrooms        768087 non-null   float64
 16  surface_total    42

In [5]:
print(data_ar.sample(10))
data_ar.tail(10)

                              id    ad_type  start_date    end_date  \
529739  UC/qxNUGab2TDO4t35WINw==  Propiedad  2020-09-23  2020-10-02   
152693  2a2q3iTN84LGMFCXsas8zQ==  Propiedad  2021-04-07  9999-12-31   
823935  1n9/5UOw/57RuZLrSip+FA==  Propiedad  2021-04-15  2021-06-05   
330023  DZ01xYpEC8WCm0yekIBE+A==  Propiedad  2021-02-24  2021-03-09   
775596  WQnoTdMtjS8wRwtnP/PQMA==  Propiedad  2020-10-19  2020-10-29   
751785  WoPOYSFfaE0iZldGU6H3pg==  Propiedad  2020-04-10  9999-12-31   
450244  hg9IeHe9e3QCcrVMITBaPw==  Propiedad  2020-05-06  2020-05-20   
465682  /ZquS+pcOLl5q9kDsZ21hQ==  Propiedad  2020-05-09  2020-05-26   
964134  WDYQxhtVi3IU30nRuNvJ+w==  Propiedad  2020-05-30  2020-09-23   
921835  UNpVsmOtHuC7lbe32jPjdw==  Propiedad  2020-09-22  2020-09-23   

        created_on        lat        lon         l1                        l2  \
529739  2020-09-23        NaN        NaN  Argentina  Bs.As. G.B.A. Zona Norte   
152693  2021-04-07 -34.561677 -58.450053  Argentina     

Unnamed: 0,id,ad_type,start_date,end_date,created_on,lat,lon,l1,l2,l3,...,bathrooms,surface_total,surface_covered,price,currency,price_period,title,description,property_type,operation_type
999990,GQzHWOLySTXcZvMopnwpbw==,Propiedad,2020-12-02,2021-03-10,2020-12-02,-34.901085,-56.176977,Uruguay,Montevideo,,...,1.0,40.0,40.0,23000.0,UYU,Mensual,Local Comercial en Alquiler - Centro,Local Comercial en Alquiler - Centro<br> Baño<...,Departamento,Alquiler
999991,er5hS7wBKQtEpq0toqrdHQ==,Propiedad,2020-12-02,2021-01-19,2020-12-02,-34.915374,-56.159642,Uruguay,Montevideo,,...,1.0,39.0,39.0,17000.0,UYU,Mensual,Monoambiente en alquiler con garaje en Punta C...,Apartamento monoambiente en alquiler en Punta ...,Departamento,Alquiler
999992,8grJ9oei0Ku3jKBW/xlkZg==,Propiedad,2020-12-02,2020-12-11,2020-12-02,-34.896064,-56.166007,Uruguay,Montevideo,,...,1.0,45.0,45.0,18700.0,UYU,Mensual,Apartamento - Tres Cruces,Apartamento de 1 dormitorio en alquiler en Tre...,Departamento,Alquiler
999993,/FqeY0xN/aZ3N6MpgXSJ7w==,Propiedad,2020-12-02,2020-12-18,2020-12-02,-34.91144,-56.186282,Uruguay,Montevideo,,...,1.0,57.0,42.0,25000.0,UYU,Mensual,"¡Increíble vista! 1 dormitorio en alquiler, te...",Apartamento de 1 dormitorio en alquiler en Bar...,Departamento,Alquiler
999994,sRjgJ6vHFutdCxLWJwK4qQ==,Propiedad,2020-12-02,2021-01-21,2020-12-02,-34.870624,-56.184851,Uruguay,Montevideo,,...,1.0,45.0,,15900.0,UYU,Mensual,"Alquiler apartamento, casita en Brazo oriental...","Alquiler de apartamento en Brazo Oriental, en...",PH,Alquiler
999995,RwxCSDKk259qAY8vO6VKCA==,Propiedad,2020-12-02,2021-01-12,2020-12-02,-34.465824,-57.842673,Uruguay,Colonia,,...,2.0,108.0,108.0,20000.0,UYU,Mensual,Casa - Colonia del Sacramento,"Casa recientemente reciclada en pleno centro, ...",Casa,Alquiler
999996,uUh7N3jRuR8yF08X6zSurg==,Propiedad,2020-12-02,2021-04-22,2020-12-02,-34.897735,-56.16623,Uruguay,Montevideo,,...,1.0,58.0,58.0,26000.0,UYU,Mensual,2 Dormitorios | Con garaje | Tres Cruces,¡Apartamento con garaje incluido en Tres Cruce...,Departamento,Alquiler
999997,BCVP/E4Q1B8QhOlTh7X4Ug==,Propiedad,2020-12-02,2020-12-15,2020-12-02,-33.995386,-58.286154,Uruguay,Colonia,Carmelo,...,1.0,60.0,,12500.0,UYU,Mensual,Alquiler,CASA A ESTRENAR EN ZONA DE EXPANSIÓN<br><br>LA...,Casa,Alquiler
999998,2/w++6rW0EKlqeP2J7MpPQ==,Propiedad,2020-12-02,2021-04-06,2020-12-02,-34.917295,-56.150024,Uruguay,Montevideo,Pocitos,...,2.0,135.0,135.0,75000.0,UYU,Mensual,Apartamento - Pocitos,Alquiler de apartamento de 2 dormitorios con p...,Departamento,Alquiler
999999,AOhK8l0PxgaqdnAkc4qO4w==,Propiedad,2020-12-02,2020-12-09,2020-12-02,-33.995386,-58.286154,Uruguay,Colonia,Carmelo,...,1.0,,,11000.0,UYU,Mensual,Casa - Carmelo,APARTAMENTO EN VIVIENDAS L-23<br><br>COMPUESTO...,Casa,Alquiler


Conclusiones: 

Considerando las exploraciones superficiales realizadas:

 En [l1] hay paises como Argentina, Uruguay. Siguiendo el objetivo principal, se decide focalizar en el país Argentina. 

In [6]:
#contar la cantidad de nulos
print(data_ar.isnull().sum())

id                       0
ad_type                  0
start_date               0
end_date                 0
created_on               0
lat                 117125
lon                 117368
l1                       0
l2                       0
l3                   32572
l4                  715615
l5                  994166
l6                 1000000
rooms               321992
bedrooms            381044
bathrooms           231913
surface_total       570867
surface_covered     564931
price                41618
currency             43177
price_period        586460
title                    1
description             42
property_type            0
operation_type           0
dtype: int64


Conclusiones:

Las columnas con muchos datos vacios: [l4], [l5], [l6]

## 02.Limpieza

Limpieza datos nulos

Se elimina las columnas: [l4] [l5] [l6] porque tienen muchos datos faltantes.

In [7]:
data_ar= data_ar.drop(['l4','l5','l6'], axis=1)

In [8]:
# Renombrar las columnas las columnas: l1, l2, l3
data_ar = data_ar.rename(columns={
    'l1': 'país',
    'l2': 'provincia',
    'l3': 'localidad'
})

In [9]:
print(data_ar.info())

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1000000 entries, 0 to 999999
Data columns (total 22 columns):
 #   Column           Non-Null Count    Dtype  
---  ------           --------------    -----  
 0   id               1000000 non-null  object 
 1   ad_type          1000000 non-null  object 
 2   start_date       1000000 non-null  object 
 3   end_date         1000000 non-null  object 
 4   created_on       1000000 non-null  object 
 5   lat              882875 non-null   float64
 6   lon              882632 non-null   float64
 7   país             1000000 non-null  object 
 8   provincia        1000000 non-null  object 
 9   localidad        967428 non-null   object 
 10  rooms            678008 non-null   float64
 11  bedrooms         618956 non-null   float64
 12  bathrooms        768087 non-null   float64
 13  surface_total    429133 non-null   float64
 14  surface_covered  435069 non-null   float64
 15  price            958382 non-null   float64
 16  currency         95

Exploramos el país

In [10]:
data_ar.país.unique()

array(['Argentina', 'Uruguay', 'Estados Unidos', 'Brasil'], dtype=object)

Siguiendo los objetivos planteados, se focaliza en el analisis de las propiedades de Argentina.

In [11]:
data_ar= data_ar[data_ar['país']=='Argentina']

¿Qué provincias se encuentran?

In [12]:
data_ar.groupby(['país','provincia']).size().sort_values(ascending=False)

país       provincia                   
Argentina  Capital Federal                 255028
           Bs.As. G.B.A. Zona Norte        167238
           Bs.As. G.B.A. Zona Sur          144934
           Buenos Aires Costa Atlántica    107156
           Santa Fe                         81819
           Bs.As. G.B.A. Zona Oeste         78281
           Córdoba                          63973
           Buenos Aires Interior            24314
           Neuquén                          13825
           Mendoza                           7956
           Río Negro                         6533
           Tucumán                           6264
           Entre Ríos                        6216
           Salta                             5072
           Misiones                          4376
           San Luis                          1971
           La Pampa                          1601
           Chubut                            1330
           Chaco                             1297
          

Esta distribución nos dice que hay muchisima información en CABA y GBA, pero después el número de registros cae en otras provincias. 

* Capital+ GBA= +600K propiedades
* Formosa,Catamarca, La Rioja= menos de 500 registros

Limpieza tipo de operación

In [13]:
#filtrar las propiedades según la operación
data_ar.groupby(['operation_type']).size().sort_values(ascending=False)

operation_type
Venta                746365
Alquiler             198454
Alquiler temporal     39258
dtype: int64

Insight: Al tener la gran mayoria de propiedades de venta, el modelo de predicción se focalizará en el tipo de operación: venta.

In [14]:
data_ar=data_ar[data_ar['operation_type']=='Venta']

In [15]:
data_ar.operation_type.unique()

array(['Venta'], dtype=object)

## Validación

Corroborramos cómo quedo el data_ar

In [16]:
data_ar.info()

<class 'pandas.core.frame.DataFrame'>
Index: 746365 entries, 1 to 999989
Data columns (total 22 columns):
 #   Column           Non-Null Count   Dtype  
---  ------           --------------   -----  
 0   id               746365 non-null  object 
 1   ad_type          746365 non-null  object 
 2   start_date       746365 non-null  object 
 3   end_date         746365 non-null  object 
 4   created_on       746365 non-null  object 
 5   lat              655479 non-null  float64
 6   lon              655298 non-null  float64
 7   país             746365 non-null  object 
 8   provincia        746365 non-null  object 
 9   localidad        726248 non-null  object 
 10  rooms            497539 non-null  float64
 11  bedrooms         460054 non-null  float64
 12  bathrooms        554025 non-null  float64
 13  surface_total    302829 non-null  float64
 14  surface_covered  298210 non-null  float64
 15  price            716732 non-null  float64
 16  currency         715672 non-null  object 
 

In [17]:
#filas duplicadas
data_ar.duplicated().sum()

np.int64(0)

In [18]:
print(data_ar.shape)

(746365, 22)


**Conclusiones finales**

Recordardo que el objetivo es realizar un modelo predecitivo de precios de inmuebles en Argentina.

Las variables útiles(features) son:

* rooms
* bedrooms
* bathrooms
* surface_total
* surface_covered
* property_type
* Ubicación: país-provincia-localidad
* lat y lon
* currency

La variable objetivo(target):

* price

In [24]:
import os

# Verificar si el archivo ya existe
file_path = '../data/---datos limpios/data_ar.csv'

#guardar el csv
if not os.path.exists(file_path):
    data_ar.to_csv(file_path, index= False)
    print('archivo guardado')
else:
    print('el archivo ya exisiste')

el archivo ya exisiste
