# Digital House
## Workshop #1 Data Science
### Analisis exploratorio de un dataset de precio de propiedades
EL dataset de propiedades denominado "Properatti" contiene informacion de inmuebles destinados a la venta en diferentes ciudades de la Republica Argentina.
Como tal, el objetivo de este 1er desafio es analizar en profundidad el dataset y cada uno de sus componentes para que el objetivo final sea la posibilidad de que el mismo sea utilizado para la predicción del precio de propiedades. Más precisamente, desarrollar un modelo de regresión que permita predecir el precio por metro cuadrado de una propiedad.

En una 1era instancia analizaremos la información disponible del data set en "crudo" para despues ir avanzando minisuosamente en cada uno de sus componentes y evaluar que tecnica de manipulación, limpieza y analisis deberiamos de poner en practica.
Para eso el primer paso que haremos es importar las librerias Pandas, Numpy y Seaborn de Python para proceder a entender los basicos del dataset.

In [1]:
#Importacion de librerias de python
import pandas as pd
import numpy as np
import seaborn as sn

#Lectura del dataset en formato .cvs

df=pd.read_csv("./properatti.csv")

Procedemos a leer los primeros 3 registros del dataset para tener una primera aproximación de la información que contiene.

In [2]:
#Utilizamos head() y limitaremos a 3 los datos a mostrar

df.head(3)

Unnamed: 0.1,Unnamed: 0,operation,property_type,place_name,place_with_parent_names,country_name,state_name,geonames_id,lat-lon,lat,...,surface_covered_in_m2,price_usd_per_m2,price_per_m2,floor,rooms,expenses,properati_url,description,title,image_thumbnail
0,0,sell,PH,Mataderos,|Argentina|Capital Federal|Mataderos|,Argentina,Capital Federal,3430787.0,"-34.6618237,-58.5088387",-34.661824,...,40.0,1127.272727,1550.0,,,,http://www.properati.com.ar/15bo8_venta_ph_mat...,"2 AMBIENTES TIPO CASA PLANTA BAJA POR PASILLO,...",2 AMB TIPO CASA SIN EXPENSAS EN PB,https://thumbs4.properati.com/8/BluUYiHJLhgIIK...
1,1,sell,apartment,La Plata,|Argentina|Bs.As. G.B.A. Zona Sur|La Plata|,Argentina,Bs.As. G.B.A. Zona Sur,3432039.0,"-34.9038831,-57.9643295",-34.903883,...,,,,,,,http://www.properati.com.ar/15bob_venta_depart...,Venta de departamento en décimo piso al frente...,VENTA Depto 2 dorm. a estrenar 7 e/ 36 y 37 ...,https://thumbs4.properati.com/7/ikpVBu2ztHA7jv...
2,2,sell,apartment,Mataderos,|Argentina|Capital Federal|Mataderos|,Argentina,Capital Federal,3430787.0,"-34.6522615,-58.5229825",-34.652262,...,55.0,1309.090909,1309.090909,,,,http://www.properati.com.ar/15bod_venta_depart...,2 AMBIENTES 3ER PISO LATERAL LIVING COMEDOR AM...,2 AMB 3ER PISO CON ASCENSOR APTO CREDITO,https://thumbs4.properati.com/5/SXKr34F_IwG3W_...


El dataset contiene 26 columnas y 121.220 registros (o filas). Como 1era conclusion vemos que los titulos o "nombres" de las columnas no poseen espacios en blanco, por lo cual consideramos que su posterior consulta para un modelo de regresión no generara problemas. Los espacios en blanco dentro del "nombre" de las columnas esta siendo reemplazado por "guión bajo" o "_".

In [6]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 121220 entries, 0 to 121219
Data columns (total 26 columns):
 #   Column                      Non-Null Count   Dtype  
---  ------                      --------------   -----  
 0   Unnamed: 0                  121220 non-null  int64  
 1   operation                   121220 non-null  object 
 2   property_type               121220 non-null  object 
 3   place_name                  121197 non-null  object 
 4   place_with_parent_names     121220 non-null  object 
 5   country_name                121220 non-null  object 
 6   state_name                  121220 non-null  object 
 7   geonames_id                 102503 non-null  float64
 8   lat-lon                     69670 non-null   object 
 9   lat                         69670 non-null   float64
 10  lon                         69670 non-null   float64
 11  price                       100810 non-null  float64
 12  currency                    100809 non-null  object 
 13  price_aprox_lo

### Identificación de tipos de datos en las columnas

Observamos que son 26 columnas, por lo cual procedemos a entender que tipo de datos contienen estas columnas para entender mejor su tratamiento.

In [41]:
#Con dtypes identificamos el tipo de datos que contiene cada columna.
df.dtypes #mas especifico que de df.info(), pero misma información.

Unnamed: 0                      int64
operation                      object
property_type                  object
place_name                     object
place_with_parent_names        object
country_name                   object
state_name                     object
geonames_id                   float64
lat-lon                        object
lat                           float64
lon                           float64
price                         float64
currency                       object
price_aprox_local_currency    float64
price_aprox_usd               float64
surface_total_in_m2           float64
surface_covered_in_m2         float64
price_usd_per_m2              float64
price_per_m2                  float64
floor                         float64
rooms                         float64
expenses                      float64
properati_url                  object
description                    object
title                          object
image_thumbnail                object
dtype: objec

De las 26 columnas, se observa que los datos numericos como "float 64" corresponde solamente a los siguientes columnas:

-geonames_id

-lat

-lon

-price

-price_aprox_local_currency

-price_aprox_usd

-surface_total_in_m2

-surface_covered_in_m2

-price_usd_per_m2

-price_per_m2

-floor

-rooms

-expenses

Estos datos de tipo numerico resultan lógicos ya que estan relacionados al precio de la propiedad expresado en un tipo de moneda, precio de metro cuadrado en un tipo de moneda, cantidades de pisos y ambientes, y por ultimo el monto de expensas. Al considerar datos numericos, pueden existir faltantes.

Con respecto a los datos de Latitude y Longitud deberiamos de chequear que el mismo provenga de "geonames_id". En este caso consideraremos estos datos que permiten la geolocalización como alternativas para obtener datos faltantes en los valores del tipo "object" o para visualización, pero por el momento no nos centraremos en estos datos.

Por ultimo, el key valor de la columna "Unnamed: 0 " es del tipo Integer, son numeros consecutivos que enumeran las filas, simil al indice.

### Identificación de cantidad de datos

El key valor contiene 121.220 datos unicos, que coincide con la cantidad de registros. Entonces como valor Key, va a ser una forma de identificar el inmueble, simil al indice.

Existen 2 datos que contienen un valor único, ellos son: "Operation" que indica el tipo de operacion que se realiza con el inmueble publicado, y que tiene como unico valor: "Sell" y "Country name" que contiene el pais de donde encuentran los inmuebles y tiene como unico valor "Argentina". 

En esta instancia estas 2 (dos) columnas serian datos que podriamos dejar de lado en el dataset ya que no tienen informacion relevante.

In [42]:
df.nunique() # permite ver valores unicos.

Unnamed: 0                    121220
operation                          1
property_type                      4
place_name                      1060
place_with_parent_names         1164
country_name                       1
state_name                        28
geonames_id                      646
lat-lon                        47203
lat                            46495
lon                            46522
price                           9746
currency                           4
price_aprox_local_currency     10364
price_aprox_usd                10364
surface_total_in_m2             1687
surface_covered_in_m2            995
price_usd_per_m2               25566
price_per_m2                   25185
floor                            182
rooms                             31
expenses                         982
properati_url                 121220
description                   104055
title                          72705
image_thumbnail               114389
dtype: int64

### Identificación de datos nulos
Procedemos a identicar los datos nulos del dataset.

In [43]:
df.isnull().sum() #permite ver cantidad de datos nulos para imputación

Unnamed: 0                         0
operation                          0
property_type                      0
place_name                        23
place_with_parent_names            0
country_name                       0
state_name                         0
geonames_id                    18717
lat-lon                        51550
lat                            51550
lon                            51550
price                          20410
currency                       20411
price_aprox_local_currency     20410
price_aprox_usd                20410
surface_total_in_m2            39328
surface_covered_in_m2          19907
price_usd_per_m2               52603
price_per_m2                   33562
floor                         113321
rooms                          73830
expenses                      106958
properati_url                      0
description                        2
title                              0
image_thumbnail                 3112
dtype: int64

Con respecto a los datos nulos, se observa que:
1) place_name: contiene 23 datos nulos y es un tipo de dato "Object". El mismo contiene el nombre los barrios o ciudades en donde se encuentra la propiedades. Por la cantidad, se supone que seria facil una imputación en el caso en que podamos identificar parametros que nos permitan una correcta identificación de la ciudad. La opcion de eliminar estos registros por el momento queda descartada. Intentaremos imputar estos datos faltantes analizando el campo "place_with_parent_names" ya que no contiene datos nulos y dentro de su estructura se observa un tabulador que separa el país, la provincia y la ciudad del inmueble.

In [44]:
print(df.place_name.isnull().sum()) #Print de valores nulos en el "place_name" = 23 registros
df[df["place_name"].isnull()]

#Separar la columna "place_with_parent_name" --> split: PAIS ; PROVINCIA; CIUDAD
# Check: El dato obtenido de PROVINCIA = "State_name"
# Check: El dato obtenido de CIUDAD = "Place_name"
# DROP Pais_nuevo --> reemplazaria estos datos nuevos, por los existentes.

23


Unnamed: 0.1,Unnamed: 0,operation,property_type,place_name,place_with_parent_names,country_name,state_name,geonames_id,lat-lon,lat,...,surface_covered_in_m2,price_usd_per_m2,price_per_m2,floor,rooms,expenses,properati_url,description,title,image_thumbnail
6489,6489,sell,house,,|Argentina|Bs.As. G.B.A. Zona Norte|Tigre||,Argentina,Bs.As. G.B.A. Zona Norte,,"-34.4008968545,-58.63809847",-34.400897,...,240.0,2708.333333,2708.333333,,,,http://www.properati.com.ar/15ui7_venta_casa_t...,"Espectacular casa moderna de una planta, con a...",Venta de casa en Santa María de Tigre,https://thumbs4.properati.com/7/vQjgbHSz1fKXxy...
10201,10201,sell,house,,|Argentina|Bs.As. G.B.A. Zona Norte|Tigre||,Argentina,Bs.As. G.B.A. Zona Norte,,"-34.400704,-58.638067",-34.400704,...,300.0,,1783.333333,,5.0,,http://www.properati.com.ar/166p5_venta_casa_t...,Corredor Responsable: SABRINA COCCONI - CSI 62...,VENTA CASA SANTA MARÍA DE TIGRE COUNTRY BARRIO...,https://thumbs4.properati.com/1/FABpKIJMaoAO3t...
11451,11451,sell,house,,|Argentina|Bs.As. G.B.A. Zona Norte|Tigre||,Argentina,Bs.As. G.B.A. Zona Norte,,"-34.4026880384,-58.6262613379",-34.402688,...,270.0,253.456221,2037.037037,,,,http://www.properati.com.ar/16bpd_venta_casa_t...,MUY LINDA CASA EN EXCELENTE UBICACION!! Superf...,SANTA MARIA DE TIGRE IMPECABLE,https://thumbs4.properati.com/5/fwH9L71hW2rW7V...
14839,14839,sell,house,,|Argentina|Bs.As. G.B.A. Zona Norte|Tigre||,Argentina,Bs.As. G.B.A. Zona Norte,,"-34.4007994779,-58.6381735719",-34.400799,...,200.0,2000.0,2400.0,,,,http://www.properati.com.ar/16tal_venta_casa_b...,Muy linda casa de estilo clásico.-Planta baja;...,Venta de casa en Santa María de Tigre,https://thumbs4.properati.com/1/3ZbPSffTY38y7v...
18622,18622,sell,house,,|Argentina|Bs.As. G.B.A. Zona Norte|Tigre||,Argentina,Bs.As. G.B.A. Zona Norte,,"-34.4032781195,-58.6263503945",-34.403278,...,340.0,3814.705882,3814.705882,,,,http://www.properati.com.ar/177ee_venta_casa_t...,Casa con increible vista al lago con playa de...,Casa con increible vista al lago con playa y m...,https://thumbs4.properati.com/0/52JCH1PKYCOMe6...
21922,21922,sell,house,,|Argentina|Bs.As. G.B.A. Zona Norte|Tigre||,Argentina,Bs.As. G.B.A. Zona Norte,,"-34.399704,-58.638405",-34.399704,...,220.0,,2000.0,,5.0,,http://www.properati.com.ar/17gy5_venta_casa_s...,Corredor Responsable: Matias Castelli - CUCICB...,Venta Casa - Barrio Santa Maria de Tigre,https://thumbs4.properati.com/8/oO7kmFPYNm8DYr...
23664,23664,sell,house,,|Argentina|Bs.As. G.B.A. Zona Norte|Tigre||,Argentina,Bs.As. G.B.A. Zona Norte,,"-34.4005161998,-58.6417999185",-34.400516,...,294.0,1632.653061,1632.653061,,,,http://www.properati.com.ar/17mb5_venta_casa_t...,EXCELENTE CASA CLASICA con grandes ventanas y ...,CASA EN VENTA EN SANTA MARIA DE TIGRE CON RENTA,https://thumbs4.properati.com/2/LQCwH6txpFqetn...
24722,24722,sell,house,,|Argentina|Bs.As. G.B.A. Zona Norte|Tigre||,Argentina,Bs.As. G.B.A. Zona Norte,,"-34.4007292,-58.6377783",-34.400729,...,270.0,1677.21519,1962.962963,,,,http://www.properati.com.ar/17oz1_venta_casa_t...,"EN EXCLUSIVIDAD!!!!!!Lindísima casa, muy lumin...",Venta de casa en Santa María de Tigre,https://thumbs4.properati.com/0/Nhx4NejZaQACap...
38856,38856,sell,house,,|Argentina|Bs.As. G.B.A. Zona Norte|Tigre||,Argentina,Bs.As. G.B.A. Zona Norte,,"-34.425087,-58.5796585",-34.425087,...,550.0,,2454.545455,,,,http://www.properati.com.ar/18mcb_venta_casa_t...,SANTA MARIA DE TIGRE- AL RIO - ESPECTACULAR CA...,"Casa (barrio cerrado), Venta",https://thumbs4.properati.com/2/Izq8d5o8ti3kJy...
45970,45970,sell,apartment,,|Argentina|Bs.As. G.B.A. Zona Norte|Tigre||,Argentina,Bs.As. G.B.A. Zona Norte,,"-34.396074,-58.63738",-34.396074,...,27.0,1727.272727,3518.518519,,1.0,,http://www.properati.com.ar/1958f_venta_depart...,"EDIFICIO ZERENA – EL PALMAR, NORDELTA. Torre 2...",Excelente monoambiente. Barrio El Palmar. Con...,https://thumbs4.properati.com/2/5yvU5E9wOAAzBa...


Para la imputación tenemos 2 alternativas:

1- Alternativa #1 (no recomendada): Con la identificacion de estos 23 datos faltantes, se observa visualmente que el "place_name" es "Tigre". Esto es posible porque los datos son pocos. La imputacion "visual" y "manual" se hace reemplazando los NaN identificados con "Tigre" como resulta a simple vista.

In [55]:
#Codigo propuesto para la Alternativa #1 (no recomendada)
# df["place_name"]=df["place_name"].fillna(value="Tigre") #Imputacion

# print(df.place_name.isnull().sum()) #Verificacion que los valores de "place_name" ya no sean nulos --> 0 (Cero)

2- Alternativa #2 (recomendada): Procederemos a realizar un control con la informacion disponible del dataset para evitar incongruencias. De la columna "place_with_parent_names" obtendremos:

- Pais: que como observamos anteriormente al ser un valor unico deberia ser ARGENTINA

- Provincia: para hacer un check con la columna "state_name"

- Ciudad: para hacer un check y lograr la imputacion de los NaN (que serian reemplazados por tigre) con la columna "place_name".

Procedemos a hacer el split de la columna "place_with_parent_names", notando que el tipo de dato es Object y reemplazaremos por string.

In [7]:
df["place_with_parent_names"]=df["place_with_parent_names"].astype("string") #reemplazo de object a string
df["place_with_parent_names"].dtypes #Verificación del cambio

string[python]

In [10]:
#Creamos un dataframe DF_1 con Pais, Provincia, Ciudad y "place_with_parent_names"
df_1=df[["country_name","state_name","place_name","place_with_parent_names"]]
df_1


Unnamed: 0,country_name,state_name,place_name,place_with_parent_names
0,Argentina,Capital Federal,Mataderos,|Argentina|Capital Federal|Mataderos|
1,Argentina,Bs.As. G.B.A. Zona Sur,La Plata,|Argentina|Bs.As. G.B.A. Zona Sur|La Plata|
2,Argentina,Capital Federal,Mataderos,|Argentina|Capital Federal|Mataderos|
3,Argentina,Capital Federal,Liniers,|Argentina|Capital Federal|Liniers|
4,Argentina,Buenos Aires Costa Atlántica,Centro,|Argentina|Buenos Aires Costa Atlántica|Mar de...
...,...,...,...,...
121215,Argentina,Capital Federal,Belgrano,|Argentina|Capital Federal|Belgrano|
121216,Argentina,Bs.As. G.B.A. Zona Norte,Beccar,|Argentina|Bs.As. G.B.A. Zona Norte|San Isidro...
121217,Argentina,Capital Federal,Villa Urquiza,|Argentina|Capital Federal|Villa Urquiza|
121218,Argentina,Buenos Aires Costa Atlántica,Plaza Colón,|Argentina|Buenos Aires Costa Atlántica|Mar de...


In [14]:
#procedemos ahora a realizar el split de los datos de "place_with_parent_names" y los asignamos como columnas 
# a df_1 recientemente creado
df_1["pais_nuevo"]=df_1["place_with_parent_names"].str.split("|").str.get(1)
df_1["provincia_nuevo"]=df_1["place_with_parent_names"].str.split("|").str.get(2)
df_1["ciudad_nuevo"]=df_1["place_with_parent_names"].str.split("|").str.get(3)
df_1.head(2)

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df_1["pais_nuevo"]=df_1["place_with_parent_names"].str.split("|").str.get(1)
A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df_1["provincia_nuevo"]=df_1["place_with_parent_names"].str.split("|").str.get(2)
A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df_1["ciudad_nuevo"]=df_1["place_with_parent_n

Unnamed: 0,country_name,state_name,place_name,place_with_parent_names,Pais_Nuevo,Provincia_Nuevo,Ciudad_Nuevo,pais_nuevo,provincia_nuevo,ciudad_nuevo
0,Argentina,Capital Federal,Mataderos,|Argentina|Capital Federal|Mataderos|,Argentina,Capital Federal,Mataderos,Argentina,Capital Federal,Mataderos
1,Argentina,Bs.As. G.B.A. Zona Sur,La Plata,|Argentina|Bs.As. G.B.A. Zona Sur|La Plata|,Argentina,Bs.As. G.B.A. Zona Sur,La Plata,Argentina,Bs.As. G.B.A. Zona Sur,La Plata


In [15]:
#Verificamos ahora que datos coinciden:
a=(df_1["country_name"]==df_1["pais_nuevo"])
b=(df_1["state_name"]==df_1["provincia_nuevo"])
c=(df_1["place_name"]==df_1["ciudad_nuevo"])
sum(a)/len(df), sum(b)/len(df), sum(c)/len(df)

#Sacamos % en base a los TRUE/FALSE Obtenidos comparando los datos de la columna del dataset 
# contra el dato obtenido del split

(1.0, 1.0, 0.7096766210196337)

Realizando el split de la columna "place_with_parent_names" y comparando estos datos obtenidos con los originales del data set correspondientes a "country_name", "state_name" y "place_name" se concluye que:
1. el 100% de los datos correspondiente a pais y provincia coinciden, por lo tanto mantenemos los valores del data set original, con la salvedad de que como País es un dato unico, no tiene sentido mantenerlo en el dataset para realizar el aprendizaje de un modelo de regresión lineal.
2. Solo el 71% (aprox) de los datos de Ciudad obtenidos del split SI coinciden con el dato del dataset. Observando, mas alla de los 23 NaN identificados como "Tigre", se observan algunas incogruencias por ejemplo en la ciudad de "Mar del Plata" en donde la columna "place_name" contiene el barrio en lugar de la Ciudad.

Por tal motivo se procede a: imputar/reemplazar la columna "place_name" por "ciudad_nuevo"

Finalizado por el momento el analisis de los datos faltante de tipo Object,ahora nos centralizaremos en el analisis de los datos numericos que sufre faltantes de datos.

Para el dato Currency, decidimos observar que tipos de monedas son incluidas en el dataset, para despues definir la mejor estrategia de analisis de los datos numericos en si.

Por este dato del tipo Object se observa que:
1. Existen 4 tipos de monedas en el cual se valuan las propiedades: ARS (Pesos argentinos), USD (Dolares estadounidenses), UYU (pesos uruguayos), PEN (sol peruano) y valores NaN.
2. Valores NaN: 20.411 registros --> Estrategia verificar si existen campos de metros cuadrados para poder imputar un valor promedio del metro cuadrado y establecer el valor total del inmueble y su correspondiente moneda.
3. Valores USD: 87.587 registros
4. Valores ARS: 13.219 registros
5. Valores PEN: 2 registros --> evaluar posibilidad de convertir a USD y ARS, o eliminar
6. Valores UYU: 1 registro --> evaluar posibilidad de convertir a USD y ARS, o eliminar

In [18]:
df['currency'].unique().tolist()

['USD', nan, 'ARS', 'PEN', 'UYU']

In [19]:
df['currency'].isnull().sum()

20411

In [21]:
df_agrupado=df.groupby("currency").count()
df.groupby(['currency']).count()
df_agrupado=df_agrupado.operation
df_agrupado.sort_values(ascending=False)

currency
USD    87587
ARS    13219
PEN        2
UYU        1
Name: operation, dtype: int64

In [22]:
# DE ACA EN MAS ES AVANZAR CON EL ANALISIS DE LOS MONTOS EN USD/ARS Y VER QUE ESTRATEGIA DE IMPUTACION SE USA


df_price=df[["price","currency","price_aprox_local_currency","price_aprox_usd",
"surface_total_in_m2","surface_covered_in_m2","price_usd_per_m2","price_per_m2","expenses"]]
df_price.head()

Unnamed: 0,price,currency,price_aprox_local_currency,price_aprox_usd,surface_total_in_m2,surface_covered_in_m2,price_usd_per_m2,price_per_m2,expenses
0,62000.0,USD,1093959.0,62000.0,55.0,40.0,1127.272727,1550.0,
1,150000.0,USD,2646675.0,150000.0,,,,,
2,72000.0,USD,1270404.0,72000.0,55.0,55.0,1309.090909,1309.090909,
3,95000.0,USD,1676227.5,95000.0,,,,,
4,64000.0,USD,1129248.0,64000.0,35.0,35.0,1828.571429,1828.571429,


In [23]:
#df[df["place_name"].isnull()]

df_price_USD=df_price["currency"]=="USD" #mascara

df_price[df_price_USD]#DF con la mascara
#df_price["Tasa_de_cambio"]=df_price.price_aprox_local_currency/df_price.price #creacion variable




Unnamed: 0,price,currency,price_aprox_local_currency,price_aprox_usd,surface_total_in_m2,surface_covered_in_m2,price_usd_per_m2,price_per_m2,expenses
0,62000.0,USD,1093959.00,62000.0,55.0,40.0,1127.272727,1550.000000,
1,150000.0,USD,2646675.00,150000.0,,,,,
2,72000.0,USD,1270404.00,72000.0,55.0,55.0,1309.090909,1309.090909,
3,95000.0,USD,1676227.50,95000.0,,,,,
4,64000.0,USD,1129248.00,64000.0,35.0,35.0,1828.571429,1828.571429,
...,...,...,...,...,...,...,...,...,...
121215,870000.0,USD,15350715.00,870000.0,113.0,93.0,7699.115044,9354.838710,10000.0
121216,498000.0,USD,8786961.00,498000.0,360.0,360.0,1383.333333,1383.333333,
121217,131500.0,USD,2320251.75,131500.0,46.0,39.0,2858.695652,3371.794872,
121218,95900.0,USD,1692107.55,95900.0,48.0,48.0,1997.916667,1997.916667,


In [25]:
#2 Monedas: ARS y USD ---> Forex para saber a que TC se tomaron los dolares que se convierten en PESOS o vicerversa


In [26]:
df_price_ARS=df_price["currency"]=="ARS" #mascara

df_price[df_price_ARS]#DF con la mascara #Price es ilogico al price_aprox_local Currency
df_price["diferencia"]=df_price.price - df_price.price_aprox_local_currency


A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df_price["diferencia"]=df_price.price - df_price.price_aprox_local_currency


In [27]:
df_price_NAN=df_price["currency"].isnull() #mascara

df_price[df_price_NAN].head(1)

#

Unnamed: 0,price,currency,price_aprox_local_currency,price_aprox_usd,surface_total_in_m2,surface_covered_in_m2,price_usd_per_m2,price_per_m2,expenses,diferencia
5,,,,,53.0,,,,,


In [28]:
df.head(6)

Unnamed: 0.1,Unnamed: 0,operation,property_type,place_name,place_with_parent_names,country_name,state_name,geonames_id,lat-lon,lat,...,surface_covered_in_m2,price_usd_per_m2,price_per_m2,floor,rooms,expenses,properati_url,description,title,image_thumbnail
0,0,sell,PH,Mataderos,|Argentina|Capital Federal|Mataderos|,Argentina,Capital Federal,3430787.0,"-34.6618237,-58.5088387",-34.661824,...,40.0,1127.272727,1550.0,,,,http://www.properati.com.ar/15bo8_venta_ph_mat...,"2 AMBIENTES TIPO CASA PLANTA BAJA POR PASILLO,...",2 AMB TIPO CASA SIN EXPENSAS EN PB,https://thumbs4.properati.com/8/BluUYiHJLhgIIK...
1,1,sell,apartment,La Plata,|Argentina|Bs.As. G.B.A. Zona Sur|La Plata|,Argentina,Bs.As. G.B.A. Zona Sur,3432039.0,"-34.9038831,-57.9643295",-34.903883,...,,,,,,,http://www.properati.com.ar/15bob_venta_depart...,Venta de departamento en décimo piso al frente...,VENTA Depto 2 dorm. a estrenar 7 e/ 36 y 37 ...,https://thumbs4.properati.com/7/ikpVBu2ztHA7jv...
2,2,sell,apartment,Mataderos,|Argentina|Capital Federal|Mataderos|,Argentina,Capital Federal,3430787.0,"-34.6522615,-58.5229825",-34.652262,...,55.0,1309.090909,1309.090909,,,,http://www.properati.com.ar/15bod_venta_depart...,2 AMBIENTES 3ER PISO LATERAL LIVING COMEDOR AM...,2 AMB 3ER PISO CON ASCENSOR APTO CREDITO,https://thumbs4.properati.com/5/SXKr34F_IwG3W_...
3,3,sell,PH,Liniers,|Argentina|Capital Federal|Liniers|,Argentina,Capital Federal,3431333.0,"-34.6477969,-58.5164244",-34.647797,...,,,,,,,http://www.properati.com.ar/15boh_venta_ph_lin...,PH 3 ambientes con patio. Hay 3 deptos en lote...,PH 3 amb. cfte. reciclado,https://thumbs4.properati.com/3/DgIfX-85Mog5SP...
4,4,sell,apartment,Centro,|Argentina|Buenos Aires Costa Atlántica|Mar de...,Argentina,Buenos Aires Costa Atlántica,3435548.0,"-38.0026256,-57.5494468",-38.002626,...,35.0,1828.571429,1828.571429,,,,http://www.properati.com.ar/15bok_venta_depart...,DEPARTAMENTO CON FANTÁSTICA ILUMINACIÓN NATURA...,DEPTO 2 AMB AL CONTRAFRENTE ZONA CENTRO/PLAZA ...,https://thumbs4.properati.com/5/xrRqlNcSI_vs-f...
5,5,sell,house,Gualeguaychú,|Argentina|Entre Ríos|Gualeguaychú|,Argentina,Entre Ríos,3433657.0,"-33.0140714,-58.519828",-33.014071,...,,,,,,,http://www.properati.com.ar/15bop_venta_depart...,"Casa en el perímetro del barrio 338, ubicada e...","Casa Barrio 338. Sobre calle 3 de caballería, ...",https://thumbs4.properati.com/6/q-w68gvaUEQVXI...
