# Análise do Mercado Imobiliário na Cidade do México

Este projeto tem como objetivo explorar e analisar o mercado imobiliário da Cidade do México com base em um conjunto de dados real. Utilizando informações detalhadas sobre imóveis, como localização, preços e características. Para isso, vamos limpar, organizar e visualizar os dados para obter insights valiosos.

Seja para entender tendências de preços, identificar padrões ou até mesmo prever valores de propriedades, este projeto oferece uma abordagem prática para trabalhar com dados reais e aplicar técnicas de análise exploratória.

# Preparação

## Importação

A primeira etapa de qualquer projeto de ciência de dados é preparar os dados, garantindo que estejam organizados e formatados corretamente para a análise. O ponto de partida desse processo é importar os dados brutos e realizar a limpeza necessária.

Nesse notebook, utilizaremos os arquivos CSV que serão utilizados neste projeto: mexico-real-estate-1.csv, mexico-real-estate-2.csv e mexico-real-estate-3.csv.

In [3]:
import pandas as pd

In [45]:
# Load CSV files into DataFrames
df1 = pd.read_csv('/content/mexico-city-real-estate-1.csv')
df2 = pd.read_csv('/content/mexico-city-real-estate-2.csv')
df3 = pd.read_csv('/content/mexico-city-real-estate-3.csv')

# Print object type and shape for DataFrames
print("df1 type:", type(df1))
print("df1 shape:", df1.shape)
print()
print("df2 type:", type(df2))
print("df2 shape:", df2.shape)
print()
print("df3 type:", type(df3))
print("df3 shape:", df3.shape)

df1 type: <class 'pandas.core.frame.DataFrame'>
df1 shape: (4628, 16)

df2 type: <class 'pandas.core.frame.DataFrame'>
df2 shape: (4628, 16)

df3 type: <class 'pandas.core.frame.DataFrame'>
df3 shape: (4628, 16)


## Explorando df1

Agora que importamos os arquivos, vamos verificar se existe alguma limpeza que precisa ser realizada. Vamos verificar um por um.

Examinando o DataFrame df1 verificando seu formato. Em seguida, vamos visualizar os tipos de dados de cada coluna e identificar possíveis valores ausentes. Por fim, vamos visualizar as cinco primeiras linhas do conjunto de dados.

In [5]:
# Print df1 shape
print(df1.shape)

# Print df1 info
df1.info()

# Get output of df1 head
df1.head()

(4628, 16)
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 4628 entries, 0 to 4627
Data columns (total 16 columns):
 #   Column                      Non-Null Count  Dtype  
---  ------                      --------------  -----  
 0   operation                   4628 non-null   object 
 1   property_type               4628 non-null   object 
 2   place_with_parent_names     4628 non-null   object 
 3   lat-lon                     4144 non-null   object 
 4   price                       4538 non-null   float64
 5   currency                    4538 non-null   object 
 6   price_aprox_local_currency  4538 non-null   float64
 7   price_aprox_usd             4538 non-null   float64
 8   surface_total_in_m2         1668 non-null   float64
 9   surface_covered_in_m2       4436 non-null   float64
 10  price_usd_per_m2            1150 non-null   float64
 11  price_per_m2                4249 non-null   float64
 12  floor                       291 non-null    float64
 13  rooms                 

Unnamed: 0,operation,property_type,place_with_parent_names,lat-lon,price,currency,price_aprox_local_currency,price_aprox_usd,surface_total_in_m2,surface_covered_in_m2,price_usd_per_m2,price_per_m2,floor,rooms,expenses,properati_url
0,sell,apartment,|Miguel Hidalgo|Distrito Federal|México|,"23.634501,-102.552788",5500000.0,MXN,5450245.5,289775.66,,54.0,,101851.8519,,,,http://miguel-hidalgo-df.properati.com.mx/o3zb...
1,sell,house,|Iztapalapa|Distrito Federal|México|,"19.31033,-99.068557",1512000.0,MXN,1498321.97,79661.96,,80.0,,18900.0,,,,http://iztapalapa.properati.com.mx/q7t0_venta_...
2,sell,apartment,|Tlalpan|Distrito Federal|México|,"19.279771,-99.234597",926667.0,MXN,918284.0,48822.82,,100.0,,9266.67,,,,http://tlalpan.properati.com.mx/qbi4_venta_dep...
3,sell,apartment,|Miguel Hidalgo|Distrito Federal|México|,"23.634501,-102.552788",6410000.0,MXN,6352013.39,337720.36,,135.0,,47481.48148,,,,http://miguel-hidalgo-df.properati.com.mx/opeq...
4,sell,apartment,|Benito Juárez|Quintana Roo|México|,"21.1902642,-86.8198375",875000.0,USD,16457437.5,875000.0,0.0,263.0,,3326.996198,,,,http://cancun.properati.com.mx/hg4t_venta_depa...


Para esse projeto, vamos utlizar epenas as informações das colunas 'property_type', 'place_with_parent_names', 'lat-lon', 'surface_covered_in_m2', 'price_aprox_usd'

In [46]:
df1 = df1[['property_type', 'place_with_parent_names', 'lat-lon', 'surface_covered_in_m2', 'price_aprox_usd']]
df1.head()

Unnamed: 0,property_type,place_with_parent_names,lat-lon,surface_covered_in_m2,price_aprox_usd
0,apartment,|Miguel Hidalgo|Distrito Federal|México|,"23.634501,-102.552788",54.0,289775.66
1,house,|Iztapalapa|Distrito Federal|México|,"19.31033,-99.068557",80.0,79661.96
2,apartment,|Tlalpan|Distrito Federal|México|,"19.279771,-99.234597",100.0,48822.82
3,apartment,|Miguel Hidalgo|Distrito Federal|México|,"23.634501,-102.552788",135.0,337720.36
4,apartment,|Benito Juárez|Quintana Roo|México|,"21.1902642,-86.8198375",263.0,875000.0


A coluna 'place_with_parent_names' contam a informação do estado onde a casa está localizada. Vamos criar uma nova coluna contendo apenas a informação do estado e depois vamos excluir a coluna original.

In [47]:
df1['state'] = df1['place_with_parent_names'].str.split('|', expand=True)[2]
df1.drop(columns='place_with_parent_names', inplace=True)
df1.head()

Unnamed: 0,property_type,lat-lon,surface_covered_in_m2,price_aprox_usd,state
0,apartment,"23.634501,-102.552788",54.0,289775.66,Distrito Federal
1,house,"19.31033,-99.068557",80.0,79661.96,Distrito Federal
2,apartment,"19.279771,-99.234597",100.0,48822.82,Distrito Federal
3,apartment,"23.634501,-102.552788",135.0,337720.36,Distrito Federal
4,apartment,"21.1902642,-86.8198375",263.0,875000.0,Quintana Roo


A coluna "lat-lon" armazena informações sobre a localização do imóvel, mas no formato atual, não é possível analisá-las de forma eficiente. Para resolver isso, vamos separar esses dados em duas colunas distintas: "lat" para latitude e "lon" para longitude e vamos excluir a coluna original.

In [48]:
df1[['lat', 'lon']] = df1['lat-lon'].str.split(',', expand=True)
df1.drop(columns='lat-lon', inplace=True)
df1.head()

Unnamed: 0,property_type,surface_covered_in_m2,price_aprox_usd,state,lat,lon
0,apartment,54.0,289775.66,Distrito Federal,23.634501,-102.552788
1,house,80.0,79661.96,Distrito Federal,19.31033,-99.068557
2,apartment,100.0,48822.82,Distrito Federal,19.279771,-99.234597
3,apartment,135.0,337720.36,Distrito Federal,23.634501,-102.552788
4,apartment,263.0,875000.0,Quintana Roo,21.1902642,-86.8198375


Agora, vamos aplicar o mesmo tratamento para os dataframes 2 e 3.

In [49]:
#Aplicando tratamento para df3
df2 = df2[['property_type', 'place_with_parent_names', 'lat-lon', 'surface_covered_in_m2', 'price_aprox_usd']]
df2['state'] = df2['place_with_parent_names'].str.split('|', expand=True)[2]
df2.drop(columns='place_with_parent_names', inplace=True)
df2[['lat', 'lon']] = df2['lat-lon'].str.split(',', expand=True)
df2.drop(columns='lat-lon', inplace=True)

#Aplicando tratamento para df3
df3 = df3[['property_type', 'place_with_parent_names', 'lat-lon', 'surface_covered_in_m2', 'price_aprox_usd']]
df3['state'] = df3['place_with_parent_names'].str.split('|', expand=True)[2]
df3.drop(columns='place_with_parent_names', inplace=True)
df3[['lat', 'lon']] = df3['lat-lon'].str.split(',', expand=True)
df3.drop(columns='lat-lon', inplace=True)

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df2['state'] = df2['place_with_parent_names'].str.split('|', expand=True)[2]
A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df2.drop(columns='place_with_parent_names', inplace=True)
A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df3['state'] = df3['place_with_parent_names'].str.split('|', expand=True)[2]
A value is trying to be set on a copy of a slice f

In [50]:
df2.head()

Unnamed: 0,property_type,surface_covered_in_m2,price_aprox_usd,state,lat,lon
0,apartment,88.0,63223.78,Distrito Federal,19.516777,-99.160149
1,apartment,48.0,25289.51,Distrito Federal,19.466724,-99.131614
2,apartment,126.0,240211.43,Distrito Federal,19.33228,-99.243934
3,apartment,171.0,200682.34,Quintana Roo,21.1105772788,-86.8537859927
4,apartment,100.0,91147.61,Distrito Federal,19.39365,-99.14769


In [51]:
df3.head()

Unnamed: 0,property_type,surface_covered_in_m2,price_aprox_usd,state,lat,lon
0,apartment,,143074.99,Distrito Federal,19.5010872,-99.1230477
1,house,338.0,266129.83,Quintana Roo,21.161908,-86.8515279
2,store,1050.0,500640.29,Distrito Federal,,
3,house,78.0,42676.05,Quintana Roo,21.141616,-86.86109
4,apartment,,26343.24,Distrito Federal,19.3603443968,-99.089448452


Vamos examinar as informações dos dataframes

In [55]:
print(df1.info())
print('-'*100)
print(df2.info())
print('-'*100)
print(df3.info())
print('-'*100)

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 4628 entries, 0 to 4627
Data columns (total 6 columns):
 #   Column                 Non-Null Count  Dtype  
---  ------                 --------------  -----  
 0   property_type          4628 non-null   object 
 1   surface_covered_in_m2  4436 non-null   float64
 2   price_aprox_usd        4538 non-null   float64
 3   state                  4628 non-null   object 
 4   lat                    4144 non-null   object 
 5   lon                    4144 non-null   object 
dtypes: float64(2), object(4)
memory usage: 217.1+ KB
None
----------------------------------------------------------------------------------------------------
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 4628 entries, 0 to 4627
Data columns (total 6 columns):
 #   Column                 Non-Null Count  Dtype  
---  ------                 --------------  -----  
 0   property_type          4628 non-null   object 
 1   surface_covered_in_m2  4445 non-null   float64
 2  

É possível observar que as colunas lat e lon estão com os dados do tipo 'object' e também podemos observar que existem valores faltantes em algumas colunas. Vamos ajustar os tipos dos dados das colunas lat e lon para o tipo float e excluir as linhas que apresetam valores faltantes. Excluir linhas não é a melhor abordagem, mas vamos fazer assim por enquanto.

In [61]:
df1.dropna(inplace=True)
df2.dropna(inplace=True)
df3.dropna(inplace=True)
df1[['lat', 'lon']] = df1[['lat', 'lon']].astype(float)
df2[['lat', 'lon']] = df3[['lat', 'lon']].astype(float)
df3[['lat', 'lon']] = df3[['lat', 'lon']].astype(float)

Vamos verificar novamente as informações dos dataframes

In [62]:
print(df1.info())
print('-'*100)
print(df2.info())
print('-'*100)
print(df3.info())
print('-'*100)

<class 'pandas.core.frame.DataFrame'>
Index: 3915 entries, 0 to 4627
Data columns (total 6 columns):
 #   Column                 Non-Null Count  Dtype  
---  ------                 --------------  -----  
 0   property_type          3915 non-null   object 
 1   surface_covered_in_m2  3915 non-null   float64
 2   price_aprox_usd        3915 non-null   float64
 3   state                  3915 non-null   object 
 4   lat                    3915 non-null   float64
 5   lon                    3915 non-null   float64
dtypes: float64(4), object(2)
memory usage: 214.1+ KB
None
----------------------------------------------------------------------------------------------------
<class 'pandas.core.frame.DataFrame'>
Index: 3913 entries, 0 to 4627
Data columns (total 6 columns):
 #   Column                 Non-Null Count  Dtype  
---  ------                 --------------  -----  
 0   property_type          3913 non-null   object 
 1   surface_covered_in_m2  3913 non-null   float64
 2   price_apr

Agora vamos juntar os dataframes para que todos os dados estejam em um unico dataframe e possamos conduzir a análise de maneira mais adequada.

In [63]:
# Concatenate df1, df2, and df3
df = pd.concat([df1, df2, df3])

# Print object type, shape, and head
print("df type:", type(df))
print("df shape:", df.shape)
df.head()

df type: <class 'pandas.core.frame.DataFrame'>
df shape: (11757, 6)


Unnamed: 0,property_type,surface_covered_in_m2,price_aprox_usd,state,lat,lon
0,apartment,54.0,289775.66,Distrito Federal,23.634501,-102.552788
1,house,80.0,79661.96,Distrito Federal,19.31033,-99.068557
2,apartment,100.0,48822.82,Distrito Federal,19.279771,-99.234597
3,apartment,135.0,337720.36,Distrito Federal,23.634501,-102.552788
4,apartment,263.0,875000.0,Quintana Roo,21.190264,-86.819838


In [64]:
%ls

mexico-city-real-estate-1.csv  mexico-city-real-estate-3.csv  mexico-city-real-estate-5.csv
mexico-city-real-estate-2.csv  mexico-city-real-estate-4.csv  [0m[01;34msample_data[0m/
