<div class="alert alert-block alert-info">
<center> <h1> Exploratory Data Analysis (EDA) </h1> </center> <br>
<center> <h2> Sales Efficiency </h2> </center> <br>
<center> <h3> Final Work </h3> </center> <br>
<center> Ruben Duarte : 2023168 @ Universidade Atlântica </center>
<center> 2023/2024 </center>

# 1. Conhecer o Negócio

A **Imobilax**, é provavelmente a empresa de comercialização de imóveis mais reconhecida em Portugal e quer manter essa posição. Neste sentido, pretende que uma equipa de **Data Scientists/Engineers** possa analisar a grande quantidade de dados que possui (das vendas efectuadas nas agências de Lisboa e Porto) e sugerir algumas melhorias nos seus processos de venda e prospecção de clientes. 

A análise exploratória é uma abordagem na análise de dados que visa entender e resumir as principais características de um conjunto de dados. Esta é frequentemente usada no início de um projeto de análise de dados para obter **insights** iniciais e compreender melhor a natureza dos dados antes de aplicar técnicas de **modelação estatística ou machine learning**.

A análise exploratória de dados envolve várias atividades, incluindo:

- **Resumo estatístico**: Isso inclui calcular estatísticas descritivas, como média, mediana, desvio padrão, mínimo e máximo, para entender a distribuição dos dados.

- **Visualização de dados**: Gráficos e plots são usados para representar os dados de forma visual, ajudando a identificar padrões, tendências e anomalias. Gráficos de dispersão, histogramas, box plots e gráficos de barras são comuns na análise exploratória.

- **Tratamento de valores ausentes**: Identificar e lidar com valores ausentes nos dados, ou seja, preenchendo-os, removendo-os ou utilizando técnicas específicas para o seu tratamento.

- **Análise de correlação**: A análise exploratória também pode incluir o estudo das relações entre variáveis por meio de coeficientes de correlação, o que ajuda a identificar conexões entre diferentes variáveis no conjunto de dados.

- **Identificação de outliers**: Outliers são valores que se destacam do restante dos dados. Identificar e entender a presença de outliers é fundamental, uma vez que estes podem afetar os resultados da análise estatística.

A análise exploratória de dados é uma etapa crítica na preparação de dados para análises mais avançadas. Esta ajuda os analistas a entender a qualidade dos dados, descobrir **insights** iniciais e determinar quais as técnicas analíticas subsequentes que são mais apropriadas para os dados em questão. Além disso, a análise exploratória ajuda a evitar suposições erróneas e enviesadas na interpretação dos resultados.

# 2. Conhecer os Dados

## Variáveis

- **id** - Identificador único para a transacção do imóvel

- **city** - Local do imóvel

- **osex** - Sexo do proprietário (Owner)

- **cyear** - Ano de construção

- **quality** - Escala com o estado/qualidade do imóvel

- **year** - Ano da transacção do imóvel

- **month** - Mês da transacção do imóvel

- **buyer.ethnicity** : 1 - American, 2 - Asian, 3 - Black (not Hispanic), 4 - Hispanic, 5 - White, 6 - Middle-Eastern, Arabic

- **buyer.gender** - 0 - Male , 1 - Female

- **com** - Valor em percentagem ganho de comissão sobre o negócio pelo agente da imobiliária

- **size** - Valor em metros quadrados

- **price** - Valor em milhares de euros (250 = 250 mil euros)

- **iva** - Percentagem de iva aplicada sobre o preço (23%)

- **iva.margin** - Valor do iva sobre o negócio

- **price.with.iva** - Preço final = price + iva.margin (ou seja, inclui o valor do iva)

### Importe as livrarias Python necessárias

In [None]:
import pandas as pd

### Importe os dados de partir do ficheiro que lhe corresponde (identificado no documento em anexo)

**PS**: Observe cuidadosamente o separador das colunas.

### Assignar esses dados a uma variável chamada **sales**.

In [None]:
sales = pd.read_csv('sales-19.csv')

### Ver os primeiros 15 registos

In [None]:
sales.head(15)

### Ver os últimos 8 registos

In [None]:
sales.tail(8)

### Qual o número de observações que tem o dataset?

In [None]:
# Solution 1
sales.shape

In [None]:
# Solution 2
len(sales)


### Quantas colunas tem o dataset ?

In [None]:
len(sales.axes[1])

### Liste o nome de todas as colunas.

In [None]:
sales.columns

#alternativa
#sales.dtypes

### Como está o dataset indexado ?

In [None]:
#Pela coluna 0, id

### Qual é a cidade onde se venderam mais casas ? 

In [None]:
maxV = sales['city'].value_counts()
print(maxV.head(1))

### Qual o valor de memória ocupado pelo dataframe ?


In [None]:
sum(sales.memory_usage())


### Altere as colunas que achar que devem ser categóricas para esse formato.


In [None]:
sales["city"] = sales["city"].astype("category")
sales["osex"] = sales["osex"].astype("category")
sales["quality"] = sales["quality"].astype("category")
sales["buyer.ethnicity"] = sales["buyer.ethnicity"].astype("category")
sales["buyer.nationality"] = sales["buyer.nationality"].astype("category")
sales["house.type"] = sales["house.type"].astype("category")
sales["n.rooms"] = sales["n.rooms"].astype("category")
sales["n.bathrooms"] = sales["n.bathrooms"].astype("category")


### Escreva esse dataframe resultante, num novo ficheiro chamado: “sales-stats.csv”


In [None]:
sales.to_csv('sales-stats.csv', index=False)

# Preparar os Dados


### Corrija os dados nas colunas que tenham valores errados e/ou vazios.


In [None]:
import pandas as pd

In [None]:
sales = pd.read_csv('sales-stats.csv')
sales

In [None]:
sales['city'].unique()

In [None]:
sales.loc[sales['city'] == 'Lx', ['city']] = 'Lisboa'
sales.loc[sales['city'] == 'LISBOA', ['city']] = 'Lisboa'
sales.loc[sales['city'] == 'PORTO', ['city']] = 'Porto'
sales.loc[sales['city'] == 'Proto', ['city']] = 'Porto'

sales['city'].unique()

In [None]:
sales['buyer.ethnicity'].unique()

In [None]:
sales.loc[sales['buyer.ethnicity'] == 1, ['buyer.ethnicity']] = 'American'
sales.loc[sales['buyer.ethnicity'] == 2, ['buyer.ethnicity']] = 'Asian'
sales.loc[sales['buyer.ethnicity'] == 3, ['buyer.ethnicity']] = 'Black (not Hispanic)'
sales.loc[sales['buyer.ethnicity'] == 4, ['buyer.ethnicity']] = 'Hispanic'
sales.loc[sales['buyer.ethnicity'] == 5, ['buyer.ethnicity']] = 'White'
sales.loc[sales['buyer.ethnicity'] == 6, ['buyer.ethnicity']] = 'Middle-Eastern, Arabic'

sales['buyer.ethnicity'].unique()

In [None]:
sales['buyer.gender'].unique()

In [None]:
sales.loc[sales['buyer.gender'] == 1, ['buyer.gender']] = 'Female'
sales.loc[sales['buyer.gender'] == 0, ['buyer.gender']] = 'Male'

sales['buyer.gender'].unique()

In [None]:
sales['buyer.nationality'].unique()

In [None]:
sales.loc[sales['buyer.nationality'] == 'PT', ['buyer.nationality']] = 'Portugal'
sales.loc[sales['buyer.nationality'] == 'Pt', ['buyer.nationality']] = 'Portugal'
sales.loc[sales['buyer.nationality'] == 'Prt', ['buyer.nationality']] = 'Portugal'
sales.loc[sales['buyer.nationality'] == 'Portugl', ['buyer.nationality']] = 'Portugal'
sales.loc[sales['buyer.nationality'] == 'USA', ['buyer.nationality']] = 'United States of America'
sales.loc[sales['buyer.nationality'] == 'EUA', ['buyer.nationality']] = 'United States of America'
sales.loc[sales['buyer.nationality'] == 'ENGLAND', ['buyer.nationality']] = 'England'
sales.loc[sales['buyer.nationality'] == 'UK', ['buyer.nationality']] = 'England'

sales['buyer.nationality'].unique()


### Remova as linhas que tenham valores vazios (apenas depois de ter corrigido os valores vazios que possa de facto corrigir).


In [None]:
#sales.dropna()


### Remova do dataframe as colunas que achar desnecessárias. Justifique o porquê dessas remoções.


In [None]:
sales = sales.drop(
                ['osex', 'buyer.fname', 'buyer.lname'], axis=1
            ).dropna(
            ).reset_index(
                drop=True
            )

# 'osex', 'buyer.fname', 'buyer.lname' são dados que não trazem informação de relevo para o nosso objectivo
# Na minha óptica, isto deve ser feito antes do dropna, pois assim aproveitamos alguns dados, nomeadamente da coluna 'osex'

### Adicione ao dataframe as colunas que achar necessárias.

In [None]:
iva = sales.price.multiply(1.23)
sales.loc[:, 'price.with.iva'] = iva

sales

In [None]:
sales.to_csv('sales-stats-analisys-ready.csv', index=False)

# Analisar os dados


### Apresente as estatísticas descritivas sobre todas as colunas do dataset em formato dataframe.


In [None]:
sales.describe()

### Apresente os histogramas correspondentes às variáveis numéricas

In [None]:
sales.hist()


### Quantas casas foram vendidas em Lisboa ?


In [None]:
sales_by_city = sales.groupby('city')
# sales_by_city.get_group('Lisboa').value_counts().sum()

sales['city'].value_counts()['Lisboa'].sum()


### Quantas casas foram vendidas no Porto e Coimbra ?


In [14]:
sales['city'].value_counts()['Porto'].sum() + sales['city'].value_counts()['Coimbra'].sum()

151


### Qual a percentagem de casas que foram vendidas em Portimão ?


In [None]:
sales['city'].value_counts()['Portimão'].sum() / sales['city'].value_counts().sum() * 100


### Qual o número de casas vendidas por nacionalidade ?


In [None]:
sales['buyer.nationality'].value_counts()


### Qual a percentagem de vendas a mulheres ? E a homens ?


In [None]:
# Mulheres
sales['buyer.gender'].value_counts()['Female'].sum() / sales['buyer.gender'].value_counts().sum() * 100

In [None]:
# Homens
sales['buyer.gender'].value_counts()['Male'].sum() / sales['buyer.gender'].value_counts().sum() * 100


### Qual o valor médio do preço das casas apenas em Lisboa ? E no Porto ?


In [None]:
sales_by_city.get_group('Lisboa')['price'].median()

In [None]:
sales_by_city.get_group('Porto')['price'].median()


### Qual o valor médio do preço das vendas totais ?


In [None]:
sales['price'].median()


### Qual o valor da correlação entre o número de casas de banho e o preço da casa ? Explique o facto.


In [None]:
sales.plot.scatter(x='n.bathrooms', y='price')

In [None]:
# O facto de haver um outlier consistente de casas com 30 wc's leva-me a acreditar que seja erro de introdução
# Posso fazer drop desses valores

#sales['n.bathrooms'] = sales['n.bathrooms'].drop(30)

# Mas neste caso acredito que o valor correcto seja 3 em vez de 30, portanto vou alterar os dados

sales['n.bathrooms'] = sales['n.bathrooms'].replace(to_replace=30, value=3)

sales.plot.scatter(x='n.bathrooms', y='price')

In [None]:
sales[['n.bathrooms', 'price']].corr(method='spearman')

# Não existe uma correlação entre o preço das casas, e o número de casas de banho, com um coeficiente de correlação muito perto de 0


### Que tipo de correlação existe entre o número de quartos e o preço da casa ? E qual o seu valor ?


In [None]:
sales.plot.scatter(x='n.rooms', y='price')

In [None]:
sales[['n.rooms', 'price']].corr(method='spearman')

# Existe uma forte correlação positiva, com um coeficiente de correlação de quase 1

### Apresente livremente gráficos exploratórios sobre as vendas.

# Modelação


### Se lhe for apresentada a seguinte casa para venda, qual o valor que sugeria como mais adequado a esse imóvel ?

**city,osex,cyear,quality,buyer.ethnicity,buyer.gender,buyer.age,buyer.nationality,house.type,size,n.rooms,n.bathrooms**

*Lisboa,Male,2015,High,1,1,59,Portugal,Apartamento,92.02,4,4*


In [1]:
import pandas as pd
sales = pd.read_csv('sales-stats-final.csv')
sales

Unnamed: 0,id,city,cyear,quality,year,buyer.ethnicity,buyer.gender,buyer.age,buyer.nationality,house.type,size,n.rooms,n.bathrooms,price,price.with.iva
0,PT-387,Lisboa,2004.0,Low,2023,"Middle-Eastern, Arabic",Male,46,United States of America,Apartamento,338.73,1,2,220,270.60
1,PT-1225,Lisboa,2014.0,Very High,2018,Hispanic,Female,47,Portugal,Vivenda,230.79,3,4,476,585.48
2,PT-1108,Lisboa,2003.0,High,2016,White,Female,39,Portugal,Quinta,209.77,2,3,299,367.77
3,PT-219,Porto,2006.0,High,2015,White,Male,40,United States of America,Apartamento,315.01,3,3,400,492.00
4,PT-544,Lisboa,2002.0,Perfect,2022,Black (not Hispanic),Female,39,England,Apartamento,146.53,5,4,827,1017.21
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
404,PT-1059,Lisboa,1996.0,Low,2018,Asian,Female,46,Portugal,Vivenda,329.84,1,4,220,270.60
405,PT-834,Porto,2008.0,High,2016,Hispanic,Male,10,Portugal,Quinta,282.50,2,2,348,428.04
406,PT-167,Porto,2006.0,High,2016,White,Female,45,United States of America,Apartamento,292.31,6,30,847,1041.81
407,PT-34,Lisboa,1960.0,Very High,2023,American,Female,49,Portugal,Apartamento,294.32,1,2,227,279.21


In [2]:
# Vou usar um algoritmo de Regressão Linear, pela rapidez, interpretabilidade, e necessidade de recursos
#%pip install scikit-learn
from sklearn.linear_model import LinearRegression
from sklearn.model_selection import train_test_split
from sklearn import metrics
from sklearn.preprocessing import OneHotEncoder

In [3]:
sales = sales.rename(columns={
    'buyer.ethnicity': 'buyer_ethnicity',
    'buyer.gender': 'buyer_gender',
    'buyer.age': 'buyer_age',
    'buyer.nationality': 'buyer_nationality',
    'house.type': 'house_type',
    'n.rooms': 'n_rooms',
    'n.bathrooms': 'n_bathrooms'
})

sales_d = pd.DataFrame()

sales_d =pd.get_dummies(
                sales[['city']]
            ).merge(
                pd.get_dummies(sales[['quality']]), left_index=True, right_index=True
            ).merge(
                pd.get_dummies(sales[['buyer_ethnicity']]), left_index=True, right_index=True
            ).merge(
                pd.get_dummies(sales[['buyer_gender']]), left_index=True, right_index=True
            ).merge(
                pd.get_dummies(sales[['buyer_nationality']]), left_index=True, right_index=True
            ).merge(
                pd.get_dummies(sales[['house_type']]), left_index=True, right_index=True
            ).merge(
                sales[['cyear', 'year', 'buyer_age', 'size', 'n_rooms', 'n_bathrooms']], left_index=True, right_index=True
            )

sales_d = sales_d.reindex(sales_d.columns, axis=1)

sales_d


Unnamed: 0,city_Coimbra,city_Faro,city_Lagos,city_Lisboa,city_Portimão,city_Porto,quality_High,quality_Low,quality_Medium,quality_Perfect,...,buyer_nationality_United States of America,house_type_Apartamento,house_type_Quinta,house_type_Vivenda,cyear,year,buyer_age,size,n_rooms,n_bathrooms
0,False,False,False,True,False,False,False,True,False,False,...,True,True,False,False,2004.0,2023,46,338.73,1,2
1,False,False,False,True,False,False,False,False,False,False,...,False,False,False,True,2014.0,2018,47,230.79,3,4
2,False,False,False,True,False,False,True,False,False,False,...,False,False,True,False,2003.0,2016,39,209.77,2,3
3,False,False,False,False,False,True,True,False,False,False,...,True,True,False,False,2006.0,2015,40,315.01,3,3
4,False,False,False,True,False,False,False,False,False,True,...,False,True,False,False,2002.0,2022,39,146.53,5,4
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
404,False,False,False,True,False,False,False,True,False,False,...,False,False,False,True,1996.0,2018,46,329.84,1,4
405,False,False,False,False,False,True,True,False,False,False,...,False,False,True,False,2008.0,2016,10,282.50,2,2
406,False,False,False,False,False,True,True,False,False,False,...,True,True,False,False,2006.0,2016,45,292.31,6,30
407,False,False,False,True,False,False,False,False,False,False,...,False,True,False,False,1960.0,2023,49,294.32,1,2


In [5]:
# Features and target selecting
x = sales_d

y = sales.price

In [6]:
# Data Splitting for later testing
X_train, X_test, y_train, y_test = train_test_split(x, y, test_size=0.2, random_state=1) # 80% training and 20% test

In [7]:
# Decision Tree Model Build
clf = LinearRegression() # Classifier Creation

clf = clf.fit(X_train, y_train) # Model Training

y_pred = clf.predict(X_test) # Predict with Test Data

In [8]:
# Evaluating against test using mean squared error
metrics.mean_squared_error(y_test, y_pred)

2864.0231106255605

In [12]:
new_house = pd.DataFrame(data={'city': 'Lisboa','osex': 'Male','cyear': 2015,'quality': 'High','buyer.ethnicity': 'American','buyer.gender': 'Female','buyer.age': 59, 
                          'buyer.nationality': 'Portugal','house.type': 'Apartamento','size': 92.02,'n.rooms': 4,'n.bathrooms': 4}, index=[0])


new_house = new_house.rename(columns={
    'buyer.ethnicity': 'buyer_ethnicity',
    'buyer.gender': 'buyer_gender',
    'buyer.age': 'buyer_age',
    'buyer.nationality': 'buyer_nationality',
    'house.type': 'house_type',
    'n.rooms': 'n_rooms',
    'n.bathrooms': 'n_bathrooms'
})

new_house = pd.get_dummies(
                new_house[['city']]
            ).merge(
                pd.get_dummies(new_house[['quality']]), left_index=True, right_index=True
            ).merge(
                pd.get_dummies(new_house[['buyer_ethnicity']]), left_index=True, right_index=True
            ).merge(
                pd.get_dummies(new_house[['buyer_gender']]), left_index=True, right_index=True
            ).merge(
                pd.get_dummies(new_house[['buyer_nationality']]), left_index=True, right_index=True
            ).merge(
                pd.get_dummies(new_house[['house_type']]), left_index=True, right_index=True
            ).merge(
                new_house[['cyear', 'buyer_age', 'size', 'n_rooms', 'n_bathrooms']], left_index=True, right_index=True
            )

for col in sales_d.columns.to_list():
    if col not in new_house.columns:
        new_house[col] = False

new_house = new_house.reindex(sales_d.columns, axis=1)

new_house

Unnamed: 0,city_Coimbra,city_Faro,city_Lagos,city_Lisboa,city_Portimão,city_Porto,quality_High,quality_Low,quality_Medium,quality_Perfect,...,buyer_nationality_United States of America,house_type_Apartamento,house_type_Quinta,house_type_Vivenda,cyear,year,buyer_age,size,n_rooms,n_bathrooms
0,False,False,False,True,False,False,True,False,False,False,...,False,True,False,False,2015,False,59,92.02,4,4


In [13]:
nhp = clf.predict(new_house)

nhp
sales

Unnamed: 0,id,city,cyear,quality,year,buyer_ethnicity,buyer_gender,buyer_age,buyer_nationality,house_type,size,n_rooms,n_bathrooms,price,price.with.iva
0,PT-387,Lisboa,2004.0,Low,2023,"Middle-Eastern, Arabic",Male,46,United States of America,Apartamento,338.73,1,2,220,270.60
1,PT-1225,Lisboa,2014.0,Very High,2018,Hispanic,Female,47,Portugal,Vivenda,230.79,3,4,476,585.48
2,PT-1108,Lisboa,2003.0,High,2016,White,Female,39,Portugal,Quinta,209.77,2,3,299,367.77
3,PT-219,Porto,2006.0,High,2015,White,Male,40,United States of America,Apartamento,315.01,3,3,400,492.00
4,PT-544,Lisboa,2002.0,Perfect,2022,Black (not Hispanic),Female,39,England,Apartamento,146.53,5,4,827,1017.21
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
404,PT-1059,Lisboa,1996.0,Low,2018,Asian,Female,46,Portugal,Vivenda,329.84,1,4,220,270.60
405,PT-834,Porto,2008.0,High,2016,Hispanic,Male,10,Portugal,Quinta,282.50,2,2,348,428.04
406,PT-167,Porto,2006.0,High,2016,White,Female,45,United States of America,Apartamento,292.31,6,30,847,1041.81
407,PT-34,Lisboa,1960.0,Very High,2023,American,Female,49,Portugal,Apartamento,294.32,1,2,227,279.21


# Conclusões


### Apresente algumas conclusões finais e pertinentes acerca das vendas sobre o qual acabou de trabalhar. Que poderia sugerir à imobiliária em causa ?

Sugeriria à imobiliária que uma recolha de dados sobre a casa mais detalhada traria uma previsão melhorada. Exemplos de dados a recolher:
    Informação sobre o local - Distrito é uma categoria muito ampla. Dados como freguesia e rua trazem uma possibilidade de análise mais profunda
    Informação complementar do imóvel - algumas características que possam aumentar ou reduzir o valor-face do imóvel. Por exemplo, um andar alto tende a valer mais que uma cave, ou a valorização que piscina ou garagem trazem.
A quantidade de dados também é reduzida. Uma amostra maior traria uma análise mais promenorizada do peso de cada categoria de dados recolhida, o que melhora a performance da previsão.