### **üèòÔ∏è CDD-19: Data Science - Limpeza e Estat√≠stica**

**Autora:** Tina Almeida

**Data:** 10/02/2026

**Dataset:** house.csv

---

### üéØ Objetivo
Realizar a limpeza de dados (Data Cleaning) e aplicar t√©cnicas avan√ßadas de filtragem e manipula√ß√£o no dataset `house.csv`. O foco √© aprender a selecionar dados espec√≠ficos (Slicing), usar express√µes regulares (Regex) e modificar valores em massa.

1Ô∏è‚É£ Carregando os dados

In [72]:
import pandas as pd
import os

# Carregando o dataset
caminho = '../dados/house/house.csv'

#Verificando se realmente o arquivo existe para evitar erros futuros
if os.path.exists(caminho):
    print(f"‚úÖArquivo encontrado: {caminho}")
else:
    print(f"‚ùå Arquivo n√£o encontrado verifique o caminho")

# Exibindo as primeiras linhas do dataset
try:
    print("üè° CARREGANDO DATASET...")
    df = pd.read_csv(caminho)
    print("Imprimindo os 10 primeiros resultados:")
    display(df.head(10))
except Exception as e:
    print(f"‚ùå Erro ao carregar o dataset: {e}")

‚úÖArquivo encontrado: ../dados/house/house.csv
üè° CARREGANDO DATASET...
Imprimindo os 10 primeiros resultados:


Unnamed: 0,Suburb,Address,Rooms,Type,Price,Method,SellerG,Date,Postcode,Regionname,Propertycount,Distance,CouncilArea
0,Abbotsford,49 Lithgow St,3,h,1490000.0,S,Jellis,1/04/2017,3067,Northern Metropolitan,4019,3.0,Yarra City Council
1,Abbotsford,59A Turner St,3,h,1220000.0,S,Marshall,1/04/2017,3067,Northern Metropolitan,4019,3.0,Yarra City Council
2,Abbotsford,119B Yarra St,3,h,1420000.0,S,Nelson,1/04/2017,3067,Northern Metropolitan,4019,3.0,Yarra City Council
3,Aberfeldie,68 Vida St,3,h,1515000.0,S,Barry,1/04/2017,3040,Western Metropolitan,1543,7.5,Moonee Valley City Council
4,Airport West,92 Clydesdale Rd,2,h,670000.0,S,Nelson,1/04/2017,3042,Western Metropolitan,3464,10.4,Moonee Valley City Council
5,Airport West,4/32 Earl St,2,t,530000.0,S,Jellis,1/04/2017,3042,Western Metropolitan,3464,10.4,Moonee Valley City Council
6,Airport West,3/74 Hawker St,2,u,540000.0,S,Barry,1/04/2017,3042,Western Metropolitan,3464,10.4,Moonee Valley City Council
7,Airport West,1/26 Highridge Cr,3,h,715000.0,SP,Nelson,1/04/2017,3042,Western Metropolitan,3464,10.4,Moonee Valley City Council
8,Albanvale,1 Jackson Cct,6,h,,PI,hockingstuart,1/04/2017,3021,Western Metropolitan,1899,14.0,Brimbank City Council
9,Albert Park,18 Mills St,3,h,1925000.0,S,Cayzer,1/04/2017,3206,Southern Metropolitan,3280,3.0,Port Phillip City Council


2Ô∏è‚É£ Raio-x da Sujeira (Identificando o problema)

In [73]:
#Verificando tipo de dados e mem√≥ria utilizada
print("üìä INFO dataset:")
(df.info())

print("\n --- CONTANDO VALORES NULOS (NaN) ---")
# isNull() verifica se h√° valores nulos (NaN) no dataset, sum() conta quantos valores nulos existem em cada coluna
display(df.isnull().sum())

üìä INFO dataset:
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 63023 entries, 0 to 63022
Data columns (total 13 columns):
 #   Column         Non-Null Count  Dtype  
---  ------         --------------  -----  
 0   Suburb         63023 non-null  object 
 1   Address        63023 non-null  object 
 2   Rooms          63023 non-null  int64  
 3   Type           63023 non-null  object 
 4   Price          48433 non-null  float64
 5   Method         63023 non-null  object 
 6   SellerG        63023 non-null  object 
 7   Date           63023 non-null  object 
 8   Postcode       63023 non-null  int64  
 9   Regionname     63023 non-null  object 
 10  Propertycount  63023 non-null  int64  
 11  Distance       63023 non-null  float64
 12  CouncilArea    63023 non-null  object 
dtypes: float64(2), int64(3), object(8)
memory usage: 6.3+ MB

 --- CONTANDO VALORES NULOS (NaN) ---


Suburb               0
Address              0
Rooms                0
Type                 0
Price            14590
Method               0
SellerG              0
Date                 0
Postcode             0
Regionname           0
Propertycount        0
Distance             0
CouncilArea          0
dtype: int64

3Ô∏è‚É£ Limpeza (O B√°sico)

In [74]:
print("--- üßπ Limpeza de dados ---")

# 1. Removendo linhas onde o pre√ßo √© nulo, usando dropna() para eliminar linhas com valores nulos na coluna 'Price'
df_limpo = df.dropna(subset=['Price']).copy()

# 2. Verificando a limpeza
print(f" Linhas antes da limpeza: {df.shape[0]}")
print(f" Linhas ap√≥s a limpeza: {df_limpo.shape[0]}")
print(f" Nulos em Price agora: {df_limpo['Price'].isnull().sum()}")

# 3. Resetando o √≠ndice para ficar organizado ap√≥s a remo√ß√£o de linhas
df_limpo = df_limpo.reset_index(drop=True)
print("\n‚úÖ Limpeza de dados conclu√≠da. √çndice resetado.")

--- üßπ Limpeza de dados ---
 Linhas antes da limpeza: 63023
 Linhas ap√≥s a limpeza: 48433
 Nulos em Price agora: 0

‚úÖ Limpeza de dados conclu√≠da. √çndice resetado.


4Ô∏è‚É£Filtros Avan√ßados (Quartos e Tipos)

In [75]:
print("--- üîç Filtros Avan√ßados (Rooms e Type)--- ")

# 1. Casas com exatamente 3 quartos
casas_3quartos = df_limpo.loc[df_limpo['Rooms'] == 3]
print(f"üè† Quantidade de casas com 3 quartos: {len(casas_3quartos)}")

# 2. Casas do tipo 'h' com 3 quartos
# Uso obrigat√≥rio de parenteses quando utilizar & ou | para evitar erros de preced√™ncia
filtro_house_3quartos = (df_limpo['Rooms'] == 3) & (df_limpo['Type'] == 'h')
print(f"üè† Quantidade de casas do tipo 'h' com 3 quartos: {len(df_limpo.loc[filtro_house_3quartos])}")

# 3. Mans√µes (9 quartos ou mais) que sejam Casas (Type 'h') ou Townhouses (Type 't')
filtro_9quartos = (df_limpo['Rooms'] >= 9) & (df_limpo['Type'].isin(['h', 't']))
print("\nüè∞ Quantidade de mans√µes (9 quartos ou mais) do tipo 'h' ou 't'")
print("Imprimindo os 10 primeiros resultados:")
display(df_limpo.loc[filtro_9quartos][['Address', 'Rooms', 'Type', 'Price', 'SellerG']].head(10))

--- üîç Filtros Avan√ßados (Rooms e Type)--- 
üè† Quantidade de casas com 3 quartos: 21812
üè† Quantidade de casas do tipo 'h' com 3 quartos: 17140

üè∞ Quantidade de mans√µes (9 quartos ou mais) do tipo 'h' ou 't'
Imprimindo os 10 primeiros resultados:


Unnamed: 0,Address,Rooms,Type,Price,SellerG
5727,225 McKean St,11,h,3880000.0,Jellis
5989,507 Orrong Rd,10,h,6600000.0,Marshall
8129,55 Settlement Rd,9,h,1000000.0,Ray
14578,17 Windsor Av,9,h,1380000.0,Ray
16406,213 Station Rd,12,h,710000.0,PRDNationwide
21034,5 Ball Ct,10,h,900000.0,Ray
22597,84 Flemington Rd,10,h,2800000.0,Nelson
30576,10 Berkeley St,12,h,4700000.0,Property
37598,1 Beddoe Av,10,h,2115000.0,Harcourts
42565,5 Cottswold Pl,31,h,990000.0,Justin


5Ô∏è‚É£Casas Baratas (Foco no pre√ßo)

In [76]:
print("--- üìâ Casas Baratas (Price < 300k) ---")

# 1. Filtrando casas com pre√ßo menor que 300k
casas_baratas = df_limpo.loc[df_limpo['Price'] < 300000]

# 2. Contando quantos quartos essas casas costumam ter
print(f"üè† Quantidade de casas com pre√ßo menor que 300k: {len(casas_baratas)}")
print("\nüìä Contagem de quartos em casas baratas:")
display(casas_baratas['Rooms'].value_counts())

--- üìâ Casas Baratas (Price < 300k) ---
üè† Quantidade de casas com pre√ßo menor que 300k: 333

üìä Contagem de quartos em casas baratas:


Rooms
1    226
2     65
3     33
4      8
6      1
Name: count, dtype: int64

6Ô∏è‚É£ Usando Regex e Buscando por Endere√ßo

In [69]:
# Importando a biblioteca de express√µes regulares para limpeza de dados textuais
import re

print("--- üïµüèΩ‚Äç‚ôÄÔ∏è Busca por Endere√ßo (Regex) ---")

# 1. Juntar Address que seja Turner St e Turner Rd
# flags=re.I ignora mai√∫scula e min√∫scula
# na=False garante que n√£o quebre se tiver endere√ßos nulos
filtro_rua_St = df_limpo['Address'].str.contains('Turner St', regex=True, flags=re.I, na=False)
filtro_rua_Rd = df_limpo['Address'].str.contains('Turner Rd', regex=True, flags=re.I, na=False)

print(f"üèòÔ∏è Endere√ßos que cont√™m 'Turner St': {len(df_limpo.loc[filtro_rua_St])}")
print("Imprimindo os 10 primeiros resultados:")
display(df_limpo.loc[filtro_rua_St][['Address', 'Price', 'Rooms']].head(10))

print(f"üèòÔ∏è Endere√ßos que cont√™m 'Turner Rd': {len(df_limpo.loc[filtro_rua_Rd])}")
print("Imprimindo os 10 primeiros resultados:")
display(df_limpo.loc[filtro_rua_Rd][['Address', 'Price', 'Rooms']].head(10))

# 2. Encontrar casas que tenha o numero 10 e que seu  Price seja menor que 500k
# Regex '^10\s' busca por endere√ßos que come√ßam com '10 ' (n√∫mero 10 seguido de um espa√ßo)
filtro_numero_10 = df_limpo['Address'].str.contains(r'^10\s', regex=True, na=False)
filtro_preco_menor_500k = df_limpo['Price'] < 500000
filtro_casas_10_500k = filtro_numero_10 & filtro_preco_menor_500k

print("\nüèòÔ∏è Oportunidade: Casas com n√∫mero 10 no endere√ßo e pre√ßo menor que 500k:")
print("Imprimindo os 10 primeiros resultados:")
display(df_limpo.loc[filtro_casas_10_500k][['Address', 'Price', 'Rooms']].head(10))

--- üïµüèΩ‚Äç‚ôÄÔ∏è Busca por Endere√ßo (Regex) ---
üèòÔ∏è Endere√ßos que cont√™m 'Turner St': 19
Imprimindo os 10 primeiros resultados:


Unnamed: 0,Address,Price,Rooms
1,59A Turner St,1220000.0,3
2177,24 Turner St,4700000.0,6
3845,85 Turner St,1480000.0,2
10726,4 Turner St,536000.0,5
14544,3/16 Turner St,550000.0,2
14707,106/119 Turner St,481000.0,1
15406,14 Turner St,586000.0,3
19247,15/3 Turner St,732000.0,3
20181,2 Turner St,1620000.0,3
22764,10 Turner St,812000.0,2


üèòÔ∏è Endere√ßos que cont√™m 'Turner Rd': 6
Imprimindo os 10 primeiros resultados:


Unnamed: 0,Address,Price,Rooms
3635,48 Turner Rd,832000.0,2
15070,2/20 Turner Rd,730000.0,2
32226,1/6 Turner Rd,921000.0,4
34936,3/15 Turner Rd,770000.0,2
41219,2/4 Turner Rd,680500.0,2
45041,22 Turner Rd,1150000.0,3



üèòÔ∏è Oportunidade: Casas com n√∫mero 10 no endere√ßo e pre√ßo menor que 500k:
Imprimindo os 10 primeiros resultados:


Unnamed: 0,Address,Price,Rooms
2958,10 Wallara Rd,390000.0,3
3173,10 Torana Ct,422000.0,4
3376,10 Nuragi Ct,417000.0,4
4088,10 Whitford Wy,452000.0,3
4413,10 Bellbird Ct,415000.0,3
4636,10 Evans Ct,470000.0,3
5423,10 Brazilia Av,431000.0,4
6882,10 Gordes St,464000.0,3
7018,10 Danaher Av,390000.0,3
7360,10 Learmonth St,420000.0,3


7Ô∏è‚É£ Alterando dados (Nelson -> Ronald)

In [77]:
print("--- ‚úèÔ∏è Editando Dataset (Antes e Depois) ---")

# 1. Visualizando o "ANTES" da coluna SellerG
print("üëÄ ANTES (Vendedor Nelson existe?):")
#Vamos filtras os 10 primeiros resultados onde SellerG seja 'Nelson'
filtro_nelson = df_limpo.loc[df_limpo['SellerG'] == 'Nelson'].head(10)
display(filtro_nelson[['SellerG', 'Price', 'Rooms', 'Type', 'Address', 'Method', 'Distance' ]].head(10))

# 2. Guardando o "ANTES" para compara√ß√£o futura
indice_nelson = filtro_nelson.index

# 3. Trocando 'Nelson' por 'Demitido' usando loc: .loc[linhas, coluna] = novo_valor
df_limpo.loc[df_limpo['SellerG'] == 'Nelson', 'SellerG'] = 'Demitido'

# 4. Visualizando o "DEPOIS" da coluna SellerG para os mesmos √≠ndices
print("\nüëÄ DEPOIS (Vendedor Nelson agora √© 'Demitido'):")
display(df_limpo.loc[indice_nelson][['SellerG', 'Price', 'Rooms', 'Type', 'Address', 'Method', 'Distance' ]].head(10))

# 5. Trocando o valor 'S' por 'Pending' na coluna 'Method'
df_limpo.loc[df_limpo['Method'] == 'S', 'Method'] = 'Pending'
print("\nüîÑ M√©todo 'S' agora √© 'Pending':")
display(df_limpo.loc[df_limpo['Method'] == 'Pending'][['SellerG', 'Price', 'Rooms', 'Type', 'Address', 'Method', 'Distance' ]].head(10))

# 6. Alterando o valor da coluna 'Type' para 'Evaluating' apenas para SellerG 'Demitido' e Method 'Pending'
filtro_demitido_pending = (df_limpo['SellerG'] == 'Demitido') & (df_limpo['Method'] == 'Pending')
df_limpo.loc[filtro_demitido_pending, 'Type'] = 'Evaluating'

# 7. Visualizando o resultado final para os casos que foram alterados
print("\nüîÑ Tipo 'Evaluating' para casos com SellerG 'Demitido' e Method 'Pending':")
display(df_limpo.loc[indice_nelson][['SellerG', 'Price', 'Rooms', 'Type', 'Address', 'Method', 'Distance' ]].head(10))
display(df_limpo.loc[filtro_demitido_pending][['SellerG', 'Price', 'Rooms', 'Type', 'Address', 'Method', 'Distance' ]].head(10))

--- ‚úèÔ∏è Editando Dataset (Antes e Depois) ---
üëÄ ANTES (Vendedor Nelson existe?):


Unnamed: 0,SellerG,Price,Rooms,Type,Address,Method,Distance
2,Nelson,1420000.0,3,h,119B Yarra St,S,3.0
4,Nelson,670000.0,2,h,92 Clydesdale Rd,S,10.4
7,Nelson,715000.0,3,h,1/26 Highridge Cr,SP,10.4
43,Nelson,675000.0,3,u,1/15 Toohey St,SP,8.8
72,Nelson,740000.0,2,h,53 Amelia St,PI,5.2
75,Nelson,1225000.0,2,h,27 Hanover St,SP,5.2
76,Nelson,1120000.0,3,h,10 Lanark St,S,5.2
77,Nelson,560000.0,2,t,9/4 Mitchell St,S,5.2
78,Nelson,1685000.0,3,h,9 Pitt St,S,5.2
80,Nelson,1470000.0,3,h,217 Glenlyon Rd,S,4.0



üëÄ DEPOIS (Vendedor Nelson agora √© 'Demitido'):


Unnamed: 0,SellerG,Price,Rooms,Type,Address,Method,Distance
2,Demitido,1420000.0,3,h,119B Yarra St,S,3.0
4,Demitido,670000.0,2,h,92 Clydesdale Rd,S,10.4
7,Demitido,715000.0,3,h,1/26 Highridge Cr,SP,10.4
43,Demitido,675000.0,3,u,1/15 Toohey St,SP,8.8
72,Demitido,740000.0,2,h,53 Amelia St,PI,5.2
75,Demitido,1225000.0,2,h,27 Hanover St,SP,5.2
76,Demitido,1120000.0,3,h,10 Lanark St,S,5.2
77,Demitido,560000.0,2,t,9/4 Mitchell St,S,5.2
78,Demitido,1685000.0,3,h,9 Pitt St,S,5.2
80,Demitido,1470000.0,3,h,217 Glenlyon Rd,S,4.0



üîÑ M√©todo 'S' agora √© 'Pending':


Unnamed: 0,SellerG,Price,Rooms,Type,Address,Method,Distance
0,Jellis,1490000.0,3,h,49 Lithgow St,Pending,3.0
1,Marshall,1220000.0,3,h,59A Turner St,Pending,3.0
2,Demitido,1420000.0,3,h,119B Yarra St,Pending,3.0
3,Barry,1515000.0,3,h,68 Vida St,Pending,7.5
4,Demitido,670000.0,2,h,92 Clydesdale Rd,Pending,10.4
5,Jellis,530000.0,2,t,4/32 Earl St,Pending,10.4
6,Barry,540000.0,2,u,3/74 Hawker St,Pending,10.4
8,Cayzer,1925000.0,3,h,18 Mills St,Pending,3.0
9,Douglas,515000.0,3,u,3/15 Drummartin St,Pending,10.5
10,Bells,717000.0,4,h,3A Kororoit St,Pending,10.5



üîÑ Tipo 'Evaluating' para casos com SellerG 'Demitido' e Method 'Pending':


Unnamed: 0,SellerG,Price,Rooms,Type,Address,Method,Distance
2,Demitido,1420000.0,3,Evaluating,119B Yarra St,Pending,3.0
4,Demitido,670000.0,2,Evaluating,92 Clydesdale Rd,Pending,10.4
7,Demitido,715000.0,3,h,1/26 Highridge Cr,SP,10.4
43,Demitido,675000.0,3,u,1/15 Toohey St,SP,8.8
72,Demitido,740000.0,2,h,53 Amelia St,PI,5.2
75,Demitido,1225000.0,2,h,27 Hanover St,SP,5.2
76,Demitido,1120000.0,3,Evaluating,10 Lanark St,Pending,5.2
77,Demitido,560000.0,2,Evaluating,9/4 Mitchell St,Pending,5.2
78,Demitido,1685000.0,3,Evaluating,9 Pitt St,Pending,5.2
80,Demitido,1470000.0,3,Evaluating,217 Glenlyon Rd,Pending,4.0


Unnamed: 0,SellerG,Price,Rooms,Type,Address,Method,Distance
2,Demitido,1420000.0,3,Evaluating,119B Yarra St,Pending,3.0
4,Demitido,670000.0,2,Evaluating,92 Clydesdale Rd,Pending,10.4
76,Demitido,1120000.0,3,Evaluating,10 Lanark St,Pending,5.2
77,Demitido,560000.0,2,Evaluating,9/4 Mitchell St,Pending,5.2
78,Demitido,1685000.0,3,Evaluating,9 Pitt St,Pending,5.2
80,Demitido,1470000.0,3,Evaluating,217 Glenlyon Rd,Pending,4.0
83,Demitido,398000.0,2,Evaluating,5/21 Everett St,Pending,5.2
106,Demitido,1470000.0,2,Evaluating,787 Rathdowne St,Pending,3.5
107,Demitido,2410000.0,3,Evaluating,79 Wilson St,Pending,3.5
122,Demitido,1805000.0,3,Evaluating,6/37 Groom St,Pending,3.6


8Ô∏è‚É£ Ranking e Agrupamento üìä

In [78]:
print("--- üìä Ranking de Vendedores ---")

# 1. M√©dia de Pre√ßo e Dist√¢ncia por Vendedor
# Agrupa por SellerG -> calcula a m√©dia de Price e Distance para cada vendedor
media_vendedores = df_limpo.groupby('SellerG')[['Price', 'Distance']].mean()
print("üìà M√©dia de Pre√ßo e Dist√¢ncia por Vendedor:")
display(media_vendedores.head())

# 2. Top 10 Vendedores por Price (Soma do pre√ßo das casas vendidas por cada vendedor)
top_vendedores_preco = df_limpo.groupby('SellerG')['Price'].sum().sort_values(ascending=False).head(10)
print("üèÜ Top 10 Vendedores por Pre√ßo Total das Casas Vendidas:")
display(top_vendedores_preco)

# 3. Top 10 piores vendedores ( Quantidade de casas vendidas)
# .size() conta o n√∫mero de ocorr√™ncias para cada vendedor, ou seja, quantas casas cada um vendeu
menos_vendas = df_limpo.groupby('SellerG').size().sort_values(ascending=True).head(10)
print("\nüìâ Top 10 Piores Vendedores por Quantidade de Casas Vendidas:")
display(menos_vendas)

--- üìä Ranking de Vendedores ---
üìà M√©dia de Pre√ßo e Dist√¢ncia por Vendedor:


Unnamed: 0_level_0,Price,Distance
SellerG,Unnamed: 1_level_1,Unnamed: 2_level_1
@Realty,748928.6,17.085714
A,726500.0,13.2
AIME,980000.0,10.2
ASL,1103750.0,14.82
Abercromby's,2152905.0,5.309524


üèÜ Top 10 Vendedores por Pre√ßo Total das Casas Vendidas:


SellerG
Jellis           5.301902e+09
Demitido         4.089097e+09
Barry            4.022899e+09
Marshall         3.337732e+09
hockingstuart    3.174822e+09
Buxton           3.103258e+09
Ray              2.953669e+09
Fletchers        1.384292e+09
Biggin           1.002292e+09
Noel             9.618405e+08
Name: Price, dtype: float64


üìâ Top 10 Piores Vendedores por Quantidade de Casas Vendidas:


SellerG
Len              1
Marvelli         1
McGrath/First    1
McNaughton       1
Meallin          1
Mindacom         1
Naison           1
Conquest         1
Conley           1
Nicholas         1
dtype: int64