<a href="https://colab.research.google.com/github/OTiaggo/API-REST-em-Go/blob/main/projeto_final_ESI.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Importa√ß√£o do dataset

In [1]:
import pandas as pd

# L√™ o arquivo direto do GitHub
url = "https://raw.githubusercontent.com/Davyeeh/Trabalho-final-de-Engenharia-de-Sistemas-Inteligente/refs/heads/main/datset/SaoPaulo_OnlyAppartments_2024-11-25.csv"
df = pd.read_csv(url)

print("=== COLUNAS ===")
print(df.columns.tolist())

print("\n=== PRIMEIRAS LINHAS ===")
print(df.head())

print("\n=== √öLTIMAS LINHAS ===")
print(df.tail())

=== COLUNAS ===
['ID', 'created_date', 'Price', 'below_price', 'Area', 'Adress', 'Bedrooms', 'Bathrooms', 'Parking_Spaces', 'extract_date', 'Latitude', 'Longitude']

=== PRIMEIRAS LINHAS ===
           ID          created_date    Price  below_price  Area  \
0  2621660830  2021-02-08T20:20:19Z   539000        False    43   
1  2751807421  2018-03-27T15:40:41Z  1649980        False    45   
2  2735056019  2020-07-22T21:05:19Z  1149000        False    57   
3  2758506978  2024-11-12T13:41:55Z   255000        False    55   
4  2556833428  2021-10-29T00:18:35Z   232800        False    35   

                                              Adress  Bedrooms  Bathrooms  \
0  Rua Coronel Lu√≠s Barroso 582, Santo Amaro - S√£...         1          1   
1  Rua Diogo J√°come 955, Vila Nova Concei√ß√£o - S√£...         1          1   
2      Rua Fern√£o Dias 323, Pinheiros - S√£o Paulo/SP         1          1   
3   Avenida Paes de Barros 411, Mooca - S√£o Paulo/SP         1          1   
4  Rua Profe

# üßπTratamento dos dados

## Valores nulos

In [2]:
print("=== Linhas com valores ausentes ===")
rows_with_nan = df[df.isnull().any(axis=1)]

if not rows_with_nan.empty:
    print(rows_with_nan)
else:
    print("Nenhuma linha com valores ausentes encontrada.")

=== Linhas com valores ausentes ===
               ID          created_date    Price  below_price  Area  \
1      2751807421  2018-03-27T15:40:41Z  1649980        False    45   
4      2556833428  2021-10-29T00:18:35Z   232800        False    35   
5      2757605322  2021-02-08T20:20:19Z   630000        False    35   
13     2720202635  2018-03-27T16:57:44Z   389000        False    58   
17     2622651962  2022-07-20T13:25:42Z   340000        False    45   
...           ...                   ...      ...          ...   ...   
24455  2653301727  2018-03-28T12:23:47Z  1900000        False   160   
24460  2721518746  2018-03-27T14:30:27Z  1150000        False   105   
24461  2758735720  2018-03-30T01:27:40Z  1099970        False    88   
24463  2751419295  2018-03-27T20:10:35Z  1000000        False   132   
24467  2702195937  2018-03-27T15:18:52Z   780000        False    72   

                                                  Adress  Bedrooms  Bathrooms  \
1      Rua Diogo J√°come 955, 

In [3]:
print(f"Total de linhas antes: {len(df)}")
# Remover linhas onde Latitude OU Longitude est√£o vazias
df = df.dropna(subset=['Latitude', 'Longitude'])

print(f"Total de linhas depois de limpar localiza√ß√£o: {len(df)}")


Total de linhas antes: 24468
Total de linhas depois de limpar localiza√ß√£o: 16524


## Ajustando o pre√ßo dos im√≥veis

### Alguns im√≥veis apresentam valores iguais a 0, ent√£o escolhemos fazer a m√©dia para substuir esse valores ao inv√©s de apenas removelos. Utilizamos o IQR para ignorar outliers e ter uma m√©dia mais real

In [4]:
# Calcular a m√©dia do pre√ßo (usando apenas pre√ßos maiores que zero)
media_preco = df.loc[df['Price'] > 0, 'Price'].mean()

# Substituir os pre√ßos que s√£o zero pela m√©dia calculada
precos_validos = df.loc[df['Price'] > 0, 'Price']

# Calcula limites para filtrar os milion√°rios
Q1 = precos_validos.quantile(0.25)
Q3 = precos_validos.quantile(0.75)
IQR = Q3 - Q1
limite_superior = Q3 + 1.5 * IQR

# Calcula a m√©dia apenas com os pre√ßos "normais"
media_justa = precos_validos[precos_validos <= limite_superior].mean()

print(f"M√©dia Antiga: R$ {precos_validos.mean():,.2f}")
print(f"M√©dia Ajustada (Sem Outliers): R$ {media_justa:,.2f}")

# Substitui os zeros por essa m√©dia mais realista
df.loc[df['Price'] == 0, 'Price'] = media_justa

M√©dia Antiga: R$ 2,115,198.88
M√©dia Ajustada (Sem Outliers): R$ 1,602,317.30


  df.loc[df['Price'] == 0, 'Price'] = media_justa


## Remo√ß√£o de linhas duplicadas

In [5]:
# Remo√ß√£o de duplicatas
print(f"Linhas antes de remover duplicatas: {len(df)}")
df = df.drop_duplicates()
print(f"Linhas ap√≥s remover duplicatas: {len(df)}")

Linhas antes de remover duplicatas: 16524
Linhas ap√≥s remover duplicatas: 15722


## Ajuste no endere√ßo

In [6]:
# Fun√ß√£o que quebra o endere√ßo em 3 partes
def separar_endereco(texto):
    # Separa a Cidade/Estado (tudo depois do " - ")
    try:
        parte1, cidade = texto.split(" - ", 1)
    except ValueError:
        parte1 = texto
        cidade = "S√£o Paulo/SP" # Padr√£o caso falte

    # Separa Rua e Bairro (tudo depois da √∫ltima v√≠rgula √© o bairro)
    if "," in parte1:
        # rsplit faz a quebra da direita para a esquerda (pega a √∫ltima v√≠rgula)
        rua, bairro = parte1.rsplit(",", 1)
    else:
        # Se n√£o tem v√≠rgula, assumimos que s√≥ tem o bairro informado
        rua = "N√£o Informado"
        bairro = parte1

    return pd.Series([rua.strip(), bairro.strip(), cidade.strip()])

# Aplica a fun√ß√£o e cria as 3 novas colunas
df[['Rua', 'Bairro', 'Cidade']] = df['Adress'].apply(separar_endereco)

# Remove a coluna Adress pois n√£o faz mais sentido deixa-la e a coluna Cidade, j√°
# que todos os im√≥veis sao de S√£o Paulo/SP, a vari√¢ncia √© 0
df = df.drop(columns=['Adress', 'Cidade'])

print(df[['Rua', 'Bairro',]].head())

                              Rua        Bairro
0    Rua Coronel Lu√≠s Barroso 582   Santo Amaro
2             Rua Fern√£o Dias 323     Pinheiros
3      Avenida Paes de Barros 411         Mooca
6       Rua Ant√¥nio Pais de Sande  Vila Mirante
7  Rua Doutor Jesu√≠no Maciel 2105    Campo Belo


## Remo√ß√£o de outras colunas 'in√∫teis'

In [7]:
colunas_remover = ['ID', 'below_price']
df = df.drop(columns=colunas_remover, errors='ignore')

In [8]:
# Salvar o arquivo limpo
df.to_csv("imoveis_tratados.csv", index=False)
print(df)
print("Arquivo 'imoveis_tratados.csv' salvo com sucesso!")

               created_date      Price  Area  Bedrooms  Bathrooms  \
0      2021-02-08T20:20:19Z   539000.0    43         1          1   
2      2020-07-22T21:05:19Z  1149000.0    57         1          1   
3      2024-11-12T13:41:55Z   255000.0    55         1          1   
6      2018-03-27T19:51:51Z   210000.0    42         1          1   
7      2018-03-30T02:50:40Z   640000.0    47         1          1   
...                     ...        ...   ...       ...        ...   
24459  2024-11-05T18:09:49Z  1070000.0    92         2          3   
24462  2018-03-27T16:01:19Z  2120000.0    95         2          3   
24464  2019-02-12T16:32:26Z  1195000.0    92         2          3   
24465  2024-02-27T17:29:22Z  1970000.0   241         2          3   
24466  2018-03-27T16:17:11Z  1600000.0   100         2          3   

       Parking_Spaces extract_date   Latitude  Longitude  \
0                   1   2024-11-25 -23.647002 -46.704905   
2                   1   2024-11-25 -23.564136 -46.6