In [None]:
import pandas as pd

# === 1. Carregar base ===
file_path = "/content/Base Perdizes.xlsx"   # coloque o caminho do seu arquivo aqui
df = pd.read_excel(file_path, sheet_name="Sheet1")

# === 2. Remover duplicatas ===
df_limpa = df.drop_duplicates()

# === 3. Remover linhas em branco ===
df_limpa = df.dropna()

# === 4. Função para remover outliers (método IQR) ===
def remove_outliers_iqr(dataframe, columns):
    df_clean = dataframe.copy()
    for col in columns:
        Q1 = df_clean[col].quantile(0.25)
        Q3 = df_clean[col].quantile(0.75)
        IQR = Q3 - Q1
        lower_bound = Q1 - 1.5 * IQR
        upper_bound = Q3 + 1.5 * IQR
        df_clean = df_clean[(df_clean[col] >= lower_bound) & (df_clean[col] <= upper_bound)]
    return df_clean

# === 5. Aplicar limpeza nos dados numéricos ===
colunas_numericas = df_limpa.select_dtypes(include=["int64", "float64"]).columns
df_limpo = remove_outliers_iqr(df_limpa, colunas_numericas)

# === 6. Mostrar resultado ===
print(f"Linhas originais: {len(df)}")
print(f"Após remover duplicatas e linhas em branco: {len(df_limpa)}")
print(f"Após remover outliers: {len(df_limpo)}")

# === 7. Salvar resultado em novo arquivo ===
df_limpo.to_excel("Base_Perdizes_Limpa.xlsx", index=False)
print("Base limpa salva como 'Base_Perdizes_Limpa.xlsx'")

Linhas originais: 188
Após remover duplicatas e linhas em branco: 188
Após remover outliers: 181
<class 'pandas.core.frame.DataFrame'>
Index: 181 entries, 0 to 187
Data columns (total 6 columns):
 #   Column                      Non-Null Count  Dtype  
---  ------                      --------------  -----  
 0   Valor aproximado do imóvel  181 non-null    int64  
 1   Metro quadrado              181 non-null    float64
 2   Quartos                     181 non-null    int64  
 3   Banheiros                   181 non-null    int64  
 4   Metragem                    181 non-null    int64  
 5   Vagas                       181 non-null    int64  
dtypes: float64(1), int64(5)
memory usage: 9.9 KB
Tipo: None
Base limpa salva como 'Base_Perdizes_Limpa.xlsx'
