# Administração de condomínios

#### Objetivo:
Analisar o atraso no pagamento de aluguéis no condomínio de alguns moradores.
#### Cenario:
A administração de condomínios é uma tarefa que requer muita atenção e organização. Entre as diversas responsabilidades da gestão está o recebimento dos aluguéis dos locatários. Para garantir uma boa saúde financeira do empreendimento, é fundamental que esses pagamentos sejam feitos de forma regular e pontual. No entanto, sabemos que nem sempre isso acontece.
- A base de dados `dados_locacao_imoveis.json`, contém informações sobre:
  - O apartamento dos locatários
  - O dia acordado para o pagamento do aluguel
  - O dia da efetivação do pagamento de aluguel
  - O valor do aluguel.


In [2]:
import pandas as pd

In [3]:
# abrir a base de dados com Pandas e aplicar o json_normalize no DataFrame.
df_cond = pd.read_json('../../dataset/dados_locacao_imoveis.json')
df_cond

Unnamed: 0,dados_locacao
0,"{'apartamento': 'A101 (blocoAP)', 'datas_combi..."
1,"{'apartamento': 'A102 (blocoAP)', 'datas_combi..."
2,"{'apartamento': 'B201 (blocoAP)', 'datas_combi..."
3,"{'apartamento': 'B202 (blocoAP)', 'datas_combi..."
4,"{'apartamento': 'C301 (blocoAP)', 'datas_combi..."
5,"{'apartamento': 'C302 (blocoAP)', 'datas_combi..."
6,"{'apartamento': 'D401 (blocoAP)', 'datas_combi..."
7,"{'apartamento': 'D402 (blocoAP)', 'datas_combi..."
8,"{'apartamento': 'E501 (blocoAP)', 'datas_combi..."
9,"{'apartamento': 'E502 (blocoAP)', 'datas_combi..."


In [4]:
df_cond.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 15 entries, 0 to 14
Data columns (total 1 columns):
 #   Column         Non-Null Count  Dtype 
---  ------         --------------  ----- 
 0   dados_locacao  15 non-null     object
dtypes: object(1)
memory usage: 252.0+ bytes


In [5]:
# Normalizando os dados com pd.json_normalize()
df_cond = pd.json_normalize(df_cond['dados_locacao'])
df_cond

Unnamed: 0,apartamento,datas_combinadas_pagamento,datas_de_pagamento,valor_aluguel
0,A101 (blocoAP),"[01/06/2022, 01/07/2022]","[05/06/2022, 03/07/2022]","[$ 1000,0 reais, $ 2500,0 reais]"
1,A102 (blocoAP),"[02/06/2022, 02/07/2022]","[02/06/2022, 06/07/2022]","[$ 1100,0 reais, $ 2600,0 reais]"
2,B201 (blocoAP),"[03/06/2022, 03/07/2022]","[07/06/2022, 03/07/2022]","[$ 1200,0 reais, $ 2700,0 reais]"
3,B202 (blocoAP),"[04/06/2022, 04/07/2022]","[07/06/2022, 05/07/2022]","[$ 1300,0 reais, $ 2800,0 reais]"
4,C301 (blocoAP),"[05/06/2022, 05/07/2022]","[10/06/2022, 09/07/2022]","[$ 1400,0 reais, $ 2900,0 reais]"
5,C302 (blocoAP),"[06/06/2022, 06/07/2022]","[08/06/2022, 12/07/2022]","[$ 1500,0 reais, $ 1200,0 reais]"
6,D401 (blocoAP),"[07/06/2022, 07/07/2022]","[07/06/2022, 09/07/2022]","[$ 1600,0 reais, $ 1300,0 reais]"
7,D402 (blocoAP),"[08/06/2022, 08/07/2022]","[10/06/2022, 14/07/2022]","[$ 1700,0 reais, $ 1400,0 reais]"
8,E501 (blocoAP),"[09/06/2022, 09/07/2022]","[10/06/2022, 09/07/2022]","[$ 1800,0 reais, $ 1500,0 reais]"
9,E502 (blocoAP),"[10/06/2022, 10/07/2022]","[16/06/2022, 12/07/2022]","[$ 1900,0 reais, $ 1600,0 reais]"


### Etapa 2 - passo 1: Remover os dados em listas dentro do DataFrame (dataframe plano)


In [6]:
# Criando uma lista com os nomes das colunas do DataFrame
# A lista será usada posteriormente para aplicar o método explode
colunas = list(df_cond.columns)
colunas

['apartamento',
 'datas_combinadas_pagamento',
 'datas_de_pagamento',
 'valor_aluguel']

In [7]:
df_cond = df_cond.explode(colunas[1:]) # Aplicando o método explode nas colunas a partir da 4ª coluna ('descricao_local')
df_cond

Unnamed: 0,apartamento,datas_combinadas_pagamento,datas_de_pagamento,valor_aluguel
0,A101 (blocoAP),01/06/2022,05/06/2022,"$ 1000,0 reais"
0,A101 (blocoAP),01/07/2022,03/07/2022,"$ 2500,0 reais"
1,A102 (blocoAP),02/06/2022,02/06/2022,"$ 1100,0 reais"
1,A102 (blocoAP),02/07/2022,06/07/2022,"$ 2600,0 reais"
2,B201 (blocoAP),03/06/2022,07/06/2022,"$ 1200,0 reais"
2,B201 (blocoAP),03/07/2022,03/07/2022,"$ 2700,0 reais"
3,B202 (blocoAP),04/06/2022,07/06/2022,"$ 1300,0 reais"
3,B202 (blocoAP),04/07/2022,05/07/2022,"$ 2800,0 reais"
4,C301 (blocoAP),05/06/2022,10/06/2022,"$ 1400,0 reais"
4,C301 (blocoAP),05/07/2022,09/07/2022,"$ 2900,0 reais"


In [8]:
df_cond.reset_index(inplace = True,drop=True) # inplace=True para que seja substituido o index , drop=True para que a coluna dos index antigos seja descartada
df_cond.head()

Unnamed: 0,apartamento,datas_combinadas_pagamento,datas_de_pagamento,valor_aluguel
0,A101 (blocoAP),01/06/2022,05/06/2022,"$ 1000,0 reais"
1,A101 (blocoAP),01/07/2022,03/07/2022,"$ 2500,0 reais"
2,A102 (blocoAP),02/06/2022,02/06/2022,"$ 1100,0 reais"
3,A102 (blocoAP),02/07/2022,06/07/2022,"$ 2600,0 reais"
4,B201 (blocoAP),03/06/2022,07/06/2022,"$ 1200,0 reais"


### Etapa 02 - passo 02:
- Verificar os tipos de dados
- Identificar colunas numéricas;
- Transformar a coluna numérica para o tipo numérico.

In [15]:
import pandas as pd
import numpy as np


# função que recebe um DataFrame, detecta os tipos das colunas, converte cada coluna para o tipo apropriado (numérico, datetime ou categórico) e retorna o DataFrame já transformado junto com a classificação das colunas:
def detect_and_convert_types(df: pd.DataFrame, threshold=0.8):
    """
    Detecta tipos e tenta converter colunas de um DataFrame:
    - Converte para datetime e numérico se taxa de sucesso >= threshold.
    - Mantém o tipo original e gera aviso caso contrário.
    - Converte colunas categóricas para category.

    Parâmetros:
    - df: DataFrame original
    - threshold: proporção mínima de valores convertidos para aceitar a conversão (default 0.8)

    Retorna:
    - df convertido (cópia)
    - dicionário com listas de colunas por tipo detectado
    """
    df = df.copy()

    # Para armazenar colunas que não foram convertidas
    warnings = []

    # Tentar converter para datetime
    for col in df.columns:
        if df[col].dtype == object:
            try:
                converted = pd.to_datetime(df[col], errors='coerce', dayfirst=True)
                # Se a maioria dos valores não for NaT, mantém como datetime
                success_rate = converted.notna().mean()
                if success_rate >= threshold:
                    df[col] = converted
                else:
                    warnings.append(
                        f"Coluna '{col}' NÃO convertida para datetime (taxa de sucesso: {success_rate:.2%})")
            except Exception as e:
                warnings.append(f"Coluna '{col}' NÃO convertida para datetime devido a erro: {e}")

    # Tentar converter para numérico
    for col in df.columns:
        if df[col].dtype == object:
            if 'valor' in col.lower():  # coluna com nome que contém 'valor'
                temp = df[col].str.replace(r'[^\d,.-]', '', regex=True)  # remove tudo que não for dígito, vírgula, ponto ou menos
                temp = temp.str.replace(',', '.')                        # substitui vírgula por ponto para decimal
                temp = pd.to_numeric(temp, errors='coerce')
            else:
                temp = pd.to_numeric(df[col].replace({',': '.', 'R\$': '', 'reais': ''}, regex=True), errors='coerce')

            # Se a maioria conseguir converter, mantém como numérico
            success_rate = temp.notna().mean()
            if success_rate >= threshold:
                df[col] = temp
            else:
                warnings.append(f"Coluna '{col}' NÃO convertida para numérico (taxa de sucesso: {success_rate:.2%})")

    # Classificação final
    numeric_cols = df.select_dtypes(include=[np.number]).columns.tolist()
    date_cols = df.select_dtypes(include=['datetime64[ns]', 'datetime64[ns, UTC]']).columns.tolist()
    categorical_cols = [col for col in df.columns if col not in numeric_cols + date_cols]

    # Converter categóricas para category
    # Colunas categóricas normalmente ficam como 'object', mas pode otimizar para 'category'
    for col in categorical_cols:
        df[col] = df[col].astype('category')

    tipos = {
        "numeric": numeric_cols,
        "categorical": categorical_cols,
        "dates": date_cols
    }

    # Exibir avisos
    if warnings:
        print("\nAvisos durante conversão:")
        for w in warnings:
            print(f" - {w}")
    else:
        print("Todas as colunas convertidas com sucesso.")

    return df, tipos

# Exemplo de uso:
# df_converted, tipos = detect_convert_with_warnings(df)
# print(tipos)


In [16]:
# Usando a funcao para converter tipos do dataframe
df, tipos = detect_and_convert_types(df_cond)
print("Numéricas:", tipos['numeric'])
print("Categóricas:", tipos['categorical'])
print("Datas:", tipos['dates'])
df


Avisos durante conversão:
 - Coluna 'apartamento' NÃO convertida para datetime (taxa de sucesso: 0.00%)
 - Coluna 'valor_aluguel' NÃO convertida para datetime (taxa de sucesso: 0.00%)
 - Coluna 'apartamento' NÃO convertida para numérico (taxa de sucesso: 0.00%)
Numéricas: ['valor_aluguel']
Categóricas: ['apartamento']
Datas: ['datas_combinadas_pagamento', 'datas_de_pagamento']


  converted = pd.to_datetime(df[col], errors='coerce', dayfirst=True)
  converted = pd.to_datetime(df[col], errors='coerce', dayfirst=True)


Unnamed: 0,apartamento,datas_combinadas_pagamento,datas_de_pagamento,valor_aluguel
0,A101 (blocoAP),2022-06-01,2022-06-05,1000.0
1,A101 (blocoAP),2022-07-01,2022-07-03,2500.0
2,A102 (blocoAP),2022-06-02,2022-06-02,1100.0
3,A102 (blocoAP),2022-07-02,2022-07-06,2600.0
4,B201 (blocoAP),2022-06-03,2022-06-07,1200.0
5,B201 (blocoAP),2022-07-03,2022-07-03,2700.0
6,B202 (blocoAP),2022-06-04,2022-06-07,1300.0
7,B202 (blocoAP),2022-07-04,2022-07-05,2800.0
8,C301 (blocoAP),2022-06-05,2022-06-10,1400.0
9,C301 (blocoAP),2022-07-05,2022-07-09,2900.0
