# Trabalho Amostragem e Discretização - CPA

Nomes:  Cristina Einsfeld e Samuel Morales

---

In [14]:
# Imports
import pandas as pd
import numpy as np

## Exercício 1:

Escreva o corpo da função mostrada abaixo:

**amostragem_aleatória(dataframe, amostras, reposicao=True)**

Essa função recebe três parâmetros:

- **dataframe** = pandas contendo os dados
- **amostras** = número de amostras desejadas
- **reposicao** = amostragem com ou sem reposição

Essa função deve retornar um dataframe com o número exato de
amostras

In [15]:
def amostragem_aleatória(dataframe, amostras, reposicao=True):

    # Verifica se o número de amostras não excede o tamanho do DataFrame
    n = len(dataframe)
    if amostras > n and not reposicao:
        raise ValueError("Número de amostras maior que o tamanho do DataFrame sem reposição.")
    
    # Cria um índice para as linhas do DataFrame
    indices = list(range(n))
    amostras_indices = []

    if reposicao:
        # Amostragem com reposição
        for _ in range(amostras):
            idx = np.random.choice(indices)  # Escolhe um índice aleatório
            amostras_indices.append(idx)
    else:
        # Amostragem sem reposição
        indices_amostrados = np.random.choice(indices, size=amostras, replace=False)
        amostras_indices = list(indices_amostrados)

    # Seleciona as amostras do DataFrame usando os índices escolhidos
    amostras_df = dataframe.iloc[amostras_indices].reset_index(drop=True)

    return amostras_df


---

## Exercício 2:

Escreva uma função com a assinatura mostrada abaixo:

**amostragem_estratificada(dataframe, amostras, coluna)**

Essa função recebe três parâmetros:

- **dataframe** = pandas contendo os dados
- **amostras** = número de amostras desejadas
- **coluna** = nome de uma coluna do dataset

Essa função deve retornar um dataframe com o número exato de
amostras, mantendo a proporção de valores da coluna escolhida
presente no dataframe original.

In [16]:
def amostragem_estratificada(dataframe, amostras, coluna):
    
    # Verifica se a coluna existe no DataFrame
    if coluna not in dataframe.columns:
        raise ValueError(f"A coluna '{coluna}' não existe no DataFrame.")
    
    # Calcula a proporção de cada estrato
    estratos = dataframe[coluna].value_counts(normalize=True)
    
    # Calcula o número de amostras para cada estrato
    amostras_por_estrato = (estratos * amostras).round().astype(int)

    # Inicializa uma lista para armazenar as amostras
    amostras_estratificadas = []

    # Realiza a amostragem para cada estrato
    for valor, n_amostras in amostras_por_estrato.items():
        estrato_df = dataframe[dataframe[coluna] == valor]
        
        if n_amostras > 0:
            amostras_estratificadas.append(estrato_df.sample(n=n_amostras, replace=False, random_state=42))

    # Concatena as amostras de cada estrato em um único DataFrame
    resultado_df = pd.concat(amostras_estratificadas, ignore_index=True)

    return resultado_df

## Exercício 3:

Usando o dataset “alugueis” fornecido, realize testes nas funções
desenvolvidas:

• Crie um dataset com apenas 100 amostras

• Crie outro dataset com 200 amostras, preservando a proporção de imóveis
em cada cidade

In [17]:
df_1= amostragem_aleatória(pd.read_csv('./alugueis.csv'), 100, True)
display(df_1)

df_2= amostragem_estratificada(pd.read_csv('./alugueis.csv'), 200, 'city')
display(df_2)

Unnamed: 0,id,city,area,rooms,bathroom,parking spaces,floor,animal,furniture,hoa,rent amount,property tax,fire insurance,total
0,8665,Porto Alegre,90,3,3,1,1,acept,not furnished,320,2500,91,37,2948
1,7769,São Paulo,35,1,1,1,-,not acept,not furnished,60,1249,0,8,1317
2,3980,São Paulo,90,3,2,2,1,acept,furnished,950,2800,234,36,4020
3,10047,São Paulo,100,2,1,0,-,acept,not furnished,0,1800,275,28,2103
4,9811,São Paulo,250,4,4,3,6,acept,not furnished,2360,6970,1580,89,11000
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
95,9300,São Paulo,60,2,1,1,5,acept,not furnished,545,1210,75,16,1846
96,1139,Porto Alegre,75,2,2,2,4,acept,furnished,400,2750,92,41,3283
97,5454,Porto Alegre,76,3,2,2,6,acept,not furnished,250,2100,0,31,2381
98,10406,São Paulo,60,1,2,0,-,not acept,not furnished,0,1600,23,25,1648


Unnamed: 0,id,city,area,rooms,bathroom,parking spaces,floor,animal,furniture,hoa,rent amount,property tax,fire insurance,total
0,5295,São Paulo,145,3,3,1,5,acept,furnished,2860,6600,555,84,10100
1,629,São Paulo,69,2,2,0,-,acept,not furnished,0,1700,73,26,1799
2,1776,São Paulo,35,1,1,1,6,not acept,furnished,886,1250,90,16,2242
3,6582,São Paulo,50,2,1,0,-,acept,not furnished,0,1200,42,19,1261
4,5039,São Paulo,263,4,5,4,21,acept,not furnished,2900,12500,1588,159,17150
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
194,8110,Campinas,70,2,1,1,-,not acept,not furnished,341,1100,60,14,1515
195,9840,Campinas,48,1,1,0,4,not acept,not furnished,400,800,80,11,1291
196,3787,Campinas,80,2,2,1,1,acept,furnished,420,3000,107,39,3566
197,3774,Campinas,166,4,3,3,6,acept,not furnished,1860,2050,284,26,4220


Faça a discretização do atributo área do imóvel em três categorias:

• “PEQUENO” = até 50m2

• “MÉDIO” = 50 até 100m2

• “GRANDE” = > 100m2

In [18]:
# Discretização do atributo área do imóvel
def discretizar_area(dataframe):
    bins = [0, 50, 100, float('inf')]
    labels = ['PEQUENO', 'MÉDIO', 'GRANDE']
    dataframe['area_categoria'] = pd.cut(dataframe['area'], bins=bins, labels=labels, right=False)
    return dataframe

# Carregar o dataset
df = pd.read_csv('./alugueis.csv')

# Aplicar a discretização
df = discretizar_area(df)

# Visualizar o resultado
display(df.head())

Unnamed: 0,id,city,area,rooms,bathroom,parking spaces,floor,animal,furniture,hoa,rent amount,property tax,fire insurance,total,area_categoria
0,0,São Paulo,70,2,1,1,7,acept,furnished,2065,3300,211,42,5618,MÉDIO
1,1,São Paulo,320,4,4,0,20,acept,not furnished,1200,4960,1750,63,7973,GRANDE
2,2,Porto Alegre,80,1,1,1,6,acept,not furnished,1000,2800,0,41,3841,MÉDIO
3,3,Porto Alegre,51,2,1,0,2,acept,not furnished,270,1112,22,17,1421,MÉDIO
4,4,São Paulo,25,1,1,0,1,not acept,not furnished,0,800,25,11,836,PEQUENO


Divida o atributo total em 5 categorias e utilize one-hot encoding para
discretizá-lo

In [19]:
# Divisão do atributo total em 5 categorias e aplicação de one-hot encoding
def discretizar_total(dataframe):
    bins = [0, 2000, 4000, 6000, 8000, float('inf')]
    labels = ['Muito Baixo', 'Baixo', 'Médio', 'Alto', 'Muito Alto']
    dataframe['total_categoria'] = pd.cut(dataframe['total'], bins=bins, labels=labels, right=False)
    dataframe = pd.get_dummies(dataframe, columns=['total_categoria'])
    return dataframe

# Aplicar a discretização e one-hot encoding
df = discretizar_total(df)

# Visualizar o resultado
display(df.head())

Unnamed: 0,id,city,area,rooms,bathroom,parking spaces,floor,animal,furniture,hoa,rent amount,property tax,fire insurance,total,area_categoria,total_categoria_Muito Baixo,total_categoria_Baixo,total_categoria_Médio,total_categoria_Alto,total_categoria_Muito Alto
0,0,São Paulo,70,2,1,1,7,acept,furnished,2065,3300,211,42,5618,MÉDIO,False,False,True,False,False
1,1,São Paulo,320,4,4,0,20,acept,not furnished,1200,4960,1750,63,7973,GRANDE,False,False,False,True,False
2,2,Porto Alegre,80,1,1,1,6,acept,not furnished,1000,2800,0,41,3841,MÉDIO,False,True,False,False,False
3,3,Porto Alegre,51,2,1,0,2,acept,not furnished,270,1112,22,17,1421,MÉDIO,True,False,False,False,False
4,4,São Paulo,25,1,1,0,1,not acept,not furnished,0,800,25,11,836,PEQUENO,True,False,False,False,False
