# Trabalho Amostragem e Discretização - CPA

Nomes:  Cristina Einsfeld e Samuel Morales

---

In [2]:
# Imports
import pandas as pd
import numpy as np

## Exercício 1:

Escreva o corpo da função mostrada abaixo:

**amostragem_aleatória(dataframe, amostras, reposicao=True)**

Essa função recebe três parâmetros:

- **dataframe** = pandas contendo os dados
- **amostras** = número de amostras desejadas
- **reposicao** = amostragem com ou sem reposição

Essa função deve retornar um dataframe com o número exato de
amostras

In [37]:
def amostragem_aleatória(dataframe, amostras, reposicao=True):

    # Verifica se o número de amostras não excede o tamanho do DataFrame
    n = len(dataframe)
    if amostras > n and not reposicao:
        raise ValueError("Número de amostras maior que o tamanho do DataFrame sem reposição.")
    
    # Cria um índice para as linhas do DataFrame
    indices = list(range(n))
    amostras_indices = []

    if reposicao:
        # Amostragem com reposição
        for _ in range(amostras):
            idx = np.random.choice(indices)  # Escolhe um índice aleatório
            amostras_indices.append(idx)
    else:
        # Amostragem sem reposição
        indices_amostrados = np.random.choice(indices, size=amostras, replace=False)
        amostras_indices = list(indices_amostrados)

    # Seleciona as amostras do DataFrame usando os índices escolhidos
    amostras_df = dataframe.iloc[amostras_indices].reset_index(drop=True)

    return amostras_df


---

## Exercício 2:

Escreva uma função com a assinatura mostrada abaixo:

**amostragem_estratificada(dataframe, amostras, coluna)**

Essa função recebe três parâmetros:

- **dataframe** = pandas contendo os dados
- **amostras** = número de amostras desejadas
- **coluna** = nome de uma coluna do dataset

Essa função deve retornar um dataframe com o número exato de
amostras, mantendo a proporção de valores da coluna escolhida
presente no dataframe original.

In [36]:
def amostragem_estratificada(dataframe, amostras, coluna):
    
    # Verifica se a coluna existe no DataFrame
    if coluna not in dataframe.columns:
        raise ValueError(f"A coluna '{coluna}' não existe no DataFrame.")
    
    # Calcula a proporção de cada estrato
    estratos = dataframe[coluna].value_counts(normalize=True)
    
    # Calcula o número de amostras para cada estrato
    amostras_por_estrato = (estratos * amostras).round().astype(int)

    # Inicializa uma lista para armazenar as amostras
    amostras_estratificadas = []

    # Realiza a amostragem para cada estrato
    for valor, n_amostras in amostras_por_estrato.items():
        estrato_df = dataframe[dataframe[coluna] == valor]
        
        if n_amostras > 0:
            amostras_estratificadas.append(estrato_df.sample(n=n_amostras, replace=False, random_state=42))

    # Concatena as amostras de cada estrato em um único DataFrame
    resultado_df = pd.concat(amostras_estratificadas, ignore_index=True)

    return resultado_df

## Exercício 3:

Usando o dataset “alugueis” fornecido, realize testes nas funções
desenvolvidas:

• Crie um dataset com apenas 100 amostras

• Crie outro dataset com 200 amostras, preservando a proporção de imóveis
em cada cidade

In [38]:
df_1= amostragem_aleatória(pd.read_csv('./alugueis.csv'), 100, True)
display(df_1)

df_2= amostragem_estratificada(pd.read_csv('./alugueis.csv'), 200, 'city')
display(df_2)

Unnamed: 0,id,city,area,rooms,bathroom,parking spaces,floor,animal,furniture,hoa,rent amount,property tax,fire insurance,total
0,4594,São Paulo,350,3,3,8,-,acept,not furnished,0,9240,1042,139,10420
1,1515,São Paulo,55,2,1,2,4,not acept,not furnished,780,980,142,13,1915
2,4024,Belo Horizonte,200,4,2,2,2,acept,not furnished,1280,4300,429,58,6067
3,6568,São Paulo,40,1,1,0,22,acept,furnished,473,2300,39,30,2842
4,6965,São Paulo,70,2,2,1,-,acept,not furnished,0,2100,9,27,2136
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
95,5529,São Paulo,81,3,2,1,12,acept,not furnished,580,1700,90,22,2392
96,5593,São Paulo,194,4,3,2,7,acept,not furnished,2600,2999,643,38,6280
97,5568,São Paulo,208,4,4,3,5,acept,not furnished,3600,12000,1084,153,16840
98,1129,Rio de Janeiro,32,1,1,0,8,acept,not furnished,574,1400,66,19,2059


Unnamed: 0,id,city,area,rooms,bathroom,parking spaces,floor,animal,furniture,hoa,rent amount,property tax,fire insurance,total
0,5295,São Paulo,145,3,3,1,5,acept,furnished,2860,6600,555,84,10100
1,629,São Paulo,69,2,2,0,-,acept,not furnished,0,1700,73,26,1799
2,1776,São Paulo,35,1,1,1,6,not acept,furnished,886,1250,90,16,2242
3,6582,São Paulo,50,2,1,0,-,acept,not furnished,0,1200,42,19,1261
4,5039,São Paulo,263,4,5,4,21,acept,not furnished,2900,12500,1588,159,17150
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
194,8110,Campinas,70,2,1,1,-,not acept,not furnished,341,1100,60,14,1515
195,9840,Campinas,48,1,1,0,4,not acept,not furnished,400,800,80,11,1291
196,3787,Campinas,80,2,2,1,1,acept,furnished,420,3000,107,39,3566
197,3774,Campinas,166,4,3,3,6,acept,not furnished,1860,2050,284,26,4220


Faça a discretização do atributo área do imóvel em três categorias:

• “PEQUENO” = até 50m2

• “MÉDIO” = 50 até 100m2

• “GRANDE” = > 100m2

Divida o atributo total em 5 categorias e utilize one-hot encoding para
discretizá-lo