In [1]:
import os #The os module provides a way to interact with the operating system, including file and directory operations.

#os.makedirs(os.path.join('..', 'data'), exist_ok=True) #os.path.join define o endereço da pasta 'data'. No caso, '..' sobe um diretório, e 'data'
                                                        #define que a pasta será criada lá. Como quero que a pasta data seja criada no mesmo diretório
                                                        #que o script, removerei o '..'. Primeiro termo ->local. Segundo termo ->pasta a ser criada no local
                                                        #exist_ok=True garante que caso 'data' já exista no diretório, não haverá erro e interrupção
                                                        #da execução. A pasta já existente será utilizada.
os.makedirs(os.path.join('data'), exist_ok=True)
data_file = os.path.join('data', 'house_tiny.csv') #define o caminho até o arquivo 'house_tiny.csv (arquivo ainda não criada) e salva-o em data_file
with open(data_file, 'w') as f:              #cria o arquivo no fim do endereço salvo em data_file (house_tiny.csv) e escreve os dados dentro dele.
    f.write('''NumRooms,RoofType,Price
NA,NA,127500
2,NA,106000
4,Slate,178100
NA,NA,140000''')

In [2]:
import pandas as pd

data = pd.read_csv(data_file) #acessa o arquivo no endereço data_file, lê, e guarda as informações em data usando o pandas
print(data)

   NumRooms RoofType   Price
0       NaN      NaN  127500
1       2.0      NaN  106000
2       4.0    Slate  178100
3       NaN      NaN  140000


In [3]:
inputs, targets = data.iloc[:, 0:2], data.iloc[:, 2] #[:]seleciona todas as linhas e [0:2] as colunas de indice 0 até indice 1 (2 não é inclusa)
                                                     #[:, 2] a mesma coisa, mas seleciona apenas a coluna de índice 2. Então salva as informações nas respectivas variáveis
print(inputs)
print(' ')
print(targets)

   NumRooms RoofType
0       NaN      NaN
1       2.0      NaN
2       4.0    Slate
3       NaN      NaN
 
0    127500
1    106000
2    178100
3    140000
Name: Price, dtype: int64


In [4]:
inputs = pd.get_dummies(inputs, dummy_na=True) #transforma colunas com dados categóricos em mais colunas, com base na quantidade de categorias.
                                               #ou seja, a coluna RoofType será transformada nas colunas RoofType_nan e RoofType_Slate. A coluna NumRooms
                                               #não é afetada pois não é categórica, mas numérica. True e False são determinados com base nos valores
                                               #originais. dummy_na=True certifica que uma nova coluna para os NaN será criada.
print(inputs)

   NumRooms  RoofType_Slate  RoofType_nan
0       NaN           False          True
1       2.0           False          True
2       4.0            True         False
3       NaN           False          True


In [5]:
inputs = inputs.fillna(inputs.mean()) #substitui os NaN das colunas numéricas pelo valor médio da mesma coluna. Mesmo que ainda houvesse
                                      #NaN nas clunas 
print(inputs)

   NumRooms  RoofType_Slate  RoofType_nan
0       3.0           False          True
1       2.0           False          True
2       4.0            True         False
3       3.0           False          True


In [7]:
#since all entries in inputs and targets are now numerical (True and False are basically 1 and 0), they can be loaded into a tensor
import torch

X = torch.tensor(inputs.to_numpy(dtype=float)) #.to_numpy() converts the Pandas DataFrame inputs into a NumPy array. dtype=float specifies that the data type of the NumPy array should be float.
                                               #the conversion to numpy array is necessary because pytorch can't understand pandas dataframe strcuture.
y = torch.tensor(targets.to_numpy(dtype=float))
X, y

(tensor([[3., 0., 1.],
         [2., 0., 1.],
         [4., 1., 0.],
         [3., 0., 1.]], dtype=torch.float64),
 tensor([127500., 106000., 178100., 140000.], dtype=torch.float64))