# **Criando o Banco de Dados**

Notebook com os comandos necessários para criar um banco SQL no SQLite e carregar os dados dos arquivos fornecidos nele.

**Arquivos fornecidos:**
- *train_houses.xlsx*
- *test_houses.xlsx*

## Imports

In [4]:
import pandas as pd
import sqlite3

## Carregando dados brutos

In [9]:
# Arquivos XLSX
train_file = 'data/train_houses.xlsx'
test_file = 'data/test_houses.xlsx'

# Carregar os dados dos arquivos XLSX em DataFrames
df_train = pd.read_excel(train_file, header=None)
df_test = pd.read_excel(test_file, header=None)

## Conectando ao banco SQL

In [10]:
# Conectar ao banco de dados SQLite (ou criar se não existir)
conn = sqlite3.connect('data/house_prices.db')

## Carregando dados no banco SQL

In [13]:
def process_and_save(df, table_name):
    # Obter os nomes das colunas
    column_names = get_column_names(df)
    
    # Separar os dados e definir os nomes das colunas
    data = df[1:]  # Ignorar a primeira linha que contém os nomes das colunas
    data = data[0].str.split(',', expand=True)  # Separar os valores da linha
    
    # Ajustar o número de colunas se necessário
    if len(data.columns) != len(column_names):
        print(f"Warning: Number of columns in data ({len(data.columns)}) does not match the number of column names ({len(column_names)}).")
        min_length = min(len(data.columns), len(column_names)) # Define o tamanho do dataset = número de colunas
        data = data.iloc[:, :min_length]  # Truncar ou preencher com NaN se necessário
        column_names = column_names[:min_length]  # Ajustar os nomes das colunas
    
    data.columns = column_names  # Definir os nomes das colunas
    
    # Salvar no banco de dados
    data.to_sql(table_name, conn, if_exists='replace', index=False)

In [14]:
# Processar e salvar os DataFrames
process_and_save(df_train, 'train')
process_and_save(df_test, 'test')



In [15]:
# Fechar a conexão com o banco de dados
conn.close()

print("Dados carregados com sucesso no banco de dados SQLite.")

Dados carregados com sucesso no banco de dados SQLite.
