In [1]:
import numpy as np
import pandas as pd
from sklearn.linear_model import LogisticRegression
from category_encoders.count import CountEncoder

# Load Data

In [2]:
train = pd.read_csv('/kaggle/input/cdshackdays4/train.csv')
test = pd.read_csv('/kaggle/input/cdshackdays4/test.csv')

In [3]:
train.shape, test.shape

((72159, 15), (48106, 14))

## Feature Class Split (Separar dados em classe y e feature X)

In [4]:
X_train = train.drop(columns=['id', 'Reserva Cancelada'])
y_train = train['Reserva Cancelada']

## Pre processing (transformar as colunas qualitativas em quantitativas)

In [5]:
cat_cols = X_train.select_dtypes(include=['object']).columns

In [6]:
# Transforma as features categoricas em numéricas através do numero de frequencia
count = CountEncoder(cols=cat_cols, return_df=True) 

X_preproc = count.fit_transform(X_train)

In [7]:
X_preproc

Unnamed: 0,Classificação do hotel,Meses da reserva até o check-in,Número de pernoites reservadas,Número de hospedes,Regime de alimentação,Nacionalidade,Forma de Reserva,Já se hospedou anterioremente,Tipo do quarto reservado,Reserva feita por agência de turismo,Reserva feita por empresa,Reserva com Estacionamento,Reserva com Observações
0,24255,5,5,2.0,8777,6251,59170,69901,51778,62288,68065,4453,42391
1,47904,167,3,2.0,55716,34212,59170,69901,51778,62288,68065,67706,42391
2,47904,4,3,2.0,55716,1464,59170,69901,51778,62288,68065,67706,29542
3,47904,13,2,2.0,55716,34212,59170,69901,51778,62288,68065,67706,42391
4,47904,4,2,2.0,55716,34212,59170,69901,51778,62288,68065,67706,42391
...,...,...,...,...,...,...,...,...,...,...,...,...,...
72154,47904,2,3,2.0,55716,6251,59170,69901,11798,62288,68065,67706,29542
72155,47904,4,2,2.0,7189,2230,59170,69901,51778,62288,68065,4453,29542
72156,24255,5,2,2.0,8777,34212,59170,69901,51778,9871,68065,67706,42391
72157,24255,1,8,2.0,8777,34212,8834,69901,3924,62288,68065,67706,42391


## Fill NA

In [8]:
X_preproc.isna().sum()

Classificação do hotel                  0
Meses da reserva até o check-in         0
Número de pernoites reservadas          0
Número de hospedes                      3
Regime de alimentação                   0
Nacionalidade                           0
Forma de Reserva                        0
Já se hospedou anterioremente           0
Tipo do quarto reservado                0
Reserva feita por agência de turismo    0
Reserva feita por empresa               0
Reserva com Estacionamento              0
Reserva com Observações                 0
dtype: int64

In [9]:
X_preproc = X_preproc.fillna(0)

## Treinando Modelo - Logistic Regression

In [10]:
lr = LogisticRegression()

lr.fit(X_preproc, y_train)

LogisticRegression()

## Aplicando transformações no teste

In [11]:
X_test = test.drop(columns='id')

X_test = count.transform(X_test)

X_test = X_test.fillna(0)

## Predic test

In [12]:
predicao_lr = lr.predict(X_test)

## Solucao Final

In [13]:
df_final_lr = pd.concat([test.id, pd.Series(predicao_lr, name = 'Reserva Cancelada')], axis=1)

df_final_lr.head()

Unnamed: 0,id,Reserva Cancelada
0,118345,0
1,9500,0
2,34558,0
3,70816,1
4,105321,0


In [14]:
df_final_lr.to_csv('submission.csv', index=False) #Arquivo de submissão pronto para ser enviado.