# Dados de Treino e Teste

## Carregando Biblioteca

In [1]:
import pandas as pd
import numpy as np
#Visualização de dados
import seaborn as sns
import matplotlib.pyplot as plt
#Pré-processamento
from sklearn.preprocessing import LabelEncoder
from sklearn.preprocessing import scale
#Dados de Treino
from sklearn import datasets
from sklearn.model_selection import train_test_split

## Carregando os dados

In [2]:
df = pd.read_csv("../datasets/titanic/train.csv")
df.head()

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,,S


## Pré-Processamento de Dados

In [3]:
def pronomes(x):
    if 'Mr' in x:
        return 'Mr'
    elif 'Don' in x:
        return 'Mr'
    elif 'Mrs' in x:
        return 'Mrs'
    elif 'Ms' in x:
        return 'Mrs'
    elif 'Mme' in x:
        return 'Mrs'
    elif 'Miss' in x:
        return 'Miss'
    elif 'Mlle' in x:
        return 'Miss'
    elif 'Dr' in x:
        return 'Dr'
    elif 'Rev' in x:
        return 'Rev'
    elif 'Master' in x:
        return 'Master'
    elif 'Major' in x:
        return 'Major'
    elif 'Capt' in x:
        return 'Capt'
    elif 'Jonkheer' in x:
        return 'Mr'
    elif 'Col' in x:
        return 'Col'
    elif 'Countess' in x:
        return 'Mrs'
    else:
        return 'None'
# Extração de Pronomes
df['Name'] = df['Name'].apply(pronomes)

# Categóricas para Numéricas
le_name = LabelEncoder()
df['Name']  = le_name.fit_transform(df['Name'])

# Substituir valores ausentes/nulos
df['Age'].fillna(df['Age'].mean(), inplace = True)
df.loc[df['Embarked'].isna(), ['Embarked']] = df['Embarked'].value_counts().index[0]

# Categórico Para numérico
le_sex = LabelEncoder()
df['Sex']  = le_sex.fit_transform(df['Sex'])
le_embarked = LabelEncoder()
df['Embarked'] = le_embarked.fit_transform(df['Embarked'])

# Remoção de colunas
df = df.drop(columns=['PassengerId', 'Ticket', 'Cabin'])

#Escalonamento 
df[['Age', 'Fare']] = pd.DataFrame( scale(df[['Age', 'Fare']]),
                                    index = df.index,
                                    columns = ['Age', 'Fare'])

df.head()

Unnamed: 0,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Fare,Embarked
0,0,3,6,1,-0.592481,1,0,-0.502445,2
1,1,1,6,0,0.638789,1,0,0.786845,0
2,1,3,5,0,-0.284663,0,0,-0.488854,2
3,1,1,6,0,0.407926,1,0,0.42073,2
4,0,3,6,1,0.407926,0,0,-0.486337,2


# Divisão dos dados em treino e teste

- Podemos subdividir o conjunto de dados em treino e teste usando a função **train_test_split**
    - **arrays**: sequência de indexáveiscom mesmo comprimento/forma[0] - As entradas permitidas são listas, matrizes numpy, matrizes scipy-sparse ou dataframes pandas.
    - **test_size**: float or int, default=None - Se float, deve estar entre 0 e 1 e representar a proporção do conjunto de dados a ser incluído na divisão de teste. Se int, representa o número absoluto de amostras de teste. Se nenhum, o valor é definido como o complemento do tamanho do treino. Se train_size também for None, será definido como 0,25
    - **train_size**: float or int, default=None - Se float, deve estar entre 0 e 1 e representar a proporção do conjunto de dados a ser incluído na divisão do trem. Se int, representa o número absoluto de amostras de trem. Se nenhum, o valor é definido automaticamente como o complemento do tamanho do teste.
    - **random_state** : int, RandomState instance or None, default=None -  Controla o embaralhamento aplicado aos dados antes de aplicar a divisão. Passe um int para saída reproduzível em várias chamadas de função
        - **O randomstate é basicamente usado para reproduzir o seu problema da mesma forma toda vez que é executado**
    - **shuffle**: bool, default = True - Se deve ou não embaralhar os dados antes de dividir. Se shuffle = False, stratify deve ser None.
    - **stratify**: array-like, default=None - Se não for nenhum, os dados são divididos de forma estratificada, usando isso como rótulos de classe.
- A função irá retornar 4 listas, contendo cada um dos valores. 

```Python
train_test_split(df['Outras Colunas'],df['Alvo'])
```

In [6]:
x = df.drop(columns='Survived')
y = df['Survived']

x_train, x_test, y_train, y_test = train_test_split(x, y, test_size=0.2, random_state=0)

In [7]:
x_train

Unnamed: 0,Pclass,Name,Sex,Age,SibSp,Parch,Fare,Embarked
140,3,6,0,0.000000,0,2,-0.341452,0
439,2,6,1,0.100109,0,0,-0.437007,2
817,2,6,1,0.100109,1,1,0.096646,0
378,3,6,1,-0.746389,0,0,-0.567631,0
491,3,6,1,-0.669435,0,0,-0.502445,2
...,...,...,...,...,...,...,...,...
835,1,5,0,0.715743,1,1,1.025945,0
192,3,5,0,-0.823344,1,0,-0.490280,2
629,3,6,1,0.000000,0,0,-0.492714,1
559,3,6,0,0.484880,1,0,-0.298078,2


In [8]:
y_train

140    0
439    0
817    0
378    0
491    0
      ..
835    1
192    1
629    0
559    1
684    0
Name: Survived, Length: 712, dtype: int64

In [9]:
x_test

Unnamed: 0,Pclass,Name,Sex,Age,SibSp,Parch,Fare,Embarked
495,3,6,1,0.000000,0,0,-0.357308,0
648,3,6,1,0.000000,0,0,-0.496405,2
278,3,4,1,-1.746796,4,1,-0.061999,1
31,1,6,0,0.000000,1,0,2.301729,0
255,3,6,0,-0.053800,0,2,-0.341452,0
...,...,...,...,...,...,...,...,...
780,3,5,0,-1.285070,0,0,-0.502864,0
837,3,6,1,0.000000,0,0,-0.486337,2
215,1,5,0,0.100109,1,0,1.632335,0
833,3,6,1,-0.515526,0,0,-0.490280,2


In [10]:
y_test

495    0
648    0
278    0
31     1
255    1
      ..
780    1
837    0
215    1
833    0
372    0
Name: Survived, Length: 179, dtype: int64