# Introdução
A criação de novos atributos (ou feature engineering) é uma técnica para melhorar a capacidade preditiva dos modelos de aprendizado de máquina. Isso envolve gerar novos atributos derivados a partir dos dados existentes.

# Caso de estudo
- Idade Agrupada: Criar categorias para diferentes faixas etárias.
- Tamanho da Família: Calcular o tamanho total da família a bordo.
- Tarifa por Pessoa: Calcular a tarifa paga por pessoa.
- Título do Nome: Extrair títulos dos nomes dos passageiros.

# Passo 1: importar as bibliotecas necessárias

In [1]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import os as os
from google.colab import files

In [2]:
# Carregar o conjunto de dados Titanic
url = "https://raw.githubusercontent.com/datasciencedojo/datasets/master/titanic.csv"
df = pd.read_csv(url)

# Visualizar as primeiras linhas do DataFrame
print("Primeiras linhas do DataFrame original:")
print(df.head())

Primeiras linhas do DataFrame original:
   PassengerId  Survived  Pclass  \
0            1         0       3   
1            2         1       1   
2            3         1       3   
3            4         1       1   
4            5         0       3   

                                                Name     Sex   Age  SibSp  \
0                            Braund, Mr. Owen Harris    male  22.0      1   
1  Cumings, Mrs. John Bradley (Florence Briggs Th...  female  38.0      1   
2                             Heikkinen, Miss. Laina  female  26.0      0   
3       Futrelle, Mrs. Jacques Heath (Lily May Peel)  female  35.0      1   
4                           Allen, Mr. William Henry    male  35.0      0   

   Parch            Ticket     Fare Cabin Embarked  
0      0         A/5 21171   7.2500   NaN        S  
1      0          PC 17599  71.2833   C85        C  
2      0  STON/O2. 3101282   7.9250   NaN        S  
3      0            113803  53.1000  C123        S  
4      0       

# Passo 2: Criar Novos Atributos

- 1. Idade Agrupada

In [4]:
# Criar um novo atributo 'AgeGroup'
bins = [0, 12, 18, 35, 60, 120]
labels = ['Crianca', 'Adolescente', 'Adulto Jovem', 'Adulto', 'Idoso']
df['AgeGroup'] = pd.cut(df['Age'], bins=bins, labels=labels)

# Visualizar o novo atributo
print("\nPrimeiras linhas com o novo atributo 'AgeGroup':")
print(df[['Age', 'AgeGroup']].head(10))


Primeiras linhas com o novo atributo 'AgeGroup':
    Age      AgeGroup
0  22.0  Adulto Jovem
1  38.0        Adulto
2  26.0  Adulto Jovem
3  35.0  Adulto Jovem
4  35.0  Adulto Jovem
5   NaN           NaN
6  54.0        Adulto
7   2.0       Crianca
8  27.0  Adulto Jovem
9  14.0   Adolescente


- 2. Tamanho da Família: calcular o tamanho total da família a bordo, somando SibSp (irmãos e cônjuges) e Parch (pais e filhos).

In [5]:
# Criar um novo atributo 'FamilySize'
df['FamilySize'] = df['SibSp'] + df['Parch'] + 1  # Adiciona 1 para incluir o próprio passageiro

# Visualizar o novo atributo
print("\nPrimeiras linhas com o novo atributo 'FamilySize':")
print(df[['SibSp', 'Parch', 'FamilySize']].head(10))


Primeiras linhas com o novo atributo 'FamilySize':
   SibSp  Parch  FamilySize
0      1      0           2
1      1      0           2
2      0      0           1
3      1      0           2
4      0      0           1
5      0      0           1
6      0      0           1
7      3      1           5
8      0      2           3
9      1      0           2


- 3. Tarifa por Pessoa

In [6]:
# Criar um novo atributo 'FarePerPerson'
df['FarePerPerson'] = df['Fare'] / df['FamilySize']

# Visualizar o novo atributo
print("\nPrimeiras linhas com o novo atributo 'FarePerPerson':")
print(df[['Fare', 'FamilySize', 'FarePerPerson']].head(10))


Primeiras linhas com o novo atributo 'FarePerPerson':
      Fare  FamilySize  FarePerPerson
0   7.2500           2        3.62500
1  71.2833           2       35.64165
2   7.9250           1        7.92500
3  53.1000           2       26.55000
4   8.0500           1        8.05000
5   8.4583           1        8.45830
6  51.8625           1       51.86250
7  21.0750           5        4.21500
8  11.1333           3        3.71110
9  30.0708           2       15.03540


- 4. Título do Nome

In [7]:
# Extrair título do nome
df['Title'] = df['Name'].str.extract(' ([A-Za-z]+)\.', expand=False)

# Visualizar o novo atributo
print("\nPrimeiras linhas com o novo atributo 'Title':")
print(df[['Name', 'Title']].head(10))


Primeiras linhas com o novo atributo 'Title':
                                                Name   Title
0                            Braund, Mr. Owen Harris      Mr
1  Cumings, Mrs. John Bradley (Florence Briggs Th...     Mrs
2                             Heikkinen, Miss. Laina    Miss
3       Futrelle, Mrs. Jacques Heath (Lily May Peel)     Mrs
4                           Allen, Mr. William Henry      Mr
5                                   Moran, Mr. James      Mr
6                            McCarthy, Mr. Timothy J      Mr
7                     Palsson, Master. Gosta Leonard  Master
8  Johnson, Mrs. Oscar W (Elisabeth Vilhelmina Berg)     Mrs
9                Nasser, Mrs. Nicholas (Adele Achem)     Mrs


# 4. Copiando o dataframe para um arquivo .csv

In [8]:
# Salvar o DataFrame como um arquivo CSV
df.to_csv('titanic_adicao_atributos.csv', index=False)

In [9]:
# Baixar o arquivo CSV
files.download('titanic_adicao_atributos.csv')

<IPython.core.display.Javascript object>

<IPython.core.display.Javascript object>