## Análise de Dados do Titanic - Parte 2

### Introdução  
Este notebook contém a **segunda etapa** do projeto de análise de dados utilizando o dataset oficial do Titanic, disponível no Kaggle. O foco desta fase é a **criação de novas colunas** e a realização de **análises iniciais** com base em características dos passageiros.

---

### 1. Criação da Coluna "Faixa Etária"  
- Criar uma nova coluna categórica chamada `Faixa_Etaria`, com base na idade dos passageiros.  
- As faixas foram definidas como:  
  **Criança (0-12), Adolescente (13-18), Jovem Adulto (19-35), Adulto (36-60), Idoso (61-100).**

### 2. Criação da Coluna "Renda por Passageiro"  
- Calcular uma estimativa da renda individual de cada passageiro, considerando o valor da tarifa (`Fare`) dividido pelo número de pessoas no mesmo grupo familiar (baseado nas colunas `SibSp` e `Parch`).

### 3. Análise de Sobrevivência por Faixa Etária  
- Calcular a **taxa de sobrevivência** média para cada faixa etária (`Faixa_Etaria`).

### 4. Análise de Sobrevivência por Gênero  
- Calcular a **taxa de sobrevivência** média para passageiros do sexo masculino e feminino (`Sex`).

### 5. Análise de Sobrevivência por Classe  
- Calcular a **taxa de sobrevivência** média para cada classe da embarcação (`Pclass`).

  
**Dataset original:** [Titanic - Kaggle](https://www.kaggle.com/competitions/titanic)

*Autor: [Nayara C. Kakihara]*


In [16]:
import pandas as pd

#carregar o dataset tratado da Parte 1
df = pd.read_csv('dados_tratados.csv')

#verificar as primeiras linhas
df.head()


Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,S


In [17]:
#definir os intervalos de idade e os rótulos
bins = [0, 12, 18, 35, 60, 100]
labels = ['Criança', 'Adolescente', 'Jovem Adulto', 'Adulto', 'Idoso']

#criar a nova coluna com pd.cut()
df['Faixa_Etaria'] = pd.cut(df['Age'], bins=bins, labels=labels)

#visualizar para conferir
df[['Age', 'Faixa_Etaria']].head()


Unnamed: 0,Age,Faixa_Etaria
0,22.0,Jovem Adulto
1,38.0,Adulto
2,26.0,Jovem Adulto
3,35.0,Jovem Adulto
4,35.0,Jovem Adulto


In [18]:
#calcular a quantidade de pessoas no grupo familiar (irmãos/cônjuges + pais/filhos + o próprio)
df['Renda_Por_Passageiro'] = df['Fare'] / (df['SibSp'] + df['Parch'] + 1)

#visualizar para conferir
df[['Fare', 'SibSp', 'Parch', 'Renda_Por_Passageiro']].head()


Unnamed: 0,Fare,SibSp,Parch,Renda_Por_Passageiro
0,7.25,1,0,3.625
1,71.2833,1,0,35.64165
2,7.925,0,0,7.925
3,53.1,1,0,26.55
4,8.05,0,0,8.05


In [20]:
#calcular a média de sobrevivência por faixa etária
sobrevivencia_faixa = df.groupby('Faixa_Etaria')['Survived'].mean()

#exibir resultado
print(sobrevivencia_faixa)


Faixa_Etaria
Criança         0.579710
Adolescente     0.428571
Jovem Adulto    0.353271
Adulto          0.400000
Idoso           0.227273
Name: Survived, dtype: float64


  sobrevivencia_faixa = df.groupby('Faixa_Etaria')['Survived'].mean()


In [21]:
# Calcular a média de sobrevivência por sexo
sobrevivencia_genero = df.groupby('Sex')['Survived'].mean()

# Exibir resultado
print(sobrevivencia_genero)


Sex
female    0.742038
male      0.188908
Name: Survived, dtype: float64


In [22]:
# Calcular a média de sobrevivência por classe
sobrevivencia_classe = df.groupby('Pclass')['Survived'].mean()

# Exibir resultado
print(sobrevivencia_classe)


Pclass
1    0.629630
2    0.472826
3    0.242363
Name: Survived, dtype: float64
