In [34]:
import pandas as pd
import numpy as np


In [35]:
df = pd.read_csv('train.csv')


In [36]:
# Visualizar as primeiras linhas (head)
print("--- Visualizando as 5 primeiras linhas (head) ---")
df.head()

--- Visualizando as 5 primeiras linhas (head) ---


Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.28,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.92,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,,S


In [37]:
# as colunas disponíveis.
print("\n--- Colunas disponíveis ---")
print(df.columns.tolist())


--- Colunas disponíveis ---
['PassengerId', 'Survived', 'Pclass', 'Name', 'Sex', 'Age', 'SibSp', 'Parch', 'Ticket', 'Fare', 'Cabin', 'Embarked']


In [38]:
# Identificando valores ausentes
print("\n--- Valores ausentes ---")
print(df.isnull().sum())


--- Valores ausentes ---
PassengerId      0
Survived         0
Pclass           0
Name             0
Sex              0
Age            177
SibSp            0
Parch            0
Ticket           0
Fare             0
Cabin          687
Embarked         2
dtype: int64


In [39]:
# Pergunta 1 - Qual a porcentagem de sobreviventes?
sobreviventes_percent = df['Survived'].mean() * 100

print(f"A porcentagem total de sobreviventes no Titanic foi de: {sobreviventes_percent:.2f}%")

A porcentagem total de sobreviventes no Titanic foi de: 38.38%


In [40]:
# Pergunta 2 - Diferença na sobrevivência entre homens e mulheres?
# Usamos groupby() para agrupar os dados por 'Sex' e calculamos a média de 'Survived' para cada grupo.
taxa_sobrevivencia_genero = df.groupby('Sex')['Survived'].mean() * 100

print("\n--- Taxa de Sobrevivência por Gênero ---")
print(taxa_sobrevivencia_genero)


--- Taxa de Sobrevivência por Gênero ---
Sex
female   74.20
male     18.89
Name: Survived, dtype: float64


In [41]:
# Pergunta 3 - Passageiros de classes diferentes tiveram chances diferentes de sobrevivência?
# Agrupamos por 'Pclass' (Classe do Passageiro) e calculamos a média de sobrevivência. Bem similar com a pergunta 2
taxa_sobrevivencia_classe = df.groupby('Pclass')['Survived'].mean() * 100

print("\n--- Taxa de Sobrevivência por Classe ---")
print(taxa_sobrevivencia_classe)


--- Taxa de Sobrevivência por Classe ---
Pclass
1   62.96
2   47.28
3   24.24
Name: Survived, dtype: float64


In [42]:
# Pergunta 4 - Qual foi a média de idade dos sobreviventes e não sobreviventes?
# Agrupamos por 'Survived' e calculamos a média de 'Age' para cada grupo.
media_idade_por_sobrevivencia = df.groupby('Survived')['Age'].mean()

print("\n--- Média de Idade por Status de Sobrevivência ---")
# Renomeando os índices para clareza
media_idade_por_sobrevivencia.index = ['Não Sobreviveu', 'Sobreviveu']
print(media_idade_por_sobrevivencia)


--- Média de Idade por Status de Sobrevivência ---
Não Sobreviveu   30.63
Sobreviveu       28.34
Name: Age, dtype: float64


In [43]:
# Pergunta 5 - Qual porto de embarque (Embarked) teve mais passageiros?
# Usamos value_counts() para contar o número de ocorrências de cada porto.
contagem_portos = df['Embarked'].value_counts()
porto_mais_comum = df['Embarked'].mode()[0]

print("\n--- Contagem de Passageiros por Porto de Embarque ---")
print(contagem_portos)
print(f"\nO porto com mais passageiros foi: {porto_mais_comum} (Southampton)")


--- Contagem de Passageiros por Porto de Embarque ---
Embarked
S    644
C    168
Q     77
Name: count, dtype: int64

O porto com mais passageiros foi: S (Southampton)


In [44]:
# Parte Prática Fiquei com duvidas nessa aqui como realizar o uso do pandas e depois usar o numpy
# 1. Primeiro, removemos os valores ausentes (se houver) e extraímos os valores como um array NumPy.
tarifas_np = df['Fare'].dropna().to_numpy()

# 2. Agora, usamos as funções do NumPy
media_tarifa_np = np.mean(tarifas_np)
desvio_padrao_tarifa_np = np.std(tarifas_np)

print("\n--- Análise da Tarifa (Fare) com NumPy ---")
print(f"Média da Tarifa: {media_tarifa_np:.2f}")
print(f"Desvio Padrão da Tarifa: {desvio_padrao_tarifa_np:.2f}")


--- Análise da Tarifa (Fare) com NumPy ---
Média da Tarifa: 32.20
Desvio Padrão da Tarifa: 49.67
