In [1]:
import csv  # Importa o módulo para ler arquivos CSV

# Abre o arquivo CSV do Titanic e carrega os dados como uma lista de dicionários
with open("../data/train.csv", encoding="utf-8") as f:
    dados = list(csv.DictReader(f))

# Imprime o título da primeira análise
print("Média de tarifa e sobrevivência por classe:")

# Laço que percorre cada classe social: 1ª, 2ª e 3ª
for classe in ["1", "2", "3"]:
    # Filtra apenas os passageiros da classe atual
    passageiros = [p for p in dados if p["Pclass"] == classe]

    # Extrai as tarifas (Fare) válidas (não vazias) e converte para float
    tarifas = [float(p["Fare"]) for p in passageiros if p["Fare"]]

    # Filtra os passageiros que sobreviveram (campo "Survived" igual a "1")
    sobreviventes = [p for p in passageiros if p["Survived"] == "1"]

    # Calcula a média das tarifas (se houver valores válidos)
    media_tarifa = round(sum(tarifas) / len(tarifas), 2) if tarifas else 0

    # Calcula a porcentagem de sobreviventes (se houver passageiros)
    perc_sobrevivencia = round(len(sobreviventes) / len(passageiros) * 100, 1) if passageiros else 0

    # Mostra os resultados para a classe atual
    print(f"  Classe {classe}ª: média tarifa = ${media_tarifa}, sobrevivência = {perc_sobrevivencia}%")

# Imprime o título da próxima análise
print("\nTop 5 passageiros com tarifas mais altas:")

# Filtra apenas passageiros com tarifa válida, ordena em ordem decrescente pela tarifa
# A função `lambda x: float(x["Fare"])` diz ao sorted para ordenar usando o campo "Fare" convertido em número
top5 = sorted(
    [p for p in dados if p["Fare"]],
    key=lambda x: float(x["Fare"]),
    reverse=True
)[:5]  # Pega apenas os 5 primeiros após a ordenação

# Mostra o nome, valor da tarifa e a classe dos 5 passageiros que pagaram mais
for p in top5:
    print(f"  {p['Name']} – ${float(p['Fare']):.2f} ({p['Pclass']}ª classe)")

# Define os limites das faixas de tarifa
faixas = [50, 100, 200, 300]

# Inicializa uma lista com 5 posições para contar quantos passageiros estão em cada faixa
# Índices: [≤50, ≤100, ≤200, ≤300, >300]
contagem = [0, 0, 0, 0, 0]

# Percorre todos os passageiros para contar quantos caem em cada faixa
for p in dados:
    if p["Fare"]:  # Garante que o campo Fare não está vazio
        valor = float(p["Fare"])  # Converte para número
        if valor <= 50:
            contagem[0] += 1
        elif valor <= 100:
            contagem[1] += 1
        elif valor <= 200:
            contagem[2] += 1
        elif valor <= 300:
            contagem[3] += 1
        else:
            contagem[4] += 1

# Define os rótulos para cada faixa de tarifa
faixa_rotulos = ["≤50", "≤100", "≤200", "≤300", ">300"]

# Mostra os resultados de forma textual, como um "gráfico de barras simplificado"
# A função enumerate permite acessar ao mesmo tempo o índice (i) e o texto do rótulo (rotulo)
print("\nDistribuição de tarifas (quantitativo por faixa):")
for i, rotulo in enumerate(faixa_rotulos):
    # Usa o índice `i` para acessar o valor correspondente na lista `contagem`
    print(f"  {rotulo}: {contagem[i]} passageiros")


Média de tarifa e sobrevivência por classe:
  Classe 1ª: média tarifa = $84.15, sobrevivência = 63.0%
  Classe 2ª: média tarifa = $20.66, sobrevivência = 47.3%
  Classe 3ª: média tarifa = $13.68, sobrevivência = 24.2%

Top 5 passageiros com tarifas mais altas:
  Ward, Miss. Anna – $512.33 (1ª classe)
  Cardeza, Mr. Thomas Drake Martinez – $512.33 (1ª classe)
  Lesurer, Mr. Gustave J – $512.33 (1ª classe)
  Fortune, Mr. Charles Alexander – $263.00 (1ª classe)
  Fortune, Miss. Mabel Helen – $263.00 (1ª classe)

Distribuição de tarifas (quantitativo por faixa):
  ≤50: 731 passageiros
  ≤100: 107 passageiros
  ≤200: 33 passageiros
  ≤300: 17 passageiros
  >300: 3 passageiros
