# 🏔️ Montanhas da Morte: Uma Análise Exploratória das Fatalidades nos Oito Mil Metros

## 📌 1. Introdução
Este projeto analisa dados de alpinistas que morreram tentando escalar os 'eight-thousanders', os 14 picos com mais de 8.000 metros de altitude. A análise foca em identificar os picos mais perigosos, as causas mais comuns de morte, as nacionalidades mais afetadas e padrões temporais.

## 🎯 2. Definição do Problema e Checklist
**Descrição do problema:** Identificar padrões de mortalidade em expedições aos eight-thousanders.
**Tipo de problema:** Não supervisionado (análise exploratória)
**Hipóteses:** Everest e K2 lideram em mortes. Avalanche e queda são causas mais comuns.
**Restrições:** Apenas montanhas acima de 8.000m, conforme dataset.
**Atributos:**
- `Date`: Data da morte
- `Name`: Nome do alpinista
- `Nationality`: Nacionalidade
- `Cause of death`: Causa da morte
- `Mountain`: Montanha envolvida

In [None]:
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
import numpy as np

sns.set(style='whitegrid')

## 📥 3. Carregamento dos Dados

In [None]:
url = 'https://raw.githubusercontent.com/Belisario123/mountain-deaths/main/deaths_on_eight-thousanders.csv'
df = pd.read_csv(url)
df.head()

## 🧠 4. Análise Estatística Descritiva

In [None]:
df.info()

In [None]:
df.describe(include='all')

In [None]:
df.isnull().sum()

## 📊 5. Análise Exploratória dos Dados (EDA)

In [None]:
# Convertendo datas
df['Date'] = pd.to_datetime(df['Date'], errors='coerce')
df['Year'] = df['Date'].dt.year

In [None]:
# Top 10 Montanhas com mais mortes
plt.figure(figsize=(10,6))
sns.countplot(y='Mountain', data=df, order=df['Mountain'].value_counts().index[:10])
plt.title('Top 10 Montanhas com Mais Mortes')
plt.xlabel('Número de Mortes')
plt.ylabel('Montanha')
plt.show()

**Interpretação:** Everest lidera com folga, seguido por K2. A popularidade e dificuldade técnica podem explicar isso.

In [None]:
# Principais causas de morte
plt.figure(figsize=(10,6))
sns.countplot(y='Cause of death', data=df, order=df['Cause of death'].value_counts().index[:10])
plt.title('Causas Mais Comuns de Morte')
plt.xlabel('Número de Casos')
plt.ylabel('Causa')
plt.show()

**Interpretação:** Avalanche, quedas e mal de altitude são causas predominantes.

In [None]:
# Nacionalidades mais afetadas
plt.figure(figsize=(10,6))
sns.countplot(y='Nationality', data=df, order=df['Nationality'].value_counts().index[:10])
plt.title('Top 10 Nacionalidades com Mais Mortes')
plt.xlabel('Número de Mortes')
plt.ylabel('Nacionalidade')
plt.show()

**Interpretação:** Nepal é o país com mais fatalidades, provavelmente por abrigar Sherpas e maior atividade local.

In [None]:
# Evolução ao longo do tempo
plt.figure(figsize=(12,6))
sns.histplot(df['Year'].dropna(), bins=40, kde=True)
plt.title('Número de Mortes por Ano')
plt.xlabel('Ano')
plt.ylabel('Número de Fatalidades')
plt.show()

**Interpretação:** A partir da década de 1980, as fatalidades cresceram, indicando aumento de expedições.

## 🧹 6. Pré-processamento dos Dados

In [None]:
df = df[df['Date'].notna()]
df['Cause of death'] = df['Cause of death'].fillna('Desconhecido')
df['Nationality'] = df['Nationality'].fillna('Desconhecido')

**Justificativas:**
- Removemos registros com data ausente, pois inviabilizam análise temporal.
- Preenchemos valores ausentes com 'Desconhecido' para evitar exclusão desnecessária.

## ✅ 7. Conclusão
- Everest e K2 são os picos com maior número de mortes.
- Avalanches e quedas são as causas mais comuns.
- Nepal lidera em fatalidades por nacionalidade.
- As mortes aumentaram com o tempo, refletindo popularização do montanhismo.

**Próximos passos:**
- Calcular taxa de mortalidade (exige dataset complementar)
- Criar visualizações dinâmicas em Power BI
- Investigar fatores climáticos correlacionados