# üèîÔ∏è Montanhas da Morte: Uma An√°lise Explorat√≥ria das Fatalidades nos Oito Mil Metros

## üìå 1. Introdu√ß√£o
Este projeto analisa dados de alpinistas que morreram tentando escalar os 'eight-thousanders', os 14 picos com mais de 8.000 metros de altitude. A an√°lise foca em identificar os picos mais perigosos, as causas mais comuns de morte, as nacionalidades mais afetadas e padr√µes temporais.

## üéØ 2. Defini√ß√£o do Problema e Checklist
**Descri√ß√£o do problema:** Identificar padr√µes de mortalidade em expedi√ß√µes aos eight-thousanders.
**Tipo de problema:** N√£o supervisionado (an√°lise explorat√≥ria)
**Hip√≥teses:** Everest e K2 lideram em mortes. Avalanche e queda s√£o causas mais comuns.
**Restri√ß√µes:** Apenas montanhas acima de 8.000m, conforme dataset.
**Atributos:**
- `Date`: Data da morte
- `Name`: Nome do alpinista
- `Nationality`: Nacionalidade
- `Cause of death`: Causa da morte
- `Mountain`: Montanha envolvida

In [None]:
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
import numpy as np

sns.set(style='whitegrid')

## üì• 3. Carregamento dos Dados

In [None]:
url = 'https://raw.githubusercontent.com/Belisario123/mountain-deaths/main/deaths_on_eight-thousanders.csv'
df = pd.read_csv(url)
df.head()

## üß† 4. An√°lise Estat√≠stica Descritiva

In [None]:
df.info()

In [None]:
df.describe(include='all')

In [None]:
df.isnull().sum()

## üìä 5. An√°lise Explorat√≥ria dos Dados (EDA)

In [None]:
# Convertendo datas
df['Date'] = pd.to_datetime(df['Date'], errors='coerce')
df['Year'] = df['Date'].dt.year

In [None]:
# Top 10 Montanhas com mais mortes
plt.figure(figsize=(10,6))
sns.countplot(y='Mountain', data=df, order=df['Mountain'].value_counts().index[:10])
plt.title('Top 10 Montanhas com Mais Mortes')
plt.xlabel('N√∫mero de Mortes')
plt.ylabel('Montanha')
plt.show()

**Interpreta√ß√£o:** Everest lidera com folga, seguido por K2. A popularidade e dificuldade t√©cnica podem explicar isso.

In [None]:
# Principais causas de morte
plt.figure(figsize=(10,6))
sns.countplot(y='Cause of death', data=df, order=df['Cause of death'].value_counts().index[:10])
plt.title('Causas Mais Comuns de Morte')
plt.xlabel('N√∫mero de Casos')
plt.ylabel('Causa')
plt.show()

**Interpreta√ß√£o:** Avalanche, quedas e mal de altitude s√£o causas predominantes.

In [None]:
# Nacionalidades mais afetadas
plt.figure(figsize=(10,6))
sns.countplot(y='Nationality', data=df, order=df['Nationality'].value_counts().index[:10])
plt.title('Top 10 Nacionalidades com Mais Mortes')
plt.xlabel('N√∫mero de Mortes')
plt.ylabel('Nacionalidade')
plt.show()

**Interpreta√ß√£o:** Nepal √© o pa√≠s com mais fatalidades, provavelmente por abrigar Sherpas e maior atividade local.

In [None]:
# Evolu√ß√£o ao longo do tempo
plt.figure(figsize=(12,6))
sns.histplot(df['Year'].dropna(), bins=40, kde=True)
plt.title('N√∫mero de Mortes por Ano')
plt.xlabel('Ano')
plt.ylabel('N√∫mero de Fatalidades')
plt.show()

**Interpreta√ß√£o:** A partir da d√©cada de 1980, as fatalidades cresceram, indicando aumento de expedi√ß√µes.

## üßπ 6. Pr√©-processamento dos Dados

In [None]:
df = df[df['Date'].notna()]
df['Cause of death'] = df['Cause of death'].fillna('Desconhecido')
df['Nationality'] = df['Nationality'].fillna('Desconhecido')

**Justificativas:**
- Removemos registros com data ausente, pois inviabilizam an√°lise temporal.
- Preenchemos valores ausentes com 'Desconhecido' para evitar exclus√£o desnecess√°ria.

## ‚úÖ 7. Conclus√£o
- Everest e K2 s√£o os picos com maior n√∫mero de mortes.
- Avalanches e quedas s√£o as causas mais comuns.
- Nepal lidera em fatalidades por nacionalidade.
- As mortes aumentaram com o tempo, refletindo populariza√ß√£o do montanhismo.

**Pr√≥ximos passos:**
- Calcular taxa de mortalidade (exige dataset complementar)
- Criar visualiza√ß√µes din√¢micas em Power BI
- Investigar fatores clim√°ticos correlacionados