<a href="https://colab.research.google.com/github/roaring90s/tsunamis-analise-global/blob/main/1_tsunami-world-analysis.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# 🌊 Análise Global de Tsunamis com Dados da NOAA

Este notebook tem como objetivo analisar dados históricos de tsunamis ao redor do mundo, utilizando um dataset disponibilizado pela NOAA.

A análise inclui:
- Localizações mais afetadas
- Número de mortes e danos
- Magnitudes de terremotos
- Altura máxima da água
- Visualizações geográficas interativas

O projeto busca gerar insights relevantes sobre a ocorrência e o impacto desses eventos naturais extremos.


In [43]:
import pandas as pd
import numpy as np
from datetime import timedelta
import plotly.express as px




In [44]:
url = 'https://raw.githubusercontent.com/roaring90s/tsunamis-analise-global/main/data/tsunamis-data.tsv'
df = pd.read_csv(url, sep='\t')

In [45]:
df.head()

Unnamed: 0,Search Parameters,Year,Mo,Dy,Hr,Mn,Sec,Earthquake Magnitude,Vol,Deposits,...,Injuries,Damage ($Mil),Houses Destroyed,Houses Damaged,Total Deaths,Total Missing,Total Injuries,Total Damage ($Mil),Total Houses Destroyed,Total Houses Damaged
0,"[""1700 <= Year >= 2024""]",,,,,,,,,,...,,,,,,,,,,
1,,1700.0,1.0,27.0,5.0,0.0,,9.0,,56.0,...,,,,,,,,,,
2,,1700.0,4.0,1.0,,,,,,0.0,...,,,300.0,,1001.0,,,,300.0,
3,,1700.0,4.0,16.0,,,,7.0,,0.0,...,,,,,1000.0,,,,,
4,,1700.0,9.0,12.0,,,,6.5,,0.0,...,,,,,,,,,,


In [46]:
df.info()
df.describe()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 2568 entries, 0 to 2567
Data columns (total 32 columns):
 #   Column                    Non-Null Count  Dtype  
---  ------                    --------------  -----  
 0   Search Parameters         1 non-null      object 
 1   Year                      2567 non-null   float64
 2   Mo                        2496 non-null   float64
 3   Dy                        2418 non-null   float64
 4   Hr                        1522 non-null   float64
 5   Mn                        1450 non-null   float64
 6   Sec                       1032 non-null   float64
 7   Earthquake Magnitude      1485 non-null   float64
 8   Vol                       158 non-null    float64
 9   Deposits                  2567 non-null   float64
 10  Country                   2566 non-null   object 
 11  Location Name             2564 non-null   object 
 12  Latitude                  2242 non-null   float64
 13  Longitude                 2242 non-null   float64
 14  Maximum 

Unnamed: 0,Year,Mo,Dy,Hr,Mn,Sec,Earthquake Magnitude,Vol,Deposits,Latitude,...,Injuries,Damage ($Mil),Houses Destroyed,Houses Damaged,Total Deaths,Total Missing,Total Injuries,Total Damage ($Mil),Total Houses Destroyed,Total Houses Damaged
count,2567.0,2496.0,2418.0,1522.0,1450.0,1032.0,1485.0,158.0,2567.0,2242.0,...,77.0,51.0,93.0,17.0,606.0,16.0,322.0,171.0,248.0,104.0
mean,1913.958317,6.578926,15.605045,11.204993,28.184138,27.552907,7.007744,4134.044304,0.266848,15.33955,...,1410.220779,5216.178255,4093.935484,19456.235294,3147.250825,145.375,5039.39441,3993.01383,37359.59,40340.84
std,76.61141,3.480518,8.627678,6.935129,17.302645,18.0581,0.791464,2483.804667,3.3879,28.53894,...,4740.261931,31009.046958,14678.249879,68035.788041,18338.957091,245.822395,29385.972145,20140.706704,345281.9,158580.5
min,1700.0,1.0,1.0,0.0,0.0,0.0,3.2,4.0,0.0,-69.417,...,1.0,0.01,1.0,1.0,1.0,1.0,1.0,0.003,1.0,1.0
25%,1865.0,3.0,8.0,5.0,14.0,11.975,6.5,2065.75,0.0,-6.5,...,3.0,1.0,11.0,8.0,4.0,8.25,15.0,2.8125,40.75,228.5
50%,1923.0,7.0,16.0,11.0,29.0,27.0,7.0,4532.5,0.0,18.1,...,22.0,4.2,104.0,182.0,25.0,30.0,97.5,48.48,650.0,1000.0
75%,1978.0,10.0,23.0,17.0,43.0,43.0,7.5,6009.0,0.0,38.59575,...,233.0,90.0,1960.0,500.0,346.25,130.5,499.5,509.5,5256.0,9876.75
max,2024.0,12.0,31.0,23.0,59.0,59.9,9.5,7575.0,146.0,78.37,...,31943.0,220136.6,123661.0,280920.0,316000.0,800.0,374171.0,220136.6,5360000.0,1474182.0


In [47]:
df.columns

Index(['Search Parameters', 'Year', 'Mo', 'Dy', 'Hr', 'Mn', 'Sec',
       'Earthquake Magnitude', 'Vol', 'Deposits', 'Country', 'Location Name',
       'Latitude', 'Longitude', 'Maximum Water Height (m)', 'Number of Runups',
       'Tsunami Magnitude (Abe)', 'Tsunami Magnitude (Iida)',
       'Tsunami Intensity', 'Deaths', 'Missing', 'Missing Description',
       'Injuries', 'Damage ($Mil)', 'Houses Destroyed', 'Houses Damaged',
       'Total Deaths', 'Total Missing', 'Total Injuries',
       'Total Damage ($Mil)', 'Total Houses Destroyed',
       'Total Houses Damaged'],
      dtype='object')

## 🧼 Limpeza e Estruturação dos Dados

Nesta etapa, foram aplicadas transformações para deixar os dados prontos para análise:

- Remoção de registros com `Year`, `Mo`, `Dy` nulos
- Criação da coluna `Date` a partir de `Year`, `Mo` e `Dy`
- Criação da coluna `Datetime` com `Hr`, `Mn`, `Sec`
- Unificação opcional de `Date` com `Datetime`
- Conversão de tipos numéricos
- Padronização de valores (ex: `4.` para `4.0`)
- Substituição de valores nulos em colunas categóricas (como `Total Deaths`, `Missing`, `Total Injuries`) por `0`
- Remoção de colunas redundantes, mantendo as versões agregadas (como `Total Deaths`)


In [48]:
df = df.drop(columns=['Search Parameters'])

In [49]:
df[['Year', 'Mo', 'Dy']].isnull().sum()

Unnamed: 0,0
Year,1
Mo,72
Dy,150


In [50]:
df = df.dropna(subset=['Year', 'Mo', 'Dy'])

In [51]:
df[['Year', 'Mo', 'Dy']].isnull().sum()

Unnamed: 0,0
Year,0
Mo,0
Dy,0


In [52]:
print(df['Year'].unique())
print(df['Mo'].unique())
print(df['Dy'].unique())

[1700. 1703. 1705. 1706. 1707. 1708. 1710. 1711. 1714. 1715. 1716. 1718.
 1721. 1722. 1723. 1725. 1726. 1727. 1730. 1731. 1732. 1735. 1737. 1738.
 1741. 1742. 1743. 1746. 1748. 1749. 1750. 1751. 1752. 1754. 1755. 1756.
 1757. 1759. 1760. 1761. 1762. 1763. 1764. 1765. 1766. 1767. 1768. 1769.
 1770. 1771. 1772. 1773. 1774. 1775. 1777. 1778. 1780. 1781. 1782. 1783.
 1784. 1787. 1788. 1790. 1791. 1792. 1793. 1794. 1796. 1797. 1798. 1799.
 1800. 1802. 1804. 1805. 1806. 1808. 1809. 1810. 1811. 1812. 1813. 1815.
 1816. 1817. 1818. 1819. 1820. 1821. 1822. 1823. 1824. 1825. 1826. 1827.
 1828. 1829. 1830. 1831. 1832. 1833. 1834. 1835. 1836. 1837. 1838. 1839.
 1840. 1841. 1842. 1843. 1844. 1845. 1846. 1847. 1848. 1849. 1850. 1851.
 1852. 1853. 1854. 1855. 1856. 1857. 1858. 1859. 1860. 1861. 1862. 1863.
 1864. 1865. 1866. 1867. 1868. 1869. 1870. 1871. 1872. 1873. 1874. 1875.
 1876. 1877. 1878. 1879. 1880. 1881. 1882. 1883. 1884. 1885. 1886. 1887.
 1888. 1889. 1890. 1891. 1892. 1893. 1894. 1895. 18

In [53]:
print(df['Year'].head())
print(df['Mo'].head())
print(df['Dy'].head())


1    1700.0
2    1700.0
3    1700.0
4    1700.0
5    1703.0
Name: Year, dtype: float64
1    1.0
2    4.0
3    4.0
4    9.0
5    2.0
Name: Mo, dtype: float64
1    27.0
2     1.0
3    16.0
4    12.0
5     2.0
Name: Dy, dtype: float64


In [54]:
df['Mo'] = df['Mo'].replace(0, np.nan)

In [55]:
df['Dy'] = df['Dy'].astype(int)

In [56]:
df['Mo'] = df['Mo'].replace(0, np.nan)
df.dropna(subset=['Year', 'Mo', 'Dy'], inplace=True)



In [57]:
df = df.rename(columns={'Year': 'year', 'Mo': 'month', 'Dy': 'day'})

In [58]:
df['Date'] = pd.to_datetime(df[['year', 'month', 'day']], errors='coerce')

In [59]:
df.drop(columns=['year', 'month', 'day'], inplace=True)

In [60]:
df['Hr'] = df['Hr'].fillna(0)
df['Mn'] = df['Mn'].fillna(0)
df['Sec'] = df['Sec'].fillna(0)

In [61]:
df['Hr'] = df['Hr'].astype(int)
df['Mn'] = df['Mn'].astype(int)
df['Sec'] = df['Sec'].astype(int)

In [62]:
df['Datetime'] = df['Date'] + pd.to_timedelta(df['Hr'], unit='h') + \
                            pd.to_timedelta(df['Mn'], unit='m') + \
                            pd.to_timedelta(df['Sec'], unit='s')

In [63]:
df.drop(columns=['Hr', 'Mn', 'Sec'], inplace=True)

In [64]:
df.drop(columns=['Missing Description'], inplace=True)

In [65]:
df.drop(columns=['Vol', 'Deposits', 'Houses Destroyed', 'Injuries', 'Missing', 'Total Houses Damaged'], inplace=True)

In [66]:
df[['Deaths', 'Total Deaths']].isnull().sum()

Unnamed: 0,0
Deaths,2183
Total Deaths,1823


In [67]:
df.drop(columns=['Deaths'], inplace=True)

In [68]:
df.columns

Index(['Earthquake Magnitude', 'Country', 'Location Name', 'Latitude',
       'Longitude', 'Maximum Water Height (m)', 'Number of Runups',
       'Tsunami Magnitude (Abe)', 'Tsunami Magnitude (Iida)',
       'Tsunami Intensity', 'Damage ($Mil)', 'Houses Damaged', 'Total Deaths',
       'Total Missing', 'Total Injuries', 'Total Damage ($Mil)',
       'Total Houses Destroyed', 'Date', 'Datetime'],
      dtype='object')

In [69]:
df.drop(columns=['Houses Damaged'], inplace=True)

In [70]:
new_order = [
    'Date', 'Datetime', 'Country', 'Location Name', 'Latitude', 'Longitude', 'Earthquake Magnitude', 'Tsunami Magnitude (Abe)', 'Tsunami Magnitude (Iida)', 'Tsunami Intensity', 'Maximum Water Height (m)', 'Number of Runups', 'Damage ($Mil)', 'Total Deaths', 'Total Missing', 'Total Injuries', 'Total Damage ($Mil)', 'Total Houses Destroyed',
]

df = df[new_order]

print(df.columns)

Index(['Date', 'Datetime', 'Country', 'Location Name', 'Latitude', 'Longitude',
       'Earthquake Magnitude', 'Tsunami Magnitude (Abe)',
       'Tsunami Magnitude (Iida)', 'Tsunami Intensity',
       'Maximum Water Height (m)', 'Number of Runups', 'Damage ($Mil)',
       'Total Deaths', 'Total Missing', 'Total Injuries',
       'Total Damage ($Mil)', 'Total Houses Destroyed'],
      dtype='object')


In [71]:
df = df.drop_duplicates()

In [72]:
print(df['Earthquake Magnitude'].isnull().sum())


944


In [73]:
df['Total Deaths'] = pd.to_numeric(df['Total Deaths'], errors='coerce').fillna(0)
df['Total Injuries'] = pd.to_numeric(df['Total Injuries'], errors='coerce').fillna(0)
df['Total Missing'] = pd.to_numeric(df['Total Missing'], errors='coerce').fillna(0)

In [74]:
df['Earthquake Magnitude'] = pd.to_numeric(df['Earthquake Magnitude'], errors='coerce')

In [75]:
df['Earthquake Magnitude'].unique()

array([9. , nan, 7. , 6.5, 6.7, 3.2, 8.2, 8.4, 5.5, 7.5, 6.6, 5.8, 5.2,
       9.1, 7.6, 6.3, 8. , 7.3, 6.9, 6.8, 8.5, 6. , 7.4, 7.8, 7.1, 5.9,
       4.1, 8.3, 6.4, 5.7, 8.8, 7.7, 5.6, 5.3, 8.1, 6.1, 7.9, 7.2, 5. ,
       6.2, 4.3, 8.6, 8.7, 5.1, 4.9, 4. , 4.5, 9.5, 9.2, 4.6, 5.4, 4.4,
       3.7])

In [76]:
df['Full Datetime'] = pd.to_datetime(df['Date'].astype(str) + ' ' + df['Datetime'].astype(str), errors='coerce')



Could not infer format, so each element will be parsed individually, falling back to `dateutil`. To ensure parsing is consistent and as-expected, please specify a format.





## 📊 Análise Exploratória

Aqui foram exploradas as seguintes variáveis principais:

- Distribuição das magnitudes de terremotos
- Altura máxima da água em metros
- Total de mortes, feridos e desaparecidos
- Países mais afetados por tsunamis
- Comparação entre magnitude do terremoto e impacto humano

Gráficos e tabelas são utilizados para facilitar a interpretação dos dados.


In [77]:

fig = px.histogram(
    df,
    x='Earthquake Magnitude',
    nbins=30,
    title='Distribuição das Magnitudes de Terremotos',
    labels={'Earthquake Magnitude': 'Magnitude'},
    color_discrete_sequence=['indianred']

)

fig.show()

In [78]:
fig = px.histogram(
    df,
    x='Maximum Water Height (m)',
    nbins=30,
    title='Distribuição da Altura Máxima da Água (m)',
    labels={'Maximum Water Height (m)': 'Altura Máxima (m)'},
    color_discrete_sequence=['dodgerblue']
)

fig.show()

In [79]:
impacto_humano = df[['Total Deaths', 'Total Injuries', 'Total Missing']].sum().to_frame(name='Total')

impacto_humano.reset_index(inplace=True)

impacto_humano.columns = ['Impacto', 'Total']

fig = px.bar(
    impacto_humano,
    x='Impacto',
    y='Total',
    title='Total de Mortes, Feridos e Desaparecidos',
    color='Impacto',
    text='Total',
    color_discrete_sequence=px.colors.sequential.Reds

)

fig.update_traces(textposition='outside')
fig.show()

In [80]:
top_paises = df['Country'].value_counts().nlargest(10).reset_index()
top_paises.columns = ['Country', 'Quantidade de Tsunamis']

fig = px.bar (
    top_paises,
    x='Country',
    y='Quantidade de Tsunamis',
    title='Top 10 Países Mais Afetados por Tsunamis',
    color='Quantidade de Tsunamis',
    color_continuous_scale='blues'

)

fig.show()

In [81]:
import plotly.express as px

df['Maximum Water Height (m)'].fillna(0, inplace=True)

fig = px.scatter(
    df,
    x='Earthquake Magnitude',
    y='Total Deaths',
    color='Country',
    size='Maximum Water Height (m)',
    hover_name='Location Name',
    title='Magnitude vs Mortes com Tamanho pela Altura da Água',
    labels={
        'Earthquake Magnitude': 'Magnitude do Terremoto',
        'Total Deaths': 'Total de Mortes'
    }
)

fig.show()



A value is trying to be set on a copy of a DataFrame or Series through chained assignment using an inplace method.
The behavior will change in pandas 3.0. This inplace method will never work because the intermediate object on which we are setting values always behaves as a copy.

For example, when doing 'df[col].method(value, inplace=True)', try using 'df.method({col: value}, inplace=True)' or df[col] = df[col].method(value) instead, to perform the operation inplace on the original object.





## 🗺️ Visualização Geográfica: Mapa Global dos Tsunamis

Para esta visualização foi utilizado Plotly, criando um `scatter_geo` com:

- Coordenadas de latitude e longitude
- Tamanho e cor com base na magnitude do terremoto
- Hover com local, data, número de mortes e altura da água
- Projeção do tipo `natural earth`

Essa visualização oferece uma maneira intuitiva de perceber a distribuição dos eventos ao redor do globo.


In [82]:
fig = px.scatter_geo (
    df,
    lat='Latitude',
    lon='Longitude',
    hover_name='Location Name',
    hover_data={
        'Country': True,
        'Full Datetime': True,
        'Earthquake Magnitude': True,
        'Maximum Water Height (m)': True,
        'Total Deaths': True
    },
    color='Earthquake Magnitude',
    projection='natural earth',
    title='Ocorrências de Tsunamis pelo Mundo'
)

fig.show()

# Conclusão

Durante a análise dos dados dos tsunamis, foi possível observar diversos padrões e relações importantes entre as magnitudes dos terremotos e seus impactos. Através das visualizações geradas, destacamos alguns pontos-chave:

1. **Distribuição das Magnitudes dos Terremotos**:
   A análise da magnitude dos terremotos demonstrou que a maioria dos eventos de tsunami está relacionada a terremotos de magnitudes elevadas, especialmente acima de 7.0. Essa informação é crucial para entender a correlação entre a intensidade do terremoto e o impacto subsequente do tsunami.

2. **Impacto Humano**:
   Observou-se que, em geral, os tsunamis mais devastadores, em termos de número de mortes, estão associados a terremotos de maior magnitude. O gráfico de Magnitude vs Mortes vs Altura da Água demonstrou que, embora a altura da água tenha um papel importante, a magnitude do terremoto parece ser o fator determinante para o número de mortes.

3. **Altura da Água**:
   A altura máxima da água foi um fator relevante para os impactos, mas não teve uma correlação tão forte quanto a magnitude do terremoto. Isso sugere que, embora tsunamis com grandes alturas de água possam ser mais destrutivos, a proximidade do epicentro e a intensidade do terremoto também desempenham papéis cruciais.

4. **Países Mais Afetados**:
   O gráfico de distribuição de tsunamis por país revelou que algumas regiões, como o Sudeste Asiático e o Japão, são mais frequentemente afetadas por tsunamis. Isso pode ser explicado pela localização geológica dessas regiões, que estão próximas às placas tectônicas responsáveis pelos terremotos submarinos.

5. **Conclusão Geral**:
   Em resumo, os dados mostram que os tsunamis mais devastadores estão relacionados a terremotos de maior magnitude, com uma forte relação entre a magnitude do terremoto e o número de mortes. Países próximos a zonas sísmicas ativas, como o Japão e a Indonésia, estão mais suscetíveis a esses desastres.

Esta análise pode ser um ponto de partida para estudar a preparação e resposta a tsunamis, além de guiar políticas públicas para mitigar os impactos desses desastres naturais.

# Limitações da Análise

É importante notar que a análise foi baseada em dados disponíveis, e valores ausentes ou inconsistentes podem ter afetado as conclusões. Além disso, a interação entre fatores geográficos, ambientais e humanos pode ser complexa e requer um estudo mais aprofundado.

