In [None]:
# sqlalchemy --versão: 2.0.44
# pymysql --versão: 1.1.2
# pandas --versão: 2.2.3

######
# https://www.kaggle.com/datasets/ahmeduzaki/global-earthquake-tsunami-risk-assessment-dataset
######

# O objetivo desse trabalho é aplicar o passo a passo dos conceitos do ciclo de ETL
# importar pandas para começar os passos da ETL.
# importar matplotlib para visualização ou loading/carregamento.


# EXTRACTION -->
import pandas as pd
import matplotlib.pyplot as plt

# Importação da biblioteca de integração Python --> MySQL
from sqlalchemy import create_engine
engine = create_engine("sqlite+pysqlite:///:memory:", echo=True)


# importação do arquivo para o projeto apelidado como 'df' (DataFrame).
df = pd.read_csv('C:/Users/ericl/Downloads/Análise_de_Risco_Sísmico_Global/earthquake_data_tsunami.csv')
df

In [None]:
# verificando se existem valores vazios no df para possível tratamento.

isnull = len(pd.DataFrame.isna(df))
if len(pd.DataFrame.isna(df)):
  print('True')
else:
  print('False')

# false, logo não precisa de tratamento nesse quesito.

In [None]:
df.shape

# o df possui 782 linhas e 13 colunas.

In [None]:
# TRANSFORMATION -->
df = df.rename({
    'Year' : 'Ano',
    'Month' : 'Mês',
    'depth' : 'profundidade',
}, axis = 1)

# utilizei a função rename criando um dicionário utilizando o parametro axis = 1 (axis = 0 linhas, axis = 1 colunas)
# para traduzir as colunas, e declarei df com o rename para aplicar a tradução.

In [None]:
# Filtrei os valores de magnitude e tsunami.
# Usei query() que é uma função para filtrar.
# Pedi para apenas mostrar os valores de magnitude que são maior ou igual a 7 e que tem tsunamis igual a 1

acima_sete = df.query('magnitude >= 7.0' and 'tsunami == 1')
acima_sete

In [None]:
# Usei a função nlargest(n) para me mostrar os 3 maiores valores de magnitude.
# nlargest(n) mostra os maiores valores da tabela

maiores = acima_sete.nlargest(3, 'magnitude')
maiores_x = ['Santiago - Chile','Sobolevo - Rússia','Perryville - Alaska']

# Primeiro: -31.5729	-71.6744 Santigo, Chile - 2015 ### Mais forte.
# Segundo: 54.8920	153.2210 Sobolevo, Rússia - 2013
# Terceiro: 55.4742	-157.9170	Perryville, Alaska - 2021

In [None]:
# Usei a função nsmallest() para me mostrar os 3 menores valores de magnitude.
# nsmallest(n) mostra os menores valores da tabela

menores = acima_sete.nsmallest(3, 'magnitude')
menores_x = ['Taiwan','Nicarágua','Filipinas']

# Primeiro: 23.029	121.348 Condado de Taitung, Taiwan - 2022 ### Mais Fraco.
# Segundo: 12.1598	-87.8542 León, Nicarágua - 2021
# Terceiro: 6.9098	125.1780 Digos, Filipinas - 2019

In [None]:
# Usei plt.bar() da biblioteca Matplotlib para melhor visualização passando os parâmetros
# x = nomes dos países e y = magnitude acessando o DF filtrado 'maiores' e selecionando a coluna de magnitude.

# LOADING --->
plt.bar(maiores_x, maiores['magnitude'])
plt.title('Top 3 Maiores Magnitudes')
plt.ylabel('Magnitude')

plt.show()

In [None]:
# Usei plt.bar() da biblioteca Matplotlib para melhor visualização passando os parâmetros
# x = nomes dos países e y = magnitude acessando o DF filtrado 'menores' e selecionando a coluna de magnitude.


plt.bar(menores_x, menores['magnitude'])
plt.title('Top 3 Menores Magnitudes')
plt.ylabel('Magnitude')

plt.show()

In [None]:
maior_tsu = df.query('tsunami == 1') # Filtro para selecionar apenas tsunamis = 1
maior_caso = maior_tsu.nlargest(1, 'magnitude') # Irá mostrar a maior magnitude que teve tsunami = 1
maior_caso
# Santiago

In [None]:
menor_tsu = df.query('tsunami == 1') # Filtro para selecionar epnas tsunamis = 1
menor_caso = menor_tsu.nsmallest(1, 'magnitude') # Irá mostrar a maior magnitude que teve tsunami = 1
menor_caso
# Condado de Taitung

# Se utilizar o keep = 'all', irá mostrar que todos estão empatados e primeiro lugar
# como menor magnitude.

In [None]:
extremos = pd.concat([maior_caso, menor_caso])
extremos

In [None]:
paises = ['Santiago - Chile', 'Condado de Taitung - Taiwan']

In [None]:
plt.bar(paises, extremos['magnitude'])
plt.title('Extremos comparativos de magnitude')
plt.ylabel('Magnitude')

plt.show()