# Objetivos: Preparação dos Dados

3. Transformação de Dados
4. Salvar CSV após o Processamento




# Carregar base de dados e preparação

O primeiro ponto antes de começar a trabalhar com dados é importar algumas bibliotecas:

Começaremos importando a biblioteca pandas.

O conjunto de dados inclui registros de terremotos relativos à Turquia e regiões vizinhas. Abrange exclusivamente terremotos que ocorrem no período que vai de setembro de 1994 a setembro de 2023, com magnitudes superiores a 3,0 na escala Richter.

In [None]:
#Pandas: Utilizada para a preparação e operação dos dados em alta performance.
import pandas as pd


In [None]:
from pandas.core.arrays.timedeltas import parse_timedelta_unit
#Carregando os dados do CSV em um Dataframe Pandas
dados_terremotos = pd.read_csv('terremotos.csv',sep=';', parse_dates=['Data'])

#ver número de linhas e colunas
dados_terremotos.shape

In [None]:
#Visualizando as primeiras linhas do Dataframe
dados_terremotos.head()

In [None]:
#ver tipos de variáveis
dados_terremotos.dtypes

In [None]:
#ver dados faltantes
dados_terremotos.isnull().sum()

# 3. Transformação de Dados

Podemos realizar algumas transformações nos nossos dados:

- Mudar representação
- Trabalhar com Datas e Horários

## 3.1. Mudar representação das variáveis

Percebemos que a variável **Tipo** é de tipo categórica. Os valores estão representados por  palavras(classes), podemos representá-los como números.

Para a variável **TIPO**, precisamos considerar a ordem na transformação para números.

Importaremos LabelEncoder da biblioteca sklearn

In [None]:
dados_terremotos['Tipo'].value_counts()

In [None]:
from sklearn.preprocessing import LabelEncoder

In [None]:
labelencoder_inst = LabelEncoder()
dados_terremotos.iloc[:, 5] = labelencoder_inst.fit_transform(dados_terremotos.iloc[:, 5])
dados_terremotos.head()

### Ao final, temos nossa base de dados tratada:

In [None]:
# Importa datetime
import datetime

dados_terremotos['Ano'] = dados_terremotos['Data'].dt.year
dados_terremotos['Mes'] = dados_terremotos['Data'].dt.month

In [None]:
dados_terremotos['Hora_'] = pd.to_datetime(dados_terremotos['Hora'], format='%H:%M:%S.%f').dt.hour

In [None]:
dados_terremotos.head(5)

# **4. Exportar dados em csv**

In [None]:
dados_terremotos.to_csv("dados_terremotos_preprocessados.csv")

#Objetivos: Análise Descritiva de Dados

In [None]:
# Verificar tipos de variáveis
dados_terremotos.dtypes

In [None]:
# Mostrando o numero de dados faltantes em cada coluna (Tabela não possui dados faltantes)
dados_terremotos.isnull().sum()

# Medidas estatísticas para dados numéricos: Fase inicial de entender os dados.

*   Resumem informações sobre os dados
*   Informam sobre tendências
*   Utiliza a estatística descritiva

Alguma importantes para analisar:

1.   Média, mediana
2.   Desvio padrão (variabilidade/dispersão)
3.   Mínimo e Máximo (menor e maior valor)

In [None]:
# Mostrar algumas medidas estatisticas/descritivas da base de dados (Apenas dados numéricos)

dados_terremotos[["Profundidade(km)", "Magnitude"]].describe()

## 1. Algumas visualizações para variáveis NUMÉRICAS

Bibliotecas para visualização de dados:

In [None]:
# Importar matplotlib.
import matplotlib.pyplot as plt
# Importar seaborn.
import seaborn as sns

In [None]:
# Histograma para aas variaveis numéricas.

dados_terremotos['Magnitude'].hist(figsize=(7,4))
plt.show()

In [None]:
plt.boxplot(dados_terremotos['Profundidade(km)'])
plt.show()

In [None]:
# Plotando dispersão de dados = relacionando duas variáveis numéricas.
plt.figure(figsize = (7,4))
plt.scatter(
    dados_terremotos['Profundidade(km)'],
    dados_terremotos['Magnitude'],
    c='blue')

plt.xlabel("Profundidade")
plt.ylabel("Magnitude")
plt.show()

## 2. Algumas visualizações para variáveis CATEGÓRICAS (ordinal ou nominal)

In [None]:
# Verifcando categorias ou classes
classes_tipos_terremotos = dados_terremotos['Tipo'].value_counts()
print(classes_tipos_terremotos)

In [None]:
# Construindo o gráfico de fatias com matplotlib

nome_classes = ['Ke','Sm']
quantidade_classes = [49886,114]
fig = plt.figure(figsize =(7, 7))
plt.pie(quantidade_classes, labels = nome_classes, autopct='%1.2f%%')
plt.show()

In [None]:
# Gráfico de barras com seaborn
sns.countplot(x='Tipo', data=dados_terremotos)
plt.show()

In [None]:
# Gráfico de barras com seaborn
fig = plt.figure(figsize=(15,6))
sns.countplot(x='Ano', data=dados_terremotos)
plt.show()

In [None]:
# Gráfico de barras com seaborn
fig = plt.figure(figsize=(15,6))
sns.countplot(x='Ano', data=dados_terremotos, order = dados_terremotos["Ano"].value_counts().index)
plt.show()

In [None]:
# Gráfico de barras com seaborn
sns.countplot(x='Hora_', data=dados_terremotos)
plt.show()

## 3. Algumas visualizações relacionam variáveis NUMÉRICAS e CATEGÓRICAS:

In [None]:
# Grafico gerado entre magnitide, profundidade e tipo do terremoto.
sns.relplot(
    data=dados_terremotos,
    x="Profundidade(km)", y="Magnitude", hue="Ano", palette="rocket_r")
plt.show()

In [None]:
# Plotar o boxplot de uma variável em relação as classes com seaborn.

plt.subplots( figsize=(8, 6))
sns.boxplot(x='Tipo', y='Magnitude', data=dados_terremotos)
plt.show()

In [None]:
dados_terremotos['Profundidade(km)'].hist(figsize=(7,4))
plt.show()

In [None]:
plt.boxplot(dados_terremotos['Profundidade(km)'])
plt.show()

In [None]:
plt.boxplot(dados_terremotos['Magnitude'])
plt.show()

In [None]:
# Plotando dispersão de dados = relacionando duas variáveis numéricas.
plt.figure(figsize = (7,4))
plt.scatter(
    dados_terremotos['Profundidade(km)'],
    dados_terremotos['Magnitude'],
    c='red')

plt.xlabel("Profundidade")
plt.ylabel("Magnitude")
plt.show()

## 2. Algumas visualizações para variáveis CATEGÓRICAS (ordinal ou nominal)

In [None]:
# Verifcando categorias ou classes
classes_tipos_terremotos = dados_terremotos['Ano'].value_counts()
print(classes_tipos_terremotos)

In [None]:
# Verifcando categorias ou classes
classes_tipos_terremotos = dados_terremotos['Mes'].value_counts()
print(classes_tipos_terremotos)

In [None]:
# Verifcando categorias ou classes
classes_tipos_terremotos = dados_terremotos['Ano'].value_counts()
print(classes_tipos_terremotos)

# Verifcando categorias ou classes
classes_tipos_terremotos = dados_terremotos['Ano'].value_counts()
print(classes_tipos_terremotos)

In [None]:
# Verifcando categorias ou classes por ANO
nova_base_ano_2022 = dados_terremotos[dados_terremotos['Ano'] == 2022]
nova_base_ano_2022.head()

In [None]:
# Verifcando categorias ou classes
classes = nova_base_ano_2022['Mes'].value_counts()
print(classes)

In [None]:
# Verifcando categorias ou classes
classes_tipos_terremotos = dados_terremotos['Tipo'].value_counts()
print(classes_tipos_terremotos)

In [None]:
# Construindo o gráfico de fatias com matplotlib

nome_classes = ['Ke','Sm']
quantidade_classes = [49886,114]
fig = plt.figure(figsize =(7, 7))
plt.pie(quantidade_classes, labels = nome_classes, autopct='%1.2f%%')
plt.show()

In [None]:
# Gráfico de barras com seaborn
sns.countplot(x='Tipo', data=dados_terremotos)
plt.show()

In [None]:
# Gráfico de barras com seaborn
fig = plt.figure(figsize=(15,6))
sns.countplot(x='Ano', data=dados_terremotos)
plt.show()

In [None]:
# Gráfico de barras com seaborn
fig = plt.figure(figsize=(15,6))
sns.countplot(x='Ano', data=dados_terremotos, order = dados_terremotos["Ano"].value_counts().index)
plt.show()

In [None]:
# Gráfico de barras com seaborn
sns.countplot(x='Hora_', data=nova_base_ano_2022)
plt.show()

## 3. Algumas visualizações relacionam variáveis NUMÉRICAS e CATEGÓRICAS:

In [None]:
# Grafico gerado entre magnitide, profundidade e tipo do terremoto.
sns.relplot(
    data=nova_base_ano_2022,
    x="Profundidade(km)", y="Magnitude", hue="Mes", palette="rocket_r")
plt.show()

In [None]:
# Plotar o boxplot de uma variável em relação as classes com seaborn.

plt.subplots( figsize=(8, 6))
sns.boxplot(x='Tipo', y='Magnitude', data=dados_terremotos)
plt.show()

In [None]:
# Plotar o boxplot de uma variável em relação as classes com seaborn.

plt.subplots( figsize=(8, 6))
sns.boxplot(x='Mes', y='Magnitude', data=dados_terremotos)
plt.show()