# Carregando a base de dados

In [46]:
# importando bibliotecas necessarias
import pandas as pd

Carregar base de dados usando ';' como separador e indicando que a coluna 'Data' é uma data

In [47]:
# lendo a base de dados e indicando que a coluna 'Data' é uma data
dados_terremotos = pd.read_csv('../data/terremotos.csv', sep=';', parse_dates=['Data'])

dados_terremotos.shape

(50000, 6)

In [48]:
# visualizando as primeiras linhas para checar que deu certo
dados_terremotos.head()

Unnamed: 0,Num,Data,Hora,Profundidade(km),Magnitude,Tipo
0,1,2023-07-31,21:53:38.29,4.0,3.5,Ke
1,2,2023-07-31,15:23:16.85,5.2,3.5,Ke
2,3,2023-07-31,02:50:49.84,6.2,3.0,Ke
3,4,2023-07-30,20:19:40.49,5.3,3.1,Ke
4,5,2023-07-30,16:13:52.62,2.4,3.0,Ke


In [49]:
# ver os tipos de cada coluna
dados_terremotos.dtypes

Num                          int64
Data                datetime64[ns]
Hora                        object
Profundidade(km)           float64
Magnitude                  float64
Tipo                        object
dtype: object

In [50]:
# ver quantidade de dados nulos em cada coluna
dados_terremotos.isnull().sum()

Num                 0
Data                0
Hora                0
Profundidade(km)    0
Magnitude           0
Tipo                0
dtype: int64

# 3. Transformação de dados

## 3.1 Mudar representação de variável

In [51]:
# contar a quantidade de cada valor distinto na coluna 'Tipo'
dados_terremotos['Tipo'].value_counts()

Ke    49886
Sm      114
Name: Tipo, dtype: int64

In [52]:
from sklearn.preprocessing import LabelEncoder

In [53]:
le = LabelEncoder()
dados_terremotos.iloc[:, 5] = le.fit_transform(dados_terremotos.iloc[:, 5])
dados_terremotos.head

  dados_terremotos.iloc[:, 5] = le.fit_transform(dados_terremotos.iloc[:, 5])


<bound method NDFrame.head of          Num       Data         Hora  Profundidade(km)  Magnitude  Tipo
0          1 2023-07-31  21:53:38.29               4.0        3.5     0
1          2 2023-07-31  15:23:16.85               5.2        3.5     0
2          3 2023-07-31  02:50:49.84               6.2        3.0     0
3          4 2023-07-30  20:19:40.49               5.3        3.1     0
4          5 2023-07-30  16:13:52.62               2.4        3.0     0
...      ...        ...          ...               ...        ...   ...
49995  49996 1994-09-16  07:11:48.90               4.0        3.0     0
49996  49997 1994-09-15  10:40:46.50               6.0        3.2     0
49997  49998 1994-09-13  22:02:02.00               2.0        3.0     0
49998  49999 1994-09-13  01:00:48.00              18.0        3.5     0
49999  50000 1994-09-11  07:03:48.00               4.0        3.1     0

[50000 rows x 6 columns]>

## 3.2 Horas e Datas

In [54]:
import datetime

dados_terremotos['Ano'] = dados_terremotos['Data'].dt.year
dados_terremotos['Mes'] = dados_terremotos['Data'].dt.month

In [55]:
dados_terremotos['Hora_'] = pd.to_datetime(dados_terremotos['Hora'], format="%H:%M:%S.%f").dt.hour

In [56]:
dados_terremotos

Unnamed: 0,Num,Data,Hora,Profundidade(km),Magnitude,Tipo,Ano,Mes,Hora_
0,1,2023-07-31,21:53:38.29,4.0,3.5,0,2023,7,21
1,2,2023-07-31,15:23:16.85,5.2,3.5,0,2023,7,15
2,3,2023-07-31,02:50:49.84,6.2,3.0,0,2023,7,2
3,4,2023-07-30,20:19:40.49,5.3,3.1,0,2023,7,20
4,5,2023-07-30,16:13:52.62,2.4,3.0,0,2023,7,16
...,...,...,...,...,...,...,...,...,...
49995,49996,1994-09-16,07:11:48.90,4.0,3.0,0,1994,9,7
49996,49997,1994-09-15,10:40:46.50,6.0,3.2,0,1994,9,10
49997,49998,1994-09-13,22:02:02.00,2.0,3.0,0,1994,9,22
49998,49999,1994-09-13,01:00:48.00,18.0,3.5,0,1994,9,1


# 4. Exportar para CSV

In [57]:
dados_terremotos.to_csv('../data/dados_terremotos_processados.csv')