# Explorando os dados

# 1 - Lendo os dados

Para a modelagem, será utilizado apenas os dados referente ao target $r$, que é a razão tensorial-escalar que armazena a informação sobre ondas gravitacionais primordiais.

In [None]:
import pandas as pd

df = pd.read_csv("../data/02_intermediate/training_b_df.csv")

In [None]:
df

# 2 - Remoção de duplicados

In [None]:
# Verifica quais linhas são duplicatas
duplicadas = df.duplicated()
print(duplicadas)

In [None]:
total_duplicadas = df.duplicated().sum()
print(f"Total de linhas duplicadas: {total_duplicadas}")

### OBS: Não há dados duplicados neste dataset

# 3 - Verifica existencia de dados nulos

In [None]:
contagem_nulos = df.isnull().sum()
print("Contagem de nulos por coluna:")
print(contagem_nulos)

In [None]:
total_nulos_df = contagem_nulos.sum()

print(f"O número TOTAL de nulos no DataFrame é: {total_nulos_df}")

### OBS: Não há dados nulos no dataset.

# 4 - Checando tipos das colunas

In [None]:
print("Informações detalhadas do DataFrame:")
df.info()

### OBS: Todos os dados são númericos do tipo float64


# 5 - Verificando se os dados estão normalizados

In [9]:
maximo_global = df.max(numeric_only=True).max()

print(f"O valor máximo de todo o DataFrame é: {maximo_global}")

O valor máximo de todo o DataFrame é: 0.049907


In [10]:
minimo_global = df.max(numeric_only=True).min()

print(f"O valor mínimo de todo o DataFrame é: {minimo_global}")

O valor mínimo de todo o DataFrame é: 4.483221e-10


In [11]:
maximo_target = df["r"].max()

print(f"O valor máximo do target é: {maximo_target}")

O valor máximo do target é: 0.049907


In [12]:
minimo_target = df["r"].min()

print(f"O valor mínimo do target é: {minimo_target}")

O valor mínimo do target é: 0.000509


### OBS:

- Os dados númericos todos se encontram entre 0 e 1, mas não estão normalizados.

- A normalização será feita após dividir-se o dataset entre X_features e y_target no próximo notebook.


# Verificando dados de teste

# 1 - Lendo os dados

Para a modelagem, será utilizado apenas os dados referente ao target $r$, que é a razão tensorial-escalar que armazena a informação sobre ondas gravitacionais primordiais.

In [1]:
import pandas as pd

df = pd.read_csv("../data/02_intermediate/teste_b_df.csv")

In [2]:
df

Unnamed: 0,l_2,l_3,l_4,l_5,l_6,l_7,l_8,l_9,l_10,l_11,...,l_503,l_504,l_505,l_506,l_507,l_508,l_509,l_510,l_511,r
0,0.000324,0.000231,0.000522,0.000442,0.000362,0.000169,0.000340,0.000088,0.000165,0.000080,...,6.354351e-10,6.187699e-10,5.472912e-10,5.294808e-10,4.588926e-10,4.831911e-10,4.436403e-10,4.468961e-10,3.870140e-10,0.012381
1,0.000151,0.000311,0.001109,0.000375,0.000294,0.000303,0.000097,0.000167,0.000160,0.000236,...,6.694943e-10,6.136765e-10,5.431460e-10,5.383948e-10,4.906521e-10,4.529458e-10,4.044472e-10,4.218503e-10,3.899587e-10,0.012381
2,0.000202,0.000149,0.000227,0.000125,0.000369,0.000214,0.000223,0.000248,0.000140,0.000113,...,6.146857e-10,5.446755e-10,5.413667e-10,4.347151e-10,4.661081e-10,4.313945e-10,4.091606e-10,3.493361e-10,4.023474e-10,0.012381
3,0.000220,0.000457,0.000355,0.000421,0.000318,0.000099,0.000261,0.000180,0.000138,0.000109,...,6.131173e-10,6.130531e-10,5.876743e-10,5.359379e-10,5.261903e-10,4.781340e-10,4.263396e-10,3.872770e-10,3.959668e-10,0.012381
4,0.000344,0.000149,0.000228,0.000236,0.000213,0.000378,0.000264,0.000188,0.000133,0.000094,...,6.410077e-10,5.819736e-10,5.628697e-10,5.259830e-10,4.852131e-10,4.648140e-10,3.990974e-10,4.037040e-10,3.888955e-10,0.012381
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
1995,0.000017,0.000209,0.000385,0.000079,0.000089,0.000040,0.000053,0.000055,0.000056,0.000124,...,5.516829e-10,5.934444e-10,5.169918e-10,5.210142e-10,4.470891e-10,4.619118e-10,3.933742e-10,3.561920e-10,3.397018e-10,0.014936
1996,0.000021,0.000200,0.000087,0.000099,0.000158,0.000047,0.000015,0.000058,0.000137,0.000072,...,5.594487e-10,5.265735e-10,4.667441e-10,4.792801e-10,4.221269e-10,3.972213e-10,3.605560e-10,3.874225e-10,3.352761e-10,0.014936
1997,0.000244,0.000103,0.000202,0.000152,0.000073,0.000035,0.000057,0.000036,0.000052,0.000085,...,5.235341e-10,6.281461e-10,5.356119e-10,5.341638e-10,4.507673e-10,4.504032e-10,4.218950e-10,4.454599e-10,3.516340e-10,0.014936
1998,0.000029,0.000242,0.000166,0.000151,0.000074,0.000058,0.000049,0.000089,0.000043,0.000053,...,5.865421e-10,5.865462e-10,5.099055e-10,5.082683e-10,4.383359e-10,4.465953e-10,3.948185e-10,3.890945e-10,3.387430e-10,0.014936


# 2 - Remoção de duplicados

In [3]:
# Verifica quais linhas são duplicatas
duplicadas = df.duplicated()
print(duplicadas)

0       False
1       False
2       False
3       False
4       False
        ...  
1995    False
1996    False
1997    False
1998    False
1999    False
Length: 2000, dtype: bool


In [4]:
total_duplicadas = df.duplicated().sum()
print(f"Total de linhas duplicadas: {total_duplicadas}")

Total de linhas duplicadas: 0


### OBS: Não há dados duplicados neste dataset

# 3 - Verifica existencia de dados nulos

In [5]:
contagem_nulos = df.isnull().sum()
print("Contagem de nulos por coluna:")
print(contagem_nulos)

Contagem de nulos por coluna:
l_2      0
l_3      0
l_4      0
l_5      0
l_6      0
        ..
l_508    0
l_509    0
l_510    0
l_511    0
r        0
Length: 511, dtype: int64


In [6]:
total_nulos_df = contagem_nulos.sum()

print(f"O número TOTAL de nulos no DataFrame é: {total_nulos_df}")

O número TOTAL de nulos no DataFrame é: 0


### OBS: Não há dados nulos no dataset.

# 4 - Checando tipos das colunas

In [7]:
print("Informações detalhadas do DataFrame:")
df.info()

Informações detalhadas do DataFrame:
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 2000 entries, 0 to 1999
Columns: 511 entries, l_2 to r
dtypes: float64(511)
memory usage: 7.8 MB


### OBS: Todos os dados são númericos do tipo float64


# 5 - Verificando se os dados estão normalizados

In [13]:
maximo_global = df.max(numeric_only=True).max()

print(f"O valor máximo de todo o DataFrame é: {maximo_global}")

O valor máximo de todo o DataFrame é: 0.049907


In [14]:
minimo_global = df.max(numeric_only=True).min()

print(f"O valor mínimo de todo o DataFrame é: {minimo_global}")

O valor mínimo de todo o DataFrame é: 4.483221e-10


In [15]:
maximo_target = df["r"].max()

print(f"O valor máximo do target é: {maximo_target}")

O valor máximo do target é: 0.049907


In [16]:
minimo_target = df["r"].min()

print(f"O valor mínimo do target é: {minimo_target}")

O valor mínimo do target é: 0.000509


### OBS:

- Os dados númericos todos se encontram entre 0 e 1, mas não estão normalizados.

- A normalização será feita nos próximos notebooks.
