In [2]:
import pandas as pd
import numpy as np

In [3]:
df = pd.DataFrame({"nome":['Peter','Bruce', "T'Challa"],
                  "simbolo": ['aranha', 'morcego', 'pantera'],
                  "idade": [22, pd.NaT, 25]})

In [4]:
df

Unnamed: 0,nome,simbolo,idade
0,Peter,aranha,22
1,Bruce,morcego,NaT
2,T'Challa,pantera,25


In [5]:
df.dropna()

Unnamed: 0,nome,simbolo,idade
0,Peter,aranha,22
2,T'Challa,pantera,25


## Código para o cálculo do RMSE

In [6]:
import numpy as np

# Valores reais
reais = [100000, 150000, 200000, 250000, 300000]

# Valores previstos pelo modelo
prev = [95000, 142000, 210000, 245000, 315000]

# Cálculo do RMSE
diferencas = [r - p for r, p in zip(reais, prev)]
quadrados_das_diferencas = [d ** 2 for d in diferencas]
mse = np.mean(quadrados_das_diferencas)
rmse = np.sqrt(mse)

print(f"MSE: {mse}\nRMSE: {rmse}")

MSE: 87800000.0
RMSE: 9370.165420097983


## Código para o cálculo do RMSE com Scikit-Learn

In [None]:
import numpy as np
from sklearn.metrics import mean_squared_error

# Valores reais
reais = [100000, 150000, 200000, 250000, 300000]

# Valores previstos pelo modelo
prev = [95000, 142000, 210000, 245000, 315000]

# Cálculo do RMSE com scikit-learn
mse = mean_squared_error(reais, prev)
rmse = np.sqrt(mse)

print(f"MSE: {mse}\nRMSE: {rmse}")

# Exemplo de Imputação de valores faltantes

In [8]:
from sklearn.impute import SimpleImputer

# Dados com valores ausentes
dados = np.array([[1, 2, 3, np.nan],
                  [4, np.nan, 6, 7],
                  [8, 9, 10, 11]])

# Imputação com a média das colunas
imputador=SimpleImputer(missing_values=np.nan, strategy='mean')
dados_imputados = imputador.fit_transform(dados)

print(f"Dados após imputação: \n{dados_imputados}")

Dados após imputação: 
[[ 1.   2.   3.   9. ]
 [ 4.   5.5  6.   7. ]
 [ 8.   9.  10.  11. ]]


## Identificação de outliers

In [9]:
dados = np.array([1, 2, 3, 4, 5, 100])

q1 = np.percentile(dados, 25)
q3 = np.percentile(dados, 75)
iqr = q3 - q1

# Limite inferior e superior
limite_inf = q1 - 1.5 * iqr
limite_sup = q3 + 1.5 * iqr

outliers=np.where((dados<limite_inf)|(dados>limite_sup))[0]
print(f"Outliers por IQR: {outliers}")

Outliers por IQR: [5]


## Removendo Outliers

In [12]:
print(f"Nova lista sem outlier: {np.delete(dados, 5)}")

Nova lista sem outlier: [1 2 3 4 5]


## Normalização dos dados de uma lista

In [16]:
from sklearn.preprocessing import normalize

# Dados a serem normalizados/padronizados
dados = np.array([2, 3, 5, 6, 7, 4, 8, 7, 6])

# Normalização entre 0 e 1
dados_normalizados = normalize([dados], norm='max')

print(f"Dados normalizados: {dados_normalizados}")

Dados normalizados: [[0.25  0.375 0.625 0.75  0.875 0.5   1.    0.875 0.75 ]]


## Padronização dos dados 

In [18]:
from sklearn.preprocessing import StandardScaler

dados = np.array([[1, 2, 3], [4, 5, 6],[7, 8, 9]])

# Padronização com média 0 e desvio padrão 1
padronizador = StandardScaler()
dados_padronizados = padronizador.fit_transform(dados)

print(f"Dados padronizados:\n{dados_padronizados}")

Dados padronizados:
[[-1.22474487 -1.22474487 -1.22474487]
 [ 0.          0.          0.        ]
 [ 1.22474487  1.22474487  1.22474487]]


## Codificação com one-hot encoding e label encoding

In [20]:
from sklearn.preprocessing import OneHotEncoder, LabelEncoder

# Dados categóricos
dados_categóricos = np.array(['A', 'B', 'C', 'A', 'B'])

# Codificação one-hot encoding
codific_one_hot = OneHotEncoder()
dados_one_hot=codific_one_hot.fit_transform(dados_categóricos.reshape(-1, 1))

print(f"Dados one-hot encoding:\n{dados_one_hot.toarray()}")

Dados one-hot encoding:
[[1. 0. 0.]
 [0. 1. 0.]
 [0. 0. 1.]
 [1. 0. 0.]
 [0. 1. 0.]]


In [21]:
# Codificação de label encoding
codificador_label = LabelEncoder()
dados_label=codificador_label.fit_transform(dados_categóricos)

print(f"Dados label encoding:\n{dados_label}")

Dados label encoding:
[0 1 2 0 1]
