In [2]:
import pandas as pd
import numpy as np
from sklearn.preprocessing import MinMaxScaler # normalização dos dados
from sklearn.preprocessing import StandardScaler # padronização dos dados
from sklearn.preprocessing import OrdinalEncoder # ordinal encoding
from sklearn.preprocessing import OneHotEncoder # one hot encoding e dummy encoding

In [3]:
url_dados: str = "https://raw.githubusercontent.com/profkalinowski/livroescd/main/iris.data"

label_atributos: list[str] = [
    "comprimento_sepala",
    "largura_sepala",
    "comprimento_petala",
    "largura_petala",
    "especie"
]

iris: pd.DataFrame = pd.read_csv(
    url_dados,
    names=label_atributos
)

iris.head()

Unnamed: 0,comprimento_sepala,largura_sepala,comprimento_petala,largura_petala,especie
0,5.1,3.5,1.4,0.2,Iris-setosa
1,4.9,3.0,1.4,0.2,Iris-setosa
2,4.7,3.2,1.3,0.2,Iris-setosa
3,4.6,3.1,1.5,0.2,Iris-setosa
4,5.0,3.6,1.4,0.2,Iris-setosa


In [4]:
dados: dict[str, list[float | str]] = {
    "largura_sepala": [4.0,],
    "comprimento_sepala": [5.0,],
    "largura_petala": [0.4,],
    "comprimento_petala": [1.0,],
    "especie": ["Iris-setosa",]
}

df_novo: pd.DataFrame = pd.DataFrame(dados)
df: pd.DataFrame = pd.concat([iris, df_novo])

In [5]:
print(iris.shape)
print(df_novo.shape)
print(df.shape)

(150, 5)
(1, 5)
(151, 5)


In [6]:
df: pd.DataFrame = df.dropna(how="any")

In [7]:
df: pd.DataFrame = pd.concat([iris, pd.DataFrame({
    "largura_sepala": [4.0,],
    "comprimento_sepala": [5.0,],
    "largura_petala": [0.4,],
    "comprimento_petala": [1.0,],
    "especie": ["Iris-setosa",]
})])

df.tail()

Unnamed: 0,comprimento_sepala,largura_sepala,comprimento_petala,largura_petala,especie
146,6.3,2.5,5.0,1.9,Iris-virginica
147,6.5,3.0,5.2,2.0,Iris-virginica
148,6.2,3.4,5.4,2.3,Iris-virginica
149,5.9,3.0,5.1,1.8,Iris-virginica
0,5.0,4.0,1.0,0.4,Iris-setosa


In [8]:
df.dropna(how="any", inplace=True)


# só será dropado os dados se não forem de série temporal, ou seja, trabalhar com tempo, fora isso pode dropar
values: dict[str, float | str] = {
    "comprimento_sepala": iris["comprimento_sepala"].median(),
    "largura_sepala": iris["largura_sepala"].mean(),
    "comprimento_petala": iris["comprimento_petala"].mean(),
    "largura_petala": iris["largura_petala"].mean(),
    "especie": "Iris-setosa",
}

df.fillna(value=values, inplace=True)

In [9]:
data = np.asarray([
    [100, 0.001],
    [8, 0.05],
    [50, 0.005],
    [88, 0.07],
    [4, 0.1]
])

type(data)

numpy.ndarray

In [10]:
# Normalização dos dados
# (se os dados estiverem padronizado vai utilizar essa)

scaler: MinMaxScaler = MinMaxScaler()

scaled: np.ndarray = scaler.fit_transform(data)
print(scaled)

[[1.         0.        ]
 [0.04166667 0.49494949]
 [0.47916667 0.04040404]
 [0.875      0.6969697 ]
 [0.         1.        ]]


In [11]:
# Padronização dos dados
# (se os dados estão normalizados vai utilizar essa)

scaler: StandardScaler = StandardScaler()

scaled: np.ndarray = scaler.fit_transform(data)
print(scaled)

[[ 1.26398112 -1.16389967]
 [-1.06174414  0.12639634]
 [ 0.         -1.05856939]
 [ 0.96062565  0.65304778]
 [-1.16286263  1.44302493]]


In [12]:
data: np.ndarray = np.asarray([
    ["castanhos"], ["verdes"], ["azuis"], ["castanhos"], ["azuis"]
])

print(data)

[['castanhos']
 ['verdes']
 ['azuis']
 ['castanhos']
 ['azuis']]


In [13]:
# processo de damisação com variáveis dami, onde é comparado com a matriz anterior para verificar em probabilidade quais
# dados irão aparecer mais
encoder: OneHotEncoder = OneHotEncoder(sparse_output=False)

onehot: np.ndarray = encoder.fit_transform(data)
print(onehot)

[[0. 1. 0.]
 [0. 0. 1.]
 [1. 0. 0.]
 [0. 1. 0.]
 [1. 0. 0.]]
