<a href="https://colab.research.google.com/github/JairAssisDev/meus_codigos_de_python/blob/main/t%C3%A9cnicas_de_ci%C3%AAncia_de_dados.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

Normalização

In [None]:
import numpy as np


data = np.array([2.0, 5.0, 10.0, 15.0, 20.0])

# Calcule o mínimo e o máximo dos dados
min_value = np.min(data)
max_value = np.max(data)

# Aplique o escalonamento Min-Max
scaled_data = (data - min_value) / (max_value - min_value)

print("Dados originais:", data)
print("Dados escalonados Min-Max:", scaled_data)


Dados originais: [ 2.  5. 10. 15. 20.]
Dados escalonados Min-Max: [0.         0.16666667 0.44444444 0.72222222 1.        ]


In [None]:
import numpy as np


data = np.array([2.0, 5.0, 10.0, 15.0, 20.0])

# Calcule a média e o desvio padrão dos dados
mean = np.mean(data)
std_dev = np.std(data)

# Aplique a padronização Z-Score
standardized_data = (data - mean) / std_dev

print("Dados originais:", data)
print("Dados padronizados Z-Score:", standardized_data)


Dados originais: [ 2.  5. 10. 15. 20.]
Dados padronizados Z-Score: [-1.28638417 -0.82696125 -0.06125639  0.70444848  1.47015334]


In [None]:
import numpy as np


data = np.array([2.0, 5.0, 10.0, 15.0, 200.0])

# Calcule a mediana e o IQR dos dados
median = np.median(data)
iqr = np.percentile(data, 75) - np.percentile(data, 25)

# Aplique a escala robusta
robust_scaled_data = (data - median) / iqr

print("Dados originais:", data)
print("Dados escalonados robustamente:", robust_scaled_data)


Dados originais: [  2.   5.  10.  15. 200.]
Dados escalonados robustamente: [-0.8 -0.5  0.   0.5 19. ]


In [None]:
import numpy as np


data = np.array([1.0, 2.0, 4.0, 8.0, 16.0])

# Aplique a transformação logarítmica (ln)
log_transformed_data = np.log(data)

print("Dados originais:", data)
print("Dados após transformação logarítmica (ln):", log_transformed_data)


Dados originais: [ 1.  2.  4.  8. 16.]
Dados após transformação logarítmica (ln): [0.         0.69314718 1.38629436 2.07944154 2.77258872]


In [None]:
import numpy as np
from scipy import stats


data = np.array([1.0, 2.0, 4.0, 8.0, 16.0])

# Aplique a transformação Box-Cox
transformed_data, lambda_value = stats.boxcox(data)

print("Dados originais:", data)
print("Dados após a transformação Box-Cox:", transformed_data)
print("Valor lambda estimado:", lambda_value)


Dados originais: [ 1.  2.  4.  8. 16.]
Dados após a transformação Box-Cox: [0.         0.69314718 1.38629437 2.07944157 2.77258877]
Valor lambda estimado: 1.204940897059359e-08


In [None]:
import numpy as np


data = np.array([2.0, 5.0, 10.0, 15.0, 20.0])

# Calcule a magnitude do vetor
magnitude = np.linalg.norm(data)

# Aplique a escala de vetor unitário
unit_vector_scaled_data = data / magnitude

print("Dados originais:", data)
print("Dados escalonados para o vetor unitário:", unit_vector_scaled_data)

Dados originais: [ 2.  5. 10. 15. 20.]
Dados escalonados para o vetor unitário: [0.0728357  0.18208926 0.36417852 0.54626778 0.72835704]


Imputação de Dados

Média/mediana/mode imputation

In [None]:
import pandas as pd

# Exemplo de DataFrame com valores ausentes
data = {'A': [1, 2, None, 4, 5],
        'B': [None, 6, 7, 8, 9],
        'C': [10, 11, 12, None, 14]}
df = pd.DataFrame(data)

# Imputação da média
df_mean_filled = df.fillna(df.mean())
print("DataFrame com imputação da média:")
print(df_mean_filled)


DataFrame com imputação da média:
     A    B      C
0  1.0  7.5  10.00
1  2.0  6.0  11.00
2  3.0  7.0  12.00
3  4.0  8.0  11.75
4  5.0  9.0  14.00


K-Nearest Neighbors (KNN) imputation

In [None]:
import pandas as pd
from sklearn.impute import KNNImputer

# Exemplo de DataFrame com valores ausentes
data = {'A': [1, 2, None, 4, 5],
        'B': [None, 6, 7, 8, 9],
        'C': [10, 11, 12, None, 14]}
df = pd.DataFrame(data)

# Inicialização do KNNImputer com 2 vizinhos mais próximos
imputer = KNNImputer(n_neighbors=2)

# Preenchimento dos valores ausentes usando KNNImputer
df_knn_filled = pd.DataFrame(imputer.fit_transform(df), columns=df.columns)

# Impressão do DataFrame com os valores imputados usando KNN
print("DataFrame com imputação KNN:")
print(df_knn_filled)

DataFrame com imputação KNN:
     A    B     C
0  1.0  6.5  10.0
1  2.0  6.0  11.0
2  3.0  7.0  12.0
3  4.0  8.0  13.0
4  5.0  9.0  14.0


Imputação por regressão

In [None]:
import pandas as pd
from sklearn.impute import SimpleImputer

# Exemplo de DataFrame com valores ausentes
data = {'A': [1, 2, None, 4, 5],
        'B': [None, 6, 7, 8, 9],
        'C': [10, 11, 12, None, 14]}
df = pd.DataFrame(data)

# Preenchimento dos valores ausentes usando SimpleImputer com a estratégia de média
for col in df.columns:
    imputer = SimpleImputer(strategy='mean')
    df_col = pd.DataFrame(imputer.fit_transform(df[[col]]))
    df[col] = df_col

# Impressão do DataFrame com os valores imputados usando SimpleImputer
print("DataFrame com imputação por média:")
print(df)


DataFrame com imputação por média:
     A    B      C
0  1.0  7.5  10.00
1  2.0  6.0  11.00
2  3.0  7.0  12.00
3  4.0  8.0  11.75
4  5.0  9.0  14.00


MICE

In [None]:
!pip install impyute

import pandas as pd
import impyute as impy

# Exemplo de DataFrame com valores ausentes
data = {'A': [1, 2, None, 4, 5],
        'B': [None, 6, 7, 8, 9],
        'C': [10, 11, 12, None, 14]}
df = pd.DataFrame(data)

# Imputação dos valores ausentes usando MICE
df_mice_filled = impy.mice(df.values)

# Conversão do resultado de volta para DataFrame
df_mice_filled = pd.DataFrame(df_mice_filled, columns=df.columns)

# Impressão do DataFrame com os valores imputados usando MICE
print("DataFrame com imputação MICE:")
print(df_mice_filled)


Collecting impyute
  Downloading impyute-0.0.8-py2.py3-none-any.whl (31 kB)
Installing collected packages: impyute
Successfully installed impyute-0.0.8
DataFrame com imputação MICE:
[[ 1.  5. 10.]
 [ 2.  6. 11.]
 [ 3.  7. 12.]
 [ 4.  8. 13.]
 [ 5.  9. 14.]]


Matrix Factorization Techniques

In [None]:
!pip install fancyimpute

import pandas as pd
import fancyimpute

# Exemplo de DataFrame com valores ausentes
data = {'A': [1, 2, None, 4, 5],
        'B': [None, 6, 7, 8, 9],
        'C': [10, 11, 12, None, 14]}
df = pd.DataFrame(data)

# Imputação dos valores ausentes usando técnicas de fatorização de matrizes
df_matrix_filled = pd.DataFrame(fancyimpute.MatrixFactorization().fit_transform(df))

# Impressão do DataFrame com os valores imputados usando fatorização de matrizes
print("DataFrame com imputação por técnicas de fatorização de matrizes:")
print(df_matrix_filled)


Collecting fancyimpute
  Downloading fancyimpute-0.7.0.tar.gz (25 kB)
  Preparing metadata (setup.py) ... [?25l[?25hdone
Collecting knnimpute>=0.1.0 (from fancyimpute)
  Downloading knnimpute-0.1.0.tar.gz (8.3 kB)
  Preparing metadata (setup.py) ... [?25l[?25hdone
Collecting nose (from fancyimpute)
  Downloading nose-1.3.7-py3-none-any.whl (154 kB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m154.7/154.7 kB[0m [31m3.8 MB/s[0m eta [36m0:00:00[0m
Building wheels for collected packages: fancyimpute, knnimpute
  Building wheel for fancyimpute (setup.py) ... [?25l[?25hdone
  Created wheel for fancyimpute: filename=fancyimpute-0.7.0-py3-none-any.whl size=29880 sha256=6f67c703f06e147e747c0a9fbaf5aaa7500688486d08b120707e36f7243d3ee9
  Stored in directory: /root/.cache/pip/wheels/7b/0c/d3/ee82d1fbdcc0858d96434af108608d01703505d453720c84ed
  Building wheel for knnimpute (setup.py) ... [?25l[?25hdone
  Created wheel for knnimpute: filename=knnimpute-0.1.0-py3-none-

pipeline

Pré-processamento e transformações de dados

In [None]:
import pandas as pd
from sklearn.pipeline import Pipeline
from sklearn.impute import SimpleImputer
from sklearn.preprocessing import StandardScaler

# Exemplo de DataFrame com valores ausentes
data = {'A': [1, 2, None, 4, 5],
        'B': [None, 6, 7, 8, 9],
        'C': [10, 11, 12, None, 14]}
df = pd.DataFrame(data)

# Criando o pipeline
pipeline = Pipeline([
    ('imputer', SimpleImputer(strategy='mean')),
    ('scaler', StandardScaler())
])

# Aplicando o pipeline
df_transformed = pipeline.fit_transform(df)
df_transformed = pd.DataFrame(df_transformed, columns=df.columns)

# Imprimindo o DataFrame transformado
print("DataFrame após o pipeline de pré-processamento e transformação:")
print(df_transformed)


DataFrame após o pipeline de pré-processamento e transformação:
          A    B         C
0 -1.414214  0.0 -1.322876
1 -0.707107 -1.5 -0.566947
2  0.000000 -0.5  0.188982
3  0.707107  0.5  0.000000
4  1.414214  1.5  1.700840


Feature Union

In [None]:
import pandas as pd
from sklearn.pipeline import Pipeline, FeatureUnion
from sklearn.impute import SimpleImputer
from sklearn.preprocessing import StandardScaler
from sklearn.decomposition import PCA

# Exemplo de DataFrame com valores ausentes
data = {'A': [1, 2, None, 4, 5],
        'B': [None, 6, 7, 8, 9],
        'C': [10, 11, 12, None, 14]}
df = pd.DataFrame(data)

# Removendo os valores ausentes
df = df.dropna()

# Criando o pipeline com FeatureUnion
pipeline = Pipeline([
    ('union', FeatureUnion([
        ('scaler', StandardScaler()),
        ('imputer', SimpleImputer(strategy='mean')),
        ('pca', PCA(n_components=2))
    ]))
])

# Aplicando o pipeline
df_transformed = pipeline.fit_transform(df)
print("DataFrame após o pipeline com FeatureUnion:")
print(df_transformed)


DataFrame após o pipeline com FeatureUnion:
[[-1.         -1.         -1.          2.          6.         11.
  -2.59807621  0.        ]
 [ 1.          1.          1.          5.          9.         14.
   2.59807621  0.        ]]


Grid Search

In [None]:
from sklearn.model_selection import GridSearchCV
from sklearn.ensemble import RandomForestRegressor
from sklearn.datasets import make_regression

# Gerando um conjunto de dados de exemplo
X, y = make_regression()
param_grid = {'n_estimators': [10, 100, 1000]}

# Criando o pipeline com GridSearchCV
pipeline = Pipeline([
    ('regressor', GridSearchCV(RandomForestRegressor(), param_grid))
])

# Aplicando o pipeline
pipeline.fit(X, y)
print("Melhores parâmetros encontrados pelo Grid Search:")
print(pipeline.named_steps['regressor'].best_params_)


Melhores parâmetros encontrados pelo Grid Search:
{'n_estimators': 1000}


Ensemble Methods

In [None]:
from sklearn.datasets import make_classification

# Exemplo de conjunto de dados
X, y = make_classification()

# Criando o pipeline com VotingClassifier
pipeline = Pipeline([
    ('ensemble', VotingClassifier(estimators=[
        ('lr', LogisticRegression()),
        ('gnb', GaussianNB()),
        ('rf', RandomForestClassifier())
    ]))
])

# Aplicando o pipeline
pipeline.fit(X, y)
print("Resultado do ensemble de classificadores:")
print(pipeline.score(X, y))


Resultado do ensemble de classificadores:
0.97


Avaliação de Modelos

In [None]:
from sklearn.model_selection import cross_val_score
from sklearn.linear_model import LogisticRegression
from sklearn.datasets import load_iris

# Carregando o conjunto de dados de exemplo
X, y = load_iris(return_X_y=True)

# Criando o pipeline com avaliação de modelo
pipeline = Pipeline([
    ('clf', LogisticRegression())
])

# Aplicando o pipeline com validação cruzada
scores = cross_val_score(pipeline, X, y, cv=5)
print("Resultados da validação cruzada:")
print(scores)


Resultados da validação cruzada:
[0.96666667 1.         0.93333333 0.96666667 1.        ]


STOP: TOTAL NO. of ITERATIONS REACHED LIMIT.

Increase the number of iterations (max_iter) or scale the data as shown in:
    https://scikit-learn.org/stable/modules/preprocessing.html
Please also refer to the documentation for alternative solver options:
    https://scikit-learn.org/stable/modules/linear_model.html#logistic-regression
  n_iter_i = _check_optimize_result(
