## Data Pipelines

### O que são Data Pipelines?
Data pipelines são uma série de processos que coletam, processam e entregam dados de uma fonte para um destino. Eles permitem que os dados sejam transferidos entre sistemas de forma eficiente e segura, e podem incluir etapas de extração, transformação e carregamento (ETL).

### Objetivo
O objetivo principal de uma data pipeline é automatizar a movimentação de dados entre diferentes sistemas, garantindo que os dados estejam disponíveis para análise e tomada de decisão em tempo hábil. Isso inclui a limpeza e transformação dos dados para garantir sua qualidade e integridade antes de serem utilizados.

### Importância
Data pipelines são essenciais para a gestão eficaz de grandes volumes de dados, permitindo que as empresas:
- Melhorem a eficiência operacional automatizando processos manuais de manipulação de dados.
- Assegurem a qualidade e a integridade dos dados através de validações e transformações automatizadas.
- Reduzam o tempo de espera para análises e relatórios, possibilitando decisões mais rápidas e informadas.
- Possibilitem a integração de dados de múltiplas fontes, criando uma visão unificada e abrangente.


### Exemplos de Utilização
1. **Pipeline de ETL (Extração, Transformação e Carregamento)**:
    - Extração de dados de um banco de dados SQL.
    - Transformação dos dados (limpeza, agregação, etc.).
    - Carregamento dos dados transformados em um data warehouse.
2. **Pipeline de Machine Learning**:
    - Coleta de dados brutos de várias fontes.
    - Pré-processamento dos dados (normalização, imputação de valores ausentes, etc.).
    - Treinamento e validação de modelos de machine learning.
    - Deploy dos modelos em produção.
3. **Pipeline de Integração de Dados em Tempo Real**:
    - Captura de eventos de um sistema de log.
    - Processamento em tempo real dos eventos.
    - Envio dos resultados para um sistema de monitoramento ou alertas.


In [1]:
import pandas as pd
import numpy as np
from sklearn.model_selection import train_test_split
from sklearn.pipeline import Pipeline
from sklearn.pipeline import make_pipeline
from sklearn.preprocessing import StandardScaler
from sklearn.preprocessing import MinMaxScaler
from sklearn.preprocessing import OneHotEncoder
from sklearn.impute import SimpleImputer
from sklearn.tree import DecisionTreeClassifier
from sklearn.linear_model import LogisticRegression
from sklearn.compose import ColumnTransformer

In [2]:
df = pd.read_csv('german_credit_data.csv')

In [3]:
df.head()

Unnamed: 0.1,Unnamed: 0,Age,Sex,Job,Housing,Saving accounts,Checking account,Credit amount,Duration,Purpose,Risk
0,0,67,male,2,own,,little,1169,6,radio/TV,good
1,1,22,female,2,own,little,moderate,5951,48,radio/TV,bad
2,2,49,male,1,own,little,,2096,12,education,good
3,3,45,male,2,free,little,little,7882,42,furniture/equipment,good
4,4,53,male,2,free,little,little,4870,24,car,bad


In [4]:
df.isnull().sum()

Unnamed: 0            0
Age                   0
Sex                   0
Job                   0
Housing               0
Saving accounts     183
Checking account    394
Credit amount         0
Duration              0
Purpose               0
Risk                  0
dtype: int64

In [5]:
df=df.copy()

In [6]:
df['Sex'].value_counts()

Sex
male      690
female    310
Name: count, dtype: int64

In [7]:
df['Sex']=np.where(df['Sex']=='male',1,0)

In [8]:
df['Job'].value_counts()

Job
2    630
1    200
3    148
0     22
Name: count, dtype: int64

In [9]:
df['Housing'].value_counts()

Housing
own     713
rent    179
free    108
Name: count, dtype: int64

In [10]:
df['Housing'] = df['Housing'].replace({'own': 2, 'rent': 1, 'free': 0})

In [11]:
df['Saving accounts'].value_counts()

Saving accounts
little        603
moderate      103
quite rich     63
rich           48
Name: count, dtype: int64

In [12]:
df['Saving accounts'] = df['Saving accounts'].replace({'little': 0, 'moderate': 1, 'quite rich': 2, 'rich' : 4})

In [13]:
df['Credit amount'].value_counts()

Credit amount
1478    3
1262    3
1258    3
1275    3
1393    3
       ..
1459    1
882     1
3758    1
1136    1
4576    1
Name: count, Length: 921, dtype: int64

In [14]:
df['Risk']=np.where(df['Risk']=='bad',1,0)
df.head()

Unnamed: 0.1,Unnamed: 0,Age,Sex,Job,Housing,Saving accounts,Checking account,Credit amount,Duration,Purpose,Risk
0,0,67,1,2,2,,little,1169,6,radio/TV,0
1,1,22,0,2,2,0.0,moderate,5951,48,radio/TV,1
2,2,49,1,1,2,0.0,,2096,12,education,0
3,3,45,1,2,0,0.0,little,7882,42,furniture/equipment,0
4,4,53,1,2,0,0.0,little,4870,24,car,1


In [15]:
german= df[['Age', 'Credit amount', 'Duration', 'Risk']].copy()

In [16]:
features = german[['Age', 'Credit amount', 'Duration']]
labels = german['Risk']

### PIPELINE

In [17]:
X_train, X_test, y_train, y_test = train_test_split(features, labels, test_size=0.3,random_state=0)

In [18]:
# Sem o pipeline:
# scaler = StandardScaler()
# scaler.fit_transform(X_train)

pipe = Pipeline([('scaler', StandardScaler()), 
                 ('imputer', SimpleImputer(strategy='median')),
                 ('clf', DecisionTreeClassifier())])

pipe.fit(X_train, y_train)
pipe.score(X_test, y_test)

0.6133333333333333

In [19]:
pipe.predict(X_test)

array([0, 0, 0, 0, 1, 0, 0, 0, 0, 1, 1, 0, 1, 0, 0, 0, 0, 0, 0, 1, 0, 1,
       0, 0, 0, 0, 1, 1, 1, 1, 0, 0, 0, 1, 1, 1, 1, 0, 1, 1, 1, 1, 0, 0,
       0, 0, 0, 0, 0, 1, 1, 0, 1, 0, 1, 1, 0, 1, 0, 0, 0, 0, 1, 0, 0, 0,
       0, 0, 1, 1, 0, 1, 0, 0, 1, 0, 1, 0, 1, 1, 0, 0, 1, 0, 0, 0, 1, 1,
       1, 1, 0, 0, 0, 0, 0, 0, 1, 0, 0, 1, 0, 0, 1, 0, 1, 0, 0, 0, 0, 1,
       1, 1, 0, 0, 0, 1, 1, 0, 0, 0, 0, 0, 1, 0, 1, 0, 0, 1, 1, 0, 1, 1,
       1, 1, 0, 1, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 1,
       0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 1, 0, 0, 1, 0, 0, 1, 0, 0, 1,
       0, 0, 0, 1, 0, 0, 0, 1, 0, 1, 1, 0, 0, 0, 0, 1, 0, 0, 1, 0, 0, 0,
       1, 0, 0, 0, 1, 0, 0, 1, 1, 0, 0, 0, 0, 1, 0, 1, 0, 1, 0, 0, 0, 0,
       1, 0, 1, 0, 0, 1, 1, 1, 1, 1, 0, 0, 0, 0, 1, 1, 0, 0, 0, 1, 1, 0,
       0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 1, 1, 1, 0, 0, 0, 0, 0, 0, 0,
       1, 0, 0, 1, 1, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 1, 1, 0, 0, 0, 1,
       0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 1, 1, 1, 0])

### MAKE_PIPELINE

In [20]:
make_pipe = make_pipeline(MinMaxScaler(),
                         SimpleImputer(strategy='mean'),
                         LogisticRegression())

make_pipe.fit(X_train, y_train)
make_pipe.score(X_test, y_test)

0.7166666666666667

### COLUMN_TRANSFORMER

In [21]:
dfC=pd.read_csv('german_credit_data.csv')

In [22]:
dfC['Risk']=np.where(dfC['Risk']=='bad',1,0)

germanC= dfC[['Age', 'Credit amount', 'Duration','Purpose','Risk']].copy()

features = germanC[['Age', 'Credit amount', 'Duration','Purpose']]
labels = germanC['Risk']

X_train, X_test, y_train, y_test = train_test_split(features, labels, test_size=0.3,random_state=0)

In [23]:
numericas_continuas = ['Age', 'Credit amount', 'Duration',]
categoricas = ['Purpose']

In [24]:
t = [('num_continua', StandardScaler(), numericas_continuas), 
    ('str_categoricas', OneHotEncoder(), categoricas)]

preprocessor = ColumnTransformer(transformers=t)

In [25]:
pipe_transformer = Pipeline(steps=[('preprocessor', preprocessor), ('clf', DecisionTreeClassifier())])

In [26]:
pipe_transformer.fit(X_train,y_train)

In [27]:
pipe_transformer.score(X_test, y_test)

0.6233333333333333

### Loop para testar vários modelos

In [28]:
from sklearn.metrics import accuracy_score, log_loss
from sklearn.neighbors import KNeighborsClassifier
from sklearn.svm import SVC, LinearSVC, NuSVC
from sklearn.tree import DecisionTreeClassifier
from sklearn.ensemble import (
    RandomForestClassifier,
    AdaBoostClassifier,
    GradientBoostingClassifier,
)
from sklearn.discriminant_analysis import LinearDiscriminantAnalysis
from sklearn.discriminant_analysis import QuadraticDiscriminantAnalysis
from sklearn.linear_model import LogisticRegression

In [29]:
classifiers_list = [
    KNeighborsClassifier(3),
    SVC(kernel="rbf", C=0.025, probability=True),
    SVC(),
    LogisticRegression(),
    DecisionTreeClassifier(),
    RandomForestClassifier(),
    AdaBoostClassifier(),
    GradientBoostingClassifier(),
]

In [30]:
for classifier in classifiers_list:
    pipe = Pipeline(steps=[("preprocessor", preprocessor), ("classifier", classifier)])
    pipe.fit(X_train, y_train)
    print(classifier)
    print("model score: %.3f" % pipe.score(X_test, y_test))

KNeighborsClassifier(n_neighbors=3)
model score: 0.690
SVC(C=0.025, probability=True)
model score: 0.713
SVC()
model score: 0.720
LogisticRegression()
model score: 0.697
DecisionTreeClassifier()
model score: 0.613
RandomForestClassifier()
model score: 0.703
AdaBoostClassifier()
model score: 0.720
GradientBoostingClassifier()
model score: 0.710
