# Aula de Processamento de Dados

**Instruções**
Vamos criar um pacote em python que vai nos ajudar a tratar e processar os dados do **Titanic**

Mas antes, vamos entender o que é um pacote para Python:

**O que é um Pacote?**

👉 Código reutilizável de um projeto para outro (de... importar...)

Um pacote permite que você:

👉 Compartilhe com outras pessoas

Instalar a partir do PyPI: pip install <nome_do_pacote>
Instalar a partir do GitHub: pip install git+https://...
👉 Implantar em produção (em servidores Linux)

👉 Rastreie o código (git) e colabore nele!

🎯 Objetivo da aula: criar um pacote chamado `inteli-data` que você possa instalar em qualquer máquina

`pip instalar inteli-data`

### O que é um módulo e um pacote?

- Um módulo é um único arquivo python dentro de um pacote
- Um pacote é um diretório de módulos python que contém um __init__.py

- Então vamos criar uma pasta chamada `inteli-data` e colocar o arquivo `__init__.py`

In [5]:
!mkdir intelidata
!touch intelidata/__init__.py
# Agora vamos criar o arquivo de lib que vai ser usado para orquestrar
# o processamento dos dados
!touch intelidata/lib.py


## Pausa para NOTA

In [10]:
%load_ext autoreload
%autoreload 2

# Este código garante que o notebook sempre vai buscar os módulos


The autoreload extension is already loaded. To reload it, use:
  %reload_ext autoreload


Vamos incluir no arquivo `lib.py` o seguinte código:

```python
def preprocess():
    print("Vamos processar os dados!")

if __name__ == '__main__':
    preprocess()
```

Agora criamos o arquivo de setup para que o comando `pip install` funcione

In [6]:
!touch setup.py


Preenchemos com o seguinte código:

```python
# setup.py
from setuptools import setup

setup(name='inteli-data',
      description="este pacote instala os preprocessadores",
      packages=["inteli-data"]) # Aqui podemos ter vários pacotes...
```

E então instalamos com `pip install .`

In [14]:
!pip install .


Processing /mnt/c/Users/afons/OneDrive/profissional/docencia/inteli-general/modulo_8_202304/20231026_proc_dados
  Installing build dependencies ... [?25ldone
[?25h  Getting requirements to build wheel ... [?25ldone
[?25h  Preparing metadata (pyproject.toml) ... [?25ldone
[?25hBuilding wheels for collected packages: intelidata
  Building wheel for intelidata (pyproject.toml) ... [?25ldone
[?25h  Created wheel for intelidata: filename=intelidata-0.0.0-py3-none-any.whl size=1409 sha256=65d29c69f2a9def824fb8a14c2caa3846d1a890c9ee0baf2c915d9997fc904cc
  Stored in directory: /tmp/pip-ephem-wheel-cache-njnvqir7/wheels/de/85/47/656bb8527166b82ba140fbcd46d5907202e712f71bddc19400
Successfully built intelidata
Installing collected packages: intelidata
Successfully installed intelidata-0.0.0
[0m

Agora posso chamar a função que tem no arquivo `lib.py`

In [19]:
from intelidata.lib import preprocess

preprocess()


Vamos processar os dados!


Agora vamos criar uma CLI com o Makefile

In [20]:
!touch Makefile


O Makefile é muito sensível, então não deixe de passar este código com o espaçamento em `tab`:

```makefile
install:
  @pip install -e .

clean:
  @rm -f */version.txt
  @rm -f .coverage
  @rm -f */.ipynb_checkpoints
  @rm -Rf build
  @rm -Rf */__pycache__
  @rm -Rf */*.pyc

all: install clean
```

Note que o `install:` é o comando, e desta vez passamos a instalação com o `-e`, é usado para instalar um pacote Python em modo "editável" ou "desenvolvimento". Neste momento vamos utilizar desta forma pois ele guarda caches do nosso desenvolvimento. Quando for para produção lembre-se de mudar!

In [22]:
!make install


Obtaining file:///mnt/c/Users/afons/OneDrive/profissional/docencia/inteli-general/modulo_8_202304/20231026_proc_dados
  Installing build dependencies ... [?25ldone
[?25h  Checking if build backend supports build_editable ... [?25ldone
[?25h  Getting requirements to build editable ... [?25ldone
[?25h  Preparing editable metadata (pyproject.toml) ... [?25ldone
[?25hBuilding wheels for collected packages: intelidata
  Building editable for intelidata (pyproject.toml) ... [?25ldone
[?25h  Created wheel for intelidata: filename=intelidata-0.0.0-0.editable-py3-none-any.whl size=2589 sha256=9459bb483fdc0b9c9765e5d485ba0a7e79d196bbb71c29ec7c799a575ee51cd6
  Stored in directory: /tmp/pip-ephem-wheel-cache-g2u5vcg8/wheels/de/85/47/656bb8527166b82ba140fbcd46d5907202e712f71bddc19400
Successfully built intelidata
Installing collected packages: intelidata
  Attempting uninstall: intelidata
    Found existing installation: intelidata 0.0.0
    Uninstalling intelidata-0.0.0:
      Successful

In [23]:
!make clean # limpa os dados de cache!


In [25]:
# O comando tree mostra como está a estrutura de diretórios,
# isso é bom para a documentação por exemplo...
!tree


[34;42m.[0m
├── [34;42mintelidata[0m
│   ├── [01;32m__init__.py[0m
│   └── [01;32mlib.py[0m
├── [34;42mintelidata.egg-info[0m
│   ├── [01;32mdependency_links.txt[0m
│   ├── [01;32mPKG-INFO[0m
│   ├── [01;32mSOURCES.txt[0m
│   └── [01;32mtop_level.txt[0m
├── [01;32mMakefile[0m
├── [01;32mML_Titanic_dataset.csv[0m
├── [01;32mprocessamento_dados.ipynb[0m
└── [01;32msetup.py[0m

2 directories, 10 files


Agora vamos criar uma pasta de teste para o nosso pacote,, para isso criamos um arquivo chamado `requirements.txt` com as bibliotecas que somos dependentes, e uma dessas vai ser o `pytest`

In [27]:
!touch requirements.txt
!echo pytest >> requirements.txt
!pip install -e .
!pytest tests -v # verbose


Obtaining file:///mnt/c/Users/afons/OneDrive/profissional/docencia/inteli-general/modulo_8_202304/20231026_proc_dados
  Installing build dependencies ... [?25ldone
[?25h  Checking if build backend supports build_editable ... [?25ldone
[?25h  Getting requirements to build editable ... [?25ldone
[?25h  Preparing editable metadata (pyproject.toml) ... [?25ldone
[?25hBuilding wheels for collected packages: intelidata
  Building editable for intelidata (pyproject.toml) ... [?25ldone
[?25h  Created wheel for intelidata: filename=intelidata-0.0.0-0.editable-py3-none-any.whl size=2589 sha256=1eb341eda94f845d503ee7f404079258a52f37c7d92fb91844e295219d98800e
  Stored in directory: /tmp/pip-ephem-wheel-cache-bdm3hm17/wheels/de/85/47/656bb8527166b82ba140fbcd46d5907202e712f71bddc19400
Successfully built intelidata
Installing collected packages: intelidata
  Attempting uninstall: intelidata
    Found existing installation: intelidata 0.0.0
    Uninstalling intelidata-0.0.0:
      Successful

Legal! temos o pacote de testes, mas não temos nenhum teste, vamos criar agora a pasta `tests` e o nosso primeiro teste

In [28]:
!mkdir tests
!touch tests/test_lib.py


Coloque este código dentro do `test_lib.py`:

```python
# test_processor.py

import pytest
from processor import preprocess

def test_preprocess_output(capfd):  # capfd é um "fixture" do pytest para capturar saídas impressas.
    preprocess()
    out, err = capfd.readouterr()
    assert out == "Vamos processar os dados!\n", "A saída impressa não corresponde ao esperado"
```

No Makefile coloque o comando de testes:

```makefile
# Makefile 
test:
  @pytest -v tests
```

e rodamos o comando de teste:

In [12]:
!make test


platform linux -- Python 3.10.6, pytest-7.4.3, pluggy-1.3.0 -- /home/afonsolelis/.pyenv/versions/3.10.6/bin/python3.10
cachedir: .pytest_cache
rootdir: /mnt/c/Users/afons/OneDrive/profissional/docencia/inteli-general/modulo_8_202304/20231026_proc_dados
collected 1 item                                                               [0m[1m

tests/test_lib.py::test_preprocess_output [32mPASSED[0m[32m                         [100%][0m



### Agora vamos criar o load dos dados

Vamos adicionar o código:

```python
def load_data():
    # Ler o arquivo CSV usando pandas
    df = pd.read_csv("titanic_dataset.csv")

    # Converter o DataFrame para um array NumPy
    data = df.to_numpy()

    return data
```

no arquivo `lib.py`

In [15]:
# Fazemos o load data
from intelidata.lib import load_data

df = load_data()


In [16]:
df


Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.2500,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.9250,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1000,C123,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.0500,,S
...,...,...,...,...,...,...,...,...,...,...,...,...
886,887,0,2,"Montvila, Rev. Juozas",male,27.0,0,0,211536,13.0000,,S
887,888,1,1,"Graham, Miss. Margaret Edith",female,19.0,0,0,112053,30.0000,B42,S
888,889,0,3,"Johnston, Miss. Catherine Helen ""Carrie""",female,,1,2,W./C. 6607,23.4500,,S
889,890,1,1,"Behr, Mr. Karl Howell",male,26.0,0,0,111369,30.0000,C148,C


Vemos que o dataset está cheio de furos de dados, vamos criar uma função para limpar os dados no `lib.py`:

```python
def clean_data(df: pd.DataFrame) -> pd.DataFrame:
    # Removendo linhas que contêm valores NaN
    cleaned_df = df.dropna()

    return cleaned_df
```

e rodamos:

In [17]:
from intelidata.lib import clean_data

df = clean_data(df)


In [18]:
df


Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1000,C123,S
6,7,0,1,"McCarthy, Mr. Timothy J",male,54.0,0,0,17463,51.8625,E46,S
10,11,1,3,"Sandstrom, Miss. Marguerite Rut",female,4.0,1,1,PP 9549,16.7000,G6,S
11,12,1,1,"Bonnell, Miss. Elizabeth",female,58.0,0,0,113783,26.5500,C103,S
...,...,...,...,...,...,...,...,...,...,...,...,...
871,872,1,1,"Beckwith, Mrs. Richard Leonard (Sallie Monypeny)",female,47.0,1,1,11751,52.5542,D35,S
872,873,0,1,"Carlsson, Mr. Frans Olof",male,33.0,0,0,695,5.0000,B51 B53 B55,S
879,880,1,1,"Potter, Mrs. Thomas Jr (Lily Alexenia Wilson)",female,56.0,0,1,11767,83.1583,C50,C
887,888,1,1,"Graham, Miss. Margaret Edith",female,19.0,0,0,112053,30.0000,B42,S


E os testes? vamos atualizar os testes:

```python
import intelidata.lib as intelidata
import pandas as pd

def test_preprocess_output(capfd):  # capfd é um "fixture" do pytest para capturar saídas impressas.
    intelidata.preprocess()
    out, err = capfd.readouterr()
    assert out == "Vamos processar os dados!\n", "A saída impressa não corresponde ao esperado"

def test_load_data():
    df = intelidata.load_data()
    assert isinstance(df, pd.DataFrame), "A função não retorna um DataFrame do pandas."
    # Supondo que o arquivo "titanic_dataset.csv" tenha pelo menos uma linha (sem contar o cabeçalho)
    assert not df.empty, "O DataFrame retornado está vazio."

def test_clean_data():
    # Criando um DataFrame de exemplo com valores NaN
    df = pd.DataFrame({
        'A': [1, 2, np.nan],
        'B': [4, np.nan, 6],
        'C': [np.nan, 8, 9],
    })
    
    cleaned_df = intelidata.clean_data(df)
    assert cleaned_df.shape[0] == 1, "O DataFrame limpo deve conter apenas uma linha."
    assert cleaned_df.shape[1] == 3, "O DataFrame limpo deve conter três colunas."
    assert not cleaned_df.isnull().any().any(), "O DataFrame limpo não deve conter valores NaN."
```

In [21]:
!make test


platform linux -- Python 3.10.6, pytest-7.4.3, pluggy-1.3.0 -- /home/afonsolelis/.pyenv/versions/3.10.6/bin/python3.10
cachedir: .pytest_cache
rootdir: /mnt/c/Users/afons/OneDrive/profissional/docencia/inteli-general/modulo_8_202304/20231026_proc_dados
collected 3 items                                                              [0m[1m

tests/test_lib.py::test_preprocess_output [32mPASSED[0m[32m                         [ 33%][0m
tests/test_lib.py::test_load_data [32mPASSED[0m[32m                                 [ 66%][0m
tests/test_lib.py::test_clean_data [32mPASSED[0m[32m                                [100%][0m



# Extra!

Podemos configurar uma função para apenas enviar ao S3 da AWS por exemplo...

```python
import pandas as pd
import boto3
from io import BytesIO

def send_to_s3(df: pd.DataFrame, bucket_name: str, file_name: str, aws_access_key: str, aws_secret_key: str):
    """
    Envia um DataFrame pandas para um bucket S3 da Amazon.

    Parâmetros:
    - df (pd.DataFrame): DataFrame a ser enviado.
    - bucket_name (str): Nome do bucket S3.
    - file_name (str): Nome do arquivo no S3.
    - aws_access_key (str): AWS Access Key.
    - aws_secret_key (str): AWS Secret Key.

    Retorna:
    - None
    """
    # Inicializar o cliente S3
    s3 = boto3.client('s3', aws_access_key_id=aws_access_key, aws_secret_access_key=aws_secret_key)
    
    # Converter o DataFrame para CSV e depois para Bytes
    csv_buffer = BytesIO()
    df.to_csv(csv_buffer)
    
    # Enviar os bytes para o S3
    s3.put_object(Bucket=bucket_name, Key=file_name, Body=csv_buffer.getvalue())
```

neste caso, temos que colocar o boto3 no requirements.txt, assim como criar o teste também. Agora fica com você!