# Automation of Exploratory Geophysics Tasks with the Use of Machine Learning

## Abstract

A indústria da exploração, extração, transporte, refino e distribuição do petróleo e seus derivados é um segmento chave da economia do qual diversos outros setores dependem direta ou indiretamente, desde a indústria automotiva até a agricultura. Apesar das consequências ambientais do seu uso, não resta dúvida de que manteremos um alto grau de dependência em relação ao petróleo por no mínimo várias décadas. À medida que os reservatórios de mais fácil alcance se esgotem, torna-se cada vez mais importante desenvolver e aperfeiçoar técnicas sofisticadas para detectar novas fontes de petróleo e gás. A técnica de imageamento do subsolo mais utilizada hoje é o estudo de reflexão sísmica, que permite gerar estimativas do rendimento econômico de um reservatório sem a necessidade de um trabalho caro de perfuração. Para interpretar a massa de dados obtidos através desse estudo, é necessário empregar um batalhão de geofísicos. O objetivo desse projeto é justamente produzir ferramentas de software que auxiliem o trabalho de interpretação desses geofísicos, por exemplo, na detecção de interfaces entre tipos distintos de rocha numa imagem sísmica. Para lograr essa tarefa, pretendemos colocar em campo desde técnicas consagradas, como algoritmos de detecção de arestas numa imagem, até técnicas de ponta, como o treinamento de redes neurais convolucionais profundas. Isso será feito através de uma metodologia de prototipagem rápida de software, com feedback constante da equipe de geofísicos especializados do Grupo de Geofísica Aplicada do CEPETRO na Unicamp. Testaremos várias técnicas e desenvolveremos várias ferramentas para permitir que os geofísicos avaliem rapidamente qual é o caminho mais eficaz, dessa forma guiando nosso trabalho.

## Project Best Practices

* README in every (non trivial) directory
	* README contains a description and a manifest for a directory tree

* Version control via Git.
	* Open source software on Github
    * Use of .gitignore to avoid clutter. Only add files that belong to the manifest. Don't add humongous image folders

* Progress through rapid experimental prototyping
    * Recommended: Anaconda distribution, Python 3
    * Python scientific tools: numpy, matplotlib, scipy - even powerful libraries like OpenCV and TensorFlow are available via a *pip* or *conda* install
    * Create self-documenting software
        * Literate programming via Jupyter Notebook
        * Experimental protyping via Jupyter Notebook
        * Subsequent refactoring into reusable functional units with well specified interfaces
        * For longer tasks, like an end-to-end automated execution of *experiment0*, a script is necessary. The script is a natural consequence of the refactoring of the work previously run, over bits and pieces, through Jupyter Notebook
        * Well documented docstrings for modules, classes and functions. Example: numpy repository. Parameters, returns, description, any gotchas.
        * Scripts should use the argparse interface
        * EVERY BIT OF TRICKINESS IN CODE SHOULD BE COMMENTED. Trickyness should be isolated in modules with well specified, commented, and non-leaky interfaces
        * verbose filenames seem to pay for themselves: name of experimental run, timestamp. They should be listed in the manifest (README) anyway

* Project structure
    * Experiments
        * code folder
            * scripts, notebooks, etc
        * inputs folder
            * Images, labels, etc
        * output folder
            * Images, etc.
        * results folder
            * Figures, observations, etc.
        * logs
            * scripts should do logging
    * utilities
         * refactored code that becomes a reusable component with a well specified, well documented interface
         * legacy scripts


        
    

	
