# Minicurso Ciência de Dados na Prática usando Python


## Parte 1 - Introdução

### Objetivos

- Limpar os dados desorganizados, descobrir padrões, fazer previsões utilizando aprendizado de máquina, e comunicar claramente as descobertas.

### Organização do Minicurso

#### Parte 1 - Introdução
- Ciência de Dados
- Instalação do Ambiente
- Jupyter Notebooks

#### Parte 2 - Python Básico

#### Parte 3 - Bibliotecas Python para Manipulação de Dados

#### Parte 4 - Análise de Dados e Aprendizado de Máquina
- Obtenção de Dados
- Análise Exploratória de Dados
- Manipulação e Limpeza de Dados
- Visualização de Dados
- Introdução ao Aprendizado de Máquina usando Python

#### Parte 5 - Conclusão
- Conclusões e Passos Futuros


### Ciência de Dados

Ciência de Dados é a ** transformação de dados usando matemática e estatística em insights, decisões e produtos valiosos** [Foreman, 2013]. Ela é usada nas organizações para ajudar a melhorar seu funcionamento e a criar valor.

A ciência de dados possui ferramentas para analisar esses dados e a partir deles, extrair conhecimentos essenciais para processos de tomada de decisão nos mais diversos contextos, como: 

- estratégias de logística
- melhoria do trânsito urbano
- controle de estoque de produtos
- alocação de tarefas a colaboradores
- melhoria de desempenho de alunos, atletas e vendedores
- redução de custos
- detecção de fraudes
- ... 

** Desse modo, o uso de técnicas de análise de dados e aprendizagem de máquina podem levar ao uso muito mais eficiente de recursos. **


#### Motivações

- Barateamento e popularização dos dispositivos móveis e dos mais diversos tipos de sensores para coleta de dados.
- Aumento do poder de processamento e armazenamento dos computadores.
- Otimização de recursos em um mercado global cada vez mais competitivo.
- Amadurecimento, melhoria e disseminação de técnicas de aprendizagem de máquina.


### Seis passos importantes de um projeto de aprendizagem de máquina [Brownlee, 2016]


1. Definição do problema
2. Análise Exploratória dos Dados
   - Uso de estatística descritiva e visualização para entender melhor os dados disponíveis.
3. Preparar os dados
   - Transformar os dados para que facilitar seu uso por algoritmos de mineração de dados / aprendizagem de máquina.
4. Avaliar Algoritmos
   - Avaliar os algoritmos de aprendizagem de máquina mais adequados para resolver o problema inicialmente proposto.
5. Melhorar os resultados
   - Fazer uma sintonia (tuning) dos algoritmos e métodos para melhorar os resultados.
6. Apresentar os resultados

### Bibliografia

#### Análise de Dados usando Python

- Grus, Joel. **Data Science from Scratch: First Principles with Python**. O'Reilly Media. 1ª Ed., 2015.

- McKinney, Wes. **Python for Data Analysis: Data Wrangling with Pandas, NumPy, and IPython**. O'Reilly Media. 1ª Ed., 2012.

- Brownlee, Jason. **Machine Learning Mastery with Python: Understand Your Data, Create Accurate Models and Work Projects End-To-End**. [Ebook](https://machinelearningmastery.com/machine-learning-with-python/). 1ª Ed., 2016. 

#### Aprendizado de Máquina usando Python

- Raschka, Sebastian. **Python Machine Learning**. Packt Publishing. 1ª Ed., 2015. 

- Richert, Willi; Coelho, Luis Pedro. **Building Machine Learning Systems with Python**. Packt Publishing. 1ª Ed., 2013.


#### Ciência de Dados

- Foreman, John W. **Data Smart: Using Data Science to Transform Information into Insight**. Wiley. 1ª Ed., 2013.

- Provost, Foster; Fawcett, Tom. **Data Science for Business: What You Need to Know about Data Mining and Data-Analytic Thinking**. O'Reilly Media. 1ª Ed., 2013.


#### Aprendizado de Máquina 

- James, Gareth; Witten, Daniela; Hastie, Trevor; Tibshirani, Robert. **An Introduction to Statistical Learning: with Applications in R**. Springer. 1ª Ed., 2013.

- Hastie, Trevor; Tibshirani, Robert; Friedman, Jerome. **The Elements of Statistical Learning: Data Mining, Inference, and Prediction. Springer**. 2ª Ed., 2009.

- Pinheiro, Carlos André Reis.  **Inteligência Analítica: Mineração de Dados e Descoberta de Conhecimento**. Ciência Moderna, 1ª Ed., 2008.

- Siegel, Eric. **Predictive Analytics: The Power to Predict Who Will Click, Buy, Lie, or Die**. Wiley. 2ª Ed., 2016.

- Tan, Pang-Ning; Steinbach, Michael; Kumar, Vipin. **Introdução ao Data Mining - Mineração de Dados**. Ciência Moderna, 1ª Ed., 2012.

- Witten, Ian H.; Frank, Eibe; Hall, Mark A. **Data Mining: Practical Machine Learning Tools and Techniques**. The Morgan Kaufmann Series in Data Management Systems. Morgan Kaufmann, 3ª Ed., 2011. 

- Zaki, M. J.; Meira Jr., W. **Data Mining and Analysis: Fundamental Concepts and Algorithms**. Cambridge University Press. 1ª Ed., 2014.


### Cursos Introdutórios Online e Gratuitos

- [Data Science Academy - Introdução à Ciência de Dados](https://www.datascienceacademy.com.br/course?courseid=introduo--cincia-de-dados)

- [Data Science Academy - Python Fundamentos para Análise de Dados](https://www.datascienceacademy.com.br/pages/curso-python-fundamentos-para-analise-de-dados)


### Sites

- [Data School](http://www.dataschool.io/)

- [Machine Learning Mastery](http://machinelearningmastery.com/)

- [Kaggle](https://www.kaggle.com/)

- [Analytics Vidhya](https://www.analyticsvidhya.com/)


## Vídeos

[Webinar Udacity - De aprendiz a mestre em Machine Learning](https://www.youtube.com/watch?v=1RWX5BhscAM) com [Gilberto Titericz](https://www.kaggle.com/titericz).

### Principais momentos
- Por que decidiu focar sua carreira em machine learning?
- Como você utiliza atualmente data science no trabalho?
- O que aprendeu com as competições que você venceu?
- Você pode mostrar um exemplo de aplicação de machine learning que realizou?
- O que você faz para estudar e se atualizar sempre?

### Instalação do Ambiente

#### [Anaconda](https://www.continuum.io/downloads) (> 400 MB) / [Miniconda](https://conda.io/miniconda.html) (< 30MB)

- Preferir Python 3
- Comandos importantes:
    - `conda list`
    - `conda install <pacote>` 
    - `conda update <pacote>`
- Caso instale o miniconda, instalar depois:
    - `conda install jupyter`
    - `conda install matplotlib`
    - `conda install pandas`
    - `conda install scikit-learn`
    - `conda install xlrd`


### Jupyter Notebooks

Ambiente Web simples e cheio de funcionalidades para lidar de forma interativa com Python e outras linguagens.
- Jupyter Online
    - https://try.jupyter.org
- Execução
    - `jupyter notebook     # porta padrão: 8888`
    - `jupyter notebook --port 9999`
- Conceitos básicos
    - Núcleos (Kernels)
        - Interromper
        - Reiniciar
        - Reconectar
    - Células
        - Tipos
            - [Markdown](https://github.com/adam-p/markdown-here/wiki/Markdown-Cheatsheet) (`<m>`)
            - Code (`<y>`)
        - Modos
            - Comando (azul, `<Esc>`)
            - Edição (verde, `<Enter>`)
                - Autocomplemento (`<Tab>`)
                - Documentação (`<Shift> + <Tab>`)
            - Atalhos de teclado
        - Execução (`<Shift> + <Enter>`)
            - Bolinha aberta / fechada no canto superior direito
            - Running
            - Shutdown / Halt
    - Line Magics
        - `%lsmagic`
        - `%` - single line
        - `%%` - multi-line
        - `!` - executar comandos shell
        - `$$ ... $$` - equação LaTeX
    - Terminais
    - Clusters
- Manipulação de Arquivos / Diretórios
    - Copiar
    - Renomear
    - Mover
    - Autosave
    - Checkpoint
- Autenticação sem usuários
- Limitações
    - Acesso concorrente a um notebook
    - Controle de usuários e permissões
    - Lista de notebooks em execução deveria ter consumo de memória de cada notebook
    - Python é lento. Solução usar integração (**Wrappers**) com C, C++ e Java.
        - cython
        - várias libs que usaremos já fazem isso para obter o melhor de 2 mundos:
            - Simplicidade do Python
            - Desempenho do C, C++, Java

In [8]:
%lsmagic

Available line magics:
%alias  %alias_magic  %autocall  %automagic  %autosave  %bookmark  %cat  %cd  %clear  %colors  %config  %connect_info  %cp  %debug  %dhist  %dirs  %doctest_mode  %ed  %edit  %env  %gui  %hist  %history  %killbgscripts  %ldir  %less  %lf  %lk  %ll  %load  %load_ext  %loadpy  %logoff  %logon  %logstart  %logstate  %logstop  %ls  %lsmagic  %lx  %macro  %magic  %man  %matplotlib  %mkdir  %more  %mv  %notebook  %page  %pastebin  %pdb  %pdef  %pdoc  %pfile  %pinfo  %pinfo2  %popd  %pprint  %precision  %profile  %prun  %psearch  %psource  %pushd  %pwd  %pycat  %pylab  %qtconsole  %quickref  %recall  %rehashx  %reload_ext  %rep  %rerun  %reset  %reset_selective  %rm  %rmdir  %run  %save  %sc  %set_env  %store  %sx  %system  %tb  %time  %timeit  %unalias  %unload_ext  %who  %who_ls  %whos  %xdel  %xmode

Available cell magics:
%%!  %%HTML  %%SVG  %%bash  %%capture  %%debug  %%file  %%html  %%javascript  %%js  %%latex  %%perl  %%prun  %%pypy  %%python  %%python2  %%python3

In [7]:
%ls

README.md                                                             minicurso-analise_de_dados-04-analise_de_dados.ipynb
minicurso-analise_de_dados-01-intro.ipynb                             minicurso-analise_de_dados-05-aprendizagem_maquina.ipynb
minicurso-analise_de_dados-02-python_basico.ipynb                     minicurso-analise_de_dados-05-conclusoes.ipynb
minicurso-analise_de_dados-03-bibliotecas-manipulacao_de_dados.ipynb  python-reference.ipynb


In [11]:
%%time
import time
time.sleep(2)

CPU times: user 619 µs, sys: 1.1 ms, total: 1.72 ms
Wall time: 2 s


In [21]:
%time time.sleep(1.1)
%time time.sleep(1.2)

CPU times: user 659 µs, sys: 988 µs, total: 1.65 ms
Wall time: 1.1 s
CPU times: user 1.04 ms, sys: 263 µs, total: 1.3 ms
Wall time: 1.21 s
 

In [12]:
%prun time.sleep(1.1)

 

In [9]:
!ls | grep md

README.md


### Latex

#### Markdown
```latex
$ c = \sqrt{a^2 + b^2} $
```

$ c = \sqrt{a^2 + b^2} $

#### Código

In [18]:
%%latex
$c = \sqrt{a^2 + b^2}$

<IPython.core.display.Latex object>

#### Memória usada pelo Notebook

In [13]:
import resource
mem = resource.getrusage(resource.RUSAGE_SELF).ru_maxrss / 1024.0
print('Memória usada: {} MB'.format(mem))

Memória usada: 39404.0 MB


#### Imprimir para o console / terminal onde o Jupyter está executando

In [1]:
import sys
sys.__stdout__.write("test\n")
# Não esquecer o '\n'!!!

5

#### Jupyter Paths

In [3]:
!jupyter --paths

config:
    /Users/regis/.jupyter
    /Users/regis/miniconda3/etc/jupyter
    /usr/local/etc/jupyter
    /etc/jupyter
data:
    /Users/regis/Library/Jupyter
    /Users/regis/miniconda3/share/jupyter
    /usr/local/share/jupyter
    /usr/share/jupyter
runtime:
    /Users/regis/Library/Jupyter/runtime


#### Como listar os kernels atualmente instalados?

In [6]:
!jupyter kernelspec list

Available kernels:
  apache_toree_scala    /Users/regis/Library/Jupyter/kernels/apache_toree_scala
  ir                    /Users/regis/Library/Jupyter/kernels/ir
  python3               /Users/regis/miniconda3/share/jupyter/kernels/python3


## conda environments

http://conda.pydata.org/docs/using/envs.html 

### list environments
```
   conda info --envs
   conda env list
```
### create environment
```
   conda create -n tensorflow python=2.7
   # Create a new conda environment with Python 2.7.x
   conda create -n gl-env python=2.7 anaconda
```
### remove environment
```
   conda remove --name theano --all
   conda remove --name tensorflow --all
```
### activate environment
```
   # Activate the conda environment
   source activate gl-env
```
### deactivate environment
```
   source deactivate
```
