## Ambientes virtuais

use ambientes virtuais pra "encapsular" seu projeto, utilizar apenas os pacotes necessários e evitar problemas de versões de pacotes
* crie o ambiente virtual: virtualenv venv (ou python -m venv venv)
* ative o ambiente virtual: [LINUX E MACOS] source venv/bin/activate, [WINDOWS]  .\venv\Scripts\activate

## Comentários

* comente bastante o código para que os outros possam entender

In [1]:
# pandas - carrega os dados, transforma em tabelas e permite operações na tabela
import pandas as pd

# numpy - computação científica
import numpy as np

## nome de variáveis

* escreva o nome das variáveis de uma forma compreensível e com underscore (_)

In [2]:
# exemplo: criar uma lista de frutas, unidades e dias da semana

In [3]:
# EVITAR
f = ['banana', 'uva', 'abacaxi']
c = ['azul', 'amarelo', 'verde']
d = ['quinta', 'sexta', 'sabado']

In [4]:
# OK
frutas = ['banana', 'uva', 'abacaxi']
cores = ['azul', 'amarelo', 'verde']
dias_da_semana = ['quinta', 'sexta', 'sabado']

## opte pelo simples SEMPRE
por exemplo: utilização de variáveis em for loops

In [5]:
# exemplo: iterar entre frutas e cores

In [6]:
# EVITAR
for i in range(len(f)):
    for j in range(len(c)):
        print(f[i], c[j])

banana azul
banana amarelo
banana verde
uva azul
uva amarelo
uva verde
abacaxi azul
abacaxi amarelo
abacaxi verde


In [7]:
# OK
for fruta in frutas:
    for cor in cores:
        print(fruta, cor)

banana azul
banana amarelo
banana verde
uva azul
uva amarelo
uva verde
abacaxi azul
abacaxi amarelo
abacaxi verde


## DRY: DO NOT REPEAT YOURSELF! 
extremamente importante para quando o código estiver crescendo

In [8]:
# criar dataframe com temperaturas em celsius para os dias da semana

In [9]:
temperatura = {'celsius': [7, 22, 30]}
dados_temperatura = pd.DataFrame(temperatura, index=dias_da_semana)
dados_temperatura

Unnamed: 0,celsius
quinta,7
sexta,22
sabado,30


In [10]:
# exemplo: fazer a conversão de celsius para fahrenheit

In [11]:
# EVITAR
temperatura_quinta = 1.8 * dados_temperatura['celsius']['quinta'] + 32
temperatura_sexta = 1.8 * dados_temperatura['celsius']['sexta'] + 32
temperatura_sabado = 1.8 * dados_temperatura['celsius']['sabado'] + 32

dados_temperatura['fahrenheit'] = [temperatura_quinta, temperatura_sexta, temperatura_sabado]

In [12]:
# OK
dados_temperatura['fahrenheit'] = 1.8 * dados_temperatura['celsius'] + 32

In [13]:
dados_temperatura

Unnamed: 0,celsius,fahrenheit
quinta,7,44.6
sexta,22,71.6
sabado,30,86.0


## PLUS: iteração entre linhas no dataframe do pandas

In [14]:
# exemplo: criar coluna de sensação termica

In [15]:
# EVITAR

dados_temperatura['sensacao'] = np.nan

for i in range(len(dados_temperatura)):
    if dados_temperatura['celsius'].iloc[i] < 18:
        sensacao = 'frio'
    elif dados_temperatura['celsius'].iloc[i] >= 18 and dados_temperatura['celsius'].iloc[i]<= 28:
        sensacao = 'agradavel'
    else:
        sensacao = 'quente'
    dados_temperatura['sensacao'].iloc[i] = sensacao

A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  dados_temperatura['sensacao'].iloc[i] = sensacao


In [16]:
dados_temperatura

Unnamed: 0,celsius,fahrenheit,sensacao
quinta,7,44.6,frio
sexta,22,71.6,agradavel
sabado,30,86.0,quente


In [17]:
# OK
import numpy as np
dados_temperatura['sensacao'] = np.nan

for index, row in dados_temperatura.iterrows():
    if row['celsius'] < 18:
        sensacao = 'frio'
    elif row['celsius'] >= 18 and row['celsius']<= 28:
        sensacao = 'agradavel'
    else:
        sensacao = 'quente'
    dados_temperatura.loc[index, 'sensacao'] = sensacao

In [18]:
dados_temperatura

Unnamed: 0,celsius,fahrenheit,sensacao
quinta,7,44.6,frio
sexta,22,71.6,agradavel
sabado,30,86.0,quente


## Evite linhas longas de código

pode parecer mais simples, mas fica difícil de entender

In [19]:
# retorne o máximo em fahrenheit apenas das temperaturas em celsius maiores que a média em celsius

In [20]:
# EVITAR
dados_temperatura[dados_temperatura['celsius'] >= dados_temperatura['celsius'].mean()]['fahrenheit'].max()

86.0

In [21]:
# OK
media_celsius = dados_temperatura['celsius'].mean()
maiores_media_celsius = dados_temperatura[dados_temperatura['celsius'] >= media_celsius]
maiores_media_celsius['fahrenheit'].max()

86.0

## Utilize uma metodologia para o seu projeto em data science

CRISP-DM: https://www.datascience-pm.com/crisp-dm-2/

1. Business Understanding: concentra-se na compreensão dos objetivos e requisitos do projeto.
2. Data understanding: identificar, coletar e analisar os dados
3. Data preparation: prepara o conjunto de dados para a modelagem, ou seja, seleção e limpeza dos dados
4. Modeling: construi e avalia vários modelos com base em várias técnicas de modelagem diferentes
5. Evaluation: analisa mais amplamente qual modelo atende melhor ao negócio e o que fazer em seguida
6. Deployment: Um modelo não é útil a menos que o cliente possa acessar seus resultados.