<h1>Utilizando Jupyter para análise de dados</h1>

<p>O Jupyter é um ambiente de execução interativa de código em Python e outras linguagens. Ele permite criar um documento similar a uma página web que pode conter tanto o conteúdo estático tradicional de uma página web quanto código executável. O conteúdo estático é utilizado para documentação do projeto, enquanto que o código executável é utilizado para realizar a análise de dados.</p>
<p>Um notebook é organizado com uso de células de conteúdo, que podem conter o conteúdo estático (celulas de texto) ou o conteúdo executável (células de código). Esta
 introdução que você está lendo, por exemplo, foi redigida em uma célula de texto.</p>
 <p>Já a próxima célula é uma célula de código:</p>

In [2]:
var = 2 + 3
print(var)

5


In [None]:
var = var - 1

In [4]:
var

4

<p>Para aprender mais sobre o funcionamento de um notebook, recomendo o estudo do seguinte material:</p>

*   [Projeto Jupyter](https://jupyter.org/)
*   [Anaconda](https://www.anaconda.com/)

<p>Além disto, recomendo fortemente o estudo das seguintes bibliotecas Python:</p>

*   [Python Data Analysis Library (pandas)](https://pandas.pydata.org/)
*   [N-dimensional array package (NumPy)](http://www.numpy.org/)
*   [Python Machine Learning Toolkit (scikit-learn)](https://scikit-learn.org/)
*   [Python 2D plotting library (Matplotlib)](https://matplotlib.org/)
*   [Keras: The Python Deep Learning library](https://keras.io/)
*   [Tensorflow](https://www.tensorflow.org/)
*   Existem outras bibliotecas eventualmente úteis disponíveis em [SciPy Toolkits](https://www.scipy.org/)

<h2>Como ler dados de um arquivo .csv em um notebook Jupyter</h2>

<p>Trabalhar com arquivos de dados em formato .csv em um notebook Jupyter é muito fácil. Na verdade, é fácil em qualquer programa Python. Isto graças a biblioteca de análise de dados **pandas**. **pandas** (isto não é um erro de português, ela é escrita assim mesmo, sempre em minúsculas) é uma bliblioteca que permite a leitura e a manipulação de dados em formato tabular. Para utilizá-la, precisamos primeiro carregar a biblioteca com o seguinte código:</p>

In [5]:
import pandas as pd

<p>**Atenção**: O carregamento de uma biblioteca é necessário antes de seu uso. Mas, basta carregá-la uma única vez por notebook. Uma vez executado o comando *import*, a biblioteca fica disponível para todas as demais células de código. No exemplo acima a biblioteca **pandas** foi carregada com o alias **pd**, que será utilizado daqui em diante.</p>
<p>Agora, com o auxílio da biblioteca **pandas**, carregar os dados de um arquivo .csv exige apenas uma linha. No exemplo a seguir a primeira linha carrega os dados para a memória com o uso de um objeto dataframe, que permite a manipulação de dados tabulares. A linha seguinte apresenta as primeiras linhas da tabela carregada em memória.</p>

In [6]:
df = pd.read_csv('day.csv')

FileNotFoundError: [Errno 2] No such file or directory: 'day.csv'

<h3>Listando as primeiras linhas</h3>

In [8]:
df.head(10)

NameError: name 'df' is not defined

In [None]:
1518/1600

<h3>Análise básica do conteúdo</h3>

In [7]:
df.info()

NameError: name 'df' is not defined

<h3>Listando o conteúdo de uma coluna específica em uma linha específica:</h3>
<p>Neste caso a coluna cnt na linha número 1, que é a segunda linha.</p>

In [None]:
df['cnt'][2]

In [None]:
print('Percentual: ',df['registered'][4]/df['cnt'][4])

<h3>Procurando por linhas que atendem a uma condição</h3>
<p>Este seria o equivalente a usar o WHERE do SQL.</p>

In [None]:
df['cnt']==1349

In [None]:
df[df['cnt']>1900] # select * from df where cnt=1349

<h3>Calculando e imprimindo algumas medidas estatísticas básicas sobre uma coluna específica</h3>

In [None]:
print('Média de cnt......: ',df['cnt'].mean())
print('Menor valor de cnt: ', df['cnt'].min())
print('Maior valor de cnt: ', df['cnt'].max())

<h3>Calculando e imprimindo medidas estatísticas sobre todas as colunas numéricas</h3>

In [None]:
df.describe()

<h3>Calculando e imprimindo histogramas sobre todas as colunas numéricas</h3>

In [None]:
#%matplotlib inline # only in a Jupyter notebook
import matplotlib.pyplot as plt

df.hist(bins=50, figsize=(20,15))
plt.show()

<h3>Gerando gráficos diversos</h3>

<p><font color=red><b>Atenção:</b></font> <b>Jamais analisar a coluna alvo durante a análise exploratória.</b> Fazer isto poderia induzir o analista/pesquisador a tomar decisões específicas mais a frente baseadas nestas descovertas em detrimento de outras decisões igualmente válidas, introduzindo assim um viés indesejado na análise/pesquisa.</p>
<p><b>Exemplo de análise que não deve ser feita:</b></p>

In [None]:
df.plot(x='dteday', y='cnt')
plt.show()

<b>Exemplos de análises úteis para compreensão das colunas preditivas:</b>

In [None]:
df.plot(x='dteday', y='temp')
plt.show()

In [None]:
df.plot(x='dteday', y='season')
plt.show()

In [None]:
df.plot(x='dteday', y=['temp','season'])
plt.show()

In [None]:
df.plot(x='dteday', y=['temp','hum'])
plt.show()

## Analisando correlações entre colunas numéricas
### Gráficos de dispersão comparando todas as colunas entre si

In [None]:
feature_names = ['instant', 'dteday', 'season','yr','mnth',
                           'holiday','weekday','workingday','weathersit',
                           'temp','atemp','hum','windspeed','casual','registered']

In [None]:
pd.plotting.scatter_matrix(df[feature_names],figsize=(20, 20))
plt.show()

### Analisando pares de colunas com correlações interessantes
#### Correlação entre <i>atemp</i> e <i>temp</i>

In [None]:
df.plot(x='atemp', y='temp', kind='scatter')
plt.show()

In [None]:
df[['atemp','temp']]

In [None]:
import scipy.stats as stats

r, p = stats.pearsonr(df['atemp'].values, df['temp'].values)
r

#### Correlação entre <i>instant</i> e <i>registered</i>

In [None]:
df.plot(x='instant', y='registered', kind='scatter')
plt.show()

In [None]:
r, p = stats.pearsonr(df['instant'].values, df['registered'].values)
r

#### Correlação entre <i>instant</i> e <i>temp</i>

In [None]:
df.plot(x='instant', y='temp', kind='scatter')
plt.show()

In [None]:
r, p = stats.pearsonr(df['instant'].values, df['temp'].values)
r

In [None]:
(14*14)-14

### Automatizando um pouco a análise para conjuntos grandes de colunas

#### Escolhendo as colunas preditivas númericas que serão analisadas

In [None]:
num_feature_names = ['instant','season','yr','mnth','holiday',
                     'weekday','workingday','weathersit',
                     'temp','atemp','hum','windspeed',
                     'casual','registered']

#### Calculando uma matríz de correlações entre as colunas preditivas numéricas escolhidas

In [None]:
import numpy as np

corr = np.corrcoef(df[num_feature_names],rowvar=False)
corr

#### Criando um <i>dataframe pandas</i> para facilitar a visualização da matríz de correlações

In [None]:
dfcorr = pd.DataFrame(corr,index=num_feature_names,columns=num_feature_names)
dfcorr

#### Exportando a matríz de correlações para um arquivo <i>.csv</i> visando análise no Excel

In [None]:
dfcorr.to_csv('correlmat.csv',sep=';',decimal=',')