<h1>Utilizando Jupyter para análise de dados</h1>

<p>O Jupyter é um ambiente de execução interativa de código em Python e outras linguagens. Ele permite criar um documento similar a uma página web que pode conter tanto o conteúdo estático tradicional de uma página web quanto código executável. O conteúdo estático é utilizado para documentação do projeto, enquanto que o código executável é utilizado para realizar a análise de dados.</p>
<p>Um notebook é organizado com uso de células de conteúdo, que podem conter o conteúdo estático (celulas de texto) ou o conteúdo executável (células de código). Esta
 introdução que você está lendo, por exemplo, foi redigida em uma célula de texto.</p>
 <p>Já a próxima célula é uma célula de código:</p>

In [1]:
var = 2 + 3
print(var)

5


In [2]:
var = var - 1

In [3]:
var

4

<p>Para aprender mais sobre o funcionamento de um notebook, recomendo o estudo do seguinte material:</p>

*   [Projeto Jupyter](https://jupyter.org/)
*   [Anaconda](https://www.anaconda.com/)

<p>Além disto, recomendo fortemente o estudo das seguintes bibliotecas Python:</p>

*   [Python Data Analysis Library (pandas)](https://pandas.pydata.org/)
*   [N-dimensional array package (NumPy)](http://www.numpy.org/)
*   [Python Machine Learning Toolkit (scikit-learn)](https://scikit-learn.org/)
*   [Python 2D plotting library (Matplotlib)](https://matplotlib.org/)
*   [Keras: The Python Deep Learning library](https://keras.io/)
*   [Tensorflow](https://www.tensorflow.org/)
*   Existem outras bibliotecas eventualmente úteis disponíveis em [SciPy Toolkits](https://www.scipy.org/)

<h2>Como ler dados de um arquivo .csv em um notebook Jupyter</h2>

<p>Trabalhar com arquivos de dados em formato .csv em um notebook Jupyter é muito fácil. Na verdade, é fácil em qualquer programa Python. Isto graças a biblioteca de análise de dados **pandas**. **pandas** (isto não é um erro de português, ela é escrita assim mesmo, sempre em minúsculas) é uma bliblioteca que permite a leitura e a manipulação de dados em formato tabular. Para utilizá-la, precisamos primeiro carregar a biblioteca com o seguinte código:</p>

In [8]:
import pandas as pd

<p>**Atenção**: O carregamento de uma biblioteca é necessário antes de seu uso. Mas, basta carregá-la uma única vez por notebook. Uma vez executado o comando *import*, a biblioteca fica disponível para todas as demais células de código. No exemplo acima a biblioteca **pandas** foi carregada com o alias **pd**, que será utilizado daqui em diante.</p>
<p>Agora, com o auxílio da biblioteca **pandas**, carregar os dados de um arquivo .csv exige apenas uma linha. No exemplo a seguir a primeira linha carrega os dados para a memória com o uso de um objeto dataframe, que permite a manipulação de dados tabulares. A linha seguinte apresenta as primeiras linhas da tabela carregada em memória.</p>

In [11]:
df = pd.read_csv('C:/Users/Alberto Pinalli/Documents/GitHub/SGBD/Bike-Sharing-Dataset/day.csv')

<h3>Listando as primeiras linhas</h3>

In [12]:
df.head(10)

Unnamed: 0,instant,dteday,season,yr,mnth,holiday,weekday,workingday,weathersit,temp,atemp,hum,windspeed,casual,registered,cnt
0,1,2011-01-01,1,0,1,0,6,0,2,0.344167,0.363625,0.805833,0.160446,331,654,985
1,2,2011-01-02,1,0,1,0,0,0,2,0.363478,0.353739,0.696087,0.248539,131,670,801
2,3,2011-01-03,1,0,1,0,1,1,1,0.196364,0.189405,0.437273,0.248309,120,1229,1349
3,4,2011-01-04,1,0,1,0,2,1,1,0.2,0.212122,0.590435,0.160296,108,1454,1562
4,5,2011-01-05,1,0,1,0,3,1,1,0.226957,0.22927,0.436957,0.1869,82,1518,1600
5,6,2011-01-06,1,0,1,0,4,1,1,0.204348,0.233209,0.518261,0.089565,88,1518,1606
6,7,2011-01-07,1,0,1,0,5,1,2,0.196522,0.208839,0.498696,0.168726,148,1362,1510
7,8,2011-01-08,1,0,1,0,6,0,2,0.165,0.162254,0.535833,0.266804,68,891,959
8,9,2011-01-09,1,0,1,0,0,0,1,0.138333,0.116175,0.434167,0.36195,54,768,822
9,10,2011-01-10,1,0,1,0,1,1,1,0.150833,0.150888,0.482917,0.223267,41,1280,1321


In [None]:
1518/1600

<h3>Análise básica do conteúdo</h3>

In [13]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 731 entries, 0 to 730
Data columns (total 16 columns):
 #   Column      Non-Null Count  Dtype  
---  ------      --------------  -----  
 0   instant     731 non-null    int64  
 1   dteday      731 non-null    object 
 2   season      731 non-null    int64  
 3   yr          731 non-null    int64  
 4   mnth        731 non-null    int64  
 5   holiday     731 non-null    int64  
 6   weekday     731 non-null    int64  
 7   workingday  731 non-null    int64  
 8   weathersit  731 non-null    int64  
 9   temp        731 non-null    float64
 10  atemp       731 non-null    float64
 11  hum         731 non-null    float64
 12  windspeed   731 non-null    float64
 13  casual      731 non-null    int64  
 14  registered  731 non-null    int64  
 15  cnt         731 non-null    int64  
dtypes: float64(4), int64(11), object(1)
memory usage: 91.5+ KB


<h3>Listando o conteúdo de uma coluna específica em uma linha específica:</h3>
<p>Neste caso a coluna cnt na linha número 1, que é a segunda linha.</p>

In [None]:
df['cnt'][2]

In [None]:
print('Percentual: ',df['registered'][4]/df['cnt'][4])

<h3>Procurando por linhas que atendem a uma condição</h3>
<p>Este seria o equivalente a usar o WHERE do SQL.</p>

In [None]:
df['cnt']==1349

In [None]:
df[df['cnt']>1900] # select * from df where cnt=1349

<h3>Calculando e imprimindo algumas medidas estatísticas básicas sobre uma coluna específica</h3>

In [None]:
print('Média de cnt......: ',df['cnt'].mean())
print('Menor valor de cnt: ', df['cnt'].min())
print('Maior valor de cnt: ', df['cnt'].max())

<h3>Calculando e imprimindo medidas estatísticas sobre todas as colunas numéricas</h3>

In [15]:
df.describe()

Unnamed: 0,instant,season,yr,mnth,holiday,weekday,workingday,weathersit,temp,atemp,hum,windspeed,casual,registered,cnt
count,731.0,731.0,731.0,731.0,731.0,731.0,731.0,731.0,731.0,731.0,731.0,731.0,731.0,731.0,731.0
mean,366.0,2.49658,0.500684,6.519836,0.028728,2.997264,0.683995,1.395349,0.495385,0.474354,0.627894,0.190486,848.176471,3656.172367,4504.348837
std,211.165812,1.110807,0.500342,3.451913,0.167155,2.004787,0.465233,0.544894,0.183051,0.162961,0.142429,0.077498,686.622488,1560.256377,1937.211452
min,1.0,1.0,0.0,1.0,0.0,0.0,0.0,1.0,0.05913,0.07907,0.0,0.022392,2.0,20.0,22.0
25%,183.5,2.0,0.0,4.0,0.0,1.0,0.0,1.0,0.337083,0.337842,0.52,0.13495,315.5,2497.0,3152.0
50%,366.0,3.0,1.0,7.0,0.0,3.0,1.0,1.0,0.498333,0.486733,0.626667,0.180975,713.0,3662.0,4548.0
75%,548.5,3.0,1.0,10.0,0.0,5.0,1.0,2.0,0.655417,0.608602,0.730209,0.233214,1096.0,4776.5,5956.0
max,731.0,4.0,1.0,12.0,1.0,6.0,1.0,3.0,0.861667,0.840896,0.9725,0.507463,3410.0,6946.0,8714.0


<h3>Calculando e imprimindo histogramas sobre todas as colunas numéricas</h3>

In [16]:
#%matplotlib inline # only in a Jupyter notebook
import matplotlib.pyplot as plt

df.hist(bins=50, figsize=(20,15))
plt.show()

ModuleNotFoundError: No module named 'matplotlib'

<h3>Gerando gráficos diversos</h3>

In [14]:
df.plot(x='dteday', y='cnt')
plt.show()

ImportError: matplotlib is required for plotting when the default backend "matplotlib" is selected.

In [None]:
df.plot(x='dteday', y='temp')
plt.show()

In [None]:
df.plot(x='dteday', y='season')
plt.show()

In [None]:
df.plot(x='dteday', y=['temp','season'])
plt.show()

In [None]:
df.plot(x='dteday', y=['temp','hum'])
plt.show()