<h1>Como obter insights básicos a partir de dados?</h1>
<br>
Frequentemente trabalhamos com um arquivo de dados semelhante ao Excel, para o qual o Pandas é uma biblioteca de dados apropriada. A plotagem do Pandas é construída sobre o Matplotlib, mas é uma API de plotagem de nível superior (com código mais curto e prático).

<p class="lead">
Índice:

- <a href="#Understanding-Pandas-and-loading-data">Compreendendo o Pandas e Carregando Dados</a>
- <a href="#Pandas-plotting-API">API de Plotagem do Pandas</a>
- <a href="#Pattern-of-a-continuous-variable">Padrão de uma Variável Contínua</a>
- <a href="#Pattern-of-a-categorical-variable">Padrão de uma Variável Categórica</a>
- <a href="#Relationship-between-two-variables">Relação entre Duas Variáveis</a>
- <a href="#Time-series">Séries Temporais</a>

</p>

<div>
<h2 class="breadcrumb">Compreendendo o Pandas e Carregando Dados</h2><p>
</div>

> O Pandas DataFrame é uma estrutura de dados bidimensional rotulada com colunas de tipos potencialmente diferentes. Você pode pensar nele como uma planilha ou tabela SQL, ou um dicionário de objetos Series. (pandas.pydata.org)

In [None]:
import pandas as pd

In [None]:
df = pd.read_csv("https://static.anaconda.cloud/shared/lms/data_visualization/intro_data_visualization/assets/mpg.csv", storage_options = {'User-Agent': 'Mozilla/5.0'})

In [None]:
df.head()

In [None]:
len(df)

In [None]:
df.describe()

Os rótulos das colunas podem ser acessados ​​usando atributos de colunas:

In [None]:
df.columns

Use df.column_name ou df['column_name'] para obter uma coluna:

In [None]:
df.weight

In [None]:
df['weight']

In [None]:
df.weight.mean()

In [None]:
df.weight.std()

In [None]:
df.origin.value_counts()

<div class="alert alert-info">
<h4>Exercício</h4>

Tente carregar outro conjunto de dados de 'assets/penguins.csv' e chame-o de `dfe`.
<details><summary><i><u>(Dica)</u><i></summary><br>
Use o método `pd.read_csv`.

<details><summary><i><u>(Solução)</u><i></summary><br>

```python
dfe = pd.read_csv('assets/penguins.csv')
```
</details>
</details>
</div>

<div class="alert alert-info">
<h4>Exercício</h4>

Explore o conjunto de dados dos Pinguins.
</div>

<div>
<h2 class="breadcrumb">API de Plotagem do Pandas</h2><p>
</div>

In [None]:
df.plot();

<div class="alert alert-success">
<h4>Tips</h4>

To understand how df.plot works, try `df.plot?`

In [None]:
df.plot?

<div>
<h2 class="breadcrumb">Padrão de uma Variável Contínua</h2><p>
</div>

In [None]:
df.head()

### Histograma

> Um `histograma` é uma representação da distribuição de dados.

In [None]:
df['mpg'].hist(grid=True);

In [None]:
df['mpg'].plot(kind='hist');

Crie gráficos de histograma para duas variáveis:

In [None]:
df[['mpg', 'horsepower']].plot(kind='hist', subplots=True);

Qual é a distribuição de mpg por origem?

In [None]:
df.groupby('origin')['mpg'].plot(kind='hist', alpha=0.3, legend=True);

### Gráfico de Estimativa de Densidade do Kernel

> Em estatística, a estimativa de densidade do kernel (EDK) é uma forma não paramétrica de estimar a função de densidade de probabilidade (FDP) de uma variável aleatória. Esta função utiliza kernels gaussianos e inclui a determinação automática da largura de banda.

In [None]:
df['mpg'].plot(kind='kde');

In [None]:
df.groupby('origin')['mpg'].plot(kind='kde', legend=True);

<div class="alert alert-info">
<h4>Exercício</h4>

No exercício anterior, você carregou o conjunto de dados Penguins. Neste exercício, explore a distribuição da massa corporal dos pinguins e veja como as distribuições diferem por espécie e sexo.

<details><summary><i><u>(Dica)</u><i></summary><br>
Você pode usar o histograma ou o gráfico de densidade do kernel para este exercício, ou ambos!

<details><summary><i><u>(Solução)</u><i></summary><br>

```python
dfe['body_mass_g'].plot(kind='kde');
dfe.groupby('species')['body_mass_g'].plot(kind='kde', legend=True);
dfe.groupby('sex')['body_mass_g'].plot(kind='kde', legend=True);
dfe.groupby(['sex','species'])['body_mass_g'].plot(kind='kde', legend=True);

```
</detalhes>
</detalhes>
</div>

<div>
<h2 class="breadcrumb">Padrão de uma Variável Categórica</h2><p>
</div>

### Gráfico de Barras

In [None]:
df.head()

In [None]:
df['origin'].value_counts()

In [None]:
df['origin'].value_counts().plot(kind='bar');

In [None]:
df['origin'].value_counts().plot(kind='barh');

#### Gráfico de barras do usuário para mostrar informações de mpg por origem e ano do modelo

In [None]:
table = df.groupby(['model_year', 'origin']).mean()['mpg'].unstack('origin')

In [None]:
table.plot(kind='bar', stacked=True);

### Gráfico de Pizza

In [None]:
df['origin'].value_counts().plot(kind='pie');

<div class="alert alert-info">
<h4>Exercício</h4>

Crie dois gráficos com o conjunto de dados Penguins:
1) Gráfico de barras mostrando a contagem de espécies.

2) Gráfico de barras mostrando os valores médios de massa corporal por espécie e por sexo.

<details><summary><i><u>(Solução)</u><i></summary><br>
<details><summary><i><u>(Você consegue!)</u><i></summary><br>

```python
dfe['species'].value_counts().plot(kind='bar');
dfe.groupby(['species', 'sex']).mean().unstack('sex')['body_mass_g'].plot(kind='bar');
```
</details>
</details>
</div>

<div>
<h2 class="breadcrumb">Relação entre Duas Variáveis</h2><p>
</div>

Relação entre peso e mpg:

In [None]:
df.plot(x='weight', y='mpg', kind='scatter', title='relationship between weight and mpg');

Relação entre peso e consumo de combustível por origem:

Frequentemente, há muitas maneiras de criar o mesmo gráfico. Aqui está uma maneira de criar este gráfico. Veremos outra maneira no próximo caderno.

In [None]:
import matplotlib.pyplot as plt
fig, ax = plt.subplots()
df[df.origin=='usa'].plot(x='weight', y='mpg', kind='scatter', ax=ax, c='r', label='USA');
df[df.origin=='japan'].plot(x='weight', y='mpg', kind='scatter', ax=ax, c='g', label='Japan');
df[df.origin=='europe'].plot(x='weight', y='mpg', kind='scatter', ax=ax, c='b', label='Europe');


<div class="alert alert-info">
<h4>Exercício</h4>

Crie dois gráficos com o conjunto de dados Penguins:
1) Gráfico de dispersão mostrando a relação entre o comprimento da nadadeira e a massa corporal.

2) Mostrando essa relação por espécie.

<details><summary><i><u>(Solução)</u><i></summary><br>

<details><summary><i><u>(Mais um minuto)</u><i></summary><br>
    
```python
dfe.plot(x='flipper_length_mm', y='body_mass_g', kind='scatter');

fig, ax = plt.subplots()
dfe[dfe.species=='Adelie'].plot(x='flipper_length_mm', y='body_mass_g', kind='scatter', ax=ax, c='r', label='Adelie');
dfe[dfe.species=='Gentoo'].plot(x='flipper_length_mm', y='body_mass_g', kind='scatter', ax=ax, c='g', label='Gentoo');
dfe[dfe.species=='Chinstrap'].plot(x='flipper_length_mm', y='body_mass_g', kind='scatter', ax=ax, c='b', label='Chinstrap');

```
</details>
</details>
</div>

<div>
<h2 class="breadcrumb">Séries temporais</h2><p>
</div>

In [None]:
dft = pd.read_csv(
    'https://static.anaconda.cloud/shared/lms/data_visualization/intro_data_visualization/assets/air_quality_no2.csv', storage_options = {'User-Agent': 'Mozilla/5.0'},
    index_col=0, 
    parse_dates=True,
)

In [None]:
dft.head()

In [None]:
dft.plot();

In [None]:
dft.plot(subplots=True, layout=(1,3), figsize=(15,4));

<div class="alert alert-info">
<h4>Exercício</h4>

Crie um gráfico de área para os dados desta série temporal.
<details><summary><i><u>(Dica)</u><i></summary><br>
Experimente `kind="area"`

<details><summary><i><u>(Solução)</u><i></summary><br>

```python
dft.plot(figsize=(12, 4), kind='area');
dft.plot(figsize=(12, 4), kind='area', subplots=True);
```
</details>
</details>
</div>