# Visualização de dados 📊

Introdução aos principais recursos e ferramentas para visualização de dados em Python.

### Bibliotecas

*   Matplotlib
*   Seaborn
*   Plotly

---

© 2023 Augusto Fadel 🔷 augustofadel@gmail.com


## The Anscombe's quartet

Estatística descritiva X visualização de dados

🛑 Análise exploratória de dados (Exploratory Data Analysis - EDA)

🔗 [Anscombe's quartet](https://pt.wikipedia.org/wiki/Quarteto_de_Anscombe)

In [None]:
import seaborn as sns

df = sns.load_dataset("anscombe")
df

### Estatísticas descritivas

In [None]:
df.groupby('dataset').describe()

### Visualização

In [None]:
sns.lmplot(
    data=df, x="x", y="y", col="dataset", hue="dataset", col_wrap=2,
    palette="muted", ci=None,height=4, scatter_kws={"s": 50, "alpha": 1},
    fit_reg=False
)

## Matplotlib 📈

Desenvolvida para visualizar dados armazenados em estruturas do NumPy e Pandas.

### Referências 📔

🔗 [matplotlib.org](https://matplotlib.org/)

🔗 [Exemplos](https://matplotlib.org/stable/gallery/index)

🔗 [Tutorial](https://matplotlib.org/stable/tutorials/introductory/pyplot.html)

🔗 [Documentação](https://matplotlib.org/stable/index.html)

In [None]:
import matplotlib.pyplot as plt
import numpy as np

# %matplotlib inline

In [None]:
x = np.linspace(0, 10, 5)
y = 5 * x + 3

print(x)
print(y)

### Abordagem funcional

In [None]:
plt.plot(x, y)
# plt.show()

In [None]:
plt.plot(x, y)
plt.xlabel('eixo x')
plt.ylabel('eixo y')
plt.title('Função linear')

In [None]:
x = np.linspace(0, 10, 5)

y = 5*x + 3
plt.plot(x, y, 'b')

y = -2*x + 5
plt.plot(x, y, 'g')

y = x**2
plt.plot(x, y, 'r')

In [None]:
x = np.linspace(0, 10, 5)

y = 5*x + 3
plt.subplot(1, 2, 1)
plt.plot(x, y, 'b')
plt.title('Função linear')

y = x**2
plt.subplot(1, 2, 2)
plt.plot(x, y, 'r')
plt.title('Função quadrática')

### Abordagem orientada a objeto

In [None]:
x = np.linspace(0, 10, 5)
y = 5 * x + 3

In [None]:
# inicializar o gráfico
fig = plt.figure()

# adicionar os eixos
eixos = fig.add_axes([0, 0, 1, 1])

# adicionar os dados
eixos.plot(x, y)

# adicionar anotações
eixos.set_xlabel('eixo x')
eixos.set_ylabel('eixo y')
eixos.set_title('Função linear')

#### Inserções

In [None]:
x0 = np.linspace(0, 10, 5)
y0 = 5 * x + 3

x1 = np.linspace(0, 10, 5)
y1 = -x + 5

In [None]:
# inicializar o gráfico
fig = plt.figure()

# adicionar os eixos
eixos0 = fig.add_axes([0.1, 0.1, 0.8, 0.8])
eixos1 = fig.add_axes([0.2, 0.55, 0.3, 0.3])

# adicionar os dados
eixos0.plot(x0, y0)
eixos1.plot(x1, y1)

In [None]:
# inicializar o gráfico
fig = plt.figure()

# adicionar os eixos
eixos0 = fig.add_axes([0.1, 0.1, 0.8, 0.8])
eixos1 = fig.add_axes([0.7, 0.2, 0.3, 0.3])

# adicionar os dados
eixos0.plot(x0, y0)
eixos1.plot(x1, y1)

# adicionar anotações
eixos0.set_title('Função linear crescente')
eixos1.set_title('Função linear decrescente')

#### Subplots

In [None]:
fig, eixos = plt.subplots(nrows=1, ncols=2)

eixos[0].plot(x0, y0)
eixos[1].plot(x1, y1)

eixos[0].set_title('Função linear crescente')
eixos[1].set_title('Função linear decrescente')

#### Legendas

In [None]:
x = np.linspace(0, 10, 10)

y0 = 5*x + 3
y1 = -2*x + 5
y2 = x**2

In [None]:
fig = plt.figure()

eixos = fig.add_axes([0, 0, 1, 1])

eixos.plot(x, y0, label='linear crescente')
eixos.plot(x, y1, label='linear descrescente')
eixos.plot(x, y2, label='quadrática')

eixos.legend()
# eixos.legend(loc='best')
# eixos.legend(loc=(0.2, 0.5))

#### Cores e tipos de linhas

*   cor: `color`
*   espessura: `linewidth` ou `lw`
*   transparência: `alpha`
*   tipo: `linestyle` ou `ls`
*   marcadores: `markers`


In [None]:
fig = plt.figure()

eixos = fig.add_axes([0, 0, 1, 1])

eixos.plot(x, y0, label='linear crescente', color='blue', linewidth=3, linestyle='--')
eixos.plot(x, y1, label='linear descrescente', color='green', linewidth=5, linestyle='-.')
eixos.plot(x, y2, label='quadrática', color='red', linewidth=10, alpha=0.5, marker='o', markersize=20)

eixos.legend(loc='best')

#### Salvar imagem

In [None]:
fig.savefig("grafico_matplotlib.png", dpi=200)

## Seaborn 🏄

Baseada na Matplotlib, é uma biblioteca desenvolvida para produzir gráficos estatísticos a partir de dataframes Pandas. Produz visualizações elaboradas.

### Referências 📔

🔗 [Exemplos](http://seaborn.pydata.org/examples/index.html)

🔗 [Tutorial](http://seaborn.pydata.org/tutorial.html)

🔗 [Documentação](http://seaborn.pydata.org/)

In [None]:
import seaborn as sns
import numpy as np
import pandas as pd

# %matplotlib inline

### Histograma

In [None]:
x = np.random.normal(0, 1, 100)
x

In [None]:
sns.histplot(x)

In [None]:
sns.histplot(x, bins=30)

### Curva de densidade estimada

In [None]:
sns.kdeplot(x)

### Comparando distribuições

In [None]:
y = x + 5 + np.random.normal(0, 1, 100)
y

In [None]:
sns.histplot(x)
sns.histplot(y)

In [None]:
sns.kdeplot(x)
sns.kdeplot(y)

In [None]:
sns.jointplot(x=x, y=y, kind='reg')

In [None]:
sns.jointplot(x=x, y=y, kind='kde')

In [None]:
df = pd.DataFrame(np.random.normal(5, 2, (100, 3)), columns=['A', 'B', 'C'])
df

In [None]:
sns.pairplot(df)

In [None]:
df['classe'] = np.random.choice(['M', 'F'], 100)
df

In [None]:
sns.pairplot(df, hue='classe')

In [None]:
df = pd.concat([
    pd.DataFrame(np.random.normal(5, 2, (50, 3)), columns=['A', 'B', 'C']),
    pd.DataFrame(np.random.normal(12, 2, (50, 3)), columns=['A', 'B', 'C'])
])
df['classe'] = ['M']*50 + ['F']*50
df

In [None]:
sns.pairplot(df, hue='classe')

### Comparando frequências

In [None]:
df_tips = sns.load_dataset('tips')
df_tips

In [None]:
sns.countplot(x='time', data=df_tips)

### Comparando médias (e outras estatísticas)

In [None]:
sns.barplot(x='time', y='tip', data=df_tips)

🛑 É possível comparar outras estatísticas modificando o parâmtro `estimator`.

In [None]:
sns.barplot(x='day', y='tip', data=df_tips, estimator='median')

### Boxplot

Especialmente útil para comparar distribuições através de diferentes categorias.

🛑 Atenção ao utilizar para comunicar ou apresentar resultados. Embora muito útil, pode ser confuso e difícil de interpretar para quem não está acostumado.

In [None]:
sns.boxplot(x='sex', y='total_bill', data=df_tips)

In [None]:
sns.boxplot(x='sex', y='total_bill', data=df_tips, hue='smoker')

In [None]:
sns.boxplot(x='classe', y='A', data=df)

### Grade

In [None]:
g = sns.FacetGrid(data=df_tips, col='day', row='time')
g.map(plt.scatter, 'total_bill', 'tip')

### Mapas de calor (heatmap)

In [None]:
df_flights = sns.load_dataset('flights')
df_flights

In [None]:
df_flights2 = df_flights.pivot_table(index='month', columns='year', values='passengers')
df_flights2

In [None]:
sns.heatmap(df_flights2, cmap='coolwarm')

## Pandas 🐼

🔗 [DataFrame.plot](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.plot.html)

Tipos disponóveis:

*   line
*   bar
*   barh
*   hist
*   box
*   kde
*   density
*   area
*   pie
*   scatter
*   hexbin

In [None]:
import pandas as pd
import numpy as np

In [None]:
df = pd.DataFrame(np.random.normal(5, 2, (100, 3)), columns=['A', 'B', 'C'])
df

In [None]:
df['A'].hist(bins=20)

In [None]:
df['A'].plot(kind='hist', bins=20)

In [None]:
df['A'].plot.hist(bins=20)

## Plotly 🕺

Biblioteca para construir visualizações de dados **interativas**.

Cufflinks permite conexão com Pandas.

### Referências 📔

🔗 [plotly.com](https://plotly.com/)

🔗 [Exemplos](https://plotly.com/python/)

🔗 [Tutorial](https://plotly.com/python/getting-started/)

🔗 [Documentação](https://pypi.org/project/plotly/)

In [None]:
import plotly
import plotly.express as px
import cufflinks as cf
cf.go_offline()

import plotly.io as pio
pio.renderers.default = "colab"

import numpy as np
import pandas as pd
import seaborn as sns

In [None]:
df = pd.DataFrame({
    'A': np.random.normal(5, 2, 50),
    'B': np.random.normal(10, 3, 50)
})

In [None]:
df.plot()

In [None]:
df.iplot()

In [None]:
df.iplot(kind='scatter', x='A', y='B', mode='markers')

In [None]:
df.sum().iplot(kind='bar')

In [None]:
df_tips = sns.load_dataset('tips')
df_tips.groupby('day').sum(numeric_only=True).iplot(kind='bar')

In [None]:
px.scatter(df_tips, x="total_bill", y="tip", color="sex", size='size', hover_data=['smoker'])

## Dados georreferenciados 🌎

🔗 [Choropleth Maps](https://plotly.com/python/choropleth-maps/)

In [None]:
import plotly.express as px
import plotly.graph_objects as go
import pandas as pd

🔗 [Customize geographical scatter plot](https://plotly.com/python/scatter-plots-on-maps/#customize-geographical-scatter-plot)

In [None]:
df = px.data.gapminder().query("year == 2007")
px.scatter_geo(df,
               locations="iso_alpha",
               color="continent",
               hover_name="country",
               size="pop",
               projection="natural earth")

🔗 [U.S. Airpot Map](https://plotly.com/python/scatter-plots-on-maps/#styled-us-airports-map)

In [None]:
df = pd.read_csv('https://raw.githubusercontent.com/plotly/datasets/master/2011_february_us_airport_traffic.csv')
df['text'] = df['airport'] + '' + df['city'] + ', ' + df['state'] + '' + 'Arrivals: ' + df['cnt'].astype(str)

fig = go.Figure(data=go.Scattergeo(
        locationmode = 'USA-states',
        lon = df['long'],
        lat = df['lat'],
        text = df['text'],
        mode = 'markers',
        marker = dict(
            size = 8,
            opacity = 0.8,
            reversescale = True,
            autocolorscale = False,
            symbol = 'square',
            line = dict(
                width=1,
                color='rgba(102, 102, 102)'
            ),
            colorscale = 'Blues',
            cmin = 0,
            color = df['cnt'],
            cmax = df['cnt'].max(),
            colorbar_title="Incoming flights<br>February 2011"
        )))

fig.update_layout(
        title = 'Most trafficked US airports<br>(Hover for airport names)',
        geo = dict(
            scope='usa',
            projection_type='albers usa',
            showland = True,
            landcolor = "rgb(250, 250, 250)",
            subunitcolor = "rgb(217, 217, 217)",
            countrycolor = "rgb(217, 217, 217)",
            countrywidth = 0.5,
            subunitwidth = 0.5
        ),
    )

🔗 [North American Precipitation](https://plotly.com/python/scatter-plots-on-maps/#north-american-precipitation-map)

In [None]:
df = pd.read_csv('https://raw.githubusercontent.com/plotly/datasets/master/2015_06_30_precipitation.csv')

scl = [0,"rgb(150,0,90)"],[0.125,"rgb(0, 0, 200)"],[0.25,"rgb(0, 25, 255)"],\
[0.375,"rgb(0, 152, 255)"],[0.5,"rgb(44, 255, 150)"],[0.625,"rgb(151, 255, 0)"],\
[0.75,"rgb(255, 234, 0)"],[0.875,"rgb(255, 111, 0)"],[1,"rgb(255, 0, 0)"]

fig = go.Figure(data=go.Scattergeo(
    lat = df['Lat'],
    lon = df['Lon'],
    text = df['Globvalue'].astype(str) + ' inches',
    marker = dict(
        color = df['Globvalue'],
        colorscale = scl,
        reversescale = True,
        opacity = 0.7,
        size = 2,
        colorbar = dict(
            titleside = "right",
            outlinecolor = "rgba(68, 68, 68, 0)",
            ticks = "outside",
            showticksuffix = "last",
            dtick = 0.1
        )
    )
))

fig.update_layout(
    geo = dict(
        scope = 'north america',
        showland = True,
        landcolor = "rgb(212, 212, 212)",
        subunitcolor = "rgb(255, 255, 255)",
        countrycolor = "rgb(255, 255, 255)",
        showlakes = True,
        lakecolor = "rgb(255, 255, 255)",
        showsubunits = True,
        showcountries = True,
        resolution = 50,
        projection = dict(
            type = 'conic conformal',
            rotation_lon = -100
        ),
        lonaxis = dict(
            showgrid = True,
            gridwidth = 0.5,
            range= [ -140.0, -55.0 ],
            dtick = 5
        ),
        lataxis = dict (
            showgrid = True,
            gridwidth = 0.5,
            range= [ 20.0, 60.0 ],
            dtick = 5
        )
    ),
    title='US Precipitation 06-30-2015<br>Source: <a href="http://water.weather.gov/precip/">NOAA</a>',
)