# Módulo 2: Scatter Plot + Text

___

# Tutorial

## Imports

In [None]:
import numpy as np
import os
import pandas as pd

In [None]:
""" habilitando plots no notebook """
%matplotlib inline

In [None]:
""" plot libs """
import matplotlib.pyplot as plt
import seaborn as sns

In [None]:
""" Configurando o Matplotlib para o modo manual """
plt.interactive(False)

## Scatter Plot

### Variáveis

In [None]:
""" Dataset com Distribuição Normal 2D """
d1 = pd.DataFrame(
    columns=["x", "y"],
    data=np.random.randn(20, 2) + np.array([5, 5]) 
)

d2 = pd.DataFrame(
    columns=["x", "y"],
    data=np.random.randn(30, 2) + np.array([1, 2]) 
)

### Plot dos datasets

#### scatter plot simples

In [None]:
plt.figure(figsize=(12, 8))
plt.scatter(d1.x, d1.y)
plt.show()

#### Customizando formas, cores e tamanho

In [None]:
plt.figure(figsize=(12, 8))

plt.scatter(
    d1.x, d1.y,      # pares de coordenadas (x, y)
    c="darkorange",  # cor
    s=100,           # tamanho em pixels
    marker="s"       # simbolo a ser usado
)

plt.show()

#### Adicionando mais um dataset

In [None]:
plt.figure(figsize=(12, 8))

plt.scatter(d1.x, d1.y, c="darkorange", s=100, marker="s", label="golden squares")
plt.scatter(d2.x, d2.y, c="purple", s=200, marker="*", label="purple stars")

plt.legend()  # captura os nomes das series em 'label'

plt.show()

#### Facilidades no Pandas

In [None]:
""" inicialização como antes """
plt.figure(figsize=(12, 8))

In [None]:
""" plt.gca() retorna a janela mais recente """
d1.plot(
    ax=plt.gca(),
    kind="scatter", 
    x="x", y="y", 
    c="k", 
    s=100, 
    marker="o", 
    label="black circles"
)


d2.plot(
    ax=plt.gca(),
    kind="scatter", 
    x="x", y="y", 
    c="cyan", 
    s=200, 
    marker="v", 
    label="cyan triangles"
)

In [None]:
""" visualizar com legenda """
plt.legend()
plt.show()

## Case: Visualização da Correlação

### Correlação de Pearson:

Medida de quanto duas séries numéricas alinhadas, i.e., o quanto elas variam em relação uma à outra em comparação do quanto elas variam em relação a si mesmas.

Mais infos aqui: <a href="https://pt.wikipedia.org/wiki/Coeficiente_de_correla%C3%A7%C3%A3o_de_Pearson" target=_blank> https://pt.wikipedia.org/wiki/Coeficiente_de_correla%C3%A7%C3%A3o_de_Pearson <a/>

#### Matematicamente...

... é a **covariância** dividida pelo produto dos **desvios padrão** de ambas.

Também pode ser pensada como o **cosseno do ângulo entre dois vetores multidimensionais**.

A fórmula é dada por:

<img src="images/correlacao_pearson_formula.svg">

#### Na prática:

Número (_float_) entre -1 e 1 indicando (fonte: Wikipédia):
* 0.9 para mais ou para menos indica uma correlação muito forte.
* 0.7 a 0.9 positivo ou negativo indica uma correlação forte.
* 0.5 a 0.7 positivo ou negativo indica uma correlação moderada.
* 0.3 a 0.5 positivo ou negativo indica uma correlação fraca.
* 0 a 0.3 positivo ou negativo indica uma correlação desprezível.


### Séries e suas Correlações

In [None]:
df = pd.DataFrame(
    columns=["S1", "S2", "S3", "S4"],
    data=np.random.randn(100, 4)
)
df["S2"] += 2 * df.S1
df["S3"] -= 2 * df.S2

df.describe()

In [None]:
""" Tabela de Correlação """
df.corr().unstack().drop_duplicates()

In [None]:
""" Visualização Simples """
df.corr().unstack().drop_duplicates()

### Visualização com Pandas + Matplotlib

In [None]:
""" Visualização por Scatter Plot """
pd.plotting.scatter_matrix(df, s=400, color="red", figsize=(13,13))
plt.show()

### Visualização com Pandas + Seaborn

In [None]:
""" Visualização por Scatter Plot """
sns.pairplot(df)
plt.show()

## Text Plot

### Posicionando Texto na Visualização 

In [None]:
""" Plot Simples """
plt.figure(figsize=(12,8))

plt.text(x=0.5, y=0.5, s="Texto a ser mostrado")

plt.show()

In [None]:
""" Plot Simples """
plt.figure(figsize=(12,8))

plt.text(x=1, y=1, s="Texto a ser mostrado")

plt.show()

### Aumentando a fonte

In [None]:
plt.figure(figsize=(12,8))

font = {
    'family': 'serif',
    'color':  'darkred',
    'weight': 'bold',
    'size': 26,
}

plt.text(x=0.5, y=0.5, s="Texto a ser mostrado", fontdict=font)

plt.show()

### Mudando a Escala

In [None]:
plt.figure(figsize=(12,8))

plt.xlim(-10, 10)
plt.ylim(-10, 10)

font = {
    'family': 'serif',
    'color':  'darkred',
    'weight': 'bold',
    'size': 26,
}

plt.text(x=-5, y=-2, s="Texto a ser mostrado", fontdict=font)

plt.show()

### Aplicando 'fontdict' em outros textos 

In [None]:
plt.figure(figsize=(12,8))

plt.xlim(-10, 10)
plt.ylim(-10, 10)

font = {
    'family': 'serif',
    'color':  'darkred',
    'weight': 'bold',
    'size': 26,
}

plt.text(x=-5, y=-2, s="Texto a ser mostrado", fontdict=font)

plt.xlabel("X Axis", fontdict=font)
plt.ylabel("Y Axis", fontdict=font)

plt.show()

### Juntando com Scatter Plot

In [None]:
plt.figure(figsize=(12,8))

plt.xlim(-10, 10)
plt.ylim(-10, 10)

font = {
    'family': 'serif',
    'color':  'darkred',
    'weight': 'bold',
    'size': 26,
}

plt.text(x=-5, y=-2, s="Texto a ser mostrado", fontdict=font)
plt.scatter(x=-5, y=-2, s=400, c="darkorange", marker="o")

plt.xlabel("X Axis", fontdict=font)
plt.ylabel("Y Axis", fontdict=font)

plt.show()

# Desafio

## Objetivo:

#### Visualizar dados de um problema de classificação de produtos de e-commerce projetados em 2D.


### Dataset:

In [None]:
""" Tamanho do Dataset """
df = pd.read_csv(
    os.path.join("data", "produtos_ecommerce.csv"),
    sep=";",
    encoding="utf-8"    
)
df[["coord_x", "coord_y"]] = df[["coord_x", "coord_y"]].astype(float)
df.head()

In [None]:
""" Tamanho da tabela """
df.shape

In [None]:
""" Contagem de Produtos por Categoria"""
df.label.value_counts()

### [ A ]: Visualizar Todo o Dataset

Plotar todos os produtos usando as coordenadas **coord_x** e **coord_y**. 

Cada **categoria** deve ser representada por uma **cor diferente**.

A figura deve ter uma **legenda** mostrando as categorias e suas cores.

In [None]:
""" Escreva a a Solução Aqui """    

### [ B ]: Visualizar uma amostra com o texto

Plotar **duas categorias**, apenas 10 produtos de cada, usando o campo **product** para plotar também o texto.

A figura deve manter a **legenda** mostrando apenas as duas categorias e suas cores.

In [None]:
""" Escreva a a Solução Aqui """    