# <font color = #119fbf> **Visualização de Dados com Matplotlib e Seaborn**</font>

* Programa de Pós-Graduação em Engenharia Elétrica e de Computação (PPGEEC)
* Introdução à Ciências de Dados - UFC *Campus* Sobral – 2023.1
* Andressa Gomes Moreira - andressagomes@alu.ufc.br

## Instalação e importação

In [None]:
# Instalação usando pip:
#!pip install matplotlib
#!pip install seaborn

In [None]:
import matplotlib.pyplot as plt
import seaborn as sns
import numpy as np
import pandas as pd

## Introdução

### Figure e Axes

- **Figure**: Os dados são representados graficamente Figures (janelas)

    - O método para criar uma Figure: *```plt.figure()```* 

- **Axes**: Os objetos que compõem a Figure.

    - O método para criar uma Axes: *```plt.add_axes()```*

In [None]:
fig = plt.figure()
ax = fig.add_axes([0, 0, 1, 1])

> Outra forma de criar uma nova Figura: *```plt.subplots()```*

In [None]:
fig = plt.figure()
fig, ax = plt.subplots()

In [None]:
fig, axs = plt.subplots(nrows=2, ncols=2)

In [None]:
# Ajustando o gráfico
fig, axs = plt.subplots(nrows=2, ncols=2)  
plt.tight_layout()

## Tipos de Gráficos com *Matplotlib* e *Seaborn*

### 1. Gráfico de Linha

- O método para criar um gráfico de Linha: 
    - Matplotlib: *```plt.plot()```*
    
    - Seaborn: *```sns.lineplot()```*


In [None]:
fig = plt.figure()
ax = fig.subplots()
ax.plot([1, 2, 3, 4], [0, 0.5, 1, 0.2])

**É possível também adicionar parâmetros no gráfico**

* **Tamanho da figura:** *```figsize=(width, height)```*

* **Marcadores:** Ponto ('.'), Pixel (','), Círculo ('o'), Estrela ('*'), Linha ('_'), entre outros.
    
* **Estilos de linha:** Sólida ('-'), Tracejada: ('--'), Traço-ponto (':').
    
* **Cor**: azul: ('b'), vermelho: ('r'), magenta: ('m'), ciano: ('c'), preto: ('k'), branco: ('w')

* **Título:** *```ax.set_title('')```*

* **Grid:** *```ax.grid()```*

In [None]:
ano = [1950, 1960, 1970, 1980, 1990, 2000, 2010] # Eixo x
faturamento = [300.2, 543.3, 1075.9, 2862.5, 5979.6, 10289.7, 14958.3] # Eixo y

# Cria uma figura com tamanho 7x5
fig, ax = plt.subplots(figsize=(7, 5))

# Cria um gráfico de linha
ax.plot(ano, faturamento, color='g', marker='o', linestyle='-')

# Adicionar um título ao gráfico
ax.set_title("Faturamento por ano")

# Adicionar Grid 
ax.grid(True)

# Exibir Figura
plt.show()

In [None]:
# Estabelecer os dados
x= np.linspace(-5, 5, 100)

# Cria uma figura com tamanho 7x5
fig, ax = plt.subplots(figsize=(7, 5))

# Cria o gráfico de linhas
ax.plot(x, np.sin(x), label = 'y = sin(x)', color='purple')
ax.plot(x, np.cos(x), label = 'y = cos(x)', color='pink')

# Adicionar um título ao gráfico
ax.set_title("Funções seno e cosseno")

# Exibir legenda
plt.legend()

# Exibir Figura
plt.show()

### Seaborn

* Uma segunda alternativa é criar o gráfico de linhas com Seaborn


* Vale lembrar, que o Seaborn integra-se com as funcionalidades fornecidas pelo Pandas, como DataFrames.

In [None]:
# Estabelecer os dados
x = np.linspace(-5, 5, 100)

data = {"y = sin(x)": np.sin(x), "y = cos(x)": np.cos(x)}
d1 = pd.DataFrame(data)

# Cria o gráfico de linhas
sns.lineplot(data=d1, palette="flare")

### 2. Gráfico de Pizza

- O método para criar um gráfico de Pizza: *```plt.pie()```*

- Para exemplificar, usaremos o dataset **Titanic**

> Link para download do dataset **[Titanic](https://www.kaggle.com/c/titanic-dataset/data)**

In [None]:
df_titanic = pd.read_csv('./train.csv')
df_titanic.head(10)

In [None]:
df_titanic.isnull().sum()

In [None]:
df_titanic.dropna(axis=0, how ='any', inplace = True)

In [None]:
df_sobreviventes_por_sexo = df_titanic.groupby('Sex')['Survived'].sum().reset_index()
df_sobreviventes_por_sexo

In [None]:
# Estabelecer os dados
sexo = df_sobreviventes_por_sexo['Sex']
survived = df_sobreviventes_por_sexo['Survived']

# Cria uma figura com tamanho 7x5
fig, ax = plt.subplots(figsize=(7, 5))

# Cria um gráfico de barras
ax.pie(survived, explode=(0, 0.05), labels=[sexo[0], sexo[1]], 
       colors=['lightcoral', 'lightskyblue'], autopct='%1.1f%%')

# Adicionar um título ao gráfico
ax.set_title("Número de sobreviventes do Titanic")

# Exibir Figura
plt.show()

### 3. Gráfico de Barras

- O método para criar um gráfico de Barras: 

    - Matplotlib: *```plt.bar()```*
    
    - Seaborn: *```sns.barplot()```*

**Criando um gráfico de barras com Seaborn**

In [None]:
sns.barplot(data=df_sobreviventes_por_sexo, x="Sex", y="Survived",  hue='Sex')

**É possível criar o gráfico de barras também com Matplotlib**

In [None]:
# Estabelecer os dados
age_18 = df_titanic.groupby((df_titanic['Age'] <= 18))['Survived'].sum()
age_18_50 = df_titanic.groupby((df_titanic['Age'] > 18) & (df_titanic['Age'] <= 50))['Survived'].sum()
age_50 = df_titanic.groupby((df_titanic['Age'] > 50))['Survived'].sum()

total_sobreviventes = age_18[1] + age_18_50[1] + age_50[1]
total_sobreviventes

In [None]:
# Cria uma figura com tamanho 7x5
fig, ax = plt.subplots(figsize=(7, 5))

# Cria um gráfico de barras
ax.bar('Até 18 anos', age_18[1], color='pink')
ax.text(0, age_18[1]+0.5, age_18[1], ha = 'center')

ax.bar('Entre 18 e 50 anos', age_18_50[1], color='palevioletred')
ax.text(1, age_18_50[1]+0.5, age_18_50[1], ha = 'center')

ax.bar('Acima de 50 anos', age_50[1], color='mediumvioletred')
ax.text(2, age_50[1]+0.5, age_50[1], ha = 'center')

# Adicionar um título ao gráfico
ax.set_title("Número de sobreviventes do Titanic")

# Adicionar um label ao gráfico
ax.set_xlabel('Idade')
ax.set_ylabel('Número de Sobreviventes')

# Exibir Figura
plt.show()

 **Visualizar lista de referência de cores no *Matplotlib***

In [None]:
import matplotlib.colors as mcolors

mcolors.CSS4_COLORS
mcolors.TABLEAU_COLORS
mcolors.CSS4_COLORS

**Gráfico de Barras Horizontais**

- O método para criar um gráfico de Barras horizontais: *```plt.barh()```*

In [None]:
# Cria uma figura com tamanho 7x5
fig, ax = plt.subplots(figsize=(7, 5))

# Cria um gráfico de barras horizontais
ax.barh('Até 18 anos', age_18[1], color='#FFC0CB')
ax.barh('Entre 18 e 50 anos', age_18_50[1], color='#DB7093')
ax.barh('Acima de 50 anos', age_50[1], color='#C71585')

# Adicionar um título ao gráfico
ax.set_title("Número de sobreviventes do Titanic")

# Adicionar um label ao gráfico
ax.set_xlabel('Idade')
ax.set_ylabel('Número de Sobreviventes')

# Exibir Figura
plt.show()

### 4. Histograma

- O método para criar um histograma: 
    - Matplotlib: *```plt.hist()```*
    
    - Seaborn: *```sns.histplot()```*



In [None]:
# Cria uma figura com tamanho 10x5
fig, ax = plt.subplots(figsize=(10, 7))

# Cria um histograma
ax.hist(df_titanic['Age'], 20, color='teal', alpha=0.85)

# Adicionar um título ao gráfico
ax.set_title("Distribuição de Idades")

# Adicionar um label ao gráfico
ax.set_xlabel('Idade')
ax.set_ylabel('Quantidade de Passageiros')

# Exibir Figura
plt.show()

In [None]:
ax = sns.histplot(data=df_titanic, x='Age', kde=True, bins=20, palette="flare")

# Informações no gráfico
ax.set_title("Distribuição de Idades")
ax.set_xlabel('Idade')
ax.set_ylabel('Quantidade de Passageiros')

### 5. Boxplot

- O método para criar um boxplot: 
    - Matplotlib: *```plt.boxplot()```*
    
    - Seaborn: *```sns.boxplot()```*

In [None]:
# Cria uma figura com tamanho 10x5
fig, ax = plt.subplots(figsize=(7, 4))

# Cria um boxplot
ax.boxplot(df_titanic['Age'])

# Adicionar um título ao gráfico
ax.set_title("Distribuição de Idades")

# Exibir Figura
plt.show()

**O mesmo gráfico feito com Seaborn**

In [None]:
sns.boxplot(data=df_titanic, y="Age").set_title("Distribuição de Idades")

**Dados com *Outlier***

In [None]:
#idade = list(df_titanic['Age'])
#idade.append(120)

## Agrupar os dados com subplots

In [None]:
fig, axs = plt.subplots(nrows=2, ncols=2, figsize=(16,12))

In [None]:
# Ajustando o gráfico
fig, axs = plt.subplots(nrows=2, ncols=2, figsize=(16,12))
fig.suptitle('Gráficos Dataset Titanic', size=30)

# Gráfico de Pizza
axs[0][0].pie(survived, labels=[sexo[0], sexo[1]], colors=['lightcoral', 'lightskyblue'], autopct='%1.1f%%')
axs[0][0].set_title('Gráfico de Pizza')

# Gráfico de Barras
axs[0][1].bar('Até 18 anos', age_18[1], color='pink') 
axs[0][1].bar('Entre 18 e 50 anos', age_18_50[1], color='palevioletred')
axs[0][1].bar('Acima de 50 anos', age_50[1], color='mediumvioletred')
axs[0][1].set_title('Gráfico de Barras')
axs[0][1].set_xlabel('Idade')
axs[0][1].set_ylabel('Número de Sobreviventes')

# Histograma
axs[1][0].hist(df_titanic['Age'], 20, color='teal', alpha=0.85)
axs[1][0].set_title("Histograma")
axs[1][0].set_xlabel('Idade')
axs[1][0].set_ylabel('Quantidade de Passageiros')

# Boxplot
axs[1][1].boxplot(df_titanic['Age'])
axs[1][1].set_title("Boxplot")

# Salvar imagem
fig.savefig('dataset_titanic.png', dpi=fig.dpi)

# Aplicação

### Análise e Visualização de Dados - Dataset Iris 🌷🌸

> Link para download do dataset **[Iris](https://www.kaggle.com/datasets/saurabh00007/iriscsv)** 

O dataset possui dados extraídos de 10 mil aplicativos da Google Play Store para análise do mercado Android. 

O dataset Iris é o "Hello World" para a ciência de dados. O conjunto de dados **“Iris.csv”** é composto por 150 amostras e 6 atributos. Cada amostra refere-se a características de uma planta, chamada Iris.
Os atributos listados na base de dados são:
    
1. ID;
2. SepalLengthCm - Comprimento da pétala;
3. SepalWidthCm - Largura da pétala;
4. PetalLengthCm - Comprimento da sépala;
5. PetalWidthCm - Largura da sépala;
6. Species - Tipo de espécie.

#### Carregando o dataset Iris

In [None]:
df = pd.read_csv("iris.csv", sep=',')
df.head()

In [None]:
df['Species'].unique()

### 1. Relacionamento entre as variáveis 'Comprimento da sépala' e 'Comprimento da pétala' para cada espécie.

In [None]:
# Define os dados
sepalLengthCm_setosa = df.iloc[0:50, 1].values
petalLengthCm_setosa = df.iloc[0:50, 3].values

sepalLengthCm_versicolor = df.iloc[50:100, 1].values
petalLengthCm_versicolor = df.iloc[50:100, 3].values

sepalLengthCm_virginica = df.iloc[100:150, 1].values
petalLengthCm_virginica = df.iloc[100:150, 3].values

In [None]:
sepalLengthCm_setosa

In [None]:
# Cria uma figura com tamanho 7x4
fig, ax = plt.subplots(figsize=(7, 4))

# Cria um gráfico de dispersão
ax.scatter(sepalLengthCm_setosa, petalLengthCm_setosa, label='Iris-setosa', color='blue')
ax.scatter(sepalLengthCm_versicolor, petalLengthCm_versicolor, label='Iris-versicolor', color='orange')
ax.scatter(sepalLengthCm_virginica, petalLengthCm_virginica, label='Iris-virginica', color='green')

# Adicionar um título ao gráfico
ax.set_title("Comprimento da sépala x Comprimento da pétala")

# Adicionar os labels do gráfico
ax.set_xlabel('Sepal Length [Cm]')
ax.set_ylabel('Petal Length [Cm]')

# Exibir legenda
plt.legend()

# Exibir Figura
plt.show()

In [None]:
# Scatter plot
ax = sns.scatterplot(data=df, x='SepalLengthCm', y='PetalLengthCm', hue='Species', palette="flare")
ax.set_title("Comprimento da sépala x Comprimento da pétala")

### 2. Mapa de Calor para representar a correação entre as variáveis numéricas no conjunto de dados.

> **Coeficiente de Correlação de Pearson**: Também chamado de correlação linear, é um grau de relação entre duas variáveis quantitativas.

- **Correlação positiva**: Coeficiente de correlação se aproxima de 1. Nota-se um aumento no valor de uma variável quando a outra também aumenta. 
- **Correlação negativa**: Coeficiente de correlação se aproxima de -1. Quando o valor de uma variável aumenta o da outra diminui.


In [None]:
sns.heatmap(df.corr(method='pearson').drop(['Id'], axis=1).drop(['Id'], axis=0), annot = True);
plt.show()

- A largura da pétala e o comprimento da pétala têm altas correlações. 
- O comprimento da pétala e a largura da sépala têm boas correlações.
- A largura da pétala e o comprimento da sépala têm boas correlações.

### 3. Boxplot para representação do comprimento das pétalas de cada espécie

In [None]:
# Cria uma figura com tamanho 10x5
fig, ax = plt.subplots(figsize=(7, 4))

# Cria um boxplot
ax.boxplot([sepalLengthCm_setosa, sepalLengthCm_versicolor, sepalLengthCm_virginica])
plt.xticks([1, 2, 3],  ['Iris-setosa','Iris-versicolor', 'Iris-virginica'])

# Adicionar um título ao gráfico
ax.set_title("Distribuição Petal Length [Cm]")

# Adicionar os labels do gráfico
ax.set_xlabel('Species')
ax.set_ylabel('Petal Length [Cm]')

3# Exibir Figura
plt.show()

In [None]:
#fig=plt.gcf()
#fig.set_size_inches(10,7)
#fig=sns.boxenplot(x='Species',y='SepalLengthCm',data=df)

sns.boxplot(data=df, x="Species", y="SepalLengthCm", palette="husl")

### 3. Distribuição de frequências para cada característica

In [None]:
# Ajustando o gráfico
fig, axs = plt.subplots(nrows=4, ncols=2, figsize=(18,18))
fig.suptitle('Histograma', size=30)

# SepalLengthCm
axs[0][0].hist(df['SepalLengthCm'], bins=10, density=True)
axs[0][0].set_title("SepalLengthCm")
sns.histplot(ax=axs[0, 1], data=df, x='SepalLengthCm', kde=True, bins=10)

# SepalWidthCm
axs[1][0].hist(df['SepalWidthCm'], bins=10)
axs[1][0].set_title("SepalWidthCm")
sns.histplot(ax=axs[1, 1], data=df, x='SepalWidthCm', kde=True)

# PetalLengthCm
axs[2][0].hist(df['PetalLengthCm'], bins=10)
axs[2][0].set_title("PetalLengthCm")
sns.histplot(ax=axs[2, 1], data=df, x='PetalLengthCm', kde=True)

# PetalWidthCm
axs[3][0].hist(df['PetalWidthCm'], bins=10)
axs[3][0].set_title("PetalWidthCm")
sns.histplot(ax=axs[3, 1], data=df, x='PetalWidthCm', kde=True)