## Introdução

A visualização (de tendências) de dados é uma das tarefas mais importantes em ciência e análise de dados e em "machine learning". A escolha dos algoritmos  depende muito dos padrões identificados no conjunto de dados durante a fase de visualização. Neste notebook, veremos como podemos executar diferentes tipos de visualizações em Python.
Existe uma enorme quantidade de opções para visualização com Python, presentes na forma de bibliotecas. Algumas bibliotecas como o Matplotlib são usadas para exploração básica inicial, mas não são tão úteis para mostrar associações complexas. Algumas funcionam bem com grandes conjuntos de dados, enquanto outras concentram-se principalmente nas renderizações em 3D. De facto, não existe uma única biblioteca de visualização que possa ser referida como a melhor. Existem certos recursos que são melhores numa que noutra e vice-versa. 

![alt text](imagens/vecosystem.png)

## Matplotlib

Matplotlib é uma biblioteca de visualização 2D Python usada para criar gráficos e visualizações 2D utilizando scripts na linguagem python. Possui um módulo chamado pyplot, que facilita a plotagem, fornecendo recursos para controlar estilos de linha, propriedades de fonte, eixos de formatação, etc. A biblioteca Matplotlib permite a construção de vários tipos de gráficos, como de linha, barras, dispersão, histograma, etc.

In [None]:
#Instalação
#pip install matplotlib

### Importação

A função "pyplot" permite interagir com um ambiente de visualização semelhante ao MATLAB. Também se importa aqui uma função "de linhas" que  permite adicionar linhas aos gráficos:

In [None]:
from matplotlib import pyplot as plt
#ou
import matplotlib.pyplot as plt 
%matplotlib inline

#"pyplot" é o objeto principal que contém os métodos para criar todos os tipos de gráficos.

#"%matplotlib inline" é um comando específico do notebook jupyter que permite visualizar
#os gráficos no próprio notebook.

### Gráficos principais para a visualização de dados:
    Linhas (Line Plot)
    Barras (Bar Chart)
    Histograma (Histogram Plot)
    Dispersão (Scatter Plot)
    Pilha (Stack Plot)
    Queijo (Pie Chart)
    Caixa ou Caixa e bigode (Box Plot ou box-and-whisker plot)

### Gráfico de linhas (line plot)

In [None]:
plt.plot([1,2,3], [4,5,6])
plt.show()

No código acima, plot() é a função utilizada para plotar o gráfico de linhas, com variáveis para representar a linha.

Quando se representa uma linha usando a função plot() o gráfico é plotado internamente. Para visualizar externamente, utiliza-se a função show().

Mais um exemplo:

In [None]:
    import matplotlib.pyplot as plt
    x = [1,2,3]
    y = [4,5,6]
    x2 = [2,3,4]
    y2 = [6,7,8]
    plt.plot(x, y, label = 'Primeira linha', color='red', linestyle='solid')
    plt.plot(x2, y2, label = 'Segunda linha', color='g', linestyle='dashed')
    plt.xlabel('eixo-x')
    plt.ylabel('eeixo-y')
    plt.title('Gráfico de linhas')
    plt.legend()
    plt.show()

No código acima foram criadas duas linhas utilizando as variáveis x & y e x2 & y2. Também se poderia utilizar a biblioteca NumPy para criar as matrizes x e y, Pandas com um ficheiro csv ou através duma query a uma BD (ver os primeiros 2 notebooks disponibilizados na UC).

A função plt.plot() recebe argumentos adicionais que podem ser usados para especificar condições diferentes.

Utiliza-se (como no código acima) argumentos como:

 - label: para atribuir um rótulo a cada linha que usamos no programa.
 - cor: para atribuir cores diferentes às linhas. Podemos especificar essas cores de várias maneiras, como por nome, código de cores, código hexadecimal, etc.
 - estilo de linha: para ajustar o estilo da linha, como pontilhado, pontilhado, sólido e pontilhado. Também podemos usar códigos para especificar esses estilos de linha, como '-', ':', '-', '-.', respectivamente.

Pode-se combinar as cores e o estilo de linha num único argumento que não seja de palavra-chave, como '-g', '-.r' etc.

As funções plt.xlabel() e plt.ylabel() são utilizadas para atribuir nomes aos eixos x e y do gráfico, respectivamente.

O método plt.title () é usado para atribuir um título ao gráfico e geralmente aparece na parte superior do gráfico.

O método plt.legend () é usado quando várias linhas são mostradas num único eixo; pode ser útil criar uma legenda que rotule cada tipo de linha. A biblioteca Matplotlib possui uma maneira integrada de criar rapidamente uma legenda utilizando este método.

A função plt.legend() controla o estilo e a cor da linha e combinaos com a etiqueta correspondente.

Existem muitos outros métodos semelhantes, que poderá conferir no site oficial do Matplotlib.

### Gráfico de barras (bar graph)

Os gráficos de barras são normalmente utilizadps para comparar dados entre diferentes categorias. O gráfico de barras pode ser representado na horizontal ou na vertical.

In [None]:
    x = [2,4,6, 8, 10]
    y = [4,2,5,6,7]
    x2 = [1, 3, 5, 7, 9]
    y2 = [5,3,6,4,7]
    plt.bar(x,y, label = 'Barra1', color = 'r')
    plt.bar(x2,y2, label = 'Barra2', color= 'c')
    plt.xlabel('eixo-x')
    plt.ylabel('eixo-y')
    plt.title('Gráfico de barras')
    plt.legend()
    plt.show()

O gráfico de barras é representado usando o método bar().

No código acima, as duas barras são denominadas como Barra1 e Barra2. "Barra1" é representada utilizando os dados de x & y e "Barra2" os dados de x2 & y2.

A Barra1 é mostrada com o código de cores 'r', ou seja, com a cor vermelha e a Barra2 é mostrada com o código de cores 'c', ou seja, com a cor ciano.

Também se podem usar parâmetros diferentes, como altura, largura, alinhamento, marcas de escala, etc.

É possível também gerar um gráfico de barras horizontais. Para isso, usamos o método plt.barh() no lugar do método plt.bar(). Experimente.

### Histogramas

Os histogramas são semelhantes ao gráfico de barras, no entanto, são mais usados para mostrar a distribuição. Isso é útil quando temos dados sob a forma de matrizes.

Vejamos isso com um exemplo em que a idade da população é representada em relação ao "bin" (intervalo). "Bin" refere-se ao intervalo de valores que são divididos numa série com geralmente o mesmo tamanho de intervalos.

In [None]:
    idade_popul = [22,4,32,54,21,37,76,36,86,46.35,99,36,76,7,15,38,100,105,43]
    bins = [0,10,20,30,40,50,60,70,80,90,100,110]
    plt.hist(idade_popul, bins, histtype = 'bar', rwidth= 0.5)
    plt.xlabel('Grupo de idades')
    plt.ylabel('Nº de pessoas')
    plt.title('Histograma')
    plt.show()

No código acima a "matrix idade_popul" contém a idade de várias pessoas. A variável "Bin" contém o número de pessoas numa determinada faixa etária.
No output podemos ver que as pessoas da faixa etária de 30 a 40 anos são mais numerosas.
O método hist() é usado para plotar histogramas.
A palavra-chave "histtype" mostra os vários tipos de histogramas que podem ser preenchidos em barra, com pilha de barras, etapa e etapa (step by step). "rwidth" informa a largura relativa das barras.
Da mesma forma, também podemos usar outros parâmetros como e quando necessário. Experimente.

### Gráfico de dispersão (scatter plot)

O Gráfico de Dispersão é muito semelhante ao gráfico de linhas, no qual, em vez de pontos serem unidos por segmentos de linha, os pontos são mostrados individualmente com um ponto, círculo ou qualquer outra forma.

Pode-se visualizar gráficos de dispersão utilizando os métodos plt.plot() e plt.scatter().

Primeiro um exemplo para criar um gráfico de dispersão utilizando o método plt.plot ():

In [None]:
import matplotlib.pyplot as plt
import numpy as np

x = np.linspace(0, 10, 30)
y = np.sin(x)

plt.plot(x, y, 'o', color='black')

No código acima, criou-se 2 matrizes utilizando a biblioteca NumPy.

Essas duas matrizes são representadas usando o método plt.plot(). O atributo 'o' é usado para exibir a forma da dispersão.

Seguidamente um exemplo para criar um gráfico de dispersão usando o método plt.scatter().

In [None]:
x = [1,2,3,4,5,6,7,8]
y = [5,2,4,2,1,4,5,2]
plt.scatter(x, y, label='Dados teste', marker='*', color = 'k', s = 30)

plt.xlabel('eixo-x')
plt.ylabel('eixo-y')
plt.title('Scatter Graph')
plt.legend()
plt.show()

No código acima as duas matrizes são plotadas usando o método plt.scatter().

A palavra-chave "marker" é utilizada para exibir a forma na qual o gráfico de dispersão será representado e "s" refere-se ao tamanho da dispersão.

Também podemos usar esses códigos de caracteres com códigos de linhas e cores para plotar pontos simultaneamente com uma linha que os liga. Repare no código abaixo:

In [None]:
x = np.linspace(0, 10, 30)
y = np.sin(x)

plt.plot(x, y, '-ok')

No código acima, podemos ver que x y são passados como a variável da matriz, '-' é o tipo de linha, 'o' é o estilo do ponto e 'k' a cor.

O método plt.plot() é diferente de plt.scatter(), pois não providencia a opção de alterar a cor e o tamanho do ponto dinamicamente.

Verifique isso criando um gráfico de dispersão aleatório, com pontos de várias cores e tamanhos: (No código seguinte criam-se duas matrizes utilizando a biblioteca NumPy e a cor é mapeada para estar dentro do intervalo de 0-100; o tamanho é dado em pixels. "cmap" significa "colormap" - mapa de cores)

In [None]:
rng = np.random.RandomState(0)
x = rng.randn(100)
y = rng.randn(100)
colors = rng.rand(100)
sizes = 1000 * rng.rand(100)

plt.scatter(x, y, c=colors, s=sizes, alpha=0.2, cmap='viridis')
plt.colorbar();  # apresenta a escala de cores

### Gráfico de pilha (stack plot)

Um gráfico de pilha é um gráfico que mostra  o conjunto de dados com  visualização de como cada parte compõe o todo.

Cada constituinte do gráfico de pilha é empilhado um sobre o outro.

É parecido como um gráfico de queijo que mostra todos os vários constituintes de um conjunto de dados. No entanto  é diferente, pois os gráficos de pilha têm eixos, ao contrário dos gráficos de queijo. Os gráficos de queijo têm basicamente um conjunto de dados numéricos com rótulos.

In [None]:
import matplotlib.pyplot as plt

days = [1,2,3,4,5]

sleeping = [7,8,6,11,7]
eating =   [2,3,4,3,2]
working =  [7,8,7,2,2]
playing =  [8,5,7,8,13]

plt.plot([],[],color='m', label='Dormir', linewidth=5)
plt.plot([],[],color='c', label='Comer', linewidth=5)
plt.plot([],[],color='r', label='Trabalhar', linewidth=5)
plt.plot([],[],color='k', label='Divertimento', linewidth=5)

plt.stackplot(days, sleeping,eating,working,playing, colors=['m','c','r','k'])

plt.xlabel('x')
plt.ylabel('y')
plt.title('Stack Plot')
plt.legend()
plt.show()

No código acima, considera-se uma uma colheita de dados de 5 dias (já que cada dia consiste em 24 horas) e é dividido em atividades que realizamos diariamente, ou seja, dormir, comer, trabalhar e divertir.

Representa-se essas atividades com rótulos diferentes, fornecendo uma largura de linha de 5px para cada um.

### Gráfico de queijo (pie chart)

Um gráfico de queijo é um diagrama estatístico circular. A área do gráfico inteiro representa o conjunto dos dados. As áreas do gráfico de queijo representam a percentagem de partes dos dados e são chamadas de fatias.

Os gráficos de queijo podem ser desenhados usando a função pie() no módulo pyplot.

Por padrão, o pyplot organiza as fatias no sentido anti-horário.

In [None]:
import matplotlib.pyplot as plt

day = [1,2,3,4,5]

sleeping = [7, 8, 6, 11, 7]
eating = [2, 3, 4, 3, 2]
working = [7, 8, 7, 2, 2]
playing = [8, 5, 7, 8, 13]

slices = [7, 2, 2, 13]
activities = ['dormir', 'comer', 'trabalhar', 'divertir']
cols = ['c', 'b', 'r', 'k']

plt.pie(slices, labels = activities, colors = cols, startangle = 90, shadow = True, explode = (0, 0.1, 0, 0))
plt.show()

No código acima, utilizando os dados exemplo anterior (no stack plot), representa-se agora num gráfico de queijo usando o método plt.pie().

Neste método especifica-se as "fatias", que são os tamanhos relevantes para cada peça. Em seguida, define-se a lista de cores para as fatias correspondentes. Por último, opcionalmente, poder-se-à especificar o "ângulo inicial" para o gráfico. Isso permite que se inicie a linha onde se pretende. Neste caso escolheu-se um ângulo de 90 graus.

Opcionalmente, poderá adicionar uma sombra ao gráfico e, em seguida, utilizar "explode" para "extrair" um pouco uma fatia.

### Gráfico de caixa ou de caixa e bigode (box plot)

Um gráfico de caixa (ou gráfico de caixa e bigode) mostra a distribuição de dados quantitativos de uma forma que facilita as comparações entre variáveis ou entre os níveis de uma variável categórica. A caixa mostra os quartis do conjunto de dados enquanto os "bigodes" se estendem para mostrar o restante da distribuição, exceto os pontos que são determinados como "outliers", usando um método que é uma função da faixa inter-quartil.

Também se pode avaliar se os dados são simétricos, com que grau de rigidez  são agrupados e se, e como os dados estão distribuidos.

In [None]:
import numpy as np
import matplotlib.pyplot as plt
%matplotlib inline

fig, ax = plt.subplots()

# generate some random data
data1 = np.random.normal(0, 5, 100)
data2 = np.random.normal(0, 6, 100)
data3 = np.random.normal(0, 7, 100)
data4 = np.random.normal(0, 8, 100)
data = list([data1, data2, data3, data4])

# construir um gráfico de caixa
ax.boxplot(data)
ax.set_title('box plot')

xticklabels=['categoria 1', 'categoria 2', 'categoria 3', 'categoria 4']
ax.set_xticklabels(xticklabels)

# show the plot
plt.show()

No código acima, criou-se um gráfico de caixa com quatro elementos. Para criar o gráfico de caixa utiliza-se o método plt.boxplot(). Os dados transmitidos para o método ax.boxplot() podem ser uma lista, um dataframe Pandas ou uma matriz NumPy.

"xticklabels" (rótulos) definem os rótulos de escala do eixo x.

### Matplotlib 3D

#### Introdução

A biblioteca python foi inicialmente projetada apenas para plotagem bidimensional.

O sub-módulo mpl_toolkits.mplot3d import axes3d incluído na biblioteca Matplotlib fornece os métodos necessários para criar gráficos de superfície 3D com Python.

Irá seguidamente criar gráficos 3D de barras e de dispersão.

#### Gráfico de barras 3D com Matplotlib

In [None]:
from mpl_toolkits.mplot3d import axes3d
import matplotlib.pyplot as plt
import numpy as np

fig = plt.figure()
ax1 = plt.axes(projection='3d')

a = [4,2,5,7,8,2,9,3,7,8]
b = [5,6,7,8,2,5,6,3,7,2]
c = np.zeros(10)

x = np.ones(10)
y = np.ones(10)
z = [5,3,7,4,8,2,4,8,9,1]

ax1.bar3d(a, b, c, x, y, z, color = 'cyan')


ax1.set_xlabel('eixo x')
ax1.set_ylabel('eixo y')
ax1.set_zlabel('eixo x')

plt.show()

No código acima, as representações tridimensionais são ativadas importando o kit de ferramentas mplot3d. Utiliza-se o método plt.figure() para criar a figura 3D.

Depois de importado submódulo, os eixos tridimensionais podem ser criados passando a palavra-chave projection = '3d' para qualquer um dos eixos normais.

De seguida, declaram-se diferentes variáveis (neste caso com list e NumPy) e, em seguida, plotamos essas variáveis usando o método bar3d(), com a cor "Ciano". 

#### Gráfico de dispersão 3D

In [None]:
    from mpl_toolkits.mplot3d import axes3d
    import matplotlib.pyplot as plt
    fig = plt.figure()
    ax1 = plt.axes(projection='3d')
    x = [4,2,5,7,8,2,9,3,7,8]
    y = [5,6,7,8,2,5,6,3,7,2]
    z = [1,2,6,3,2,7,3,3,7,2]
    x2 = [-1,-2,-3,-4,-5,-6,-7,-8,-9,-10]
    y2 = [-5,-6,-7,-8,-2,-5,-6,-3,-7,-2]
    z2 = [1,2,6,3,2,7,3,3,7,2]
    ax1.scatter(x, y, z, c='g', marker='o')
    ax1.scatter(x2, y2, z2, c ='r', marker='o')
    ax1.set_xlabel('eixo x')
    ax1.set_ylabel('eixo y')
    ax1.set_zlabel('eixo x')
    plt.show()

No código acima, utilizam-se dois conjuntos de variáveis e representa-se cada um com uma cor diferente, usando o método plt.scatter().

## Seaborn

Outro pacote complementar de visualização baseado na biblioteca Matplotlib é o Seaborn, que fornece uma interface de alto nível para desenhar gráficos estatísticos.

A biblioteca Seaborn visa tornar a visualização uma parte central da exploração e compreensão dos dados. As  funções de representação orientada a conjuntos de dados operam em dataframes Pandas e matrizes NumPy e executam internamente o mapeamento e agregação estatística necessários para produzir gráficos.

Internamente, a biblioteca seaborn utiliza Matplotlib para desenhar gráficos. 

### Histograma

Já está familiarizados com o histograma e já existe uma função "hist" na biblioteca Matplotlib. Um histograma representa a distribuição dos dados, formando compartimentos e desenhando barras para mostrar o número de observações que caem em cada compartimento.

Para ilustrar isso, veja o código seguinte:

In [None]:
import seaborn as sns
import numpy as np
x = np.random.normal(size=100)
sns.distplot(x, kde=False, rug=True);

No programa acima, criou-se uma matriz usando a biblioteca NumPy e representou-se o histograma usando o método displot().

A palavra-chave "kde" passada representa a estimativa de densidade do kernel e é uma maneira não paramétrica de estimar a função de densidade de probabilidade de uma variável aleatória. Por padrão, o kde é True.

A palavra-chave "rug" adiciona um gráfico que é usado para desenhar uma pequena linha vertical em cada observação.

A estimativa da densidade do kernel pode ser menos familiar, mas pode ser uma ferramenta útil para plotar o formato de uma distribuição. Como o histograma, os gráficos do KDE codificam a densidade de observações num eixo e a altura ao longo do outro eixo.

Se usarmos a função kdeplot() do seaborn, obteremos a mesma curva. Veja um exemplo:

In [None]:
sns.kdeplot(x, shade=True);

Até agora, utilizou distribuições univariadas, onde o termo univariada se refere a uma expressão, equação, função ou polinómio de apenas uma variável. Agora irá trabalhar com um exemplo de representação de distribuições bivariadas.

### Gráfico de dispersão

A forma mais familiar de visualizar uma distribuição bivariada é um gráfico de dispersão, onde cada observação é mostrada com um ponto nos eixos x e y.

Podemos desenhar um gráfico de dispersão com a função (do matplotlib) plt.scatter, quee também é o tipo de gráfico padrão mostrado pela função jointplot() do seaborn.

In [None]:
import pandas as pd
mean, cov = [0, 1], [(1, .5), (.5, 1)]
data = np.random.multivariate_normal(mean, cov, 200)
df = pd.DataFrame(data, columns=["x", "y"])

sns.jointplot(x="x", y="y", data=df);

### Gráfico de caixa

In [None]:
    import seaborn as sns
    sns.set_style("whitegrid")
    data = np.random.normal(size=(20, 6)) + np.arange(6) / 2
    sns.boxplot(data=data)

No exemplo acima, o método set_style é usado para definir o tema de fundo, com linhas brancas.

Em seguida, criam-se 2 matrizes NumPy (a primeira com 20 matrizes de 6 elementos e a outra de 6 elementos) e soma-se as duas.

Finalmente cria-se o gráfico de caixa utilizando o método boxplot() que passa os dados como argumento.

## Exemplo prático

### Introdução

Utilizará um conjunto de dados que consiste nas notas dos alunos em várias disciplinas (ficheiro studentsPerformance.csv)

Lista de colunas:

 - género
 - raça / etnia
 - nível de escolaridade dos pais
 - curso de preparação para o teste
 - almoço
 - pontuação em matemática
 - pontuação em leitura
 - pontuação em escrita

### Análise
Primeiro, importe todas as bibliotecas necessárias e seguidamente o arquivo csv:

In [2]:
import numpy as np
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt

data=pd.read_csv('dados/StudentsPerformance.csv')
#nota: altere o caminho para o ficheiro de acordo como gravou

Agora analise os dados usando algumas funções da biblioteca Pandas:

In [3]:
#as 1ªs 5 linhas.
data.head()

Unnamed: 0,gender,race/ethnicity,parental level of education,lunch,test preparation course,math score,reading score,writing score
0,female,group B,bachelor's degree,standard,none,72,72,74
1,female,group C,some college,standard,completed,69,90,88
2,female,group B,master's degree,standard,none,90,95,93
3,male,group A,associate's degree,free/reduced,none,47,57,44
4,male,group C,some college,standard,none,76,78,75


In [None]:
#as últimas 5 linhas.
data.tail()

In [None]:
#apresenta as propriedades do conjunto de dados e os números nos valores do registro.
data.info()

In [None]:
#apresenta a análise (sumário) dos valores numéricos
data.describe()

In [None]:
#apresenta o tipo de dados presentes no conjunto de dados
data.dtypes

In [None]:
#Verificação de valores nulos
data.isnull().sum()

In [None]:
#Contagem de valores por "género"
data['gender'].value_counts()

### Visualização

In [None]:
sns.barplot(x=data['gender'].value_counts().index,y=data['gender'].value_counts().values)
plt.title('Distribuição por género')
plt.ylabel('Contagem')
#plt.legend(loc=0)
plt.show()

 Contagem na coluna "race/ethnicity":

In [None]:
plt.figure(figsize=(7,7))
sns.barplot(x=data['race/ethnicity'].value_counts().index,
              y=data['race/ethnicity'].value_counts().values)
plt.xlabel('Raça/Etnicidade')
plt.ylabel('Frequência')
plt.title('Gráfico de barras Raça/Etnicidade')
plt.show()

Gráficos mostrando a comparação entre 'pontuação da escrita', 'pontuação da leitura' e 'pontuação da matemática' para ambos os 'géneros' com base no 'nível de escolaridade dos pais', respectivamente:

In [None]:
plt.figure(figsize=(10,7))
sns.barplot(x = "parental level of education", y = "writing score", hue = "gender", data = data)
plt.xticks(rotation=45)
plt.show()

In [None]:
    plt.figure(figsize=(10,7))
    sns.barplot(x = "parental level of education", y = "reading score", hue = "gender", data = data)
    plt.xticks(rotation=45)
    plt.show()

In [None]:
    plt.figure(figsize=(10,7))
    sns.barplot(x = "parental level of education", y = "math score", hue = "gender", data = data)
    plt.xticks(rotation=45)
    plt.show()

Gráfico para ambos os sexos, comparando a pontuação a matemática para diferentes níveis de ensino:

In [None]:
    plt.figure(figsize=(12,7))
    sns.catplot(y="gender", x="math score",
                     hue="parental level of education",
                     data=data, kind="bar")
    plt.title('Pontuação a matemática por género e nível de escolaridade dos pais')
    plt.show()

Visualização de diferentes grupos com base na percentagem, com a ajuda de um gráfico de queijo:

In [None]:
labels=data['race/ethnicity'].value_counts().index
colors=['cyan','pink','orange','lightgreen','yellow']
explode=[0,0,0.1,0,0]
values=data['race/ethnicity'].value_counts().values

#visualization
plt.figure(figsize=(7,7))
plt.pie(values,explode=explode,labels=labels,colors=colors,autopct='%1.1f%%')
plt.title('Análise Raça/Etnicidade',color='black',fontsize=10)
plt.show()

Gráfico de pontuação matemática versus pontuação de escrita para ambos os sexos, usando um gráfico de dispersão:

In [None]:
sns.lmplot(x='math score',y='writing score',hue='gender',data=data)
plt.xlabel('Pontuação a matemática')
plt.ylabel('Pontuação em escrita')
plt.title('Pontuação a matemática versus Pontuação a escrita')
plt.show()

Visualização da frequência da pontuação matemática vs pontuação da escrita vs pontuação da leitura usando o gráfico kde:

In [None]:
sns.kdeplot(data['math score'], shade=True,color='c')
sns.kdeplot(data['reading score'],shade=True,color='r')
sns.kdeplot(data['writing score'],shade=True,color='b')
plt.xlabel('Valores')
plt.ylabel('Frequência')
plt.title('Análise kde P. Matemática vs P. Leitura vs P. Escrita')
plt.show()

Visualização para pontuação a matemática, para ambos os sexos, utilizando um gráfico de caixa:

In [None]:
sns.boxplot(x=data['gender'],y=data['math score'])
plt.show()

Visualização utilizando Pairplot:

In [None]:
sns.pairplot(data)
plt.show()