![](images/ds_rural.png)

# Módulo 3

## Numpy, Pandas e Gráficos usando Matplotlib

###  Tratamentos de falta de dados 

Com frequência é encontrado datasets com falta de dados, com dados nulos ou com dados incoerentes. Estes datasets devem ser limpados e homogeneizados antes de realizar qualquer operação.

Pandas têm duas formas de tratar dados com valores **null**, **NaN** ou **NA**: Usando uma **máscara** que indica perda de valores ou escolher um valor **sentinela** que indica entrada ausente.

1. **Máscara**: A máscara pode ser uma matriz booleana totalmente separada ou pode envolver a representação de um bit para indicar localmente o status nulo de um valor.

2. **Sentinela**: o valor do sentinela pode ser uma convenção específica de dados, como por exemplo, para indicar um valor inteiro com **-999** ou otro valor determinado por convenção. O valor **NaN** é uma convenção da IEEE para determinar um valor de ponto flutuante ausente. 

- **None**: É o primeiro valor sentinela usado por Pandas, tratado como um objeto do Python.

In [None]:
# exemplo
import numpy as np
import pandas as pd
#
notas_none = np.array([4.0,7.0, 6.5, None, 10, 8.8, None, 9.0])
print('A:',notas_none)

In [None]:
# operacoes!!!
notas_none.sum()

- **NaN**: Dados numéricos ausentes. (*Not a Number*). Valor de ponto flutuante especial reconhezidos pelos sistemas que usam a representação padrão de ponto flutuante da IEEE.

In [None]:
notas_nan = np.array([4.0,7.0, 6.5, np.nan, 10, 8.8, np.nan, 9.0])
print('Notas:',notas_nan)
print('Tipo:',notas_nan.dtype)


In [None]:
# Operacoes aritmeticas: soma
v = 1 + np.nan
v

In [None]:
# Operacoes aritmeticas: multiplicacao
v1 = 0*np.nan
v1

In [None]:
# agregados
notas_nan.sum(), notas_nan.min(), notas_nan.max()

- **NaN** e **None** em Pandas

In [None]:
# serie de pandas
serie = pd.Series([2,3.0, np.nan, 8, 5.0, None,-1.0])
serie

In [None]:
# serie de pandas
x_int = pd.Series(range(6), dtype=int)
x_int

In [None]:
x_int[0] = None
x_int[3]  = None
x_int

### Operações com Valores Nulos

- **isnull()**: Gera uma mácara booleana indicandoi valores ausentes.
- **notnull()**: Retorna os valores não nulos
- **dropna()**: Retorna a serie ou dataframe sem valores nulos.
- **fullna()**: Retorna uma copia dos dados com valores ausentes preenchidos.

In [None]:
# exemplos detectando valores nulos
serie_nulos = pd.Series([-1.0, 1, 4.5, np.nan, 'oi',None, 10])
print('Serie:',serie_nulos)

In [None]:
# valores não nulos
serie_nulos[serie_nulos.notnull()]

In [None]:
# Eliminando valores nulos
n_nulos = serie_nulos.dropna()
n_nulos

In [None]:
# DataFrame
df = pd.DataFrame([[1, np.nan, 2,5],[2, 3, 5, -1.0],[np.nan, 4, 6, 20]])
df

In [None]:
# dropna em dataframe
df1 = df.dropna()
df1

In [None]:
# Elimina colunas
df2 = df.dropna(axis='columns')
df2

In [None]:
# elimina colunas
df3 = df2 = df.dropna(axis='rows')
df3

In [None]:
# elimina todas as colunas com valores nulos
print(df)
df3 = df.dropna(axis=1)
print(df3)

In [None]:
# preenchendo valores nulos
dados = pd.Series([1, np.nan, 2, None, 3.0, 6.0, 7], index=list('abcdedg'))
dados

In [None]:
# preenchendo com zero
d = dados.fillna(0)
d

## Gráficos - Matplolib

In [None]:
# importando a biblioteca
import matplotlib.pyplot as plt
# estilos clasico do matplotlib
plt.style.use('classic')

In [None]:
# exemplo - grafico
x = np.linspace(0,10,100)
plt.plot(x,np.sin(x))
plt.plot(x,np.cos(x))
plt.show()

In [None]:
# ipython notebook
x1 = np.linspace(-1,4,50)
y1 = 3*(np.power(x1,4)) - 16*(np.power(x1,3))+18*(np.power(x1,2))
# para gravar a figura
fig = plt.figure()
plt.plot(x1,y1,'-')
plt.plot(x1,y1+6,'r--'); # ;->show()
#fig.savefig('images/figura1.png')

In [None]:
# verificando se a imagem foi gerada
from IPython.display import Image
Image('images/figura1.png')

In [None]:
# tipos de formatos de graficos suportados
fig.canvas.get_supported_filetypes()

### Usando Varias Interfaces - Subplots

In [None]:
# exemplo de subplots
plt.figure() # criar a figura
# criando a painel 1
plt.subplot(2, 1, 1) # (linha, coluna, numero do panel)
plt.plot(x1, y1,'--r')
# criando o painel 2
plt.subplot(2, 1, 2)
plt.plot(x1, y1+6);
# criando o painel 3
#plt.subplot(3, 1, 3)
#plt.plot(x1, y1-6,'-.g');

- **Interfaces Orientadas a Objetos**

In [None]:
# intercaes orientadas como objetos
# grid de subplots
fig, ax = plt.subplots(2)
ax[0].plot(x1, y1,'r')
ax[1].plot(x1, y1-6);

In [None]:
# subplot vertical
fig, (ax1, ax2) = plt.subplots(1, 2)
fig.suptitle('Subplot Vertical')
ax1.plot(x1, y1,'--r')
ax2.plot(x1, y1-6);
#fig.savefig('images/fx.png')

In [None]:
# grid de subplots
fig,ax =  plt.subplots(2,2,figsize=(8,8))
#fig,ax =  plt.subplots(2,2,figsize=(8,8),constrained_layout=True)
ax[0][0].plot(x1,y1,'r')
ax[0][0].set_title('$f(x)=3x^4-16x^3+18x^2$')
#ax[0][0].set_ylabel('y')
#ax[0][0].set_xlabel('x')
#
ax[0][1].plot(x1,y1-6,'g')
ax[0][1].set_title('$f(x)=3x^4-16x^3+18x^2-6$')
#
ax[1][0].plot(x1,y1+6,'orange')
ax[1][0].set_title('$f(x)=3x^4-16x^3+18x^2+6$')
#
ax[1][1].plot(x1,y1+10,'blue')
ax[1][1].set_title('$f(x)=3x^4-16x^3+18x^2+10$')
#
#plt.suptitle('$f(x)=3x^4-16x^3+18x^2$', verticalalignment='bottom', fontsize=14)
plt.show()
#fig.savefig('images/subpots.png')

- **Graficar linhas simples**

In [None]:
# grid de linhas
plt.style.use('seaborn-whitegrid')
fig = plt.figure()
ax = plt.axes()
plt.plot(x1,y1,'-');

#### Cores e Estilos de Linhas

In [None]:
# graficos de diversas cores
plt.plot(x1, y1, color='blue') # specify color by name
plt.plot(x1, y1-5, color='g') # short color code (rgbcmyk)
plt.plot(x1, y1-10, color='0.75') # Grayscale between 0 and 1
plt.plot(x1, y1-15, color='#FFDD44') # Hex code (RRGGBB from 00 to FF)
plt.plot(x1, y1+5, color=(1.0,0.2,0.3)) # RGB tuple, values 0 and 1
plt.plot(x1, y1+10, color='chartreuse');

In [None]:
# Graficos e estilos de linhas
plt.plot(x1, x1 + 0, linestyle='solid')
plt.plot(x1, x1 + 2, linestyle='dashed')
plt.plot(x1, x1 + 4, linestyle='dashdot')
plt.plot(x1, x1 + 6, linestyle='dotted');
# usando codigos
plt.plot(x1, x1 + 8, linestyle='-') # solid
plt.plot(x1, x1 + 10, linestyle='--') # dashed
plt.plot(x1, x1 + 12, linestyle='-.') # dashdot
plt.plot(x1, x1 + 14, linestyle=':'); # dotted

In [None]:
# combiandno cores e estilos de linha
plt.plot(x1, y1 + 0, '-g')
plt.plot(x1, y1 + 5, '--b')
plt.plot(x1, y1 + 10, '-.k')
plt.plot(x1, y1 + 15, ':r');

#### Ajustando os limites do eixos

In [None]:
# Ajustando limites de eixos
plt.plot(x1, y1)
plt.xlim(-1.5, 4.5)
plt.ylim(-35, 45);

In [None]:
# Ajustando eixos
plt.plot(x1, y1,'r')
# [xmin,xmax, ymin,ymax]
plt.axis([-1, 5, -30, 40]);

### Gráficos Usando os datasets do COVID19

In [None]:
# graficando covid
confirmados =  pd.read_csv('data/covid19_confirmed.csv',delimiter=',')
mortos = pd.read_csv('data/covid19_deaths.csv',delimiter=',')
salvos = pd.read_csv('data/covid19_recovered.csv',delimiter=',')
#
print('confirmados',confirmados.head())
print('Mortos',mortos.head())
print('Salvos',salvos.head())

In [None]:
x = confirmados['Province/State']
y1 = confirmados['3/10/20']
y2 = mortos['3/10/20']
y3 = salvos['3/10/20']

In [None]:
#X1 = pd.DataFrame(x)
x.isnull()

In [None]:
# tratamento de valores
x1 = confirmados.dropna()
x1.isnull()

In [None]:
#x = confirmados['Province/State']
#y1 = confirmados['3/10/20']
x1.head()

In [None]:
x1.head(20)

In [None]:
xx = x1['Province/State']
y1 = x1['3/5/20']
y2 = x1['3/10/20']
plt.plot(xx,y1,'b',label='3/5/20');
plt.plot(xx,y2,'r',label='3/10/20')
plt.xlim('Gansu', 'Victoria')
plt.legend()
#plt.grid()
plt.xlabel('Casos confrimados');

**Exercícios**
Usando os datasets de casos confirmados, mortos e recuperados:
1. Fazer o tratamento de dados inconsistentes
2. Apresente o gráficos de 'province/State' x '3/5/20' dos datasets cpara onfirmados.
3. Apresente os gráficos de 'province/State' x '3/5/20' do dataset mortos.
4. Apresente os gráficos de 'province/State' x '3/5/20' do dataset recuperados.
5. Apresente o gráficos usando dos três datasets.
6. Apresente os gráficos para os três datasets para o intervalo de Province/State['Gansu','Grand Princess']. Usar diversas cores e tipos de linhas para apresentar os resultados.


---
Python pada Dada Science - Profs. [Jorge Zavaleta](zavaleta@pet-si.ufrrj.br) - Sergio Serra - Macário Costa.