![PPGI_UFRJ](imagens/ppgi-ufrj.png)
# Fundamentos de Ciência de Dados

---
[![DOI](https://zenodo.org/badge/335308405.svg)](https://zenodo.org/badge/latestdoi/335308405)

---
# PPGI/UFRJ 2020.3, 2022.2, 2024.2
## Prof Sergio Serra e Jorge Zavaleta

---
# Módulo 2 - Pandas

>  **Pandas é a biblioteca de análise de dados em Python**

>É uma biblioteca **open source** para análise de dados em Python, de alto desempenho e de fácil uso. Pandas é uma estruturas de dados com eixos rotulados que suportam alinhamento automático ou explícito de dados, evitando erros comuns resultantes de dados desalinhados e do trabalho com dados indexados de forma diferente provenientes de diferentes fontes.
>- Possue funcionalidades integradas para lidar com séries temporais.
>- Usa as mesmas estruturas de dados para lidar com dados de séries temporais e não temporais.
>- Possue operações aritméticas e reduções (como a soma em um eixo) que passariam nos metadados (rótulos dos eixos).
>- Tratamento flexível de dados perdidos.
>- Merge e outras operações relacionais encontradas em bancos de dados populares (baseados em SQL).

>O **kernel** pandas está baseado em duas estruturas de dados primárias nas quais todas as transações, que geralmente são feitas durante a análise de dados são centralizadas em estruturas de **series** e **DataFrames** muito utilizadas em Data Science.

### Impotando a biblioteca pandas

In [77]:
# importando a biblioteca
import pandas as pd # pandas
import numpy as np  # numpy

## Series
> Uma **série** é um objeto semelhante a uma matriz unidimensional que contém uma matriz de dados de qualquer tipo de dados (NumPy) e uma matriz associada aos rótulos ou indices do dados.
<img src="imagens/series.png" alt="series" width="170"/>

In [None]:
# criando um objeto serie
s0 = pd.Series([4, 7, -5, 3], dtype=np.float64)
s0

In [None]:
# visualizar indices da serie: index
print(s0.index)

In [None]:
# visualiza os valores: values
print(s0.values)

In [None]:
# criando uma serie com indices de letras
indices =['a','b','c','d']
valores = [1,-5, 20, -90]
#
s1 = pd.Series(valores,indices, dtype=np.float32)
s1

In [None]:
# criando uma serie com indices numericos
indices =['1','2','3','4']
valores = [1,-5, 20.0, -90]
#
s1 = pd.Series(valores,indices)
s1

In [None]:
# criando uma serie alaetoria
serie = pd.Series([np.random.randn(50)])
# visualizar a serie
print('Serie:',serie,'Tipo:',type(serie))

In [None]:
# criando uma serie de uma lista
peso_kg = np.linspace(55,80,100)
print(peso_kg)
len(peso_kg)

In [None]:
# convertir dados numpy em Serie (pandas)
pesos = pd.Series(peso_kg)
pesos.head(20)

## Filtrando valores

In [None]:
# fatiar uma serie condicao booleana
p60 =pesos[(pesos>60) & (pesos <70)]
print(p60)
len(p60)

In [None]:
# fatiar uma serie
p10_50= pesos[10:50]
p10_50

In [None]:
# verificar valores nulos "false". Visualiza os 5 valores iniciais (head())
n0 = p10_50.isnull()
n0.head()

In [None]:
# valores não nulos "true"
n1 = p10_50.notnull()
n1.head()

## Selecionando valores internos
> Se pode selecionar elementos individuais da mesma forma como é feita nas matrizes numpy, especificando a **chave** (index).

In [None]:
# usando o indice na serie n1
v0 = p10_50[np.random.randint(10,50,1)]
v0

In [None]:
# usando o indice na serie n1 = p10_50[x,y]: x, y:indices
i1 = np.random.randint(10,20,1)
i2 = np.random.randint(21,50,1)
#print(type(i1))
#v1 = pesos[[i1,i2]]
v1 = pesos[[int(i1),int(i2)]]               
v1

## Atribuição de valores aos elementos
> A atribuição de novos valores aos elementos da série pode ser feito selecionando o **índice** ou rótulo.

In [None]:
## atribuir valor -1 al elemento de indice 60
pesos[60] = -1
pesos[[59,60,61]]

## Definir séries a partir de  matrizes NumPy ou de outras séries

In [None]:
# matriz numpy -> valores passados por referencia
m0 = np.array([1,1,2,3,4,5,-1, -1])
S0 = pd.Series(m0)
S0

In [None]:
# os valores da serie são passados por referencia
S0[7] = 10
print(S0)
print(m0)

## Operações e funções matemáticas
> Nas séries podem ser usadas todas as operações matemáticas aplicadas nos "arrays" numpy **(+,-,*,/)**.

In [None]:
# usando a serie S0
ds = S0*4 #S0 + 4 # S0 - 2 # S0/4
ds

In [None]:
# usando funções matematicas
l0 = np.log(S0)
l0

## Avaliando valores
> A função **unique()** retorna uma matriz com valores únicos, excluindo duplicatas, embora não necessariamente em ordem.

> **value_counts()** retorna os valores únicos e conta as ocorrências na série.

> **isin()** avalia a pertinência dos elementos na série. Esta função informa se os valores estão contidos na estrutura de dados

In [None]:
# usando unique() em l0
u0 = l0.unique()
print(u0)

In [None]:
# retorna os valores unicos e o numero de ocorrencias deles
u1 = l0.value_counts()
u1

In [None]:
# existem valores 0 na serie?
u2 = l0.isin([0])
u2

In [None]:
# 0 e 3 estão na serie?
u3 = l0.isin([0,3])
u3

In [None]:
# filtra valores usando isin()
u4 = l0[l0.isin([0,3])]
u4

## Operações entre séries

In [None]:
# criando serie 1
mydict1 = {'red': 2000, 'blue': 1000, 'yellow': 500,'orange': 1000}
serie1 = pd.Series(mydict1)
print(serie1)
print()
# serie 2
mydict2 = {'red':400,'yellow':1000,'black':700}
serie2 = pd.Series(mydict2)
print(serie2)
print()
ss = serie1 + serie2
print(ss)

## DataFrames
> Um **DataFrame** representa uma estrutura de dados tabular semelhante a uma planilha contendo uma coleção ordenada de colunas, cada uma das quais pode ter um tipo de valor diferente (numérico, string, booleano etc.). O **DataFrame** tem um índice para linha e coluna.
<img src="imagens/dataframes.png" alt="dataframes" width="300"/>

In [103]:
# criando um dataframe: indices = {Idade, Altura,Peso}
df = pd.DataFrame({'Idade':np.random.randint(25,high=50,size=40),
                  'Altura':1.20+np.random.rand(40),
                  'Peso':np.linspace(55,90,40)})

In [None]:
# Visualizar os 5 primeiros registros do dataframe
df.head(20) # 

In [None]:
# algumas metricas sobre os dados
df.describe()

> ### Percentil - divisão da amostra em percetuais.
>> - 25% dos elementos são inferiores a X.Y anos, X.Y m e X.Y kg.
>> - Metade dos elementos são inferiores a X.Y anos, X.Y m e X.Y kg.
>> - 75% dos elementos são inferiores a X.Y anos, X.Y m e X.Y kg.

In [None]:
# visualizar os nomes das colunas
df.columns

In [None]:
# visualizar os valores das colunas
df.values

In [None]:
# Visualizar o DataFrame como Matriz(transposta)
df.T

In [None]:
# "fatiar" um dataframe
idade = df['Idade']
idade.head()

In [None]:
peso =df['Peso']
peso.head()

In [None]:
# fatiar selecionando linhas
df1 = df[(df.Idade > 30) & (df.Idade < 40)]
df1.head()

In [None]:
# operacoes com colulas Peso/Altura
df['peso-altura']= np.round(df['Peso']/df['Altura'],decimals=2)
df.head()

## Leitura de arquivos

> Existem funções que permitem ler dados de diversos formatos. Um dos mais usados em **datasets** é o **CSV** - *Comma Separated Value* (Valores Separados por Vírgulas), que podem ser importados e exportados pela maioria de aplicações.

| Data          | Formato       | Reader        | Writer        |
| :---:         | :---:         | :---:         | :---:         |
| CSV           | Texto         | read_csv      | to_csv        |
| JSON          | Texto         | read_json     | to_json       |
| HTML          | Texto         | read_html     | to_html       |
| MS_EXCEL      | Binário       | read_excel    | to_excel      |
| SQL           | SQL           | read_sql      | to_sql        |

### Google Colab (usar dados do PC)

> ```from google.colab import drive```

> ```drive.mount('/content/drive')```

> Seguir o link para copiar o código e colar o espaço solicitado. **My Drive** é o google drive, logo adicionar o caminho do diretório para fazer a leitura do arquivo desejado.

> ```dadosx = pd.read_csv('/content/drive/My Drive/datasets/covid19_confirmed.csv',delimiter=',')```

> ```dadosx.head(10)```

> ### Importar dados do GitHub
> ```!git clone https://github.com/zavaleta/Fundamentos_DS```
> ### Leitura dos dados
> ```file_data = pd.read_csv('Fundamentos_DS/data/file.csv')```

### Arquivos CSV

In [None]:
# exemplo 1: Covid19 - Pernambuco
prouni = pd.read_csv('data/cursos-prouni2020.csv',delimiter=',',decimal=',')
prouni.head()

In [None]:
# visualizando as colunas
prouni.columns

In [None]:
# visualizando valores do dataframe
valores = prouni.values
valores

## Selecioando elementos

In [None]:
# visualizando coluna
turno = prouni[['turno','mensalidade']]
turno.head()

In [None]:
# visualizando coluna
campus = prouni['campus_nome']
campus.head()

In [None]:
# visualiza elementos usando o indice da fila
loc_campus = campus.loc[2]
loc_campus

In [None]:
# visualiza elementos usando o 2 indices das filas
loc_campus1 = campus.loc[[2,10]]
loc_campus1

In [None]:
# visualiza elementos usando o indices da fila
loc_campus2 = campus[2:10]
loc_campus2

In [None]:
loc_campus3 = campus.iloc[2:10]
loc_campus3

In [122]:
# eliminar uma coluna
#del dataFrme['nome_coluna']

In [None]:
# turno tem alguma valor nulo?
tn = turno.isnull()
tn.head()

### Arquivos JSON

In [None]:
read_json = pd.read_json('data/article-prov.json')
print(read_json)
#write_json = pd.to_json('data/file.json')

### Arquivos MS_EXCEL

In [None]:
# criando um arquivo MS_EXCEL
file_excel = prouni.loc[:5,:'mensalidade']
print(file_excel)
# gravando um arquivo excel
file_excel.to_excel('data/excel_teste.xlsx')

In [None]:
read_excel = pd.read_excel('data/excel_teste.xlsx',index_col=0)
read_excel.head()

### Método *iloc*
> As linhas de um DataFrame podem ser acessadas por meio do método **iloc**, que usa uma sintaxe semelhante à de uma lista.

In [None]:
# visualiza os dados
prouni.head()

In [None]:
# visualiza a linha = 1
prouni.iloc[1]

In [None]:
# visualiza as linhas 1 ao 4
prouni.iloc[1:4]

In [None]:
# fatiar um data frame
prouni.iloc[:3,:3]

In [None]:
# acessando as filas pares (indices)
pares = prouni.iloc[prouni.index % 2 == 0]
pares.head()

### Método *loc*
> **loc** é semelhante ao **iloc**, mas permite indexar um DataFrame por meio de nomes de coluna ou rótulos.

In [None]:
# Visualiza a coluna 1
prouni.loc[0,:'grau']

In [None]:
# fatiar um dataFrame
p0 = prouni.loc[:'grau',:'curso_id']
p0.head()

### Reindexar
> O método de reindexação em **Pandas**, significa criar um novo objeto com os dados em concordância com um novo índice.

In [None]:
# pandas original
rein0 = pd.Series([4.5, 7.2, -5.3, 3.6], index=['a', 'b', 'c', 'd'])
rein0

In [None]:
# mudando index
rein1 = pd.Series([4.5, 7.2, -5.3, 3.6], index=['d', 'b', 'a', 'c'])
rein1

In [None]:
# reindexando
r = pd.Series(['blue', 'purple', 'yellow'], index=[0, 2, 6])
rein2 = r.reindex(range(6),method='ffill')
rein2

### Eliminando entradas de uma fila (axis=0) ou coluna (axis=1) - DROP
> Eliminar uma ou mais entradas de uma fila/coluna de uma matriz de índice ou de uma lista sem entradas. o método **drop** retornará um novo objeto com o valor indicado ou valores deletados de uma fila/coluna

In [None]:
# criando a serie
d0 = pd.Series(np.arange(5.), index=['a', 'b', 'c', 'd', 'e'])
d0

In [None]:
# drop -> elimiando a fila 'c'
dc = d0.drop('c')
dc

In [None]:
# drop -> elimiando a fila 'c'
d_ae = d0.drop(['a','e'])
d_ae

In [None]:
m4x4 = pd.DataFrame(np.arange(16).reshape((4, 4)),index=['RJ', 'SP', 'AC', 'CE'],
                 columns=['um', 'dois', 'três', 'quatro'])
m4x4

In [None]:
# drop filas (index)
dfil = m4x4.drop(['RJ','CE'])
dfil

In [None]:
# drop coluna (axis=1)
dcol = m4x4.drop('três',axis=1)
dcol

In [None]:
# drop coluna (axis=1)
dcol0 = m4x4.drop('um',axis=1)
dcol0

In [None]:
# drop fila (axis=1)
dfil0 = m4x4.drop('SP',axis=0)
dfil0

### Selecionar

In [None]:
# filtrar por colunas
m1 = m4x4[['um','dois']]
m1

### Filtrar

In [None]:
# filtra elementos > 4
m2 = m4x4[m4x4 > 4]
m2

### Fatiamento (slice)

In [None]:
# slice index
m3 = m4x4['AC':'CE']
m3

In [None]:
# slice index
m4x4['AC':'CE']=5
m4x4

## Tratamentos de falta de dados 

>Com frequência é encontrado datasets com falta de dados, com dados nulos ou com dados incoerentes. Estes datasets devem ser limpados e homogeneizados antes de realizar qualquer operação.

>Pandas têm duas formas de tratar dados com valores **null**, **NaN** ou **NA**: Usando uma **máscara** que indica perda de valores ou escolher um valor **sentinela** que indica entrada ausente.

>1. **Máscara**: A máscara pode ser uma matriz booleana totalmente separada ou pode envolver a representação de um bit para indicar localmente o status nulo de um valor.

>2. **Sentinela**: o valor do sentinela pode ser uma convenção específica de dados, como por exemplo, para indicar um valor inteiro com **-999** ou otro valor determinado por convenção. O valor **NaN** é uma convenção da IEEE para determinar um valor de ponto flutuante ausente. 

### None
>É o primeiro valor sentinela usado por Pandas, tratado como um objeto do Python.

In [149]:
# carregando as bibliotecas 
import numpy as np               # numpy
import pandas as pd              # pandas
import matplotlib.pyplot as plt  # graficos

In [None]:
# exemplo
notas_none = np.array([4.0, 7.0, 6.5, None, 10.0, 8.8, None, 9.0, 4.0, 7.0, 9.5])
print('A:',notas_none)

In [151]:
# operção não definida!!!
#notas_none.sum()

### NaN
>Dados numéricos ausentes. (*Not a Number*). Valor de ponto flutuante especial reconhezidos pelos sistemas que usam a representação padrão de ponto flutuante da IEEE.

In [None]:
notas_nan = np.array([4.0,7.0, 6.5, np.nan, 10, 8.8, np.nan, 9.0])
print('Notas:',notas_nan)
print('Tipo:',notas_nan.dtype)

In [None]:
# Operacoes aritmeticas: soma
v = 1 + np.nan
v

In [None]:
# Operacoes aritmeticas: multiplicacao
v1 = 0*np.nan
v1

In [None]:
# agregados
notas_nan.sum(), notas_nan.min(), notas_nan.max()

### NaN e None em Pandas

In [None]:
# serie de pandas
serie = pd.Series([2,3.0, np.nan, 8, 5.0, None,-1.0])
serie

In [None]:
# serie de pandas
x_int = pd.Series(range(6), dtype=int)
x_int

In [None]:
x_int[0] = None
x_int[3]  = None
x_int

### Operações com valores nulos
> - **isnull()**: Gera uma mácara booleana indicandoi valores ausentes.
> - **notnull()**: Retorna os valores não nulos
> - **dropna()**: Retorna a serie ou dataframe sem valores nulos.
> - **fullna()**: Retorna uma copia dos dados com valores ausentes preenchidos.

In [None]:
# exemplos detectando valores nulos
serie_nulos = pd.Series([-1.0, 1, 4.5, np.nan, 'oi',None, 10])
print('Serie:',serie_nulos)

In [None]:
# valores não nulos
serie_nulos[serie_nulos.notnull()]

In [None]:
# Eliminando valores nulos
n_nulos = serie_nulos.dropna()
n_nulos

In [None]:
# DataFrame
df = pd.DataFrame([[1, np.nan, 2,5],[2, 3, 5, -1.0],[np.nan, 4, 6, 20]])
df

In [None]:
# dropna em dataframe
df1 = df.dropna()
df1

In [None]:
# Elimina colunas
df2 = df.dropna(axis='columns')
df2

In [None]:
# elimina filas ou linhas
df3 = df2 = df.dropna(axis='rows')
df3

In [None]:
# elimina todas as colunas com valores nulos
print(df)
df3 = df.dropna(axis=1)
print(df3)

In [None]:
# preenchendo valores nulos
dados = pd.Series([1, np.nan, 2, None, 3.0, 6.0, 7], index=list('abcdedg'))
dados

In [None]:
# preenchendo com zero
d = dados.fillna(0)
d

### Métodos aritméticos

In [None]:
# criar 2 dataframes
M1 = pd.DataFrame(np.arange(8.).reshape((2, 4)), columns=list('abcd'))
print(M1)
M2 = pd.DataFrame(np.arange(15.).reshape((3, 5)), columns=list('abcde'))
print(M2)

In [None]:
# Método add
M3 = M1 + M2
M3

In [None]:
# Método add - sub - div - mul
M4 = M1.div(M2,fill_value=0)
M4

### Estatísticas descritivas
> Os objetos pandas são munidos de um conjunto de métodos matemáticos e estatísticas comuns, estes métodos extraem um único valor de uma série ou de uma série de valores das linhas ou colunas de um DataFrame.

> Os métodos estatísticos auxiliam na compreensão e análise do comportamento dos dados.
> **sum**, **mean**,**median**,**varience**,**covariance**,**correlation**, etc.

In [None]:
# Gerando dados
df_data =  pd.DataFrame(np.random.randn(10, 5), index = pd.date_range('1/1/2020', periods=10),
                       columns = ['A', 'B', 'C', 'D','E'])
print(df_data)

In [None]:
# soma de  todas as colunas
sc = df_data.sum() # sum(axis=0) # soma cada coluna
print(sc)

In [None]:
# soma cada fila (row)
sc_1 = df_data.sum(axis=1)
print(sc_1)

In [None]:
# media das colunas
media_c = df_data.mean()
print(media_c)

In [None]:
# media das filas
media_f = df_data.mean(axis=1)
print(media_f)

In [None]:
# caluclos usando windows = n: (n+(n-1)+(n-2)=/n) --> n=3 e mean()
print(df_data.rolling(window=3).mean())

In [None]:
# metodos de agregação - rolling
print(df_data)
rol = df_data.rolling(window=3,min_periods=1)
print(rol)

In [None]:
# aggregate todas as collunas
print(rol.aggregate(np.sum))

In [None]:
# coluna A
print(rol['A'].aggregate(np.sum))

In [None]:
#  aggregate multiples colunas
print(rol[['A','B']].aggregate(np.sum))

In [None]:
# aggregate multiples funções a uma coluna
df_group = rol['C'].aggregate([np.sum,np.mean,np.median,np.std])
print(df_group)

In [None]:
# Split data into groups - agrupar
club_data = {'Club': ['Flamengo', 'Inter', 'SP', 'Fluminense', 'Gremio',
   'Flamengo', 'Flamengo', 'Inter', 'Gremio', 'Santos', 'Santos', 'Corinthians'],
   'Rank': [1, 2, 2, 3, 3,4 ,1 ,1,2 , 4,1,2],
   'Ano': [2014,2015,2014,2015,2014,2015,2016,2017,2016,2014,2015,2017],
   'Pontos':[876,789,863,673,741,812,756,788,694,701,804,690]}
df_club = pd.DataFrame(club_data)
print(df_club)
print()
group_ano = df_club.groupby('Ano')    # agrupado por ano
print('Ano:',group_ano.groups)
print()
ag_pontos_anos = group_ano['Pontos'].agg([np.sum, np.mean,np.var,np.std]) # ano e pontos
print(ag_pontos_anos)

### Manipulando bancos de dados
> Em muitas aplicações, os dados estão armazenados em formatos ineficientes para guardar grandes volumes de dados. Os bancos de dados relacionais baseados em SQL (como SQL Server, PostgreSQL e MySQL) são amplamente usados nesses casos, e muitos bancos de dados alternativos non-SQL (chamados de NoSQL) se tornaram bastante populares. A escolha do banco de dados geralmente depende das necessidades de desempenho, integridade de dados e escalabilidade de uma aplicação.

> O pandas tem algumas funções para simplificar o processo de carregar dados de SQL em um DataFrames.

In [184]:
# Will use an in-memory SQLite database using Python’s built-in sqlite3 driver
import sqlite3
# criar a tabela fcd
query = """
CREATE TABLE fcd
(a VARCHAR(20), b VARCHAR(20), c REAL, d INTEGER);"""
# conexao com o sqlite3
con = sqlite3.connect(':memory:')
con.execute(query)
con.commit()

In [185]:
# inserir dados
data = [('Araruama', 'Cabo frio', 12.5, 20),
        ('Niterói', 'Nova Iguaçu', 3.6, 15),
        ('Petropolis', 'Teresopolis', 2.0, 10)]
# 
stmt = "INSERT INTO fcd VALUES(?, ?, ?, ?)"
con.executemany(stmt, data)
con.commit()

In [None]:
# retorna as tuplas
cid_0 = con.execute('select * from fcd') # cursor
filas = cid_0.fetchall()
filas

In [None]:
# description
des = cid_0.description
des

In [None]:
pd.DataFrame(filas, columns=list(zip(*cid_0.description))[0])

In [None]:
# leitura do sql em pandas = dataframe
import pandas.io.sql as sql
sql0 = sql.read_sql('select * from fcd', con)
print(sql0)

## Visualização em Pandas

In [None]:
# gerando os valores
df_grafico = pd.DataFrame(np.random.randn(10,5),index=pd.date_range('1/1/2020',
   periods=10), columns=list('ABCDE'))
df_grafico.head()

In [None]:
# visualização do dataframe completo
df_grafico.plot();

In [None]:
# bar plot
df_grafico.plot.bar();

In [None]:
# stacket = True
df_grafico.plot.bar(stacked=True);

In [None]:
# horizontal
df_grafico.plot.barh(stacked=True);

In [None]:
# histogramas
df_grafico.plot.hist(bins=15);

In [None]:
# Box plots
df_grafico.plot.box();

In [None]:
# Area plots (valores positivos)
df_area = pd.DataFrame(np.random.rand(10, 5), columns=['a', 'b', 'c', 'd','e'])
df_area.plot.area();

In [None]:
# scatter plot
df_area.plot.scatter(x='a',y='b');

In [None]:
# Pie chart
df_area.plot.pie(y='a',subplots=True,figsize=(5,5));

In [None]:
# subplots
df_area.plot.pie(subplots=True,figsize=(15,10));

## Grandes volumes de dados

In [None]:
# exemplo 2: dataset - covid19-deaths
#ctotal = pd.read_csv('data/covid-19_casos_full.csv',delimiter=',')
ctotal = pd.read_csv('data/rio_full_casos.csv',delimiter=',')
ctotal.head()

In [None]:
# visualiza o total de registros
print('Total de Registros :> ',len(ctotal))

In [None]:
estado_rj = ctotal[ctotal['state']=='RJ']
estado_rj

In [204]:
# split para rio de janeiro
#casos_rj = pd.DataFrame(estado_rj[estado_rj['city'] == 'Rio de Janeiro'])
#casos_rj.to_csv('data/rio_full_casos.csv')

In [None]:
cidade_rj = estado_rj[estado_rj['city'] == 'Rio de Janeiro']
cidade_rj

In [206]:
# valores para o grafico
y = cidade_rj['new_deaths']
y1 = cidade_rj['new_confirmed']
#print(len(y))
x = np.arange(0,350)
#print(len(x))

In [None]:
import matplotlib.pyplot as plt
#
fig, cov = plt.subplots(nrows=1, figsize=(10, 5))
cov.plot(x,y,'r',linewidth=1.5, label='Mortos')
cov.plot(x,y1,'b',linewidth=1.5, label='Casos confirmados')
cov.legend()
cov.grid()
plt.title('Covid-19 - 18/02/2021')
plt.xlabel('Rio de Janeiro')
plt.ylabel('Total');
# gravando a figura
#fig.savefig('images/conf-mor.png')

**Exercicios**:
1. Mostre os valores e colunas dos datasets (data, populaçao estimada, confirmados e mortos)
2. Construa mini datasets usando os estados como fator de corte.
3. Apresente os gráficos dos mini datasets (use as colunas adequadas).

---
####  Fudamentos para Ciêcia de Dados &copy; Copyright 2021, 2022, 2024 - Sergio Serra & Jorge Zavaleta