### Escrevendo e lendo arquivos em Pandas

normalmente na primeira célula se coloca os pacotes a serem importados

### Onde posso consultar arquivos
  
Kaggle:
  - https://www.kaggle.com/datasets
  - https://www.kaggle.com/uciml/iris#

Public Domain Datasets
  - https://github.com/awesomedata/awesome-public-datasets
  - https://www.nature.com/sdata/policies/repositories

WHO (Organização Mundial de Saúde):
  - Health Info: https://www.who.int/healthinfo/en/
  - Global health Observatory: https://www.who.int/data/gho
  - Indicators: https://www.who.int/data/gho/data/indicators

University of Californa - Machine Learning Repository
  - https://archive.ics.uci.edu/ml/datasets/
  - Iris dataset (Ronald Fisher)
    - https://archive.ics.uci.edu/ml/datasets/iris
    
Brasil:
  - Datasus - Tabnet: https://datasus.saude.gov.br/informacoes-de-saude-tabnet/
  - INCA: https://www.inca.gov.br/estimativa
  - Oncocentro SP: https://fosp.saude.sp.gov.br/fosp/ensino-e-pesquisa/publicacoes-fosp/
  - Epidemiologia SP: https://portalsinan.saude.gov.br/calendario-epidemiologico
  - IBGE: https://downloads.ibge.gov.br/    https://downloads.ibge.gov.br/downloads_top.php

In [None]:
import os, sys
import pandas as pd # pandas e seu alias pd
import numpy as np  # numpy  e seu alias np

import matplotlib.pyplot as plt # matplotlib e seu alias plt
# %matplotlib inline

### Quais arquivos podemos abrir?

In [None]:
cloud = True

if cloud:
    # criar este diretório -
    root_data = '/content/data'
else:
    root_data = "../data/"

In [None]:
os.listdir(root_data)

### Pandas read csv (tsv)

https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.read_csv.html

### Tabela da Iris de Ronald Fisher & Edgar Anderson (1936)

https://en.wikipedia.org/wiki/Iris_flower_data_set

In [None]:
# csv - comma separated values
# tabela de Edgar Anderson 1936
fname = "Iris.csv"

filename = os.path.join(root_data, fname)

os.path.exists(filename), filename

### Cuiidado
  - tabela é uma matriz organizada com n linhas e m colunas

#### Tabelas podem ser indexadas ou não
    - iris.csv
    - iris_nome.ndx

#### O que é banco de dados:
  - São várias tabelas bem organizadas e acessíveis por programa de computador
  - Algumas delas podem estar relacionadas entre sim por chaves (indices) únicos:
     - banco de dados relacional
       - SQL-Server, Oracle, MySQL, Postgres ...

### Read e shape

In [None]:
# pandas read csv
# df = pd.read_csv(root_data + fname, sep=',')  #default é virgula
# se fou uma tabela tsv --> sep='\t'  sep='|'
# df = dataframe ~ tabela
df = pd.read_csv(filename)
# <df>.shape -->shape = dimensão = linhas, colunas
df.shape

### Pythones

  df.shape --> shape é uma property - propriedade não tem parâmetros

### df.head - cabeça do arquivo

In [None]:
# defaul de linhas 5 - cabeça
df.head()

In [None]:
df.head(3)

### tail - fim / rabo da tabela

In [None]:
df.tail(3)

### Quanta linhas?

In [None]:
f"Dimensão da tabela: {df.shape} - linhas --> {df.shape[0]} == {len(df)}"

### Quais e quantas colunas?

In [None]:
df.columns

In [None]:
len(df.columns)

In [None]:
# transformado em lista
list(df.columns)

### Quantas colunas

In [None]:
len(df.columns), df.shape[1]

### Tabela de TB (tuberculose) da WHO

In [None]:
fname = "TB_outcomes_2020-09-11.csv"
filename = os.path.join(root_data, fname)

os.path.exists(filename), filename

In [None]:
df = pd.read_csv(filename)
print(df.shape, '\n')
df.head(3)

### Renomeando e filtrando colunas

In [None]:
len(df.columns), df.columns

In [None]:
cols = ['country', 'iso2', 'iso3', 'iso_numeric', 'g_whoregion', 'year',
        'rep_meth', 'new_sp_coh', 'new_sp_cur', 'new_sp_cmplt', 'new_sp_died',
        'new_sp_fail', 'new_sp_def', 'c_new_sp_tsr', 'new_snep_coh',
        'new_snep_cmplt', 'new_snep_died', 'new_snep_fail', 'new_snep_def',
        'c_new_snep_tsr', 'ret_coh', 'ret_cur', 'ret_cmplt', 'ret_died',
        'ret_fail', 'ret_def', 'hiv_new_sp_coh', 'hiv_new_sp_cur',
        'hiv_new_sp_cmplt', 'hiv_new_sp_died', 'hiv_new_sp_fail',
        'hiv_new_sp_def', 'hiv_new_snep_coh', 'hiv_new_snep_cmplt',
        'hiv_new_snep_died', 'hiv_new_snep_fail', 'hiv_new_snep_def',
        'hiv_ret_coh', 'hiv_ret_cur', 'hiv_ret_cmplt', 'hiv_ret_died',
        'hiv_ret_fail', 'hiv_ret_def', 'rel_with_new_flg', 'newrel_coh',
        'newrel_succ', 'newrel_fail', 'newrel_died', 'newrel_lost', 'c_new_tsr',
        'ret_nrel_coh', 'ret_nrel_succ', 'ret_nrel_fail', 'ret_nrel_died',
        'ret_nrel_lost', 'c_ret_tsr', 'tbhiv_coh', 'tbhiv_succ', 'tbhiv_fail',
        'tbhiv_died', 'tbhiv_lost', 'c_tbhiv_tsr', 'mdr_coh', 'mdr_succ',
        'mdr_fail', 'mdr_died', 'mdr_lost', 'xdr_coh', 'xdr_succ', 'xdr_fail',
        'xdr_died', 'xdr_lost']

In [None]:
cols = ['country', 'g_whoregion', 'year',
        'new_sp_cmplt', 'new_sp_died', 'new_sp_fail', 'new_sp_def', 'c_new_sp_tsr', 'new_snep_coh',
        'new_snep_cmplt', 'ret_nrel_fail', 'ret_nrel_died', 'ret_nrel_lost']
df2 = df[ cols ]
df2.head(3)

### Renomeando colunas

In [None]:
cols_rename = ['pais', 'regiao', 'ano',
        'new_sp_cmplt', 'new_sp_died', 'new_sp_fail', 'new_sp_def', 'c_new_sp_tsr', 'new_snep_coh',
        'new_snep_cmplt', 'ret_nrel_fail', 'ret_nrel_died', 'ret_nrel_lost']

df2.columns = cols_rename

df2.head(3)

### Limpando dados vazios

**isna()** --> está vazio --> NA not avaliable ... NAN ... python 'empty' None

df2[cols_data].isna().all(axis=1)

  - cols_data: estas colunas
  - isna() - estão vazias
  - all(axis=1) corra todas as colunas de uma linha - todas vazias?


In [None]:
df2.shape

In [None]:
# Achar linhas cujos dados estão vazios

cols_data = ['new_sp_cmplt', 'new_sp_died', 'new_sp_fail', 'new_sp_def', 'c_new_sp_tsr', 'new_snep_coh',
             'new_snep_cmplt', 'ret_nrel_fail', 'ret_nrel_died', 'ret_nrel_lost']

df2_empty = df2[df2[cols_data].isna().all(axis=1)]
print(len(df2_empty))
df2_empty.head(3)

### Jogando fora linhas vazias

In [None]:
# inverso de linhas vazias = linhas que desejo
# axis=0 -- correr linhas;  axis=1 - correr colunas
# ~ OPERADOR DE INVERSO
df3 = df2[ ~df2[cols_data].isna().all(axis=1) ]

len(df2)-942, len(df3)

### Quais e quantos países

In [None]:
# np.unique() ordena a variável estudada
pais_lista = np.unique(df3.pais)
len(pais_lista)

In [None]:
pais_lista[:20]

In [None]:
pais_lista[-20:]

### MPG - dados de carros

### Porque deu erro ???

veja que tem um '\t' no texto .... logo deve ser tsv (tab separated values)

In [None]:
root_data

In [None]:
fname = "auto-mpg.data"
filename = os.path.join(root_data, fname)

os.path.exists(filename), filename

In [None]:
df = pd.read_csv(filename)
# leu somente 1 coluna !!!
df.shape

In [None]:
# arquivo veio sem cabeçalho
# tem um \t --> dever ser um tsv: tab separated values
df.head(3)

### usando sep = '\t'

Epa !!! parece não ter header!!!

In [None]:
df = pd.read_csv(filename, sep='\t')
print(df.shape)
df.head()

### Primeira linha são dados!

In [None]:
df = pd.read_csv(filename, sep='\t', header=None)
df.columns = ['todos os valores', 'nome_carro']
print(df.shape)
df.head(3)

### Não dá para abrir !!!

ou edita-se via um programa (ler txt, readline())
ou edita-se manualmente ...

In [None]:
# ahhh .. um tsv
fname = "auto-mpg.tsv"
filename = os.path.join(root_data, fname)

os.path.exists(filename), filename

In [None]:
dfm = pd.read_csv(filename, sep='\t')
print(dfm.shape)
dfm.head()

In [None]:
dfm.tail(6)

## Perguntas

### Quantos carros diferentes existem?

In [None]:
str

In [None]:
lista = [x for x in dfm.car_name if isinstance(x, str)]
lista = np.unique(lista)
len(lista), len(dfm)

### Quantos carros com quantos cilindros temos?
  - idade x obesidade
  - cilindro x nome_carro

In [None]:
type(dfm.cylinders)

### Dataframe == sequência de Series concatenadas

In [None]:
# só cilindros
dfm.cylinders.unique()

#### Unique do Pandas

In [None]:
cyls = dfm.cylinders.unique()
cyls

### Unique do numpy - ordena

In [None]:
dfm.head(3)

In [None]:
cyls = np.unique(dfm.cylinders)
cyls

In [None]:
dfm.head(3)

### groupby
  - agrupa por campos -  dfm.groupby(cols)
  - faz alguma operação como sum(), count() ...

In [None]:
cols = ['car_name', 'cylinders']

# são 3 colunas: carro, cyl, e contagem
dfgby = dfm.groupby(cols).count()
dfgby

In [None]:
# reseto o indice
# todos os indices viram colunas
# indice principal: 0, 1 .... n-1
dfgby = dfgby.reset_index()
dfgby

In [None]:
cols = ['car_name', 'cylinders', 'mpg']
dfgby = dfgby[cols]
dfgby.head(3)

In [None]:
cols = ['nome', 'cilindros', 'num']
dfgby.columns = cols
dfgby.head()

### Ordene dos com mais representatividade para menos --. mostre os 10 primeiros

In [None]:
dfgby = dfgby.sort_values('num', ascending=False)
dfgby.head(10)

### Frequência de cilindros

In [None]:
cols = ['cylinders']
# são 2 colunas: cyl, e contagem
dfgby = dfm.groupby(cols).count()
dfgby.head(3)

In [None]:
dfgby = dfgby.reset_index()
dfgby.head(3)

In [None]:
cols = ['cylinders', 'mpg']
dfgby = dfgby[cols]
dfgby.head(3)

In [None]:
cols = ['cilindros', 'num']
dfgby.columns = cols
dfgby.head()

### Ordenar da menor contagem para o maior

In [None]:
dfgby = dfgby.sort_values('num')
dfgby2 = dfgby.copy()  # backup
dfgby.head()

In [None]:
plt.bar(dfgby.cilindros, dfgby.num)
plt.xlabel("cilindros")
plt.ylabel("contagem")
plt.title("Tabela de frequência de cilindros - não funcionou!??");

### Reordenar a tabela - o gráfico segue o index

In [None]:
dfgby.reset_index(drop=True, inplace=True)
dfgby

In [None]:
plt.bar(dfgby.index, dfgby.num)
plt.xlabel("cilindros")
plt.ylabel("contagem")

plt.xticks(dfgby.index, dfgby.cilindros)

plt.title("Tabela de frequência de cilindros");

### Desafio: sem usar index

In [None]:
dfgby2

In [None]:
x_ordered = dfgby2.cilindros
y_ordered = dfgby2.num

# similar a index
seqx = np.arange(len(dfgby2))

plt.bar(seqx, y_ordered)
plt.xlabel("cilindros")
plt.ylabel("contagem")

plt.xticks(seqx, x_ordered)

plt.title("Tabela de frequência de cilindros");