### Escrevendo e lendo arquivos em Pandas

normalmente na primeira célula se coloca os pacotes a serem importados

In [None]:
import os, sys
import pandas as pd # pandas e seu alias pd
import numpy as np  # numpy  e seu alias np

import matplotlib.pyplot as plt # matplotlib e seu alias plt
# %matplotlib inline

### Tabela tsv de carros

In [None]:
# ahhh .. um tsv
fname = "auto-mpg.tsv"
filename = os.path.join(root_data, fname)

os.path.exists(filename), filename

In [None]:
dfm = pd.read_csv(filename, sep='\t')
print(dfm.shape)
dfm.head()

## Perguntas

### Quantos carros com quantos cilindros temos?

In [None]:
type(dfm.cylinders)

### Dataframe == sequência de Series concatenadas

In [None]:
dfm.cylinders.unique()

#### Unique do Pandas

In [None]:
cyls = dfm.cylinders.unique()
cyls

### Unique do numpy - ordena

In [None]:
dfm.head(3)

In [None]:
cyls = np.unique(dfm.cylinders)
cyls

In [None]:
dfm.head(3)

### Vamos entender tudo o que fizemos e como funciona o pandas ...

vamos utilizar a tabel mpg (carros)

e você repete tudo com a tabel da who (tuberculose), ok?

### Como obter as colunas de uma tabela?

In [None]:
dfm.columns

### Contando o número de colunas = len(df.columns)

In [None]:
len(dfm.columns)

### Contando linhas e colunas

In [None]:
dfm.shape

In [None]:
"a tabela dfm tem %d linhas, e %d colunas"%(dfm.shape[0], dfm.shape[1])

### As duas formas de contar linhas

In [None]:
dfm.shape[0], len(dfm), dfm.shape[0] == len(dfm)

### Como selecinar colunas

dfm[ lista_colunas ]

In [None]:
dfm.columns

In [None]:
dfm[ ['mpg', 'cylinders', 'displacement', 'horsepower', 'car_name']].head(3)

In [None]:
cols = ['mpg', 'cylinders', 'displacement', 'horsepower', 'car_name']

In [None]:
dfm[ cols ].head(3)

### todas as colunas que tenha a letra 'a'

In [None]:
cols = []
# loop de colunas (laço)
for col in dfm.columns:
    if 'a' in col:
        cols.append(col)

cols

In [None]:
dfm[ cols ].tail(3)

### este looping é muito comprido, via comprehension é muito mais fácils

# comprehension - loop em 1 linha - python executa muito rápido!

[\<var> = col for col in dfm.columns \<condição ~ filtro>]

[ ] --> quero que trasnforme o resultado em list ~ lista.append(val)

In [None]:
cols = [col for col in dfm.columns if 'a' in col]
cols

### somente as linhas ímpares

In [None]:
nrow = len(dfm)
nrow

In [None]:
# numpy --> gerar sequencias com numpy.arange(xx, xx, xx)
np.arange(1, 12, 2)

In [None]:
nrows = np.arange(1, len(dfm), 2)
nrows[:10]

### usando o comando iloc - index location

acompanhe o index em head() e tail()

In [None]:
dfm.iloc[nrows].head(3)

In [None]:
dfm.iloc[nrows].tail(3)

### Avançar em filtros (slices)

In [None]:
dfm[dfm.cylinders == 4].head(3)

In [None]:
dfm[dfm.cylinders >= 5].head(3)

In [None]:
dfm[dfm.cylinders >= 5].cylinders.unique()

### Há três formas de chamar uma coluna

In [None]:
# pela ordem da coluna
dfm.columns
# cylinders --> coluna = 1

In [None]:
# df.iloc[ linhas, colunas]
# df.iloc[ lin_ini:lin_fim, col_ini:col_fim]
# :2 --> até o 2 --> 0 e 1
dfm.iloc[:,:2].head()

In [None]:
# dfm.cyl<tab> - auto-completion
dfm.cylinders

In [None]:
# esta forma é muito importante qdo vc tem espaço no nome da coluna
dfm['cylinders']

In [None]:
dfm.columns

In [None]:
dfm.columns = ['mpg', 'cylinders', 'displacement', 'horsepower', 'weight', 'acceleration', 'model_year', 'origin', 'car name']
dfm.columns

In [None]:
# impossivel: dfm.car name ???
dfm['car name']

### Filtrando colunas e linhas

  - quero o nome do carro, mpg, cylinders
  - quero também as 5 primeiras linhas
  - repare que posso encadeiar comandos

In [None]:
dfm.columns

In [None]:
# mudando a ordem dos campos
dfm[ ['car name', 'mpg', 'cylinders',]].iloc[:5]

## Criando dataframes

### Quero inventar 5 carros
  - Definirei aleatoriamente os cilindros
  - Definirei aleatoriamente a autonomia (displacement)
  - e ao fim vou gravar

In [None]:
carros = ['fusquinha', 'jaguar', 'opala', 'jet-car', 'chevy']
carros, type(carros), len(carros)

In [None]:
# criando uma lista de numeros randômicos entre 4 e 12
cilindros = np.random.randint(4, 12+1, 5)
cilindros

In [None]:
# a autonomia seque uma equação linear descrescente
# quanto mais cilindros cai e 10 km a autonomia
# um tanque de 40 litros tem uma autonomia 400 km

# se 5 cilindros
cil = 5
autonomia = 400 - 10*(cil-4)
autonomia

In [None]:
autonomias = [400 - 10*(cil-4) for cil in cilindros]
autonomias

In [None]:
#-- montando o dataframe
dfmycars = pd.DataFrame([carros, cilindros, autonomias])
dfmycars

### Alguns problemas
  - carros tivem nas linhas e não nas colunas
  - sem titulos nas colunas (columns estão vazios)

In [None]:
# tabela.T --> transpose
dfmycars = pd.DataFrame([carros, cilindros, autonomias]).T
dfmycars

In [None]:
dfmycars = pd.DataFrame([carros, cilindros, autonomias]).T
dfmycars.columns = ['nome_carro', 'cilindros', 'autonomia_km']
dfmycars

### gravando em ../data

In [None]:
### se a tabela existe, mate-a
fname = "../data/mycars.tsv"

if os.path.exists(fname):
    print("existe, deletando ....")
    os.remove(fname)
else:
    print("não existe")

In [None]:
# erro ! se o arquivo não existir
# os.remove(fname)

### arquivo existe?
  - os.path.exists(fname)
  - return --> True ou False

In [None]:
existia = os.path.exists(fname)
# gravando tabela: df.to_csv()
ret = dfmycars.to_csv(fname, sep='\t')
existia, ret, os.path.exists(fname)

In [None]:
dfmycars2 = pd.read_csv(fname, sep='\t')
dfmycars2

In [None]:
# não grave o índice
ret = dfmycars.to_csv(fname, sep='\t', index=False)
dfmycars2 = pd.read_csv(fname, sep='\t')
dfmycars2

### Qual o problema do comando acima?
### Você sobrescreveu a tabela e o Python/Pandas nada avisou

In [None]:
plt.plot(dfmycars2.cilindros, dfmycars2.autonomia_km)
plt.xlabel("cilindros")
plt.ylabel("autonomia (km)")
plt.xlim(4, 12)
plt.title("meus carros - adoro fuskinha")

### Como amplio e gravo esta figura??

In [None]:
fig = plt.figure(figsize=(10,8))

plt.plot(dfmycars2.cilindros, dfmycars2.autonomia_km)
plt.xlabel("cilindros")
plt.ylabel("autonomia (km)")
plt.title("meus carros - adoro fuskinha");

### removendo arquivos e pastas

  - os.remove(file) = remove um arquivo
  - os.rmdir(direcory) = remove um diretório vazio
  - shutil.rmtree('/folder_name') = remove um diretório com dados 

In [None]:
# mas, para isto, preciso da biblioteca (pacote) shutil
# rm dir --> não existe em 'os'
import shutil

if os.path.exists("../figure"):
    shutil.rmtree("../figure")

### Salvar uma figura com DPI = 150 (dotch per inch)
  - figura salva: plt.savefig()
  - dpi = resolução ~ revistas científicas elas querem entre 300 e 600 dpi

In [None]:
### opsss deu erro ! não tenho este diretório
plt.savefig("../figure/meucarro.png", dpi=150)

In [None]:
#-- há duas formas de sair deste erro:
#-- 1a. perguntando se o diretório existe,

dir_figura = "../figure/"
if not os.path.exists(dir_figura):
    os.mkdir(dir_figura)

plt.savefig("../figure/meucarro.png", dpi=150)

### Como contornar o problema de criar diretórios

In [None]:
dir_figura = "../figure/"
if not os.path.exists(dir_figura):
    os.mkdir(dir_figura)

In [None]:
#-- 2a. com try / except
try:
    # tente (try) 
    os.mkdir(dir_figura)
except:
    # se der erro, passe, vá adiante
    print("já existo")
    pass

### Código correto ... + salvando arquivo 'png'

In [None]:
try:
    os.mkdir("../figure")
except:
    pass

figname = "../figure/carro_rendimento_por_cilindro.png"

fig = plt.figure(figsize=(10,8))

plt.plot(dfmycars2.cilindros, dfmycars2.autonomia_km)
plt.xlabel("cilindros")
plt.ylabel("autonomia (km)")
plt.title("meus carros - adoro fuskinha");
plt.savefig(figname, dpi=150);

### Melhorando o plot, controlando fontes (tipo de lebra, tamanho e cor)

In [None]:
font_title = {'family': 'serif',
              'color':  'darkred',  # vermelho escuro
              'size': 20,
             }

font_xlab = {'family': 'serif',
             'color':  'navy',   # navy .... azul escuro / naval
             'size': 16,
            }

font_ylab = {'family': 'serif',
             'color':  'blue',
             'size': 16,
            }

try:
    os.mkdir("../figure")
except:
    pass

figname = "../figure/carro_rendimento_por_cilindro_better_font.png"

fig = plt.figure(figsize=(10,8))

plt.plot(dfmycars2.cilindros, dfmycars2.autonomia_km)
plt.xlabel("cilindros", fontdict=font_xlab)
plt.ylabel("autonomia (km)", fontdict=font_ylab)
plt.title("meus carros - adoro fuskinha", fontdict=font_title);
plt.savefig(figname, dpi=150);


### O que é dictionary? para que serve?

font_ylab = {'family': 'serif',  
             'color':  'blue',  
             'size': 16,  
            }

dict == {}

In [None]:
os.path.exists(figname)

### Abrindo um arquivo imagem com PIL.image

In [None]:
from PIL import Image

im = Image.open(figname)
im