## Leitura de Arquivos com Pandas

In [1]:
# Importando a biblioteca Pandas
import pandas as pd

In [2]:
# Lendo o arquivo Sanduiches.txt
faturas = pd.read_table('Datasets/Sanduiches.txt')

In [3]:
faturas.head()

Unnamed: 0,order_id,quantity,item_name,choice_description,item_price
0,1,1,Chips and Fresh Tomato Salsa,,$2.39
1,1,1,Izze,[Clementine],$3.39
2,1,1,Nantucket Nectar,[Apple],$3.39
3,1,1,Chips and Tomatillo-Green Chili Salsa,,$2.39
4,2,2,Chicken Bowl,"[Tomatillo-Red Chili Salsa (Hot), [Black Beans...",$16.98


In [10]:
# lendo o arquivo users.txt

usuarios = pd.read_table('Datasets/Users.txt', sep='|', header=None,
                        names=['id','idade','sexo','profissao','cep'])

In [11]:
usuarios.head()

Unnamed: 0,id,idade,sexo,profissao,cep
0,1,24,M,technician,85711
1,2,53,F,other,94043
2,3,23,M,writer,32067
3,4,24,M,technician,43537
4,5,33,F,other,15213


### Lendo outro tipo de arquivo

In [12]:
ufo = pd.read_csv('Datasets/ufo.csv')

In [13]:
ufo.head()

Unnamed: 0,City,Colors Reported,Shape Reported,State,Time
0,Ithaca,,TRIANGLE,NY,6/1/1930 22:00
1,Willingboro,,OTHER,NJ,6/30/1930 20:00
2,Holyoke,,OVAL,CO,2/15/1931 14:00
3,Abilene,,DISK,KS,6/1/1931 13:00
4,New York Worlds Fair,,LIGHT,NY,4/18/1933 19:00


### E caso o arquivo tenha posições fixas?

In [14]:
df = pd.read_fwf('Datasets/LarguraFixa.txt')

In [15]:
df.head()

Unnamed: 0,USAF,WBAN,STATION NAME,CTRY,ST,CALL,LAT,LON,ELEV(M),BEGIN,END
0,7005,99999,CWOS 07005,,,,,,,20120127,20120127
1,7011,99999,CWOS 07011,,,,,,,20111025,20121129
2,7018,99999,WXPOD 7018,,,,0.0,0.0,7018.0,20110309,20130730
3,7025,99999,CWOS 07025,,,,,,,20120127,20120127
4,7026,99999,WXPOD 7026,AF,,,0.0,0.0,7026.0,20120713,20141120


### E caso o arquivo seja separado por espaços irregulares?

In [16]:
df = pd.read_csv('Datasets/SepEspaco.txt')

In [17]:
df.head()

Unnamed: 0,Year Month Day Hour Temp DewTemp Pressure WindDir WindSpeed Sky Precip1 Precip6
0,1912 4 1 6 114 94 10121 200 120 8 -9999 -9999
1,1912 4 1 9 146 96 10122 240 140 8 -9999 -9999
2,1912 4 2 6 172 122 10146 210 40 2 -9999 40
3,1912 4 2 9 193 -9999 10150 240 210 1 -9999 0
4,1912 4 2 12 188 125 10152 240 250 1 -9999 0


In [20]:
# Utilizaremos expressão regular pegando todos os espaços com '\s+'

regex = '\s+'
df = pd.read_csv('Datasets/SepEspaco.txt', sep=regex)

In [21]:
df.head()

Unnamed: 0,Year,Month,Day,Hour,Temp,DewTemp,Pressure,WindDir,WindSpeed,Sky,Precip1,Precip6
0,1912,4,1,6,114,94,10121,200,120,8,-9999,-9999
1,1912,4,1,9,146,96,10122,240,140,8,-9999,-9999
2,1912,4,2,6,172,122,10146,210,40,2,-9999,40
3,1912,4,2,9,193,-9999,10150,240,210,1,-9999,0
4,1912,4,2,12,188,125,10152,240,250,1,-9999,0


## Manipulação avançada de arquivos

In [22]:
# Cria um arquivo quando o arquivo não existe, o paeâmetro 'w' cria um.
# arquivo = open('c:\\raw\\teste.txt','w') -> DIRETÓRIO C:/raw
arquivo = open('raw\\teste.txt','w')

In [23]:
arquivo.close()

In [25]:
arquivo = open('raw\\teste.txt','w')

In [26]:
# Insere o conteúdo no arquivo alocado na memória
# Para visualizar o conteúdo diretamente no diretório ainda não será possível
arquivo.write('Teste inserindo conteúdo no arquivo criado')

42

In [31]:
# O registro se faz de fato após fechar o arquivo
arquivo.close()

In [34]:
# Podemos abrir o arquivo em modo leitura e armazenar o conteudo em uma variável
arquivo = open('raw\\teste.txt','r')
conteudo = arquivo.read()
arquivo.close()

In [35]:
conteudo

'Teste inserindo conteúdo no arquivo criado'

In [40]:
arquivo = open('raw\\teste.txt','w')
arquivo.write('Inserindo nova linha')
arquivo.close()

In [41]:
# Ao abrir o arquivo, vemos que a linha foi sobrescrita.
# Para escrever uma nova linha se faz necessário o uso do APPEND
# como modo 'a' juntamente com o \n no início da linha

arquivo = open('raw\\teste.txt','a')
arquivo.write('\nEscrevendo outra linha com o append')
arquivo.close()

### Devemos indicar o caminho do arquivo, caso contrário, ele será criado em nosso diretório de trabalho

In [42]:
# Podemos simplificar

with open('raw\\teste.txt', 'w') as arq:
    arq.write('Utilizando o WITH')

### Interagindo com o SO

In [43]:
# Importa biblioteca que interage com o sistema operacional
import os

In [44]:
# Verificando o diretório atual
os.getcwd()

'H:\\DS_A-Z\\Projetos'

In [45]:
dir(os)

['DirEntry',
 'F_OK',
 'MutableMapping',
 'O_APPEND',
 'O_BINARY',
 'O_CREAT',
 'O_EXCL',
 'O_NOINHERIT',
 'O_RANDOM',
 'O_RDONLY',
 'O_RDWR',
 'O_SEQUENTIAL',
 'O_SHORT_LIVED',
 'O_TEMPORARY',
 'O_TEXT',
 'O_TRUNC',
 'O_WRONLY',
 'P_DETACH',
 'P_NOWAIT',
 'P_NOWAITO',
 'P_OVERLAY',
 'P_WAIT',
 'PathLike',
 'R_OK',
 'SEEK_CUR',
 'SEEK_END',
 'SEEK_SET',
 'TMP_MAX',
 'W_OK',
 'X_OK',
 '_Environ',
 '__all__',
 '__builtins__',
 '__cached__',
 '__doc__',
 '__file__',
 '__loader__',
 '__name__',
 '__package__',
 '__spec__',
 '_execvpe',
 '_exists',
 '_exit',
 '_fspath',
 '_get_exports_list',
 '_putenv',
 '_unsetenv',
 '_wrap_close',
 'abc',
 'abort',
 'access',
 'altsep',
 'chdir',
 'chmod',
 'close',
 'closerange',
 'cpu_count',
 'curdir',
 'defpath',
 'device_encoding',
 'devnull',
 'dup',
 'dup2',
 'environ',
 'error',
 'execl',
 'execle',
 'execlp',
 'execlpe',
 'execv',
 'execve',
 'execvp',
 'execvpe',
 'extsep',
 'fdopen',
 'fsdecode',
 'fsencode',
 'fspath',
 'fstat',
 'fsync',
 'ft

In [46]:
dir(pd)

['BooleanDtype',
 'Categorical',
 'CategoricalDtype',
 'CategoricalIndex',
 'DataFrame',
 'DateOffset',
 'DatetimeIndex',
 'DatetimeTZDtype',
 'ExcelFile',
 'ExcelWriter',
 'Float64Index',
 'Grouper',
 'HDFStore',
 'Index',
 'IndexSlice',
 'Int16Dtype',
 'Int32Dtype',
 'Int64Dtype',
 'Int64Index',
 'Int8Dtype',
 'Interval',
 'IntervalDtype',
 'IntervalIndex',
 'MultiIndex',
 'NA',
 'NaT',
 'NamedAgg',
 'Period',
 'PeriodDtype',
 'PeriodIndex',
 'RangeIndex',
 'Series',
 'SparseDtype',
 'StringDtype',
 'Timedelta',
 'TimedeltaIndex',
 'Timestamp',
 'UInt16Dtype',
 'UInt32Dtype',
 'UInt64Dtype',
 'UInt64Index',
 'UInt8Dtype',
 '__builtins__',
 '__cached__',
 '__doc__',
 '__docformat__',
 '__file__',
 '__getattr__',
 '__git_version__',
 '__loader__',
 '__name__',
 '__package__',
 '__path__',
 '__spec__',
 '__version__',
 '_config',
 '_hashtable',
 '_lib',
 '_libs',
 '_np_version_under1p14',
 '_np_version_under1p15',
 '_np_version_under1p16',
 '_np_version_under1p17',
 '_np_version_under1p

In [53]:
# Navegando entre diretórios

os.chdir('H:\\DS_A-Z\\')
os.getcwd()

'H:\\DS_A-Z'

In [55]:
# Criando diretórios
%time
os.mkdir('H:\\DS_A-Z\\ProjDataScience')
os.chdir('H:\\DS_A-Z\\ProjDataScience')
with open('arquivo.txt','w') as arq:
    arq.write('Arquivo criado')

Wall time: 0 ns


In [56]:
# Verificando os arquivos em um diretório
os.listdir()

['arquivo.txt']

In [57]:
# Removendo arquivos
os.remove('arquivo.txt')

In [58]:
os.listdir()

[]

In [59]:
dir(os.path)

['__all__',
 '__builtins__',
 '__cached__',
 '__doc__',
 '__file__',
 '__loader__',
 '__name__',
 '__package__',
 '__spec__',
 '_abspath_fallback',
 '_get_bothseps',
 '_getfinalpathname',
 '_getfullpathname',
 '_getvolumepathname',
 'abspath',
 'altsep',
 'basename',
 'commonpath',
 'commonprefix',
 'curdir',
 'defpath',
 'devnull',
 'dirname',
 'exists',
 'expanduser',
 'expandvars',
 'extsep',
 'genericpath',
 'getatime',
 'getctime',
 'getmtime',
 'getsize',
 'isabs',
 'isdir',
 'isfile',
 'islink',
 'ismount',
 'join',
 'lexists',
 'normcase',
 'normpath',
 'os',
 'pardir',
 'pathsep',
 'realpath',
 'relpath',
 'samefile',
 'sameopenfile',
 'samestat',
 'sep',
 'split',
 'splitdrive',
 'splitext',
 'stat',
 'supports_unicode_filenames',
 'sys']

In [60]:
fullpath = 'raw\\teste.txt'

# Basename consegue pegar o nome do arquivo em um caminho completo
arquivo = os.path.basename(fullpath)
arquivo

'teste.txt'

In [64]:
fullpath[-len(arquivo):]

'teste.txt'

In [67]:
# Separando a extenção do nome
os.path.splitext(
    fullpath[-len(os.path.basename(fullpath)):]
)

('teste', '.txt')

In [68]:
os.path.splitext(
    fullpath[-len(os.path.basename(fullpath)):]
)[0]

'teste'

In [70]:
fullpath

'raw\\teste.txt'

In [71]:
os.getcwd()

'H:\\DS_A-Z\\ProjDataScience'

In [69]:
# Verifica se um diretório existe
os.path.exists(fullpath)

False

In [72]:
os.chdir('H:\\DS_A-Z\\')
os.getcwd()

'H:\\DS_A-Z'

In [73]:
os.chdir('H:\\DS_A-Z\\Projetos')
os.getcwd()

'H:\\DS_A-Z\\Projetos'

In [74]:
# Verifica se um diretório existe
os.path.exists(fullpath)

True

In [75]:
# Caso não exista cria

path = 'H:\\DS_A-Z\\Projetos\\DadosRaw'

if not os.path.exists(path):
    os.mkdir(path)

In [77]:
os.listdir()

['.ipynb_checkpoints',
 '20200829 Clientes_Banco',
 '20200901 Clientes_Africa',
 '20200901 Clientes_Transacoes',
 '20200901 Produtos_Estoque',
 'DadosRaw',
 'Datasets',
 'Exercícios_PYTHON.ipynb',
 'Oragnizando_dados_PYTHON.ipynb',
 'Pandas.ipynb',
 'raw',
 'README.md',
 'YYYYMMDD Nome do Projeto']

In [78]:
os.chdir('raw')

In [79]:
os.getcwd()

'H:\\DS_A-Z\\Projetos\\raw'

In [80]:
with open('H:\\DS_A-Z\\Projetos\\raw\\teste.txt', 'w') as arq:
    arq.write('Utilizando WITH')

In [81]:
# Renomeando arquivos e diretórios
os.rename('teste.txt','teste.csv')

In [82]:
os.listdir()

['teste.csv']

In [89]:
arquivo = 'teste.csv'

In [90]:
nome = os.path.splitext(arquivo)[0]

In [91]:
nome

'teste'

In [92]:
novonome = nome + '.txt'

In [93]:
novonome

'teste.txt'

In [94]:
os.rename(arquivo,novonome)

In [95]:
os.listdir()

['teste.txt']

In [96]:
import glob
import os

In [97]:
os.chdir('H:\\DS_A-Z\\Projetos\\Iteracao')

In [98]:
os.getcwd()

'H:\\DS_A-Z\\Projetos\\Iteracao'

In [99]:
os.listdir()

['Arquivo01.docx',
 'Arquivo02.xlsx',
 'Arquivo03.pptx',
 'Arquivo04.rar',
 'Avaliacoes.csv',
 'Diretoria.csv',
 'Faturamento.csv',
 'Funcionarios.csv',
 'Recursos Humanos.csv',
 'Vendedores.csv']

In [117]:
# Utilizando o glob
txtlist = glob.glob('*.csv')

In [118]:
print(txtlist)

['Avaliacoes.csv', 'Diretoria.csv', 'Faturamento.csv', 'Funcionarios.csv', 'Recursos Humanos.csv', 'Vendedores.csv']


In [119]:
# Iterando a lista

[os.rename(
    arquivo, f'{os.path.splitext(arquivo)[0]}.txt'
) for arquivo in txtlist]
os.listdir()

['Arquivo01.docx',
 'Arquivo02.xlsx',
 'Arquivo03.pptx',
 'Arquivo04.rar',
 'Avaliacoes.txt',
 'Diretoria.txt',
 'Faturamento.txt',
 'Funcionarios.txt',
 'Recursos Humanos.txt',
 'Vendedores.txt']

In [111]:
os.listdir()

['Arquivo01.docx',
 'Arquivo02.xlsx',
 'Arquivo03.pptx',
 'Arquivo04.rar',
 'Avaliacoes.txt',
 'Diretoria.txt',
 'Faturamento.txt',
 'Funcionarios.txt',
 'Recursos Humanos.txt',
 'Vendedores.txt']