### Esse jupyter notebook tem o objetivo de exemplificar algumas formas de leitura de arquivos texto.
autor: prof. Lucas Silveira Kupssinskü

In [1]:
from dataclasses import dataclass
import pandas as pd


### O primeiro arquivo que vamos abrir é o pessoa.txt

Esse arquivo armazena dados de três pessoas, observe o conteúdo abaixo:

```
nome: linus torvalds
dt_nascimento: 28-dez-1969
profissao: engenheiro de software

nome: alan mathison turing
dt_nascimento: 23-jun-1912
profissao: matematico

nome: timothy john berners-lee
dt_nascimento: 12-mar-1989
profissao: físico
```

### Vamos iniciar criando a classe ''Pessoa'' que vai armazenar as informações da pessoa que constam nos arquivos. 

In [2]:
# dataclass que vai armazenar as informacoes da pessoa
@dataclass
class Pessoa:
    nome: str
    dt_nascimento: str
    profissao: str

    def __str__(self):
        return f'Nome: {self.nome}, Data de Nascimento: {self.dt_nascimento}, Profissão: {self.profissao}'


### Podemos iterar pelas linhas do arquivo usando um for.
### A função open permite abrir um arquivo utilizando um encoding específico.

In [3]:
with open('./pessoa.txt', 'r', encoding='utf-8') as file:
    print(file.encoding)
    for idx, line in enumerate(file):
        print(idx, line.strip())

utf-8
0 nome: linus torvalds
1 dt_nascimento: 28-dez-1969
2 profissao: engenheiro de software
3 
4 nome: alan mathison turing
5 dt_nascimento: 23-jun-1912
6 profissao: matematico
7 
8 nome: timothy john berners-lee
9 dt_nascimento: 12-mar-1989
10 profissao: físico


In [15]:
def get_line_content(line):
    return line.split(':')[1].strip()
    
with open('./pessoa.txt', 'r', encoding='utf-8') as file:
    lines = file.readlines()
    num_pessoas = len(lines) // 4 + 1
    for i in range(num_pessoas):
        idx = i * 4
        nome = get_line_content(lines[idx])
        dt_nascimento = get_line_content(lines[idx+1])
        profissao = get_line_content(lines[idx+2])
        pessoa = Pessoa(nome,dt_nascimento,profissao)
        print(pessoa)
    

Nome: linus torvalds, Data de Nascimento: 28-dez-1969, Profissão: engenheiro de software
Nome: alan mathison turing, Data de Nascimento: 23-jun-1912, Profissão: matematico
Nome: timothy john berners-lee, Data de Nascimento: 12-mar-1989, Profissão: físico


### Podemos importar arquivos csv da mesma forma, contudo é bem mais comum trabalharmos com numpy ou pandas para esses tipos de conjuntos de dados.
### Repare que, ao realizar a leitura do arquivo csv usando pandas, temos acesso aos dados em formato de uma tabela, via a estrutura de dataframe.

In [3]:
df = pd.read_csv('./pessoa.csv',sep=',')
df

Unnamed: 0,nome,dt_nascimento,profissao
0,linus torvalds,28-dez-1969,engenheiro de software
1,alan mathison turing,23-jun-1912,matemático
2,timothy john berners-lee,12-mar-1989,físico
3,lucas kupssinsku,25-01-1989,professor


In [5]:
print('colunas', df.columns)
df.info()


colunas Index(['nome', 'dt_nascimento', 'profissao'], dtype='object')
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 4 entries, 0 to 3
Data columns (total 3 columns):
 #   Column         Non-Null Count  Dtype 
---  ------         --------------  ----- 
 0   nome           4 non-null      object
 1   dt_nascimento  4 non-null      object
 2   profissao      4 non-null      object
dtypes: object(3)
memory usage: 228.0+ bytes


### Podemos consultar de forma independente cada uma das colunas do dataframe

In [6]:
df['nome']

0              linus torvalds
1        alan mathison turing
2    timothy john berners-lee
3            lucas kupssinsku
Name: nome, dtype: object

In [7]:
df.describe()

Unnamed: 0,nome,dt_nascimento,profissao
count,4,4,4
unique,4,4,4
top,linus torvalds,28-dez-1969,engenheiro de software
freq,1,1,1
