# Capítulo 6 - Trabalhando com dados reais

## Código para carregar uma pequena quantidade de dados na memória

In [8]:
with open('colors.txt', 'r') as open_file:
    print('colors.txt content:\n' + open_file.read())

colors.txt content:
Color	Value
Red	1
Orange	2
Yellow	3
Green	4
Blue	5
Purple	6
Black	7
White	8


## Fazendo streaming de grandes quantidades de dados na memória

Alguns conjuntos de dados serão muito grandes para se carregar na memória, então sua leitura pode ser feita conforme a necessidade, como no exemplo a seguir:

In [9]:
with open('colors.txt', 'r') as open_file:
    for observation in open_file:
        print('Reading Data: ' + observation)

Reading Data: Color	Value

Reading Data: Red	1

Reading Data: Orange	2

Reading Data: Yellow	3

Reading Data: Green	4

Reading Data: Blue	5

Reading Data: Purple	6

Reading Data: Black	7

Reading Data: White	8


Neste caso, as linhas foram lidas a cada loop que o for realizava, sendo possível limitar a quantidade de loops se necessário.

## Lendo a partir de um arquivo de texto

Usando o método read_table() do pandas:

In [11]:
import pandas as pd
color_table = pd.io.parsers.read_table("colors.txt")
print(color_table)

    Color  Value
0     Red      1
1  Orange      2
2  Yellow      3
3   Green      4
4    Blue      5
5  Purple      6
6   Black      7
7   White      8


Após uma rápida pesquisa, vi quea função read_table() pode ser substituído pela função read_csv(), tendo sua saída demonstrada a seguir


In [13]:
pd.read_csv("colors.txt", delimiter="\t")  # usando o delimitador tab para separação das colunas

Unnamed: 0,Color,Value
0,Red,1
1,Orange,2
2,Yellow,3
3,Green,4
4,Blue,5
5,Purple,6
6,Black,7
7,White,8


# Lendo formato delimitado CSV

Um arquivo csv possui mais formatação que um arquivo de texto simples. O arquivo usado neste exemplo possui a seguinte formatação:
- Um título define cada um dos campos
- Os campos são separados por vírgula
- Os registros são separados por quebra de linha(\n)
- As strings ficam entre aspas
- Números inteiros e reais aparecem sem aspas

In [17]:
import pandas as pd
titanic = pd.read_csv("Titanic.csv")
titanic[['age']]

Unnamed: 0,age
0,29.0000
1,0.9167
2,2.0000
3,30.0000
4,25.0000
...,...
1304,14.5000
1305,9999.0000
1306,26.5000
1307,27.0000


__Nota__: titanic['age'] e titanic[['age']] fornecem saídas diferentes, sendo uma _Series_ e um _DataFrame_, respectivamente

In [19]:
# Caso queira que a saída seja uma lista com os valores:
titanic[['age']].values

array([[29.        ],
       [ 0.91670001],
       [ 2.        ],
       ...,
       [26.5       ],
       [27.        ],
       [29.        ]])

## Bancos de dados relacionais

Criar uma conexão com um banco de dados não é uma tarefa tão simples, mas pode ser quebrada em pequenas etapas. A primeira etapa é conseguir acesso ao armazenamento, segue:

In [20]:
from sqlalchemy import create_engine
engine = create_engine('sqlite:///:memory:')

Após conseguir acesso, use-o para fazer consultas e análises. O métodos mais utilizados são:
- __read_sql_table()__: Lê dados de uma tabela para um DataFrame
- __read_sql_query()__: Lê dados de um banco de dados usando um sql Query para um DataFrame
- __DataFrame.to_sql()__: Escreve o conteúdo de um DataGrame em um banco de dados

A biblioteca "Sqlalchemy" fornece suporte para muitos bancos de dados como: SQLite, MySql, PostgreSQL, SQL Server, etc...