## Exemplos de como ler ficheiros CSV
Com aplicação direta ao trabalho! :) 

In [None]:
import csv
import json
import pandas as pd

In [None]:
import os
cwd = os.getcwd()
print("Estou na diretoria", cwd)

### Como ler um ficheiro com os dados ...
#### Solução 1 - Fazendo a leitura diretamente para um dataframe

In [None]:
df = pd.read_csv("../data/en-sentiment/amazon_reviews_test.csv", encoding="utf-8")
df.head()

In [None]:
df = pd.read_csv("../data/en-sentiment/imdb_reviews_test.csv", encoding="utf-8")
df.head()

In [None]:
df = pd.read_csv("../data/en-sentiment/Tweets_EN_sentiment_test.csv", encoding="utf-8")
df.head()

In [None]:
df = pd.read_csv("../data/en-sentiment/SFU_Review_Corpus_test.csv", encoding="utf-8")
df.head()

In [None]:
df = pd.read_csv("../data/en-sentiment/IMDB-sample_test.csv", encoding="utf-8")
df.head()

#### Solução 2 - leitura linha a linha

In [None]:
data=[]
with open("../data/en-sentiment/amazon_reviews_test.csv", encoding="utf-8") as csvfile:
    reader = csv.DictReader(csvfile )
    for d in reader:
        data.append( (d["sentiment"],d["review"]) )
data[:3]

### Como ler o Léxico de sentimentos ?

#### Solução 1 - Fazendo a leitura diretamente para um dataframe

In [None]:
data = pd.read_csv("../data/en/NCR-lexicon.csv", encoding="utf-8")
data.sample(5)

Agora podemos calcular o sentimento de cada palavra com base nas colunas `Positive`e `Negative`

In [None]:
data.set_index("English", inplace=True)
lex1 = data["Positive"] - data["Negative"]
lex1.sample(5)

Isto vai funcionar mas não é muito eficiente, pois os dataframes e as séries são pouco eficientes.

A nossa solução final é representar tudo com um dicionário, o que tornará o nosso código muito mais rápido...

In [None]:
lex2 = lex1.to_dict()

Não acreditam? Vejam a diferença de desempenho...

In [None]:
%%time
for i in range(10000000):
    x = lex2['faithful']

In [None]:
%%time
for i in range(10000000):
    x = lex1['faithful']

Como usar este lexico para processar um texto? 

#### Solução alternativa - leitura linha a linha

In [None]:
lex={}
with open("../data/en/NCR-lexicon.csv", encoding="utf-8") as csvfile:
    reader = csv.DictReader(csvfile, delimiter="," )
    for i, d in enumerate(reader):
        lex[ d["English"] ] = int(d["Positive"]) - int(d["Negative"])
lex