# Opinião de usuários de twitter sobre empresas americanas de aviação

Este caderno contêm o trabalho dos alunos Henrique Hideki, Lucas Nascimento e Mauro Floriano, estudantes do curso
de Engenharia de Computação da instituição CEFET-MG, para a matéria de Aprendizado de Máquina lecionado pelo 
professor Daniel Hasan Dalip. 

O trabalho será baseado em um dataset público disponibilizado no site: 
https://www.figure-eight.com/data-for-everyone/.
    
Este dataset contêm textos inscritos por usuários da rede social Twitter, os chamados tweets, durante o ano de
2015 sobre algumas das principais empresas americanas de aviação. Nele possuimos diversas informações como o próprio texto que contêm a opinião ou comentário do usuário sobre entre outros dados como pode ser visto abaixo:

In [1]:
import pandas as pd

df = pd.read_csv("tweets.csv", encoding = "ISO-8859-1")
df.head()

Unnamed: 0,_unit_id,_golden,_unit_state,_trusted_judgments,_last_judgment_at,airline_sentiment,airline_sentiment:confidence,negativereason,negativereason:confidence,airline,airline_sentiment_gold,name,negativereason_gold,retweet_count,text,tweet_coord,tweet_created,tweet_id,tweet_location,user_timezone
0,681448150,False,finalized,3,2/25/15 5:24,neutral,1.0,,,Virgin America,,cairdin,,0,@VirginAmerica What @dhepburn said.,,2/24/15 11:35,5.70306e+17,,Eastern Time (US & Canada)
1,681448153,False,finalized,3,2/25/15 1:53,positive,0.3486,,0.0,Virgin America,,jnardino,,0,@VirginAmerica plus you've added commercials t...,,2/24/15 11:15,5.70301e+17,,Pacific Time (US & Canada)
2,681448156,False,finalized,3,2/25/15 10:01,neutral,0.6837,,,Virgin America,,yvonnalynn,,0,@VirginAmerica I didn't today... Must mean I n...,,2/24/15 11:15,5.70301e+17,Lets Play,Central Time (US & Canada)
3,681448158,False,finalized,3,2/25/15 3:05,negative,1.0,Bad Flight,0.7033,Virgin America,,jnardino,,0,@VirginAmerica it's really aggressive to blast...,,2/24/15 11:15,5.70301e+17,,Pacific Time (US & Canada)
4,681448159,False,finalized,3,2/25/15 5:50,negative,1.0,Can't Tell,1.0,Virgin America,,jnardino,,0,@VirginAmerica and it's a really big bad thing...,,2/24/15 11:14,5.70301e+17,,Pacific Time (US & Canada)


## Contextualização e Motivação 

Com os dados disponibilizados nesse dataset, podemos fazer diversos estudos e análises, como saber das opiniões positivas e negativas de cada empresa, quais são os pontos que são mais falados, também podemos interpertar o texto de maneira a tentar entender se aquele comentário é positivo, negativo ou neutro.

Essa parte da inteligência artifical que tenta entender a opinião expressa em um texto de maneira a caracterizar o texto como neutro, positivo ou negativo é chamado de análise de sentimento. Essa área tem ganhado cada vez mais visibilidade, com o crescente número de dados disponibilizados pelo mundo. 

## Dados

Como é possível verificar acima, os dados iniciais do dataset disponibilizado contêm diversas informações. Para a parte de análise de sentimento utilizaremo apenas duas colunas, text, que contêm o texto do tweet de cada usuário e a coluna airline_sentiment, que contêm o sentimento daquele texto já mapeado.

Apesar de utilizar apenas essas duas colunas para essa parte do trabalho, ao analisarmos algumas outras colunas, conseguimos tirar algumas conclusões válidas para o desenvolvimento, uma das colunas que tem dados importantes é a airline_sentiment:confidence, nela nos é informado a confiança do sentimento previamente analisado. Vamos analisar um pouco os dados dessa coluna abaixo: 

In [2]:
df_confindence_low = df[df["airline_sentiment:confidence"] < 0.60]

df_confindence_low.size

4760

Como é possível concluir, existem 4760 registros com uma confiabilidade menor que 60%, para nosso trabalho iremos remover esses registros para tentar tornar nosso algoritmo mais confíavel. o novo dataframe poderá ser visto a seguir

In [3]:
df_work = df[df["airline_sentiment:confidence"] >= 0.60]

df_work.head()

Unnamed: 0,_unit_id,_golden,_unit_state,_trusted_judgments,_last_judgment_at,airline_sentiment,airline_sentiment:confidence,negativereason,negativereason:confidence,airline,airline_sentiment_gold,name,negativereason_gold,retweet_count,text,tweet_coord,tweet_created,tweet_id,tweet_location,user_timezone
0,681448150,False,finalized,3,2/25/15 5:24,neutral,1.0,,,Virgin America,,cairdin,,0,@VirginAmerica What @dhepburn said.,,2/24/15 11:35,5.70306e+17,,Eastern Time (US & Canada)
2,681448156,False,finalized,3,2/25/15 10:01,neutral,0.6837,,,Virgin America,,yvonnalynn,,0,@VirginAmerica I didn't today... Must mean I n...,,2/24/15 11:15,5.70301e+17,Lets Play,Central Time (US & Canada)
3,681448158,False,finalized,3,2/25/15 3:05,negative,1.0,Bad Flight,0.7033,Virgin America,,jnardino,,0,@VirginAmerica it's really aggressive to blast...,,2/24/15 11:15,5.70301e+17,,Pacific Time (US & Canada)
4,681448159,False,finalized,3,2/25/15 5:50,negative,1.0,Can't Tell,1.0,Virgin America,,jnardino,,0,@VirginAmerica and it's a really big bad thing...,,2/24/15 11:14,5.70301e+17,,Pacific Time (US & Canada)
5,681448162,False,finalized,3,2/25/15 9:10,negative,1.0,Can't Tell,0.6842,Virgin America,,jnardino,,0,@VirginAmerica seriously would pay $30 a fligh...,,2/24/15 11:14,5.70301e+17,,Pacific Time (US & Canada)


Com o novo dataset, apenas com os dados que utilizaremos no trabalho, vamos agora para trabalhar um pouco na limpeza do texto dos tweets, uma prática muito comum para esse tipo de dado, como é possível analisar na tese de https://www.teses.usp.br/teses/disponiveis/55/55134/tde-27092016-143947/publico/NadiaFelixFelipedaSilva_Revisada.pdf, de Nadia Felix Felipe da Silva. para esse estudos iremos remover as menções, os links para sites e utilizaremos o Beautiful soap, uma biblioteca que nos ajudará a remover os algumas outros caracteres indesejados.

In [7]:
import re
from bs4 import BeautifulSoup

df_work["text_final"] = df_work['text'].apply(lambda x: BeautifulSoup(x, "lxml").text)
df_work["text_final"] = [re.sub( r"@[\w]*", "", str(x)) for x in df_work['text_final']]
df_work["text_final"] = [re.sub( r"http\S+", "", str(x)) for x in df_work['text_final']]



A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: http://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  after removing the cwd from sys.path.
A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: http://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  """
A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: http://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  


Depois de limpar o texto e criar uma nova coluna para o mesmo alterado. Iremos colocar valor para o sentimento, alterando de neutro, negativo e positivo para 0, 1, 2 respectivamente.

In [12]:
df_work["sentiment"] = df_work["airline_sentiment"].apply(lambda x: 1 if x=="negative" else (0 if x=="neutro" else 2) )

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: http://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  """Entry point for launching an IPython kernel.


Após finalizar as alterações no dado, vamos criar nosso dataframe que vamos utilizar para o algoritmo, com os dados que modificamos nas etapas anteriores.

In [14]:
df_work = df_work.loc[:, ['text_final', 'sentiment']]

df_work.head()

Unnamed: 0,text_final,sentiment
0,What said.,2
2,I didn't today... Must mean I need to take an...,2
3,"it's really aggressive to blast obnoxious ""en...",1
4,and it's a really big bad thing about it,1
5,seriously would pay $30 a flight for seats th...,1
