!pip install numpy
!pip install pandas
!pip install plotly
!pip install matplotlib
!pip install scikit-learn
!pip install lightgbm

In [1]:
system("jupyter" "notebook" "list")

['Currently running servers:',
 'http://localhost:8888/ :: C:\\Users\\amanda.funabashi']

# Ciência de Dados e Inteligência Artificial

## O que é Ciência de Dados?

<img src="img/What-is-Data-Science-A-2.png" width="60%" height="30%">

A Ciência de Dados é uma área de estudo abrangente e multidisciplinar, que compreende dados, algoritmos e tecnologias com capacidade de extrair informações valiosas de dados estruturados e não estruturados. As informações obtidas com análise e exploração dos dados, podem ser utilizadas para a tomada de decisões importantes, como a criação de novos produtos ou serviços, atualização de produtos, mudanças nos negócios e, até mesmo, qual será o futuro de uma organização. Ou seja, transformar dados em conhecimento.

Dessa forma, o uso da ciência de dados está presente desde a definição dos processos de coleta de dados até o tratamento destes para geração de insights.

Um dos maiores desafios da Ciência de dados está em converter os esforços em lidar com  **Big Data** e transformar em **resultados tangíveis**. Por isso, deve-se manter alinhada à estratégia da empresa e da gestão, de forma a encontrar uma solução em conjunto e colocá-la em produção.

**Exemplos de aplicações práticas da ciência de dados:**
    
- Texto
- Imagem
- Som
- Previsões
- Segmentação
- Classificação
- Cesto de compras - Sistemas de recomendação
- SNA - Análise de redes sociais
- BI
- Geolocalização

<img src="img/venn2.png" width="40%" height="20%"> 

## E qual a diferença entre Ciência de Dados, Inteligência Artificial e Machine Learning

Embora muitas vezes são trabalhados de maneira conjunta, cada um é responsável por uma função diferente:
- **Machine learning (aprendizado de máquina)**: é uma parte da Inteligência Artificial, utilizando métodos de identificação automática de padrões. Baseia-se em "ensinar" a máquina a partir de um vasto conjunto de dados, utilizando-os de forma supervisionada ou não-supervisionada
- **Inteligência Artificial**: É caracterizada como a capacidade das máquinas de realizar qualquer tarefa, de forma similar aos humanos. Fazendo uso de Machine Learning ou não.
- **Ciência de Dados**: área de estudo que utiliza recursos de análise e visualização de dados, Machine Learning e Inteligência Artificial.

<img src="img/DS_MLRelationship.webp" width="40%" height="20%">

## Mão na massa!

As linguagens de programação mais utilizadas por Cientistas de Dados são Python e R, pela fácil execução e disponibilidade de bibliotecas robustas para análise e modelagem de dados.

In [1]:
import pandas as pd
from sklearn.utils import shuffle
from sklearn.model_selection import train_test_split
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import accuracy_score, f1_score, precision_score, recall_score
from sklearn.model_selection import KFold, GridSearchCV
import lightgbm as lgbm

from unidecode import unidecode

In [2]:
pd.options.display.max_colwidth = 1000
pd.options.display.max_rows = 1000 

In [3]:
def grid_search_model (x, y, clf, parameters, scorer, cv, verbose):
    grid_obj = GridSearchCV(clf, parameters, scoring = scorer, cv =  cv, verbose= verbose)
    grid_fit = grid_obj.fit(x, y)
    print("Best score:" , grid_fit.best_score_)
    print("Best parameters:" , grid_fit.best_params_)
    return grid_fit, grid_fit.best_estimator_

In [4]:
fakes = pd.read_csv('fakes.csv')
fakes['label'] = [0 for i in fakes['label']]
trues = pd.read_csv('true.csv')
trues['label'] = [1 for i in trues['label']]

data = shuffle(pd.concat([fakes, trues])).reset_index(drop = True)
data['text'] = data['title'] + data['text']

In [20]:
data.label.value_counts()

0    20478
1     2720
Name: label, dtype: int64

In [5]:
X_train, X_test, y_train, y_test = train_test_split(data['text'], data['label'], test_size=0.33, random_state=42)

In [6]:
corpus = X_train.apply(lambda x: unidecode(x)).values

In [7]:
vectorizer = TfidfVectorizer()
X_train_tfidf = vectorizer.fit_transform(corpus)
X_test_tfidf = vectorizer.transform(X_test.values)

In [None]:
#dict(zip(vectorizer.get_feature_names(), X_train_tfidf.toarray()[0]))

In [8]:
reglog = LogisticRegression()
reglog.fit(X_train_tfidf, y_train)

LogisticRegression()

In [9]:
y_pred = reglog.predict(X_test_tfidf)

In [10]:
res = pd.DataFrame(X_test)
res['y_test'] = y_test
res['y_pred'] = y_pred
res['pred_proba'] = reglog.predict_proba(X_test_tfidf)[:, 0]

In [11]:
res

Unnamed: 0,text,y_test,y_pred,pred_proba
11278,Charge do New York Times é de 2018 e não tem a ver com desfile militar em BrasíliaThe New York Times publicou charge sobre desfile militar em Brasília,0,0,0.894223
3226,Agências de saúde dos EUA não descartaram uso de teste RT-PCR para detectar covid-19CDC alerta para ineficácia de teste PCR para diagnóstico de covid,0,0,0.951557
20412,Um carro elétrico não pode ser recarregado instalando dínamos em suas rodasA instalação de um gerador ou dínamo nas rodas de um carro elétrico permite recarregar sua bateria,0,0,0.913034
7613,"O discurso de Michel Temer, um ano depoisJá eliminamos vários ministérios da máquina pública",0,0,0.875822
247,"Os homens com tatuagens nazistas fotografados em uma praia são húngaros, não refugiados ucranianosRefugiados ucranianos com tatuagens nazistas em praia da Croácia",0,0,0.841247
...,...,...,...,...
11583,"É falso que autoridades italianas descobriram que Covid-19 é causada por bactériaOs médicos italianos desobedecem à lei mundial da saúde da OMS, para não realizar autópsias em pessoas que morreram de coronavírus, descobrindo que NÃO é um VÍRUS, mas sim uma BACTÉRIA, que causa a morte. Isso causa a formação de coágulos sanguíneos e causa a morte do paciente. (...) Fonte: Ministério da Saúde da Itália. COMPARTILHE!",0,0,0.974854
16273,Rotary Internacional está dando cesta básica para quem compartilhar link no WhatsApp #boatoO Rotary Internacional está doando cestas básicas para famílias afetadas pela crise mundial em todas as cidades do Brasil.,0,0,0.963247
18934,"De Auxílio Brasil a desmatamento, de Petrobras a impostos: saiba quais dados eram falsos no debate da Band""O menor desmatamento da Amazônia foi feito no meu governo""",0,0,0.666810
5026,Mesário não tem como anular votos e alterar a assinatura do eleitor é crime eleitoralMesários podem anular seu voto na urna eletrônica,0,0,0.908776


In [12]:
teste = vectorizer.transform(['Portugal tem policias'])

In [13]:
reglog.predict(teste)

array([1], dtype=int64)

In [14]:
accuracy_score(y_test, y_pred)

0.8804858934169278

In [15]:
f1_score(y_test, y_pred)

0.06537282941777324

In [16]:
precision_score(y_test, y_pred)

0.48484848484848486

In [17]:
recall_score(y_test, y_pred)

0.03504928806133625