!pip install numpy
!pip install pandas
!pip install plotly
!pip install matplotlib
!pip install scikit-learn
!pip install lightgbm

# Ciência de Dados e Inteligência Artificial

## O que é Ciência de Dados?

<img src="../img/What-is-Data-Science-A-2.png.crdownload" width="60%" height="30%">

A Ciência de Dados é uma área de estudo abrangente e multidisciplinar, que compreende dados, algoritmos e tecnologias com capacidade de extrair informações valiosas de dados estruturados e não estruturados. As informações obtidas com Ciência de Dados, na maioria dos casos, são utilizadas para a tomada de decisões importantes, como a criação de novos produtos ou serviços, atualização de produtos, mudanças nos negócios e, até mesmo, qual será o futuro de uma organização. Ou seja, transformar dados em conhecimento.

Dessa forma, o uso da ciência de dados está presente desde a definição dos processos de coleta de dados até o tratamento destes para geração de insights.

Um dos maiores desafios da Ciência de dados está em converter os esforços em lidar com  **Big Data** e transformar em **resultados tangíveis**. Por isso, deve-se manter alinhada à estratégia da empresa e da gestão, de forma a encontrar uma solução em conjunto e colocá-la em produção.

**Exemplos de aplicações práticas da ciência de dados:**
    
- Texto
- Imagem
- Som
- Previsões
- Segmentação
- Classificação
- Cesto de compras - Sistemas de recomendação
- SNA - Análise de redes sociais
- BI
- Geolocalização

<img src="../img/venn2.png" width="40%" height="20%"> 

## E qual a diferença entre Ciência de Dados, Inteligência Artificial e Machine Learning

Embora muitas vezes são trabalhados de maneira conjunta, cada um é responsável por uma função diferente:
- **Machine learning (aprendizado de máquina)**: é uma parte da Inteligência Artificial, utilizando métodos de identificação automática de padrões. Baseia-se em "ensinar" a máquina a partir de um vasto conjunto de dados, utilizando-os de forma supervisionada ou não-supervisionada
- **Inteligência Artificial**: É caracterizada como a capacidade das máquinas de realizar qualquer tarefa, de forma similar aos humanos. Fazendo uso de Machine Learning ou não.
- **Ciência de Dados**: área de estudo que utiliza recursos de análise e visualização de dados, Machine Learning e Inteligência Artificial.

<img src="../img/DS_MLRelationship.webp" width="40%" height="20%">

## Mão na massa!

As linguagens de programação mais utilizadas por Cientistas de Dados são Python e R, pela fácil execução e disponibilidade de bibliotecas robustas para análise e modelagem de dados.

In [198]:
import pandas as pd
from sklearn.utils import shuffle
from sklearn.model_selection import train_test_split
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import accuracy_score, f1_score, precision_score, recall_score
from sklearn.model_selection import KFold, GridSearchCV
import lightgbm as lgbm

from unidecode import unidecode

In [102]:
pd.options.display.max_colwidth = 1000
pd.options.display.max_rows = 1000 

In [153]:
def grid_search_model (x, y, clf, parameters, scorer, cv, verbose):
    grid_obj = GridSearchCV(clf, parameters, scoring = scorer, cv =  cv, verbose= verbose)
    grid_fit = grid_obj.fit(x, y)
    print("Best score:" , grid_fit.best_score_)
    print("Best parameters:" , grid_fit.best_params_)
    return grid_fit, grid_fit.best_estimator_

In [143]:
fakes = pd.read_csv('fakes.csv')
fakes['label'] = [0 for i in fakes['label']]
trues = pd.read_csv('true.csv')
trues['label'] = [1 for i in trues['label']]

data = shuffle(pd.concat([fakes, trues])).reset_index(drop = True)
data['text'] = data['title'] + data['text']

In [144]:
X_train, X_test, y_train, y_test = train_test_split(data['text'], data['label'], test_size=0.33, random_state=42)

In [145]:
corpus = X_train.apply(lambda x: unidecode(x)).values

In [146]:
vectorizer = TfidfVectorizer()
X_train_tfidf = vectorizer.fit_transform(corpus)
X_test_tfidf = vectorizer.transform(X_test.values)

In [136]:
#dict(zip(vectorizer.get_feature_names(), X_train_tfidf.toarray()[0]))

In [183]:
reglog = LogisticRegression()
reglog.fit(X_train_tfidf, y_train)

LogisticRegression()

In [190]:
y_pred = reglog.predict(X_test_tfidf)

In [191]:
res = pd.DataFrame(X_test)
res['y_test'] = y_test
res['y_pred'] = y_pred
res['pred_proba'] = reglog.predict_proba(X_test_tfidf)[:, 0]

In [192]:
res

Unnamed: 0,text,y_test,y_pred,pred_proba
11278,"É falso que Vinícius Júnior dedicou gol a Bolsonaro no jornal The New York Times’Dedico esse gol primeiramente a Deus e segundo ao presidente do meu país, Jair Messias Bolsonaro, que se Deus quiser vai ser reeleito esse ano’ - Vini Jr ao The New York Times",0,0,0.966638
3226,"Taxa ou receita de IMI ""subiu 53% nos últimos 10 anos""?Taxa ou receita de IMI ""subiu 53% nos últimos 10 anos""?",0,0,0.841297
20412,Temer não ‘oficializa fim do projeto Farmácia Popular’Temer oficializa fim do projeto Farmácia Popular,0,0,0.898280
7613,É montagem foto de Freixo com cartaz dizendo que ‘único objetivo da esquerda é derrubar o governo Bolsonaro’O único objetivo da esquerda é derrubar o governo Bolsonaro. O Brasil que se dane!,0,0,0.970036
247,"Foto de Bolsonaro ao lado de André Mendonça é de 2019, anterior à nomeação como ministro do STFMinistro do STF acompanhar um presidente em jogo de futebol é algo estranho",0,0,0.979544
...,...,...,...,...
11583,"Não, a deputada Maria do Rosário não perdeu dentadura em votação na CCJA deputada Maria do Rosário perdeu a sua dentadura durante uma votação na CCJ.",0,0,0.896720
16273,"PS: ""Portugal destaca-se entre os países da OCDE que mais cortou carga fiscal sobre o trabalho."" Será verdade?PS: ""Portugal destaca-se entre os países da OCDE que mais cortou carga fiscal sobre o trabalho."" Será verdade?",0,1,0.318210
18934,"Fact Check. Imagem de scooter para mobilidade reduzida na Ponte 25 de Abril é verdadeira?""Homem em contramão numa scooter para pessoas com mobilidade reduzida no tabuleiro da Ponte 25 de Abril""",0,0,0.921810
5026,"Post erra ao comparar taxa de letalidade da Covid-19 em Minas Gerais, São Paulo, Ceará e Rio de JaneiroEm *Minas Gerais* , onde *o governador é sério e não está envolvido na trama para derrubar o Presidente*, a taxa de letalidade da covid-19 é (...) mais de 31 vezes menor que no Rio de Janeiro?",0,0,0.921705


In [203]:
teste = vectorizer.transform(['Portugal tem policias'])

In [204]:
reglog.predict(teste)

array([1], dtype=int64)

In [196]:
accuracy_score(y_test, y_pred)

0.8810083594566354

In [197]:
f1_score(y_test, y_pred)

0.05005213764337852

In [199]:
precision_score(y_test, y_pred)

0.46153846153846156

In [200]:
recall_score(y_test, y_pred)

0.026460859977949284