#  Import all required libraries

In [1]:
import re
import numpy as np
import pandas as pd
import requests
from bs4 import BeautifulSoup

!pip install pymysql
import sqlalchemy as db
from sqlalchemy import create_engine



# Define usecase, define the url to scrape and get the response
<< Web Scraping News Articles from the Rio de Janeiro Public Security Institute to build an NLP Data Pipeline>>

In [2]:
# get the url
url = 'http://www.isp.rj.gov.br/NoticiaLista.asp'
response = requests.get(url)

In [3]:
# get the HTML and do the soup
html = response.content
soup = BeautifulSoup(html)

In [4]:
# define a variable ver_mais to the the tag's url information
ver_mais = soup.find_all('a', {'class':'verMais'})
'http://www.isp.rj.gov.br/' + soup.find_all('a', {'class':'verMais'})[0].get('href')

'http://www.isp.rj.gov.br/Noticias.asp?ident=475'

In [5]:
# here we have the url of one page with it's around 10 news
noticias = ['http://www.isp.rj.gov.br/'+ url.get('href') for url in ver_mais]

In [6]:
# create a function to make it easier to return the info we need: first we request the url, get the response and do the soup and then we declare and return the variables we need for the NLP
# soup_title, soup_data, soup_content
def scrape(url):
    response = requests.get(url)
    html = response.content
    scrape_pgs = BeautifulSoup(html)
    
    soup_title = scrape_pgs.find('h3').text
    soup_data = scrape_pgs.find('p', {'class': 'dataHoraNoticia'}).text
    soup_content = scrape_pgs.find('div', {'class':'conteudo'}).text
    
    return soup_title, soup_data, soup_content

In [7]:
# here we have the url of all tens of pages from 2008 to 2021
pages = [f'http://www.isp.rj.gov.br/Noticias.asp?ident={pages}' for pages in range(1,476)]

In [8]:
# here we call the function scrape we created so that it returns: soup_title, soup_data, soup_content for each news in the given http
scrape_pgs = scrape('http://www.isp.rj.gov.br/Noticias.asp?ident=1')

In [9]:
# here we create a for loop so that it returns a list with all the scraped pages returning: soup_title, soup_data, soup_content for each news
all_scrape = []
for i in pages:
    all_scrape.append(scrape(i))

# Transform the list of objects in a Dataframe 

In [27]:
# transforming our list of items in a dataframe 
all_scrape
# Calling DataFrame constructor on list 
df_isp = pd.DataFrame(all_scrape, columns =['titulo', 'data', 'conteudo'], dtype = str) 
df_isp.head()

Unnamed: 0,titulo,data,conteudo
0,Roubos de veículos no Estado apresentou queda ...,Renata Fortes06/03/2008 16:35h,\nO Instituto de Segurança Pública (ISP) divul...
1,Começa Curso de Capacitação para Policiais,Renata Fortes07/03/2008 16:39h,\nO presidente do Instituto de Segurança Públi...
2,Dossiê Mulher,Renata Fortes07/03/2008 16:42h,\nO Instituto de Segurança Pública informa que...
3,Reunião apresentará novo Presidente do Institu...,Renata Fortes07/03/2008 16:45h,\nO Presidente do Instituto de Segurança Públi...
4,"Transparência, agilidade e maior clareza no le...",Renata Fortes07/03/2008 19:00h,\nO Tenente-Coronel Mário Sérgio de Brito Duar...


# Data cleaning: remove stop words

### Import NLTK library to add stop words 
<<The Natural Language Toolkit, or more commonly NLTK, is a suite of libraries and programs for symbolic and statistical natural language processing (NLP) >>


In [28]:
import nltk
nltk.download('stopwords')
# Importing stopwords in portuguese
import nltk
nltk.download('stopwords')
stopwords = nltk.corpus.stopwords.words('portuguese')
from nltk.tokenize import word_tokenize
import regex
import string
nltk.download('punkt')

[nltk_data] Downloading package stopwords to
[nltk_data]     C:\Users\Indra\AppData\Roaming\nltk_data...
[nltk_data]   Package stopwords is already up-to-date!
[nltk_data] Downloading package stopwords to
[nltk_data]     C:\Users\Indra\AppData\Roaming\nltk_data...
[nltk_data]   Package stopwords is already up-to-date!
[nltk_data] Downloading package punkt to
[nltk_data]     C:\Users\Indra\AppData\Roaming\nltk_data...
[nltk_data]   Package punkt is already up-to-date!


True

### Adding  stop words to NLTK stoplist


In [29]:
stopwords = nltk.corpus.stopwords.words('portuguese')
new_stopwords = ['mês','janeiro','fevereiro','março','abril','maio', 'junho','julho','agosto', 'setembro', 'outubro', 'novembro', 'dezembro', 'dois', 'três','quatro','cinco','seis','sete','oito','nove', 'dez',
               'onze','doze','vinte','trinta','quarenta','cinquenta','sessenta','setenta','oitenta','noventa','cem', 'email', 'renata', 'fortes','rfortesisprjgovbrwwwisprjgovbr', 'assim', 'segundafeira','terçafeira',
               'quartafeira','quintafeira','sextafeira','sábado','domingo','feira', 'enquanto', 'dia','ano', 'instituto', 'pública', 'isp', 'divulgou', 'assessoria', 'imprensa','comparados', 'período', 'destaque',
                'acontece', 'entanto', 'vale', 'observar', 'dessa','outras', 'irão', 'disso','daquele', 'daquela', 'deste', 'desta', 'tendo','participou','nesta', 'semana', 'a', 'à', 'adeus', 'agora', 'aí', 
                 'ainda', 'além', 'algo', 'alguém', 'algum', 'alguma', 'algumas', 'alguns', 'ali', 'ampla', 'amplas', 'amplo', 'amplos', 'ano', 'anos', 'ante', 'antes', 'ao', 'aos', 'apenas', 'apoio', 'após', 
                 'aquela', 'aquelas', 'aquele', 'aqueles', 'aqui', 'aquilo', 'área', 'as', 'às', 'assim', 'até', 'atrás', 'através', 'baixo', 'bastante', 'bem', 'boa', 'boas', 'bom', 'bons', 'breve', 'cá', 'cada',
                 'catorze', 'cedo', 'cento', 'certamente', 'certeza', 'cima', 'cinco', 'coisa', 'coisas', 'com', 'como', 'conselho', 'contra', 'contudo', 'custa', 'da', 'dá', 'dão', 'daquela', 'daquelas', 
                 'daquele', 'daqueles', 'dar', 'das', 'de', 'debaixo', 'dela', 'delas', 'dele', 'deles', 'demais', 'dentro', 'depois', 'desde', 'dessa', 'dessas', 'desse', 'desses', 'desta', 'destas', 'deste', 
                 'destes', 'deve', 'devem', 'devendo', 'dever', 'deverá', 'deverão', 'deveria', 'deveriam', 'devia', 'deviam', 'dez', 'dezanove', 'dezasseis', 'dezassete', 'dezoito', 'dia', 'diante', 'disse', 
                 'disso', 'disto', 'dito', 'diz', 'dizem', 'dizer', 'do', 'dois', 'dos', 'doze', 'duas', 'dúvida', 'e', 'é', 'ela', 'elas', 'ele', 'eles', 'em', 'embora', 'enquanto', 'entre', 'era', 'eram', 
                 'éramos', 'és', 'essa', 'essas', 'esse', 'esses', 'esta', 'está', 'estamos', 'estão', 'estar', 'estas', 'estás', 'estava', 'estavam', 'estávamos', 'este', 'esteja', 'estejam', 'estejamos', 'estes',
                 'esteve', 'estive', 'estivemos', 'estiver', 'estivera', 'estiveram', 'estivéramos', 'estiverem', 'estivermos', 'estivesse', 'estivessem', 'estivéssemos', 'estiveste', 'estivestes', 'estou', 'etc',
                 'eu', 'exemplo', 'faço', 'falta', 'favor', 'faz', 'fazeis', 'fazem', 'fazemos', 'fazendo', 'fazer', 'fazes', 'feita', 'feitas', 'feito', 'feitos', 'fez', 'fim', 'final', 'foi', 'fomos', 'for', 
                 'fora', 'foram', 'fôramos', 'forem', 'forma', 'formos', 'fosse', 'fossem', 'fôssemos', 'foste', 'fostes', 'fui', 'geral', 'grande', 'grandes', 'grupo', 'há', 'haja', 'hajam', 'hajamos', 'hão',
                 'havemos', 'havia', 'hei', 'hoje', 'hora', 'horas', 'houve', 'houvemos', 'houver', 'houvera', 'houverá', 'houveram', 'houvéramos', 'houverão', 'houverei', 'houverem', 'houveremos', 'houveria', 
                 'houveriam', 'houveríamos', 'houvermos', 'houvesse', 'houvessem', 'houvéssemos', 'isso', 'isto', 'já', 'la', 'lá', 'lado', 'lhe', 'lhes', 'lo', 'local', 'logo', 'longe', 'lugar', 'maior', 'maioria',
                 'mais', 'mal', 'mas', 'máximo', 'me', 'meio', 'menor', 'menos', 'mês', 'meses', 'mesma', 'mesmas', 'mesmo', 'mesmos', 'meu', 'meus', 'mil', 'minha', 'minhas', 'momento', 'muita', 'muitas', 
                 'muito', 'muitos', 'na', 'nada', 'não', 'naquela', 'naquelas', 'naquele', 'naqueles', 'nas', 'nem', 'nenhum', 'nenhuma', 'nessa', 'nessas', 'nesse', 'nesses', 'nesta', 'nestas', 'neste', 'nestes',
                 'ninguém', 'nível', 'no', 'noite', 'nome', 'nos', 'nós', 'nossa', 'nossas', 'nosso', 'nossos', 'nova', 'novas', 'nove', 'novo', 'novos', 'num', 'numa', 'número', 'nunca', 'o', 'obra', 'obrigada', 
                 'obrigado', 'oitava', 'oitavo', 'oito', 'onde', 'ontem', 'onze', 'os', 'ou', 'outra', 'outras', 'outro', 'outros', 'para', 'parece', 'parte', 'partir', 'paucas', 'pela', 'pelas', 'pelo', 'pelos',
                 'pequena', 'pequenas', 'pequeno', 'pequenos', 'per', 'perante', 'perto', 'pode', 'pude', 'pôde', 'podem', 'podendo', 'poder', 'poderia', 'poderiam', 'podia', 'podiam', 'põe', 'põem', 'pois', 
                 'ponto', 'pontos', 'por', 'porém', 'porque', 'porquê', 'posição', 'possível', 'possivelmente', 'posso', 'pouca', 'poucas', 'pouco', 'poucos', 'primeira', 'primeiras', 'primeiro', 'primeiros', 
                 'própria', 'próprias', 'próprio', 'próprios', 'próxima', 'próximas', 'próximo', 'próximos', 'pude', 'puderam', 'quais', 'quáis', 'qual', 'quando', 'quanto', 'quantos', 'quarta', 'quarto', 'quatro',
                 'que', 'quê', 'quem', 'quer', 'quereis', 'querem', 'queremas', 'queres', 'quero', 'questão', 'quinta', 'quinto', 'quinze', 'relação', 'sabe', 'sabem', 'são', 'se', 'segunda', 'segundo', 'sei', 
                 'seis', 'seja', 'sejam', 'sejamos', 'sem', 'sempre', 'sendo', 'ser', 'será', 'serão', 'serei', 'seremos', 'seria', 'seriam', 'seríamos', 'sete', 'sétima', 'sétimo', 'seu', 'seus', 'sexta', 'sexto',
                 'si', 'sido', 'sim', 'sistema', 'só', 'sob', 'sobre', 'sois', 'somos', 'sou', 'sua', 'suas', 'tal', 'talvez', 'também', 'tampouco', 'tanta', 'tantas', 'tanto', 'tão', 'tarde', 'te', 'tem', 'tém', 
                 'têm', 'temos', 'tendes', 'tendo', 'tenha', 'tenham', 'tenhamos', 'tenho', 'tens', 'ter', 'terá', 'terão', 'terceira', 'terceiro', 'terei', 'teremos', 'teria', 'teriam', 'teríamos', 'teu', 'teus',
                 'teve', 'ti', 'tido', 'tinha', 'tinham', 'tínhamos', 'tive', 'tivemos', 'tiver', 'tivera', 'tiveram', 'tivéramos', 'tiverem', 'tivermos', 'tivesse', 'tivessem', 'tivéssemos', 'tiveste', 'tivestes',
                 'toda', 'todas', 'todavia', 'todo', 'todos', 'trabalho', 'três', 'treze', 'tu', 'tua', 'tuas', 'tudo', 'última', 'últimas', 'último', 'últimos', 'um', 'uma', 'umas', 'uns', 'vai', 'vais', 'vão', 
                 'vários', 'vem', 'vêm', 'vendo', 'vens', 'ver', 'vez', 'vezes', 'viagem', 'vindo', 'vinte', 'vir', 'você', 'vocês', 'vos', 'vós', 'vossa', 'vossas', 'vosso', 'vossos', 'zero', '1', '2', '3', '4', 
                 '5', '6', '7', '8', '9', '0', '_' ,  'andar', 'sr', 'sra','dona', 'ficou', 'fica', 'ficaram', 'apresentou', 'apresenta', 'participa', 'liberar', 'tipo', 'tipos', 'promove', 'divulga', 
                 'apresentação','entrega', 'semestre', 'trimestre', 'divulgou', 'apresentou', 'marca','marcam','constata','constatou','abre','abriu','abriram','esclarece','esclareceu', 'promoveu', 'melhor',
                 'melhores', 'pior', 'piores', 'foto','divulgação'
                
                ]
stopwords.extend(new_stopwords)

### Creating functions to clean columns

In [30]:
def clean_conteudo(i):
    i= regex.sub("\s+", " ", i) #remove extra space
    i= regex.sub("[^\w ]", "", i) #remove punctuation
    i= regex.sub("\d+", "", i) #remove numbers
    i= regex.sub("/\r?\n|\r/", "", i) #remove new lines
    i = "".join([words.lower() for words in i if words not in string.punctuation]) # convert all words to lower case = case normalization
    # Tokenization: Splitting a sentence into words and creating a list, ie each sentence is a list of words
    nltk.tokenize.word_tokenize(i) 
    #removing stop words:
    words = nltk.tokenize.word_tokenize(i)
    words_new = [x for x in words if x not in stopwords]
    i= regex.sub("\ ", " ", i) #remove extra space
    
    return words_new

df_isp['new_content'] = df_isp['conteudo'].apply(clean_conteudo)
    

In [14]:
# df_isp["data_noticia"] = lista_date
# df_isp.drop('data', axis =1, inplace= True)  ==> already dropped

In [31]:
def clean_data(i):
        return regex.sub('[a-zA-Z]|\d{2}:\d{2}h', '', i)
            
df_isp['new_data'] = df_isp['data'].apply(clean_data)

In [16]:
def clean_titulo(i):
    i= regex.sub("\s+", " ", i) #remove extra space
    i= regex.sub("[^\w ]", "", i) #remove punctuation
    i= regex.sub("\d+", " ", i) #remove numbers
    i = "".join([words.lower() for words in i if words not in string.punctuation]) # convert all words to lower case = case normalization
    # Tokenization: Splitting a sentence into words and creating a list, ie each sentence is a list of words
    nltk.tokenize.word_tokenize(i) 
    #removing stop words:
    words = nltk.tokenize.word_tokenize(i)
    words_new = [x for x in words if x not in stopwords]
    i= regex.sub("\ ", " ", i) #remove extra space
    
    
    return words_new
    
df_isp['new_title'] =df_isp['titulo'].apply(clean_titulo)    

# Drop, rename and reorganize columns

In [32]:
df_isp.head()

Unnamed: 0,titulo,data,conteudo,new_content,new_data
0,Roubos de veículos no Estado apresentou queda ...,Renata Fortes06/03/2008 16:35h,\nO Instituto de Segurança Pública (ISP) divul...,"[segurança, estatísticas, criminalidade, estad...",06/03/2008
1,Começa Curso de Capacitação para Policiais,Renata Fortes07/03/2008 16:39h,\nO presidente do Instituto de Segurança Públi...,"[presidente, segurança, mário, sérgio, duarte,...",07/03/2008
2,Dossiê Mulher,Renata Fortes07/03/2008 16:42h,\nO Instituto de Segurança Pública informa que...,"[segurança, informa, publicação, série, estudo...",07/03/2008
3,Reunião apresentará novo Presidente do Institu...,Renata Fortes07/03/2008 16:45h,\nO Presidente do Instituto de Segurança Públi...,"[presidente, segurança, mário, sergio, brito, ...",07/03/2008
4,"Transparência, agilidade e maior clareza no le...",Renata Fortes07/03/2008 19:00h,\nO Tenente-Coronel Mário Sérgio de Brito Duar...,"[tenentecoronel, mário, sérgio, brito, duarte,...",07/03/2008


In [18]:
df_isp = df_isp.rename(columns={'new_content': 'materia', 'new_title': 'manchete'})
df_isp = df_isp[['new_data','manchete','materia','titulo','data','conteudo']]
df_isp

Unnamed: 0,new_data,manchete,materia,titulo,data,conteudo
0,06/03/2008,"[roubos, veículos, estado, queda]","[segurança, estatísticas, criminalidade, estad...",Roubos de veículos no Estado apresentou queda ...,Renata Fortes06/03/2008 16:35h,\nO Instituto de Segurança Pública (ISP) divul...
1,07/03/2008,"[começa, curso, capacitação, policiais]","[presidente, segurança, mário, sérgio, duarte,...",Começa Curso de Capacitação para Policiais,Renata Fortes07/03/2008 16:39h,\nO presidente do Instituto de Segurança Públi...
2,07/03/2008,"[dossiê, mulher]","[segurança, informa, publicação, série, estudo...",Dossiê Mulher,Renata Fortes07/03/2008 16:42h,\nO Instituto de Segurança Pública informa que...
3,07/03/2008,"[reunião, apresentará, presidente, segurança]","[presidente, segurança, mário, sergio, brito, ...",Reunião apresentará novo Presidente do Institu...,Renata Fortes07/03/2008 16:45h,\nO Presidente do Instituto de Segurança Públi...
4,07/03/2008,"[transparência, agilidade, clareza, levantamen...","[tenentecoronel, mário, sérgio, brito, duarte,...","Transparência, agilidade e maior clareza no le...",Renata Fortes07/03/2008 19:00h,\nO Tenente-Coronel Mário Sérgio de Brito Duar...
...,...,...,...,...,...,...
470,22/09/2021,"[metade, mortes, policiais, serviço, ocorreu, ...","[estudo, mostra, agentes, mortos, anosum, estu...","Em cinco anos, mais da metade das mortes dos p...",22/09/2021 08:31h,"\nEstudo do ISP mostra ainda que, em 2020, o n..."
471,24/09/2021,"[homicídios, registrados]","[valor, acumulado, abaixo, contabilizado, pass...",Número de homicídios registrados de janeiro a ...,24/09/2021 08:36h,\nValor para o acumulado de 2021 ficou 7% abai...
472,,[],[],,,\n\n
473,18/10/2021,"[dossiê, mulher, filhos, presentes, quase, fem...","[estudo, usado, governo, estado, elaboração, p...",Dossiê Mulher: filhos estavam presentes em qua...,18/10/2021 11:40h,\nEstudo será usado pelo Governo do Estado par...


In [36]:
df_isp = df_isp.rename(columns={'new_data':'data1'})
df_isp

Unnamed: 0,titulo,data,conteudo,new_content,data.1
0,Roubos de veículos no Estado apresentou queda ...,Renata Fortes06/03/2008 16:35h,\nO Instituto de Segurança Pública (ISP) divul...,"[segurança, estatísticas, criminalidade, estad...",06/03/2008
1,Começa Curso de Capacitação para Policiais,Renata Fortes07/03/2008 16:39h,\nO presidente do Instituto de Segurança Públi...,"[presidente, segurança, mário, sérgio, duarte,...",07/03/2008
2,Dossiê Mulher,Renata Fortes07/03/2008 16:42h,\nO Instituto de Segurança Pública informa que...,"[segurança, informa, publicação, série, estudo...",07/03/2008
3,Reunião apresentará novo Presidente do Institu...,Renata Fortes07/03/2008 16:45h,\nO Presidente do Instituto de Segurança Públi...,"[presidente, segurança, mário, sergio, brito, ...",07/03/2008
4,"Transparência, agilidade e maior clareza no le...",Renata Fortes07/03/2008 19:00h,\nO Tenente-Coronel Mário Sérgio de Brito Duar...,"[tenentecoronel, mário, sérgio, brito, duarte,...",07/03/2008
...,...,...,...,...,...
470,"Em cinco anos, mais da metade das mortes dos p...",22/09/2021 08:31h,"\nEstudo do ISP mostra ainda que, em 2020, o n...","[estudo, mostra, agentes, mortos, anosum, estu...",22/09/2021
471,Número de homicídios registrados de janeiro a ...,24/09/2021 08:36h,\nValor para o acumulado de 2021 ficou 7% abai...,"[valor, acumulado, abaixo, contabilizado, pass...",24/09/2021
472,,,\n\n,[],
473,Dossiê Mulher: filhos estavam presentes em qua...,18/10/2021 11:40h,\nEstudo será usado pelo Governo do Estado par...,"[estudo, usado, governo, estado, elaboração, p...",18/10/2021


In [42]:
# df_isp = df_isp.iloc[:, [0,2,3,4]]
df_isp

Unnamed: 0,titulo,conteudo,new_content,data
0,Roubos de veículos no Estado apresentou queda ...,\nO Instituto de Segurança Pública (ISP) divul...,"[segurança, estatísticas, criminalidade, estad...",06/03/2008
1,Começa Curso de Capacitação para Policiais,\nO presidente do Instituto de Segurança Públi...,"[presidente, segurança, mário, sérgio, duarte,...",07/03/2008
2,Dossiê Mulher,\nO Instituto de Segurança Pública informa que...,"[segurança, informa, publicação, série, estudo...",07/03/2008
3,Reunião apresentará novo Presidente do Institu...,\nO Presidente do Instituto de Segurança Públi...,"[presidente, segurança, mário, sergio, brito, ...",07/03/2008
4,"Transparência, agilidade e maior clareza no le...",\nO Tenente-Coronel Mário Sérgio de Brito Duar...,"[tenentecoronel, mário, sérgio, brito, duarte,...",07/03/2008
...,...,...,...,...
470,"Em cinco anos, mais da metade das mortes dos p...","\nEstudo do ISP mostra ainda que, em 2020, o n...","[estudo, mostra, agentes, mortos, anosum, estu...",22/09/2021
471,Número de homicídios registrados de janeiro a ...,\nValor para o acumulado de 2021 ficou 7% abai...,"[valor, acumulado, abaixo, contabilizado, pass...",24/09/2021
472,,\n\n,[],
473,Dossiê Mulher: filhos estavam presentes em qua...,\nEstudo será usado pelo Governo do Estado par...,"[estudo, usado, governo, estado, elaboração, p...",18/10/2021


In [44]:
df_isp['new_content'] = df_isp['new_content'].apply(lambda x: " ".join(x))

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df_isp['new_content'] = df_isp['new_content'].apply(lambda x: " ".join(x))


In [48]:
df_isp.drop('conteudo', axis =1, inplace= True) 

A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  return super().drop(


In [50]:
df_isp = df_isp.rename(columns={'titulo': 'manchete', 'new_content': 'materia'})
df_isp = df_isp[['data','manchete','materia']]
df_isp

Unnamed: 0,data,manchete,materia
0,06/03/2008,Roubos de veículos no Estado apresentou queda ...,segurança estatísticas criminalidade estado re...
1,07/03/2008,Começa Curso de Capacitação para Policiais,presidente segurança mário sérgio duarte aula ...
2,07/03/2008,Dossiê Mulher,segurança informa publicação série estudos dos...
3,07/03/2008,Reunião apresentará novo Presidente do Institu...,presidente segurança mário sergio brito duarte...
4,07/03/2008,"Transparência, agilidade e maior clareza no le...",tenentecoronel mário sérgio brito duarte afirm...
...,...,...,...
470,22/09/2021,"Em cinco anos, mais da metade das mortes dos p...",estudo mostra agentes mortos anosum estudo pro...
471,24/09/2021,Número de homicídios registrados de janeiro a ...,valor acumulado abaixo contabilizado passadoos...
472,,,
473,18/10/2021,Dossiê Mulher: filhos estavam presentes em qua...,estudo usado governo estado elaboração polític...


# Connect to database¶
We'll use an API (Application Programming Interface) to connect to our database.
SQLAlchemy is the Python SQL toolkit and Object Relational Mapper that gives application developers the full power and flexibility of SQL.

In [51]:
db_server='pymysql'
user='root'
db_port = '3306'
password = 'bigdata2021!!'
ip = 'localhost'
db_name = 'isp_rj_news'
engine = db.create_engine(f'mysql+{db_server}://{user}:{password}@{ip}:{db_port}/{db_name}?charset=utf8')
con = engine.connect()

In [52]:
sql_isp_conteudo = df_isp.to_sql(con=con, name='isp_rj_content', if_exists='replace')
sql_isp_conteudo