# **Apresentação do Projeto: Manipulação de Arquivos e Bancos de Dados**

Bem-vindo(a)! Neste **projeto**, vamos focar em uma habilidade fundamental para quem trabalha com dados: **a manipulação de diferentes formatos de arquivos e bancos de dados**.

Durante o desenvolvimento do projeto, exploraremos uma variedade de formatos de arquivos, aplicando-os em contextos práticos. A cada etapa, trabalharemos com conjuntos de dados e temas distintos para garantir uma compreensão completa de como lidar com esses formatos de maneira eficiente.

## **O que você aprenderá ao longo deste projeto:**

- **Ler e escrever arquivos** nos formatos:  
  - CSV  
  - EXCEL  
  - JSON  
  - HTML  
  - XML

- **Criar um banco de dados local** e entender o processo de armazenar informações de maneira estruturada.

- A prática de **consultas SQL** para recuperar e manipular dados.

- Como **atualizar informações** dentro de um banco de dados.




In [1]:
import pandas as pd


# Estratégia de Marketing para Campanha de Assinatura

Temos um supermercado que está planejando uma liquidação de fim de ano, eles querem oferecer uma assinatura que dá 20% de desconto em todas as compras.


O time de marketing desse supermercado entende que a melhor maneira de diminuir custos com essa campanha é analisar os dados de compras dos clientes e entender quais teriam mais chances de aderir a essa assinatura e oferecer diretamente a essas pessoas.


In [2]:
url = 'https://raw.githubusercontent.com/HaallanP/Data_Science/refs/heads/main/Dados/superstore_data_ponto_virgula.csv'

In [3]:
dados = pd.read_csv(url)

In [4]:
dados.head()

Unnamed: 0,Id;Year_Birth;Education;Marital_Status;Income;Kidhome;Teenhome;Dt_Customer;Recency;MntWines;MntFruits;MntMeatProducts;MntFishProducts;MntSweetProducts;MntGoldProds;NumDealsPurchases;NumWebPurchases;NumCatalogPurchases;NumStorePurchases;NumWebVisitsMonth;Response;Complain
0,1826;1970;Graduation;Divorced;84835;0;0;6/16/2...
1,1;1961;Graduation;Single;57091;0;0;6/15/2014;0...
2,10476;1958;Graduation;Married;67267;0;1;5/13/2...
3,1386;1967;Graduation;Together;32474;1;1;11/5/2...
4,5371;1989;Graduation;Single;21474;1;0;8/4/2014...


## Ao abrir esse arquivo não está separando os dados por coluna.

Teremos que usar o parâmetro  **sep = ';'** dentro do **pd.read(url2, sep = ';' )**

In [5]:
dados_primeiras_linhas = pd.read_csv(url, sep = ';')
dados_primeiras_linhas.head(5)

Unnamed: 0,Id,Year_Birth,Education,Marital_Status,Income,Kidhome,Teenhome,Dt_Customer,Recency,MntWines,...,MntFishProducts,MntSweetProducts,MntGoldProds,NumDealsPurchases,NumWebPurchases,NumCatalogPurchases,NumStorePurchases,NumWebVisitsMonth,Response,Complain
0,1826,1970,Graduation,Divorced,84835.0,0,0,6/16/2014,0,189,...,111,189,218,1,4,4,6,1,1,0
1,1,1961,Graduation,Single,57091.0,0,0,6/15/2014,0,464,...,7,0,37,1,7,3,7,5,1,0
2,10476,1958,Graduation,Married,67267.0,0,1,5/13/2014,0,134,...,15,2,30,1,3,2,5,2,0,0
3,1386,1967,Graduation,Together,32474.0,1,1,11/5/2014,0,10,...,0,0,0,1,1,0,2,7,0,0
4,5371,1989,Graduation,Single,21474.0,1,0,8/4/2014,0,6,...,11,0,34,2,3,1,2,7,1,0


In [6]:
#Usando as 3 colunas 'Id', 'Year_Birth', 'Income'
dados_selecao = dados_primeiras_linhas[['Id', 'Year_Birth', 'Income']]
dados_selecao


Unnamed: 0,Id,Year_Birth,Income
0,1826,1970,84835.0
1,1,1961,57091.0
2,10476,1958,67267.0
3,1386,1967,32474.0
4,5371,1989,21474.0
...,...,...,...
2235,10142,1976,66476.0
2236,5263,1977,31056.0
2237,22,1976,46310.0
2238,528,1978,65819.0


In [7]:
#Salvando o arquivo em CSV
dados_selecao.to_csv('clientes_mercado.csv', index=False)

In [8]:
clientes_mercado = pd.read_csv('/content/clientes_mercado.csv',index_col=None)
clientes_mercado

Unnamed: 0,Id,Year_Birth,Income
0,1826,1970,84835.0
1,1,1961,57091.0
2,10476,1958,67267.0
3,1386,1967,32474.0
4,5371,1989,21474.0
...,...,...,...
2235,10142,1976,66476.0
2236,5263,1977,31056.0
2237,22,1976,46310.0
2238,528,1978,65819.0


Irei retirar o index da coluna de numeração para ficar melhor os dados apresentando usando o **index=False**

In [9]:
clientes_mercado.reset_index(drop=True)

Unnamed: 0,Id,Year_Birth,Income
0,1826,1970,84835.0
1,1,1961,57091.0
2,10476,1958,67267.0
3,1386,1967,32474.0
4,5371,1989,21474.0
...,...,...,...
2235,10142,1976,66476.0
2236,5263,1977,31056.0
2237,22,1976,46310.0
2238,528,1978,65819.0


# Excel: Utilizando Planilhas

Temos um novo conjunto de dados: um grupo de pesquisa com informações sobre as emissões de gás carbônico (CO₂) pelos países ao longo dos anos. O objetivo do grupo é analisar esses dados para entender os impactos ambientais causados pelos países e explorar soluções de sustentabilidade. Os dados estão armazenados em uma planilha, mas o grupo gostaria de usar a biblioteca **Pandas** no Colab para realizar a análise. Será possível? Sim, é totalmente viável!

## O que é uma planilha?

Antes de começarmos a manipulação no Pandas, vamos revisar o conceito de planilha.

1. **Estrutura**:  
   - Na parte superior, as colunas são representadas por **letras** (A, B, C...).
   - Na lateral esquerda, as linhas são numeradas a partir de **1**.  
   - Cada célula é referenciada pela combinação da letra da coluna e o número da linha (por exemplo, A1, B2).

2. **Armazenamento**:  
   - As planilhas são salvas em formatos como `.xlsx` ou `.ods`. Esses arquivos podem ser lidos e manipulados diretamente no Pandas.

---

## Como carregar uma planilha no Colab com Pandas?

Para trabalhar com arquivos do Excel no Pandas, usamos o método `pd.read_excel()`. Antes disso, precisamos garantir que o arquivo esteja acessível no Colab, podendo ser carregado por upload ou por um link direto.

Sem essa parte não ira fazer a leitura na hora de virar a variavel **?raw=True**

In [10]:
url2 = 'https://github.com/HaallanP/Data_Science/blob/main/Dados/emissoes_CO2.xlsx?raw=True'

In [11]:
dados_co2 = pd.read_excel(url2)
dados_co2.head()

Unnamed: 0,País,ISO 3166-1 alpha-3,Ano,Total,Carvão,Oléo,Gás,Cimento,Queima,Outro,Per Capita
0,Afeganistão,AFG,1750,0.0,,,,,,,
1,Afeganistão,AFG,1751,0.0,,,,,,,
2,Afeganistão,AFG,1752,0.0,,,,,,,
3,Afeganistão,AFG,1753,0.0,,,,,,,
4,Afeganistão,AFG,1754,0.0,,,,,,,


# Trabalhando com Múltiplas Páginas em Planilhas Excel

O retorno ao carregar esses dados será uma tabela com as seguintes informações:
- Nome do país.
- Código do país.
- Ano.
- Valor total de emissão de gás carbônico.
- Emissões por tipo: carvão, óleo, gás, cimento, queima, outro.
- Valor per capita (por pessoa).

## Explorando Diferentes Páginas de uma Planilha

Uma planilha Excel pode conter **várias páginas** (ou abas). Para descobrir quantas páginas estão presentes e seus nomes, usaremos a classe `ExcelFile()` da biblioteca Pandas. Essa classe nos permite inspecionar a estrutura de um arquivo Excel antes de carregá-lo completamente.

##[Pandas_Excel](https://pandas.pydata.org/docs/reference/api/pandas.read_excel.html)

In [12]:
pd.ExcelFile(url2).sheet_names

['emissoes_C02', 'emissoes_percapita', 'fontes']

# Parâmetro `sheet_name`

O parâmetro `sheet_name` é usado para especificar qual página de uma planilha Excel queremos carregar.

## Funcionamento do `sheet_name`
1. **Padrão (`sheet_name=0`)**: Caso não seja definido, a função `read_excel()` carregará a **primeira página** da planilha.
2. **Índice numérico**: Você pode especificar o índice da página começando em zero. Por exemplo:
   - `sheet_name=0` carrega a primeira página.
   - `sheet_name=1` carrega a segunda página.
3. **Nome da página**: Outra forma é usar o **nome da página** diretamente. Por exemplo:
   - `sheet_name="Pagina2"` carrega uma página chamada "Pagina2".

### Exemplo no Colab
Nosso objetivo será carregar a **segunda página**, chamada **"emissoes_percapita"**. Para isso, criaremos uma variável chamada `percapita` e utilizaremos a função `read_excel()` da biblioteca Pandas. O código ficará assim:




In [13]:
percapita = pd.read_excel(url2, sheet_name='emissoes_percapita')

In [14]:
percapita.head()

Unnamed: 0,País,ISO 3166-1 alpha-3,Ano,Total,Carvão,Óleo,Gás,Cimento,Queima,Outro
0,Afeganistão,AFG,1750,,,,,,,
1,Afeganistão,AFG,1751,,,,,,,
2,Afeganistão,AFG,1752,,,,,,,
3,Afeganistão,AFG,1753,,,,,,,
4,Afeganistão,AFG,1754,,,,,,,


# Carregando a Terceira Página: "fontes"

Agora que conseguimos carregar a segunda página, vamos repetir o processo para a **terceira página** chamada **"fontes"**. O processo será o mesmo, apenas alterando o nome da página para "fontes".





In [15]:
fontes = pd.read_excel(url2, sheet_name='fontes')

In [16]:
fontes.head()

Unnamed: 0,País,ISO 3166-1 alpha-3,Ano,Total,Carvão,Oléo,Gás,Cimento,Queima,Outro,Per Capita
0,Afeganistão,AFG,1750,[NONE],[NONE],[NONE],[NONE],[NONE],[NONE],[NONE],[NONE]
1,Afeganistão,AFG,1751,[NONE],[NONE],[NONE],[NONE],[NONE],[NONE],[NONE],[NONE]
2,Afeganistão,AFG,1752,[NONE],[NONE],[NONE],[NONE],[NONE],[NONE],[NONE],[NONE]
3,Afeganistão,AFG,1753,[NONE],[NONE],[NONE],[NONE],[NONE],[NONE],[NONE],[NONE]
4,Afeganistão,AFG,1754,[NONE],[NONE],[NONE],[NONE],[NONE],[NONE],[NONE],[NONE]


# Parâmetro `usecols`

O parâmetro `usecols` permite especificar quais **colunas** queremos carregar de uma planilha Excel. Isso é útil quando queremos trabalhar apenas com um subconjunto de colunas, o que pode otimizar o desempenho e facilitar a análise de dados.

### Como funciona o `usecols`
Podemos indicar um intervalo de colunas usando as letras que representam as colunas na planilha. Por exemplo:
- **`usecols="A:D"`**: Seleciona as colunas de **A até D**.
- **`usecols=["A", "C", "E"]`**: Seleciona as colunas **A, C e E**.

### Exemplo no Colab

Vamos criar uma variável chamada `intervalo` e carregar os dados da página **"emissoes_CO2"**, selecionando o intervalo de colunas de **A até D**. O código será assim:




In [17]:
intervalo = pd.read_excel(url2, sheet_name='emissoes_C02', usecols= 'A:D')

In [18]:
intervalo

Unnamed: 0,País,ISO 3166-1 alpha-3,Ano,Total
0,Afeganistão,AFG,1750,0.000000e+00
1,Afeganistão,AFG,1751,0.000000e+00
2,Afeganistão,AFG,1752,0.000000e+00
3,Afeganistão,AFG,1753,0.000000e+00
4,Afeganistão,AFG,1754,0.000000e+00
...,...,...,...,...
63099,Global,WLD,2017,3.609674e+10
63100,Global,WLD,2018,3.682651e+10
63101,Global,WLD,2019,3.708256e+10
63102,Global,WLD,2020,3.526409e+10


## Parâmetro `nrows`

O parâmetro `nrows` na função `read_excel()` permite definir a quantidade de linhas a ser carregada de uma planilha. Ele é útil quando você deseja visualizar apenas uma parte dos dados, especialmente em conjuntos grandes, para realizar uma análise preliminar sem carregar todos os dados de uma vez.

### Como funciona o `nrows`

Com o parâmetro `nrows`, você pode especificar o número de linhas que deseja carregar. Por exemplo, se você definir `nrows=10`, apenas as **10 primeiras linhas** da planilha serão carregadas. Isso ajuda a visualizar rapidamente uma amostra dos dados, sem sobrecarregar o ambiente com grandes volumes de informações.

O `nrows` é ideal para uma análise inicial ou para verificar a estrutura dos dados sem precisar carregar a planilha inteira.


In [19]:
intervalo_2 = pd.read_excel(url2, sheet_name='emissoes_C02', usecols= 'A:D', nrows=10)

In [20]:
intervalo_2

Unnamed: 0,País,ISO 3166-1 alpha-3,Ano,Total
0,Afeganistão,AFG,1750,0
1,Afeganistão,AFG,1751,0
2,Afeganistão,AFG,1752,0
3,Afeganistão,AFG,1753,0
4,Afeganistão,AFG,1754,0
5,Afeganistão,AFG,1755,0
6,Afeganistão,AFG,1756,0
7,Afeganistão,AFG,1757,0
8,Afeganistão,AFG,1758,0
9,Afeganistão,AFG,1759,0


In [21]:
#Salvando em Excel
percapita.to_excel('co2_percapita.xlsx', index=False)

In [22]:
pd.read_excel('/content/co2_percapita.xlsx')

Unnamed: 0,País,ISO 3166-1 alpha-3,Ano,Total,Carvão,Óleo,Gás,Cimento,Queima,Outro
0,Afeganistão,AFG,1750,,,,,,,
1,Afeganistão,AFG,1751,,,,,,,
2,Afeganistão,AFG,1752,,,,,,,
3,Afeganistão,AFG,1753,,,,,,,
4,Afeganistão,AFG,1754,,,,,,,
...,...,...,...,...,...,...,...,...,...,...
63099,Global,WLD,2017,4749682.0,1908857.0,1610910.0,940144.0,198416.0,51579.0,39776.0
63100,Global,WLD,2018,4792753.0,1919213.0,1596350.0,979965.0,204225.0,53634.0,39366.0
63101,Global,WLD,2019,4775633.0,1896468.0,1589920.0,984878.0,208309.0,56569.0,39490.0
63102,Global,WLD,2020,4497423.0,1807760.0,1427353.0,963695.0,208844.0,51981.0,37789.0


## O que significa JSON?

JSON é uma sigla em inglês para **JavaScript Object Notation**, ou, em português, **Objetos de Notação JavaScript**. Este é um formato de texto leve, baseado em um subconjunto da linguagem de programação JavaScript.

O JSON é amplamente utilizado para armazenar e transmitir dados estruturados, sendo muito comum em **APIs** (Interfaces de Programação de Aplicações). Ele organiza os dados de maneira fácil de ler e escrever tanto por humanos quanto por máquinas.

### Estrutura do JSON
Um arquivo JSON é composto por pares de chave e valor, organizados de maneira hierárquica. Isso significa que podemos representar dados complexos como objetos, listas e valores primitivos de forma clara e acessível.

Agora que entendemos o que é um arquivo JSON e como ele é estruturado, vamos explorar como carregá-lo no Google Colab!


In [23]:
{"ID":"01", "Faixa_etaria":"55-59", "Sexo_biologico":"Feminino"}

{'ID': '01', 'Faixa_etaria': '55-59', 'Sexo_biologico': 'Feminino'}

## Informações no Arquivo JSON

Neste arquivo JSON, temos três informações essenciais a respeito de cada pessoa:

1. **ID**: Um identificador único atribuído a cada pessoa, que permite distinguir cada registro de forma exclusiva.
2. **Faixa_etaria**: A faixa etária da pessoa, indicando a faixa de idade em que ela se encontra.
3. **Sexo_biologico**: O sexo biológico da pessoa, registrado de acordo com o padrão utilizado no hospital.

Essas informações podem ser úteis para realizar análises demográficas, estudos sobre a distribuição de faixas etárias, ou até mesmo investigações sobre a prevalência de condições de saúde em diferentes sexos biológicos.


## Trabalhando com arquivos JSON no Google Colab

Agora, temos um hospital que deseja acessar os dados de pacientes, mas os arquivos estão todos no formato **JSON**. Esse formato, embora eficiente para armazenar dados estruturados, pode ser difícil de manipular diretamente sem ferramentas adequadas.

O nosso objetivo será utilizar a biblioteca **Pandas** para ler e manipular esses arquivos, extraindo informações relevantes dos dados de forma simples e eficiente.

Com o Pandas, podemos carregar o conteúdo de um arquivo JSON e transformá-lo em um **DataFrame**, que é uma estrutura de dados tabular muito mais fácil de analisar e manipular. Isso permitirá ao hospital acessar as informações dos pacientes de forma rápida e prática.


In [24]:
dados_pacientes = pd.read_json('/content/pacientes.json')
dados_pacientes.head()

Unnamed: 0,ID_paciente,Doenca_cardiaca,IMC,Fumante,Consumo_alcool,AVC,Saude_fisica,Saude_mental,Dificuldade_caminhar,Sexo_biologico,Faixa_etaria,Raca,Diabetes,Atividade_fisica,Saude_geral,Horas_sono,Asma,Doenca_renal,Cancer_pele
0,0,Nao,16.6,Sim,Nao,Nao,3,30,Nao,Feminino,55-59,Branca,Sim,Sim,Muito boa,5,Sim,Nao,Sim
1,1,Nao,20.34,Nao,Nao,Sim,0,0,Nao,Feminino,80 ou +,Branca,Nao,Sim,Muito boa,7,Nao,Nao,Nao
2,2,Nao,26.58,Sim,Nao,Nao,20,30,Nao,Masculino,65-69,Branca,Sim,Sim,Razoavel,8,Sim,Nao,Nao
3,3,Nao,24.21,Nao,Nao,Nao,0,0,Nao,Feminino,75-79,Branca,Nao,No,Boa,6,Nao,Nao,Sim
4,4,Nao,23.71,Nao,Nao,Nao,28,0,Sim,Feminino,40-44,Branca,Nao,Sim,Muito boa,8,Nao,Nao,Nao


## Analisando os Dados dos Pacientes

Após carregarmos o arquivo JSON com os dados dos pacientes, vamos visualizar o **DataFrame** resultante. Para isso, basta executar a célula pressionando **Shift + Enter** e, em seguida, digitar `dados_pacientes` para visualizar o conteúdo do **DataFrame**. Pressione **Shift + Enter** novamente para executar a célula.

O **DataFrame** contém **mil linhas** e **19 colunas**, com diversas informações sobre os pacientes. Alguns dos dados disponíveis incluem:

- **ID de paciente**: Identificador único para cada paciente.
- **Doença cardíaca**: Indica se o paciente tem alguma condição cardíaca.
- **IMC**: Índice de Massa Corporal do paciente.
- **Fumante**: Indica se o paciente é fumante.
- **Consumo de álcool**: Informa se o paciente consome álcool.
- **Faixa etária**: A faixa etária em que o paciente se encontra.
- **Raça/etnia**: A raça ou etnia do paciente.

Esses dados podem ser utilizados para análises mais aprofundadas sobre a saúde dos pacientes e os fatores que podem estar associados a diferentes condições médicas.


In [25]:
dados_pacientes_2 = pd.read_json('/content/pacientes_2.json')
dados_pacientes_2.head()

Unnamed: 0,Pesquisa,Ano,Pacientes
0,Principais Indicadores de Doenca Cardiaca,2020,"{'ID': '01', 'Faixa_etaria': '55-59', 'Sexo_bi..."
1,Principais Indicadores de Doenca Cardiaca,2020,"{'ID': '02', 'Faixa_etaria': '80 ou +', 'Sexo_..."
2,Principais Indicadores de Doenca Cardiaca,2020,"{'ID': '03', 'Faixa_etaria': '65-69', 'Sexo_bi..."


## Normalizando os Dados

Para normalizar os dados, vamos utilizar a função `json_normalize()` da biblioteca Pandas. Para isso, no **Google Colab**, criaremos uma variável chamada `df_normalizado`, que será igual a `pd.json_normalize()`.

Dentro dos parênteses da função, passaremos o **DataFrame** que desejamos normalizar, que no caso é o **dados_pacientes_2**.

Em seguida, abriremos colchetes `[]` e dentro deles, vamos utilizar aspas simples para indicar qual coluna deve ser normalizada. Neste caso, a coluna que vamos normalizar é **Pacientes**.

Esse processo ajuda a transformar a estrutura do JSON em um formato tabular, facilitando a análise dos dados.


In [26]:
df_normalizado = pd.json_normalize(dados_pacientes_2['Pacientes'])
df_normalizado.head()

Unnamed: 0,ID,Faixa_etaria,Sexo_biologico,Raça,IMC,Fumante,Consumo_alcool,Saude_fisica,Saude_mental,Dificuldade_caminhar,Atividade_fisica,Saude_geral,Horas_sono,Problemas_saude
0,1,55-59,Feminino,Branca,16.6,Sim,Nao,3,30,Nao,Sim,Muito boa,5,"[Diabetes, Asma, Cancer_pele]"
1,2,80 ou +,Feminino,Branca,20.34,Nao,Nao,0,0,Nao,Sim,Muito boa,7,[AVC]
2,3,65-69,Masculino,Branca,26.58,Sim,Nao,20,30,Nao,Sim,Muito boa,8,"[diabetes, Asma]"


In [27]:
#Salvando em Json
df_normalizado.to_json('historico_pacientes_normalizado.json')

## Introdução ao HTML: Como Localizar Tabelas em uma Página Web

### O que é HTML?
HTML (HyperText Markup Language) é a linguagem de marcação usada para criar páginas na web. Ele usa "tags" (marcação) para estruturar o conteúdo e definir como ele será exibido no navegador.

### Localizando Tabelas em uma Página Web

Quando queremos extrair dados de uma página web, como uma tabela, a primeira coisa é inspecionar o código da página:

1. **Inspecionar a Página**:
   - Clique com o botão direito do mouse em qualquer parte da página e selecione **"Inspecionar"**. Isso abrirá o painel de desenvolvimento do navegador, que exibe o código HTML da página.

2. **Procurar pela Tag `<table>`**:
   - Dentro do painel de inspeção, use a funcionalidade de busca (pressionando **Ctrl + F**) e digite `<table>`.
   - A tag `<table>` define tabelas no HTML e ajuda a localizar as áreas que representam tabelas na página.

3. **Explorar a Tabela de Interesse**:
   - Navegue pelas ocorrências da tag `<table>` para encontrar a tabela que você deseja. A primeira ocorrência pode ser irrelevante, mas ao continuar navegando, você encontrará a tabela correta.

4. **Salvar o Arquivo HTML**:
   - Após localizar a tabela e entender a estrutura da página, salve o código HTML da página para referência futura ou para carregar no Google Colab para manipulação posterior.

### Carregando Tabelas com Pandas no Google Colab

Depois de identificar a tabela no código HTML da página, podemos usar a biblioteca **Pandas** no Google Colab para carregar e manipular esses dados.

Esses passos permitem que você identifique e extraia dados de uma tabela em uma página web usando HTML e a biblioteca Pandas.


###Uma pessoa está criando um sistema de recomendação de filmes.

###Mas, para isso, ela precisa de dados de filmes, de avaliações que as pessoas deram para eles.

###Ela encontrou um artigo web sobre [Os 100 melhores filmes](https://en.wikipedia.org/wiki/AFI%27s_100_Years...100_Movies) listados pelo Instituto Americano de Cinema.

###Esse artigo está na Wikipedia e, na lateral direita da página, temos uma tabela contendo outros artigos criados pelo mesmo instituto, de 1998 a 2008. Há uma versão atualizada de 2007 do nosso artigo em questão, mas verificaremos a de 1988 primeiro.

In [29]:
dados_html = pd.read_html('/content/Os 100 anos da AFI... 100 Movies – Wikipédia, a enciclopédia livre.html')

##A saída abaixo foi parcialmente transcrita. Para conferi-la na íntegra, execute o código na sua máquina.

In [30]:
dados_html

[       0                        1
 0   1998               100 filmes
 1   1999             100 Estrelas
 2   2000              100 risadas
 3   2001              100 Emoções
 4   2002              100 Paixões
 5   2003      100 Heróis & Vilões
 6   2004              100 músicas
 7   2005   100 citações de filmes
 8   2005            25 Pontuações
 9   2006                100 Saúde
 10  2006              25 Musicais
 11  2007  100 filmes (atualizado)
 12  2008         10 Top 10 da AFI
 13   vte                      vte,
                      Filme  Ano de lançamento               Diretor  \
 0             Cidadão Kane               1941          Orson Welles   
 1               Casablanca               1942        Michael Curtiz   
 2        O Poderoso Chefão               1972  Francis Ford Coppola   
 3          E o Vento Levou               1939        Victor Fleming   
 4       Lawrence da Arábia               1962            David Lean   
 ..                     ...               

### Por que não surgiu um DataFrame?

A função `read_html()` do Pandas busca pelas tags `<table>` na página HTML e converte as tabelas encontradas em uma lista de DataFrames. Ou seja, se a página contiver múltiplas tabelas, a função retorna uma lista onde cada elemento é um DataFrame correspondente a uma tabela.

Para confirmar isso, podemos verificar o tipo da variável criada, que deve ser uma lista. Vamos executar o seguinte comando para verificar:


In [31]:
type(dados_html)

list

##O retorno disso será "list". Podemos até perguntar quantos elementos temos nessa lista, usando a função len(), passando dados_html:

In [32]:
len(dados_html)

2

O retorno desse comando será "2". Como já comentamos, temos 2 tabelas nessa página. Então, são três dataframes na lista.

### Acessando um DataFrame Específico

Se quisermos acessar um DataFrame específico entre os vários retornados pela função `read_html()`, podemos simplesmente usar sua posição na lista. O índice de listas começa em 0. Portanto, para acessar o segundo DataFrame, que contém os dados de nosso interesse, basta usar o índice 1.

Nesse caso, vamos criar uma variável chamada `top_filmes` e nela vamos armazenar o segundo DataFrame. Para isso, utilizamos a variável `dados_html` e, entre colchetes, passamos o índice 1.


In [33]:
top_filmes = dados_html[1]

In [34]:
top_filmes

Unnamed: 0,Filme,Ano de lançamento,Diretor,Produtoras,Classificação de 1998,Classificação de 2007
0,Cidadão Kane,1941,Orson Welles,Imagens de rádio RKO,1,1
1,Casablanca,1942,Michael Curtiz,Warner Bros. Fotos,2,3
2,O Poderoso Chefão,1972,Francis Ford Coppola,"Paramount Pictures, Alfran Productions",3,2
3,E o Vento Levou,1939,Victor Fleming,Selznick International Fotos,4,6
4,Lawrence da Arábia,1962,David Lean,Fotos do horizonte,5,7
...,...,...,...,...,...,...
118,Sophie's Choice,1982,Alan J. Pakula,ITC Entertainment,-,91
119,The Last Picture Show,1971,Peter Bogdanovich,BBS Productions,-,95
120,Do the Right Thing,1989,Spike Lee,40 Acres and a Mule Filmworks,-,96
121,Blade Runner,1982,Ridley Scott,"The Ladd Company, Shaw Brothers",-,97


## Criando um banco de dados local

No **Google Colab**, criamos uma nova linha de código. Nela, escrevemos:




A linguagem trabalhada em banco de dados é a **SQL**, uma sigla que vem do inglês "**Structured Query Language**" e significa **Linguagem de Consulta Estruturada**.


## Importações para trabalhar com banco de dados

Agora, precisamos fazer algumas importações. Na linha de baixo, escrevemos:




* create_engine: A primeira importação será create_engine, que serve para criar o motor, ou seja, a conexão com o banco de dados que o fará funcionar.


* MetaData: Na mesma linha, inserimos uma vírgula e a importação MetaData. Essa é uma classe que representa os meta dados do banco de dados, isso inclui informações sobre as tabelas, colunas e outros objetos.


* Table: Também importamos a classe Table, que representa uma tabela em um banco de dados e é usada para manipular dados em uma tabela específica.


* inspect: Por fim, importamos a função inspect, que permite inspecionar a estrutura do banco de dados.

In [36]:
import sqlalchemy
from sqlalchemy import create_engine, MetaData, Table, inspect

## Criando o Banco de Dados

Agora, vamos criar o banco de dados. Para isso, criamos uma variável chamada **engine**. Dela, chamamos o **create_engine()**. Dentro das chaves, abrimos aspas simples e escrevemos o banco de dados que será utilizado:




In [39]:
import pandas as pd
from io import StringIO

# Dados fornecidos
data = [
    (8804, 32, 'Ensino superior', 'União-estável', 2, 'Empregado', 'Outro', 12, 427500.0, 1, 'Apartamento alugado'),
    (5008805, 32, 'Ensino superior', 'União-estável', 2, 'Empregado', 'Outro', 12, 427500.0, 1, 'Apartamento alugado'),
    (5008806, 58, 'Ensino médio', 'Casado', 2, 'Empregado', 'Segurança', 3, 112500.0, 1, 'Casa/apartamento próprio'),
    (5008808, 52, 'Ensino médio', 'Solteiro', 1, 'Associado comercial', 'Vendas', 8, 270000.0, 0, 'Casa/apartamento próprio'),
    (5008809, 52, 'Ensino médio', 'Solteiro', 1, 'Associado comercial', 'Vendas', 8, 270000.0, 0, 'Casa/apartamento próprio'),
    (5008810, 52, 'Ensino médio', 'Solteiro', 1, 'Associado comercial', 'Vendas', 8, 270000.0, 0, 'Casa/apartamento próprio'),
    (5008811, 52, 'Ensino médio', 'Solteiro', 1, 'Associado comercial', 'Vendas', 8, 270000.0, 0, 'Casa/apartamento próprio'),
    (5008812, 61, 'Ensino superior', 'Divorciado', 1, 'Pensionista', 'Outro', 0, 283500.0, 0, 'Casa/apartamento próprio'),
    (5008813, 61, 'Ensino superior', 'Divorciado', 1, 'Pensionista', 'Outro', 0, 283500.0, 0, 'Casa/apartamento próprio'),
    (5008814, 61, 'Ensino superior', 'Divorciado', 1, 'Pensionista', 'Outro', 0, 283500.0, 0, 'Casa/apartamento próprio'),
    (5008815, 46, 'Ensino superior', 'Casado', 2, 'Empregado', 'Contabilidade', 2, 270000.0, 1, 'Casa/apartamento próprio'),
    (5112956, 46, 'Ensino superior', 'Casado', 2, 'Empregado', 'Contabilidade', 2, 270000.0, 1, 'Casa/apartamento próprio'),
    (6153651, 46, 'Ensino superior', 'Casado', 2, 'Empregado', 'Contabilidade', 2, 270000.0, 1, 'Casa/apartamento próprio'),
    (5008819, 48, 'Ensino médio', 'Casado', 2, 'Associado comercial', 'Construção Civil', 3, 135000.0, 1, 'Casa/apartamento próprio'),
    (5008820, 48, 'Ensino médio', 'Casado', 2, 'Associado comercial', 'Construção Civil', 3, 135000.0, 1, 'Casa/apartamento próprio'),
    (5008821, 48, 'Ensino médio', 'Casado', 2, 'Associado comercial', 'Construção Civil', 3, 135000.0, 1, 'Casa/apartamento próprio'),
    (5008822, 48, 'Ensino médio', 'Casado', 2, 'Associado comercial', 'Construção Civil', 3, 135000.0, 1, 'Casa/apartamento próprio'),
    (5008823, 48, 'Ensino médio', 'Casado', 2, 'Associado comercial', 'Construção Civil', 3, 135000.0, 1, 'Casa/apartamento próprio'),
    (5008824, 48, 'Ensino médio', 'Casado', 2, 'Associado comercial', 'Construção Civil', 3, 135000.0, 1, 'Casa/apartamento próprio'),
    (5008825, 29, 'Ensino superior incompleto', 'Casado', 2, 'Empregado', 'Contabilidade', 3, 130500.0, 1, 'Casa/apartamento próprio'),
    (5008826, 29, 'Ensino superior incompleto', 'Casado', 2, 'Empregado', 'Contabilidade', 3, 130500.0, 1, 'Casa/apartamento próprio'),
    (5008830, 27, 'Ensino médio', 'Casado', 2, 'Empregado', 'Construção Civil', 4, 157500.0, 0, 'Casa/apartamento próprio')
]

# Convert the list of tuples to a CSV string
csv_data = '\n'.join([','.join(map(str, row)) for row in data]) # Converting the list of tuples to a CSV-formatted string.


# Carregar os dados no pandas using the CSV string
df = pd.read_csv(StringIO(csv_data), header=None) # Pass the CSV string to StringIO for pandas to read.

# Definindo os nomes das colunas
df.columns = ['ID', 'Idade', 'Escolaridade', 'Estado Civil', 'Filhos', 'Ocupação', 'Setor', 'Experiência (anos)', 'Salário', 'Propriedade', 'Tipo de moradia']

# Exibindo a tabela
df

Unnamed: 0,ID,Idade,Escolaridade,Estado Civil,Filhos,Ocupação,Setor,Experiência (anos),Salário,Propriedade,Tipo de moradia
0,8804,32,Ensino superior,União-estável,2,Empregado,Outro,12,427500.0,1,Apartamento alugado
1,5008805,32,Ensino superior,União-estável,2,Empregado,Outro,12,427500.0,1,Apartamento alugado
2,5008806,58,Ensino médio,Casado,2,Empregado,Segurança,3,112500.0,1,Casa/apartamento próprio
3,5008808,52,Ensino médio,Solteiro,1,Associado comercial,Vendas,8,270000.0,0,Casa/apartamento próprio
4,5008809,52,Ensino médio,Solteiro,1,Associado comercial,Vendas,8,270000.0,0,Casa/apartamento próprio
5,5008810,52,Ensino médio,Solteiro,1,Associado comercial,Vendas,8,270000.0,0,Casa/apartamento próprio
6,5008811,52,Ensino médio,Solteiro,1,Associado comercial,Vendas,8,270000.0,0,Casa/apartamento próprio
7,5008812,61,Ensino superior,Divorciado,1,Pensionista,Outro,0,283500.0,0,Casa/apartamento próprio
8,5008813,61,Ensino superior,Divorciado,1,Pensionista,Outro,0,283500.0,0,Casa/apartamento próprio
9,5008814,61,Ensino superior,Divorciado,1,Pensionista,Outro,0,283500.0,0,Casa/apartamento próprio


In [41]:
#Salvando em CSV
df.to_csv('Cliente_banco.csv', index=False)

In [43]:
#Importando o banco de dados
pd.read_csv('/content/clientes_banco.csv')

Unnamed: 0,ID_Cliente,Idade,Grau_escolaridade,Estado_civil,Tamanho_familia,Categoria_de_renda,Ocupacao,Anos_empregado,Rendimento_anual,Tem_carro,Moradia
0,5008804,32,Ensino superior,União-estável,2,Empregado,Outro,12,427500.0,1,Apartamento alugado
1,5008805,32,Ensino superior,União-estável,2,Empregado,Outro,12,427500.0,1,Apartamento alugado
2,5008806,58,Ensino médio,Casado,2,Empregado,Segurança,3,112500.0,1,Casa/apartamento próprio
3,5008808,52,Ensino médio,Solteiro,1,Associado comercial,Vendas,8,270000.0,0,Casa/apartamento próprio
4,5008809,52,Ensino médio,Solteiro,1,Associado comercial,Vendas,8,270000.0,0,Casa/apartamento próprio
...,...,...,...,...,...,...,...,...,...,...,...
438458,6840104,62,Ensino médio,Divorciado,1,Pensionista,Outro,0,135000.0,0,Casa/apartamento próprio
438459,6840222,43,Ensino médio,Solteiro,1,Empregado,Construção Civil,8,103500.0,0,Casa/apartamento próprio
438460,6841878,22,Ensino superior,Solteiro,1,Associado comercial,Vendas,1,54000.0,0,Mora com os pais
438461,6842765,59,Ensino médio,Casado,2,Pensionista,Outro,0,72000.0,0,Casa/apartamento próprio


In [44]:

from sqlalchemy import create_engine, MetaData, Table, inspect
engine = create_engine('sqlite:///:memory:')

In [45]:
url3 = pd.read_csv('/content/Cliente_banco.csv')

In [46]:
url3.head()

Unnamed: 0,ID,Idade,Escolaridade,Estado Civil,Filhos,Ocupação,Setor,Experiência (anos),Salário,Propriedade,Tipo de moradia
0,8804,32,Ensino superior,União-estável,2,Empregado,Outro,12,427500.0,1,Apartamento alugado
1,5008805,32,Ensino superior,União-estável,2,Empregado,Outro,12,427500.0,1,Apartamento alugado
2,5008806,58,Ensino médio,Casado,2,Empregado,Segurança,3,112500.0,1,Casa/apartamento próprio
3,5008808,52,Ensino médio,Solteiro,1,Associado comercial,Vendas,8,270000.0,0,Casa/apartamento próprio
4,5008809,52,Ensino médio,Solteiro,1,Associado comercial,Vendas,8,270000.0,0,Casa/apartamento próprio


In [69]:
url3.to_sql('clientes', engine, index=False, if_exists='replace')


22

In [48]:
#Código omitido

inspector = inspect(engine)

 ### Agora, podemos printar o nome das tabelas que temos dentro do banco de dados.

### Para fazer isso, escrevemos print() e, em seguida, passamos o inspector.get_table_names().

 ### Essa função devolve os nomes das tabelas que estão dentro do banco de dados.


In [49]:
print(inspector.get_table_names())

['clientes']


Criamos uma tabela chamada Clientes que possui as informações das pessoas cadastradas na instituição financeira.

Agora, descobriremos como acessar essas informações por meio de consultas SQL.

Para isso, criamos uma variável chamada query. Inserimos o símbolo de igual e duas aspas simples.

# Filtrando Dados no Banco de Dados

Sendo assim, após as aspas, escrevemos `SELECT` seguido de `*`.  
Esse asterisco indica que queremos selecionar todas as colunas da tabela.

Agora, precisamos especificar qual tabela é essa. Então, após `*` inserimos a cláusula `FROM clientes`.

Na mesma linha, escrevemos a cláusula `WHERE`, que filtra as informações, seguido do nome da coluna que queremos consultar: `Categoria_de_renda`.  
Logo após, escrevemos `= "Empregado"` e executamos.


In [50]:
query = 'SELECT * FROM clientes WHERE Ocupação="Empregado"'

# Lendo uma Consulta SQL no Pandas

Para ler uma consulta em SQL, criaremos a variável `empregados = pd.read_sql()`.  
Dentro do parêntese, passamos a consulta e o motor do banco de dados: `query, engine`.  
Em seguida, executamos o código para carregar os dados.


In [52]:
empregados = pd.read_sql(query, engine)
empregados.head()

Unnamed: 0,ID,Idade,Escolaridade,Estado Civil,Filhos,Ocupação,Setor,Experiência (anos),Salário,Propriedade,Tipo de moradia
0,8804,32,Ensino superior,União-estável,2,Empregado,Outro,12,427500.0,1,Apartamento alugado
1,5008805,32,Ensino superior,União-estável,2,Empregado,Outro,12,427500.0,1,Apartamento alugado
2,5008806,58,Ensino médio,Casado,2,Empregado,Segurança,3,112500.0,1,Casa/apartamento próprio
3,5008815,46,Ensino superior,Casado,2,Empregado,Contabilidade,2,270000.0,1,Casa/apartamento próprio
4,5112956,46,Ensino superior,Casado,2,Empregado,Contabilidade,2,270000.0,1,Casa/apartamento próprio


# Salvando o Resultado de uma Consulta SQL como uma Nova Tabela

Conseguimos fazer nossa primeira consulta SQL!

Para salvá-la como uma nova tabela, usamos o comando `empregados.to_sql()`.  
Dentro do parêntese, inserimos aspas simples e, dentro delas, escrevemos o nome da tabela, no caso "empregados".  
Adicionamos uma vírgula e passamos o parâmetro `con=engine`, seguido de `index=False`, para evitar a inclusão do índice como uma coluna da tabela.

Finalmente, executamos o código para criar a nova tabela.




In [53]:
#Salvando
empregados.to_sql('empregados', con=engine, index=False)


9

In [54]:
pd.read_sql_table('empregados', engine)

Unnamed: 0,ID,Idade,Escolaridade,Estado Civil,Filhos,Ocupação,Setor,Experiência (anos),Salário,Propriedade,Tipo de moradia
0,8804,32,Ensino superior,União-estável,2,Empregado,Outro,12,427500.0,1,Apartamento alugado
1,5008805,32,Ensino superior,União-estável,2,Empregado,Outro,12,427500.0,1,Apartamento alugado
2,5008806,58,Ensino médio,Casado,2,Empregado,Segurança,3,112500.0,1,Casa/apartamento próprio
3,5008815,46,Ensino superior,Casado,2,Empregado,Contabilidade,2,270000.0,1,Casa/apartamento próprio
4,5112956,46,Ensino superior,Casado,2,Empregado,Contabilidade,2,270000.0,1,Casa/apartamento próprio
5,6153651,46,Ensino superior,Casado,2,Empregado,Contabilidade,2,270000.0,1,Casa/apartamento próprio
6,5008825,29,Ensino superior incompleto,Casado,2,Empregado,Contabilidade,3,130500.0,1,Casa/apartamento próprio
7,5008826,29,Ensino superior incompleto,Casado,2,Empregado,Contabilidade,3,130500.0,1,Casa/apartamento próprio
8,5008830,27,Ensino médio,Casado,2,Empregado,Construção Civil,4,157500.0,0,Casa/apartamento próprio


# Testando a Nova Tabela

Para testarmos, copiamos a mesma linha de código que escrevemos anteriormente e colamos em uma nova linha.

Depois de `engine`, adicionamos o parâmetro `columns=[]`.  
Dentro dos colchetes, adicionamos aspas simples e, dentro delas, as colunas que queremos visualizar, sendo: `'ID_cliente'`, `'Grau_escolaridade'` e `'Rendimento_anual'`.




In [55]:
pd.read_sql_table('empregados', engine, columns=['ID', 'Escolaridade', 'Salário'])

Unnamed: 0,ID,Escolaridade,Salário
0,8804,Ensino superior,427500.0
1,5008805,Ensino superior,427500.0
2,5008806,Ensino médio,112500.0
3,5008815,Ensino superior,270000.0
4,5112956,Ensino superior,270000.0
5,6153651,Ensino superior,270000.0
6,5008825,Ensino superior incompleto,130500.0
7,5008826,Ensino superior incompleto,130500.0
8,5008830,Ensino médio,157500.0


In [56]:
query = 'SELECT * FROM clientes'

# Lendo a Consulta com `pd.read_sql()`

Em uma nova linha, escrevemos `pd.read_sql()`.  
Dentro do parêntese, passamos nossa consulta `query` e o motor do banco `engine`.  
Executamos a célula para ler os dados.




In [57]:
pd.read_sql(query, engine)

Unnamed: 0,ID,Idade,Escolaridade,Estado Civil,Filhos,Ocupação,Setor,Experiência (anos),Salário,Propriedade,Tipo de moradia
0,8804,32,Ensino superior,União-estável,2,Empregado,Outro,12,427500.0,1,Apartamento alugado
1,5008805,32,Ensino superior,União-estável,2,Empregado,Outro,12,427500.0,1,Apartamento alugado
2,5008806,58,Ensino médio,Casado,2,Empregado,Segurança,3,112500.0,1,Casa/apartamento próprio
3,5008808,52,Ensino médio,Solteiro,1,Associado comercial,Vendas,8,270000.0,0,Casa/apartamento próprio
4,5008809,52,Ensino médio,Solteiro,1,Associado comercial,Vendas,8,270000.0,0,Casa/apartamento próprio
5,5008810,52,Ensino médio,Solteiro,1,Associado comercial,Vendas,8,270000.0,0,Casa/apartamento próprio
6,5008811,52,Ensino médio,Solteiro,1,Associado comercial,Vendas,8,270000.0,0,Casa/apartamento próprio
7,5008812,61,Ensino superior,Divorciado,1,Pensionista,Outro,0,283500.0,0,Casa/apartamento próprio
8,5008813,61,Ensino superior,Divorciado,1,Pensionista,Outro,0,283500.0,0,Casa/apartamento próprio
9,5008814,61,Ensino superior,Divorciado,1,Pensionista,Outro,0,283500.0,0,Casa/apartamento próprio


# Garantindo o Fechamento Correto da Conexão

Apertamos "Enter" para a linha de baixo.  
Agora, fazemos um contexto `with`. Isso garante que a conexão com o banco de dados seja fechada corretamente após a execução da consulta.  
Depois, usamos o método `engine.connect()`, seguido de `as conn`.

Na linha de baixo, chamamos o `conn.execute(query)`.  
Em seguida, executamos.




In [74]:
from sqlalchemy import text

# Comando SQL para deletar o registro
query = text("DELETE FROM clientes WHERE ID = 8804")

# Executando o comando no banco de dados
with engine.connect() as conn:
    conn.execute(query)  # Executa o comando
    conn.commit()  # Confirma a exclusão


In [77]:
#verificando a exclusão do ID=8804
query = 'SELECT * FROM clientes' # This is the correct query to get data
df_clientes = pd.read_sql(query, engine)  # Use pd.read_sql with the SELECT query
df_clientes # Display the dataframe

Unnamed: 0,ID,Idade,Escolaridade,Estado Civil,Filhos,Ocupação,Setor,Experiência (anos),Salário,Propriedade,Tipo de moradia
0,5008805,32,Ensino superior,União-estável,2,Empregado,Outro,12,427500.0,1,Apartamento alugado
1,5008806,58,Ensino médio,Casado,2,Empregado,Segurança,3,112500.0,1,Casa/apartamento próprio
2,5008808,52,Ensino médio,Solteiro,1,Associado comercial,Vendas,8,270000.0,0,Casa/apartamento próprio
3,5008809,52,Ensino médio,Solteiro,1,Associado comercial,Vendas,8,270000.0,0,Casa/apartamento próprio
4,5008810,52,Ensino médio,Solteiro,1,Associado comercial,Vendas,8,270000.0,0,Casa/apartamento próprio
5,5008811,52,Ensino médio,Solteiro,1,Associado comercial,Vendas,8,270000.0,0,Casa/apartamento próprio
6,5008812,61,Ensino superior,Divorciado,1,Pensionista,Outro,0,283500.0,0,Casa/apartamento próprio
7,5008813,61,Ensino superior,Divorciado,1,Pensionista,Outro,0,283500.0,0,Casa/apartamento próprio
8,5008814,61,Ensino superior,Divorciado,1,Pensionista,Outro,0,283500.0,0,Casa/apartamento próprio
9,5008815,46,Ensino superior,Casado,2,Empregado,Contabilidade,2,270000.0,1,Casa/apartamento próprio
