## Pandas

In [1]:
import pandas as pd

In [2]:
url = 'https://raw.githubusercontent.com/alura-cursos/pandas/main/superstore_data.csv'

In [3]:
dados_mercado = pd.read_csv(url)

In [4]:
dados_mercado.head()

Unnamed: 0,Id,Year_Birth,Education,Marital_Status,Income,Kidhome,Teenhome,Dt_Customer,Recency,MntWines,...,MntFishProducts,MntSweetProducts,MntGoldProds,NumDealsPurchases,NumWebPurchases,NumCatalogPurchases,NumStorePurchases,NumWebVisitsMonth,Response,Complain
0,1826,1970,Graduation,Divorced,84835.0,0,0,6/16/2014,0,189,...,111,189,218,1,4,4,6,1,1,0
1,1,1961,Graduation,Single,57091.0,0,0,6/15/2014,0,464,...,7,0,37,1,7,3,7,5,1,0
2,10476,1958,Graduation,Married,67267.0,0,1,5/13/2014,0,134,...,15,2,30,1,3,2,5,2,0,0
3,1386,1967,Graduation,Together,32474.0,1,1,11/5/2014,0,10,...,0,0,0,1,1,0,2,7,0,0
4,5371,1989,Graduation,Single,21474.0,1,0,8/4/2014,0,6,...,11,0,34,2,3,1,2,7,1,0


In [5]:
url_2 = "https://raw.githubusercontent.com/alura-cursos/pandas/main/superstore_data_ponto_virgula.csv"

In [6]:
dados_ponto_virgula = pd.read_csv(url_2, sep=";")

In [7]:
dados_ponto_virgula.head()

Unnamed: 0,Id,Year_Birth,Education,Marital_Status,Income,Kidhome,Teenhome,Dt_Customer,Recency,MntWines,...,MntFishProducts,MntSweetProducts,MntGoldProds,NumDealsPurchases,NumWebPurchases,NumCatalogPurchases,NumStorePurchases,NumWebVisitsMonth,Response,Complain
0,1826,1970,Graduation,Divorced,84835.0,0,0,6/16/2014,0,189,...,111,189,218,1,4,4,6,1,1,0
1,1,1961,Graduation,Single,57091.0,0,0,6/15/2014,0,464,...,7,0,37,1,7,3,7,5,1,0
2,10476,1958,Graduation,Married,67267.0,0,1,5/13/2014,0,134,...,15,2,30,1,3,2,5,2,0,0
3,1386,1967,Graduation,Together,32474.0,1,1,11/5/2014,0,10,...,0,0,0,1,1,0,2,7,0,0
4,5371,1989,Graduation,Single,21474.0,1,0,8/4/2014,0,6,...,11,0,34,2,3,1,2,7,1,0


## Para saber mais: erro de encoding - Como resolver?


UnicodeDecodeError: o codec 'utf-8' não pode decodificar o byte 0xe7 na posição 18: byte de continuação inválido

Para resolver esse erro, é necessário identificar a codificação correta do arquivo CSV e especificá-la ao carregar o arquivo com a biblioteca Pandas. Essa codificação padrão é o UTF-8, mas em alguns casos, o arquivo pode ter sido salvo com uma codificação diferente, como ISO-8859-1.

O UTF-8 é uma codificação de caracteres universal usada para representar caracteres de diferentes idiomas de forma compatível com a internet e com sistemas de computador em geral. A sigla UTF significa Unicode Transformation Format (Formato de Transformação Unicode) e o número 8 indica que essa codificação associa uma sequência de 1 a 4 bytes (8 a 32 bits) com cada caractere.

Nós podemos usar uma biblioteca chamada chardet para detectar o encoding de um arquivo CSV. Para utilizar essa biblioteca no Google Colab, basta realizar sua importação:

In [8]:
!pip install chardet



In [9]:
import chardet
import requests

In [10]:
# Opcao 1: 
# with open(url_2, 'rb') as file:
#    print(chardet.detect(file.read()))

In [11]:
url_3 = 'https://raw.githubusercontent.com/alura-cursos/pandas/main/superstore_data_ponto_virgula.csv'

# Baixar o conteúdo do arquivo da URL
response = requests.get(url_3)
response.raise_for_status()  # Levanta um erro se a requisição falhar

# Detectar a codificação
raw_data = response.content
result = chardet.detect(raw_data)

print(result)

{'encoding': 'ascii', 'confidence': 1.0, 'language': ''}


## Parâmetro nrows

In [12]:
# o parâmetro nrows igual à quantidade de linha que quero que sejam monstrada, vou colocar apenas 5.
dados_primeiras_linhas = pd.read_csv(url,nrows=5)
dados_primeiras_linhas

Unnamed: 0,Id,Year_Birth,Education,Marital_Status,Income,Kidhome,Teenhome,Dt_Customer,Recency,MntWines,...,MntFishProducts,MntSweetProducts,MntGoldProds,NumDealsPurchases,NumWebPurchases,NumCatalogPurchases,NumStorePurchases,NumWebVisitsMonth,Response,Complain
0,1826,1970,Graduation,Divorced,84835,0,0,6/16/2014,0,189,...,111,189,218,1,4,4,6,1,1,0
1,1,1961,Graduation,Single,57091,0,0,6/15/2014,0,464,...,7,0,37,1,7,3,7,5,1,0
2,10476,1958,Graduation,Married,67267,0,1,5/13/2014,0,134,...,15,2,30,1,3,2,5,2,0,0
3,1386,1967,Graduation,Together,32474,1,1,11/5/2014,0,10,...,0,0,0,1,1,0,2,7,0,0
4,5371,1989,Graduation,Single,21474,1,0,8/4/2014,0,6,...,11,0,34,2,3,1,2,7,1,0


## Parâmetro usecols

In [13]:
#  usecols, sinal de igual, e dentor de colchetes vamos informar quais colunas queremos visualizar. 
# Vamos querer as colunas Id, ano de nascimento (Year_Birth) e a coluna do rendimento anual (Income).
dados_selecao = pd.read_csv(url, usecols=['Id', 'Year_Birth', 'Income'])
dados_selecao

Unnamed: 0,Id,Year_Birth,Income
0,1826,1970,84835.0
1,1,1961,57091.0
2,10476,1958,67267.0
3,1386,1967,32474.0
4,5371,1989,21474.0
...,...,...,...
2235,10142,1976,66476.0
2236,5263,1977,31056.0
2237,22,1976,46310.0
2238,528,1978,65819.0


In [14]:
# Lembre-se que em Python começamos a indexar em zero, então as posições começam a partir do zero.
# Na tabela original, a coluna do Id seria a coluna 0; a coluna Year_Birth é a coluna 1 e a Income é a coluna 4. 
# Usaremos o mesmo código, mas com os valores no lugar nos nomes das colunas.
dados_selecao = pd.read_csv(url, usecols=[0,1,4])
dados_selecao

Unnamed: 0,Id,Year_Birth,Income
0,1826,1970,84835.0
1,1,1961,57091.0
2,10476,1958,67267.0
3,1386,1967,32474.0
4,5371,1989,21474.0
...,...,...,...
2235,10142,1976,66476.0
2236,5263,1977,31056.0
2237,22,1976,46310.0
2238,528,1978,65819.0


## Função to_csv()

In [15]:
# dados_selecao.to_csv('clientes_mercado.csv')

Entre os parâmetro do to_csv, falaremos sobre o parâmetro index, ele tem como default, padrão, a opção true. Ou seja, sempre que não modificarmos esse parâmetro, será adicionada uma nova coluna de index porque o padrão está index=true.

In [16]:
dados_selecao.to_csv('dados_mercado.csv', index=False)
dados_selecao

Unnamed: 0,Id,Year_Birth,Income
0,1826,1970,84835.0
1,1,1961,57091.0
2,10476,1958,67267.0
3,1386,1967,32474.0
4,5371,1989,21474.0
...,...,...,...
2235,10142,1976,66476.0
2236,5263,1977,31056.0
2237,22,1976,46310.0
2238,528,1978,65819.0


In [17]:
import os
print(os.getcwd())
# Isso imprimirá o caminho do diretório de trabalho atual no console, permitindo que você saiba exatamente onde o arquivo CSV foi salvo.


c:\Users\tamir\OneDrive\Área de Trabalho\Curso - Python para Data\Data Science - Python\Pandas IO


## Excel: utilizando planilhas

In [18]:
# dados_co2 = pd.read_excel(url_excel)
url_excel = 'https://github.com/alura-cursos/Pandas/blob/main/emissoes_CO2.xlsx?raw=True'  # Substitua pela URL real do seu arquivo Excel

# Instalar openpyxl se necessário
try:
    import openpyxl
except ImportError:
    !pip install openpyxl

# Ler o arquivo Excel
dados_co2 = pd.read_excel(url_excel, engine='openpyxl')

# Exibir os primeiros registros do DataFrame
print(dados_co2.head())

          País ISO 3166-1 alpha-3   Ano  Total  Carvão  Oléo  Gás  Cimento  \
0  Afeganistão                AFG  1750    0.0     NaN   NaN  NaN      NaN   
1  Afeganistão                AFG  1751    0.0     NaN   NaN  NaN      NaN   
2  Afeganistão                AFG  1752    0.0     NaN   NaN  NaN      NaN   
3  Afeganistão                AFG  1753    0.0     NaN   NaN  NaN      NaN   
4  Afeganistão                AFG  1754    0.0     NaN   NaN  NaN      NaN   

   Queima  Outro  Per Capita  
0     NaN    NaN         NaN  
1     NaN    NaN         NaN  
2     NaN    NaN         NaN  
3     NaN    NaN         NaN  
4     NaN    NaN         NaN  


Para descobrir se há mais páginas, usaremos uma classe da biblioteca Pandas chamada ExcelFile(). Entre os parênteses, passaremos a URL. Depois, empregamos o atributo sheet_names (nome das páginas):

In [19]:
pd.ExcelFile(url_excel).sheet_names

['emissoes_C02', 'emissoes_percapita', 'fontes']

## Parâmetro sheet_name

Por padrão, esse parâmetro é igual a zero. Ou seja, quando não alteramos esse valor, a primeira página será mostrada. Já se definirmos sheet_name=1, consultaremos a segunda página. Alternativamente, podemos escrever o nome da página, por exemplo, sheet_name="Pagina2".

In [20]:
percapita = pd.read_excel(url_excel, sheet_name='emissoes_percapita')
percapita.head()

Unnamed: 0,País,ISO 3166-1 alpha-3,Ano,Total,Carvão,Óleo,Gás,Cimento,Queima,Outro
0,Afeganistão,AFG,1750,,,,,,,
1,Afeganistão,AFG,1751,,,,,,,
2,Afeganistão,AFG,1752,,,,,,,
3,Afeganistão,AFG,1753,,,,,,,
4,Afeganistão,AFG,1754,,,,,,,


In [21]:
fontes = pd.read_excel(url_excel, sheet_name='fontes')
fontes.head()

Unnamed: 0,País,ISO 3166-1 alpha-3,Ano,Total,Carvão,Oléo,Gás,Cimento,Queima,Outro,Per Capita
0,Afeganistão,AFG,1750,[NONE],[NONE],[NONE],[NONE],[NONE],[NONE],[NONE],[NONE]
1,Afeganistão,AFG,1751,[NONE],[NONE],[NONE],[NONE],[NONE],[NONE],[NONE],[NONE]
2,Afeganistão,AFG,1752,[NONE],[NONE],[NONE],[NONE],[NONE],[NONE],[NONE],[NONE]
3,Afeganistão,AFG,1753,[NONE],[NONE],[NONE],[NONE],[NONE],[NONE],[NONE],[NONE]
4,Afeganistão,AFG,1754,[NONE],[NONE],[NONE],[NONE],[NONE],[NONE],[NONE],[NONE]


### Parâmetro usecols

o usecols, com o qual especificamos as colunas que queremos mostrar

In [22]:
intervalo = pd.read_excel(url_excel, sheet_name='emissoes_C02', usecols= 'A:D') # Ao indicar A:D, selecionamos o intervalo da coluna A até a coluna D
intervalo

Unnamed: 0,País,ISO 3166-1 alpha-3,Ano,Total
0,Afeganistão,AFG,1750,0.000000e+00
1,Afeganistão,AFG,1751,0.000000e+00
2,Afeganistão,AFG,1752,0.000000e+00
3,Afeganistão,AFG,1753,0.000000e+00
4,Afeganistão,AFG,1754,0.000000e+00
...,...,...,...,...
63099,Global,WLD,2017,3.609674e+10
63100,Global,WLD,2018,3.682651e+10
63101,Global,WLD,2019,3.708256e+10
63102,Global,WLD,2020,3.526409e+10


## Parâmetro nrows

definiremos a exibição de apenas 10 linhas com nrows=10

In [23]:
intervalo_2 = pd.read_excel(url_excel, sheet_name='emissoes_C02', usecols= 'A:D', nrows=10)
intervalo_2

Unnamed: 0,País,ISO 3166-1 alpha-3,Ano,Total
0,Afeganistão,AFG,1750,0
1,Afeganistão,AFG,1751,0
2,Afeganistão,AFG,1752,0
3,Afeganistão,AFG,1753,0
4,Afeganistão,AFG,1754,0
5,Afeganistão,AFG,1755,0
6,Afeganistão,AFG,1756,0
7,Afeganistão,AFG,1757,0
8,Afeganistão,AFG,1758,0
9,Afeganistão,AFG,1759,0


## Salvando em formato Excel

In [24]:
percapita.head()

Unnamed: 0,País,ISO 3166-1 alpha-3,Ano,Total,Carvão,Óleo,Gás,Cimento,Queima,Outro
0,Afeganistão,AFG,1750,,,,,,,
1,Afeganistão,AFG,1751,,,,,,,
2,Afeganistão,AFG,1752,,,,,,,
3,Afeganistão,AFG,1753,,,,,,,
4,Afeganistão,AFG,1754,,,,,,,


In [25]:
percapita.to_excel('co2_percapita.xlsx', index=False)

In [26]:
print(os.getcwd())

c:\Users\tamir\OneDrive\Área de Trabalho\Curso - Python para Data\Data Science - Python\Pandas IO


## Para saber mais: importando no Google Planilhas

Para importar o arquivo Excel emissoes_CO2.xlsx no Google Planilhas, siga as seguintes etapas:

1. Abra a página do Google Planilhas e clique em “Acesse o Sheets”. Faça login em sua conta do Google, se necessário.
2. Clique em “Arquivo” (File) no menu superior e depois clique na opção “Importar arquivo” (Import).
3. Clique na guia "Fazer upload" (Upload) e selecione o arquivo que deseja importar. Você pode clicar na opção Browse para localizar o arquivo no seu computador ou arrastar o arquivo dentro da guia.
4. Aguarde enquanto o arquivo é carregado. Quando o upload estiver completo, você verá uma mensagem de confirmação e pode clicar em “Importar dados” (Import data).
5. Após a importação os dados serão exibidos.

Toda planilha possui um ID para identificá-la. Este ID está presente nessa URL, entre /d/ e /edit?usp=sharing. No caso, o ID da planilha é o seguinte:

In [27]:
sheet_id = '12ZBetRhvyJBdIB8fC2HSR6tSD9SaLm18G1LZW_lLhf8'

O que é esse parâmetro e para que ele serve? Para ter acesso à planilha, é necessário acessar a API de visualização de dados do Google. API significa Application Programming Interface, isto é, uma interface de programação de aplicações. Elas permitem sistemas diferentes se comuniquem.

O parâmetro gviz/tq permite o acesso à API responsável por essa comunicação.

Dessa forma, nossos dados serão retornados em formato CSV (que já temos familiaridade, de aulas anteriores).

Assim, todos os dados da planilha serão retornados, incluindo cabeçalho, linhas e colunas. Nossa URL está pronta! A seguir, vamos verificar se tudo funciona como esperado.

In [28]:
url_sheet = f'https://docs.google.com/spreadsheets/d/{sheet_id}/gviz/tq?tqx=out:csv&sheet'

In [29]:
dados_co2_sheets = pd.read_csv(url_sheet)

In [30]:
dados_co2_sheets.head()

Unnamed: 0,País,ISO 3166-1 alpha-3,Ano,Total,Carvão,Oléo,Gás,Cimento,Queima,Outro,Per Capita
0,Afeganistão,AFG,1750,0,,,,,,,
1,Afeganistão,AFG,1751,0,,,,,,,
2,Afeganistão,AFG,1752,0,,,,,,,
3,Afeganistão,AFG,1753,0,,,,,,,
4,Afeganistão,AFG,1754,0,,,,,,,


Verificamos anteriormente que já três páginas diferentes em nossa planilha, recapitulando:

emissoes_CO2

emissoes_percapita

fontes

In [31]:
sheet_id = '12ZBetRhvyJBdIB8fC2HSR6tSD9SaLm18G1LZW_lLhf8'
sheet_name = 'emissoes_percapita'
url_percapita = f'https://docs.google.com/spreadsheets/d/{sheet_id}/gviz/tq?tqx=out:csv&sheet={sheet_name}'

In [32]:
percapita_sheets = pd.read_csv(url_percapita)
percapita_sheets.head()

Unnamed: 0,País,ISO 3166-1 alpha-3,Ano,Total,Carvão,Óleo,Gás,Cimento,Queima,Outro
0,Afeganistão,AFG,1750,,,,,,,
1,Afeganistão,AFG,1751,,,,,,,
2,Afeganistão,AFG,1752,,,,,,,
3,Afeganistão,AFG,1753,,,,,,,
4,Afeganistão,AFG,1754,,,,,,,


In [33]:
sheet_id = '12ZBetRhvyJBdIB8fC2HSR6tSD9SaLm18G1LZW_lLhf8'
sheet_name = 'fontes'
url_fontes = f'https://docs.google.com/spreadsheets/d/{sheet_id}/gviz/tq?tqx=out:csv&sheet={sheet_name}'

In [34]:
fontes_sheets = pd.read_csv(url_fontes)
fontes_sheets.head()

Unnamed: 0,País,ISO 3166-1 alpha-3,Ano,Total,Carvão,Oléo,Gás,Cimento,Queima,Outro,Per Capita
0,Afeganistão,AFG,1750,[NONE],[NONE],[NONE],[NONE],[NONE],[NONE],[NONE],[NONE]
1,Afeganistão,AFG,1751,[NONE],[NONE],[NONE],[NONE],[NONE],[NONE],[NONE],[NONE]
2,Afeganistão,AFG,1752,[NONE],[NONE],[NONE],[NONE],[NONE],[NONE],[NONE],[NONE]
3,Afeganistão,AFG,1753,[NONE],[NONE],[NONE],[NONE],[NONE],[NONE],[NONE],[NONE]
4,Afeganistão,AFG,1754,[NONE],[NONE],[NONE],[NONE],[NONE],[NONE],[NONE],[NONE]


## O que é um arquivo JSON?

Um arquivo JSON é formado por chaves e seus respectivos valores. Sempre haverá o símbolo de abrir e fechar chaves no começo e no fim das informações. Nesse sentido, o arquivo se assemelha muito a um dicionário em Python.

Exemplo: 

{"ID":"01", "Faixa_etaria":"55-59", "Sexo_biologico":"Feminino"}

Neste arquivo, temos três informações a respeito da pessoa:

Um ID atribuído a ela ("ID");

Sua faixa etária ("Faixa_etaria");

Seu sexo biológico ("Sexo_biologico").

JSON é uma sigla em inglês para JavaScript Object Notation. Em português, são os Objetos de Notação JavaScript. Este é um formato de texto leve baseado em um subconjunto da linguagem de programação JavaScript. Ele é muito utilizado em APIs também.

In [35]:
dados_pacientes = pd.read_json("C:\\Users\\tamir\\OneDrive\\Área de Trabalho\\Curso - Python para Data\\Data Science - Python\\Pandas IO\\pacientes.json")
dados_pacientes.head()

Unnamed: 0,ID_paciente,Doenca_cardiaca,IMC,Fumante,Consumo_alcool,AVC,Saude_fisica,Saude_mental,Dificuldade_caminhar,Sexo_biologico,Faixa_etaria,Raca,Diabetes,Atividade_fisica,Saude_geral,Horas_sono,Asma,Doenca_renal,Cancer_pele
0,0,Nao,16.6,Sim,Nao,Nao,3,30,Nao,Feminino,55-59,Branca,Sim,Sim,Muito boa,5,Sim,Nao,Sim
1,1,Nao,20.34,Nao,Nao,Sim,0,0,Nao,Feminino,80 ou +,Branca,Nao,Sim,Muito boa,7,Nao,Nao,Nao
2,2,Nao,26.58,Sim,Nao,Nao,20,30,Nao,Masculino,65-69,Branca,Sim,Sim,Razoavel,8,Sim,Nao,Nao
3,3,Nao,24.21,Nao,Nao,Nao,0,0,Nao,Feminino,75-79,Branca,Nao,No,Boa,6,Nao,Nao,Sim
4,4,Nao,23.71,Nao,Nao,Nao,28,0,Sim,Feminino,40-44,Branca,Nao,Sim,Muito boa,8,Nao,Nao,Nao


In [36]:
dados_pacientes_2 = pd.read_json("C:\\Users\\tamir\\OneDrive\\Área de Trabalho\\Curso - Python para Data\\Data Science - Python\\Pandas IO\\pacientes_2.json")
dados_pacientes_2.head()

Unnamed: 0,Pesquisa,Ano,Pacientes
0,Principais Indicadores de Doenca Cardiaca,2020,"{'ID': '01', 'Faixa_etaria': '55-59', 'Sexo_bi..."
1,Principais Indicadores de Doenca Cardiaca,2020,"{'ID': '02', 'Faixa_etaria': '80 ou +', 'Sexo_..."
2,Principais Indicadores de Doenca Cardiaca,2020,"{'ID': '03', 'Faixa_etaria': '65-69', 'Sexo_bi..."


Anteriormente, tentamos fazer a leitura de um arquivo JSON com informações aninhadas na coluna "Paciente". Antes de normalizar os dados desta coluna, vamos entender a estrutura do arquivo JSON.

Para isso, abriremos o editor de textos em JSON [jsoncrack.com](https://jsoncrack.com/editor) no navegador. Selecionaremos a opção "Go to editor", no centro da tela.

Isso nos mostra a estrutura completa do arquivo.


In [37]:
df_normalizado = pd.json_normalize(dados_pacientes_2['Pacientes'])
df_normalizado

Unnamed: 0,ID,Faixa_etaria,Sexo_biologico,Raça,IMC,Fumante,Consumo_alcool,Saude_fisica,Saude_mental,Dificuldade_caminhar,Atividade_fisica,Saude_geral,Horas_sono,Problemas_saude
0,1,55-59,Feminino,Branca,16.6,Sim,Nao,3,30,Nao,Sim,Muito boa,5,"[Diabetes, Asma, Cancer_pele]"
1,2,80 ou +,Feminino,Branca,20.34,Nao,Nao,0,0,Nao,Sim,Muito boa,7,[AVC]
2,3,65-69,Masculino,Branca,26.58,Sim,Nao,20,30,Nao,Sim,Muito boa,8,"[diabetes, Asma]"


Agora, conseguimos obter o data frame normalizado, com uma coluna para cada informação. É isso que a função json_normalize faz: transforma tudo o que estiver aninhado em uma única célula em diferentes linhas e colunas.

Já conseguimos normalizar o nosso arquivo JSON, mas e se quisermos salvar o arquivo normalizado?

Para fazer isso, chamaremos o data frame normalizado digitando df_normalizado. Para salvá-lo em formato JSON, usaremos a função .to_json(). Dentro dos parênteses, inseriremos aspas simples e daremos um nome para o arquivo, já indicando o formato em que ele será salvo (historico_pacientes_normalizado.json).

In [38]:
# df_normalizado.to_json("historico_pacientes_normalizado.json")

Aqui vai uma dica importante: salvamos o arquivo em formato JSON, mas você também pode salvar o seu arquivo em formato CSV ou EXCEL, podendo usá-los para facilitar análises futuras. Assim, você não precisará 'salvar ou converter o mesmo arquivo várias vezes.

## Lendo páginas web

In [39]:
!pip install lxml



In [40]:
dados_html = pd.read_html("C:\\Users\\tamir\\OneDrive\\Área de Trabalho\\Curso - Python para Data\\Data Science - Python\\Pandas IO\\filmes_wikipedia.html")
dados_html

[       0                      1
 0   1998             100 Movies
 1   1999              100 Stars
 2   2000             100 Laughs
 3   2001            100 Thrills
 4   2002           100 Passions
 5   2003  100 Heroes & Villains
 6   2004              100 Songs
 7   2005       100 Movie Quotes
 8   2005              25 Scores
 9   2006             100 Cheers
 10  2006            25 Musicals
 11  2007   100 Movies (Updated)
 12  2008        AFI's 10 Top 10
 13   vte                    vte,
                             Film  Release year              Director  \
 0                   Citizen Kane          1941          Orson Welles   
 1                     Casablanca          1942        Michael Curtiz   
 2                  The Godfather          1972  Francis Ford Coppola   
 3             Gone with the Wind          1939        Victor Fleming   
 4             Lawrence of Arabia          1962            David Lean   
 ..                           ...           ...                   

Mas, por que não surgiu um dataframe?

A função read_html() busca pelas tags <table> e transforma esses dataframes em uma lista. Ou seja, nossa lista contém os dataframes um abaixo do outro. Podemos confirmar isso ao verificar o tipo da variável criada, dados_html, executando o seguinte comando:

In [41]:
type(dados_html)

list

In [42]:
len(dados_html) 

3

O retorno desse comando será "3". Como já comentamos, temos três tabelas nessa página. Então, são três dataframes na lista.

In [43]:
top_filmes = dados_html[1]
top_filmes

Unnamed: 0,Film,Release year,Director,Production companies,Rank
0,Citizen Kane,1941,Orson Welles,RKO Radio Pictures,1
1,Casablanca,1942,Michael Curtiz,Warner Bros. Pictures,2
2,The Godfather,1972,Francis Ford Coppola,"Paramount Pictures, Alfran Productions",3
3,Gone with the Wind,1939,Victor Fleming,Selznick International Pictures,4
4,Lawrence of Arabia,1962,David Lean,Horizon Pictures,5
...,...,...,...,...,...
95,The Searchers,1956,John Ford,C. V. Whitney Pictures,96
96,Bringing Up Baby,1938,Howard Hawks,RKO Radio Pictures,97
97,Unforgiven,1992,Clint Eastwood,The Malpaso Company,98
98,Guess Who's Coming to Dinner,1967,Stanley Kramer,Columbia Pictures,99


## Criando o arquivo HTML

In [44]:
top_filmes.to_html('top_filmes.html')

## Salvando em formato CSV

In [45]:
# top_filmes.to_csv('top_filmes_1998.csv', index=False)

In [46]:
# pd.read_csv('/content/top_filmes_1998.csv')

## Lendo/escrevendo arquivos XML

Esse nome é uma sigla da expressão em inglês Extensible Markup Language, ou "Linguagem de marcação estendida". Sua estrutura de tags é muito parecida com o HTML.

No nosso arquivo, temos uma tag logo no início chamada <data>. Essa é a tag raiz que indica o início do documento. Em seguida temos uma tag chamada <row>, "linha" em português. Para cada linha, temos várias tags que contêm as informações que estarão em cada uma das colunas.

In [47]:
dados_imdb = pd.read_xml('https://raw.githubusercontent.com/alura-cursos/Pandas/main/imdb_top_1000.xml')
dados_imdb.head(3)

Unnamed: 0,index,Poster_Link,Series_Title,Released_Year,Certificate,Runtime,Genre,IMDB_Rating,Overview,Meta_score,Director,Star1,Star2,Star3,Star4,No_of_Votes,Gross
0,0,https://m.media-amazon.com/images/M/MV5BMDFkYT...,The Shawshank Redemption,1994,A,142 min,Drama,9.3,Two imprisoned men bond over a number of years...,80.0,Frank Darabont,Tim Robbins,Morgan Freeman,Bob Gunton,William Sadler,2343110,28341469
1,1,https://m.media-amazon.com/images/M/MV5BM2MyNj...,The Godfather,1972,A,175 min,"Crime, Drama",9.2,An organized crime dynasty's aging patriarch t...,100.0,Francis Ford Coppola,Marlon Brando,Al Pacino,James Caan,Diane Keaton,1620367,134966411
2,2,https://m.media-amazon.com/images/M/MV5BMTMxNT...,The Dark Knight,2008,UA,152 min,"Action, Crime, Drama",9.0,When the menace known as the Joker wreaks havo...,84.0,Christopher Nolan,Christian Bale,Heath Ledger,Aaron Eckhart,Michael Caine,2303232,534858444


Temos as seguintes informações no dataframe: um link para o pôster de cada um dos filmes, os títulos, ano de publicação, certificado, duração do filme, gênero, nota no IMDB, sinopse, meta score, diretor, atores principais, número de votos e orçamento.

### Escrevendo um arquivo XML

Essa função to_xml(), para salvar no formato XML, é muito útil quando trabalhamos com bancos de dados ou outros sistemas que se integrem facilmente a esse formato.

In [48]:
dados_imdb.to_xml('filmes_imdb.xml')

In [91]:
!pip install --upgrade sqlalchemy==1.4.47

Collecting sqlalchemy==1.4.47
  Downloading SQLAlchemy-1.4.47.tar.gz (8.6 MB)
     ---------------------------------------- 0.0/8.6 MB ? eta -:--:--
     ---------------------------------------- 0.0/8.6 MB ? eta -:--:--
     ---------------------------------------- 0.0/8.6 MB ? eta -:--:--
     ---------------------------------------- 0.0/8.6 MB ? eta -:--:--
     ---------------------------------------- 0.0/8.6 MB ? eta -:--:--
     ---------------------------------------- 0.0/8.6 MB 59.5 kB/s eta 0:02:24
     ---------------------------------------- 0.0/8.6 MB 59.5 kB/s eta 0:02:24
     ---------------------------------------- 0.0/8.6 MB 59.5 kB/s eta 0:02:24
     ---------------------------------------- 0.0/8.6 MB 59.5 kB/s eta 0:02:24
     ---------------------------------------- 0.0/8.6 MB 59.5 kB/s eta 0:02:24
     ---------------------------------------- 0.0/8.6 MB 59.5 kB/s eta 0:02:24
     ---------------------------------------- 0.0/8.6 MB 59.5 kB/s eta 0:02:24
     ---------

## sqlalchemy

In [93]:
import sqlalchemy

In [94]:
sqlalchemy.__version__


'2.0.30'

### Criando um banco de dados local

Na mesma linha, inserimos uma vírgula e a importação MetaData. Essa é uma classe que representa os meta dados do banco de dados, isso inclui informações sobre as tabelas, colunas e outros objetos.

Também importamos a classe Table que representa uma tabela em um banco de dados e é usada para manipular dados em uma tabela específica.

Por fim, importamos a função inspect, que permite inspecionar a estrutura do banco de dados. Em seguida, executamos a célula.

Agora, vamos criar o banco de dados. Para isso, criamos uma variável chamada engine. Dela, chamamos o create_engine(). Dentro das chaves abrimos aspas simples e escrevemos o banco de dados que será utilizado, 'sqlite:///:memory:'.

In [56]:
from sqlalchemy import create_engine, MetaData, Table, inspect
engine = create_engine('sqlite:///:memory:')

In [65]:
url_csv = "https://raw.githubusercontent.com/alura-cursos/Pandas/main/clientes_banco.csv"

In [66]:
dados = pd.read_csv(url_csv)
dados.head()

Para colocá-las no nosso banco de dados utilizaremos a função dados.to_sql(), que deixará o dataframe no formato do banco. Dentro do parênteses, colocamos duas aspas simples e definimos o nome da tabela que será criada. Nesse caso será 'clientes'.

In [67]:
dados.to_sql('clientes', engine, index=False)

438463

In [68]:
#Código omitido

inspector = inspect(engine)

In [69]:
print(inspector.get_table_names())

['clientes']


Agora, descobriremos como acessar essas informações por meio de consultas SQL.

Para isso, criamos uma variável chamada query. Inserimos o símbolo de igual e duas aspas simples.

In [70]:
query = 'SELECT * FROM clientes WHERE Categoria_de_renda="Empregado"'

# Dentro das aspas escrevemos exatamente o que queremos consultar em SQL. Nesse caso, o que o time de dados quer é separar as pessoas que estão com a categoria de renda
# preenchidas como "Empregado", ou seja, só as pessoas que estão trabalhando no momento.


Para ler uma consulta em SQL criaremos a variável empregados = pd.read_sql(). Dentro do parêntese, passamos a consulta e o motor do bando de dados, query, engine. Em seguida, a executamos.

In [73]:
empregados = pd.read_sql(query, engine)
empregados


Unnamed: 0,ID_Cliente,Idade,Grau_escolaridade,Estado_civil,Tamanho_familia,Categoria_de_renda,Ocupacao,Anos_empregado,Rendimento_anual,Tem_carro,Moradia
0,5008804,32,Ensino superior,União-estável,2,Empregado,Outro,12,427500.0,1,Apartamento alugado
1,5008805,32,Ensino superior,União-estável,2,Empregado,Outro,12,427500.0,1,Apartamento alugado
2,5008806,58,Ensino médio,Casado,2,Empregado,Segurança,3,112500.0,1,Casa/apartamento próprio
3,5008815,46,Ensino superior,Casado,2,Empregado,Contabilidade,2,270000.0,1,Casa/apartamento próprio
4,5112956,46,Ensino superior,Casado,2,Empregado,Contabilidade,2,270000.0,1,Casa/apartamento próprio
...,...,...,...,...,...,...,...,...,...,...,...
226054,6837905,43,Ensino médio,Casado,3,Empregado,Outro,7,355050.0,1,Casa/apartamento próprio
226055,6837906,43,Ensino médio,Casado,3,Empregado,Outro,7,355050.0,1,Casa/apartamento próprio
226056,6839936,34,Ensino médio,Casado,3,Empregado,Construção Civil,5,135000.0,1,Casa/apartamento próprio
226057,6840222,43,Ensino médio,Solteiro,1,Empregado,Construção Civil,8,103500.0,0,Casa/apartamento próprio


Para salvá-la como uma nova tabela escrevemos empregados.to_sql(). Dentro do parêntese inserimos aspas simples e dentro dela escrevemos empregados. Adicionamos uma vírgula e passamos o parâmetro con=engine seguido de index=False e executamos.

In [72]:
empregados.to_sql('empregados', con=engine, index=False)


226059

Para isso, utilizamos a função pd.read_sql_table(). Dentro do parêntese inserimos aspas simples, seguido do nome da tabela que queremos executar 'empregados' e engine. Executamos em sequência.

In [74]:
pd.read_sql_table('empregados', engine)

Unnamed: 0,ID_Cliente,Idade,Grau_escolaridade,Estado_civil,Tamanho_familia,Categoria_de_renda,Ocupacao,Anos_empregado,Rendimento_anual,Tem_carro,Moradia
0,5008804,32,Ensino superior,União-estável,2,Empregado,Outro,12,427500.0,1,Apartamento alugado
1,5008805,32,Ensino superior,União-estável,2,Empregado,Outro,12,427500.0,1,Apartamento alugado
2,5008806,58,Ensino médio,Casado,2,Empregado,Segurança,3,112500.0,1,Casa/apartamento próprio
3,5008815,46,Ensino superior,Casado,2,Empregado,Contabilidade,2,270000.0,1,Casa/apartamento próprio
4,5112956,46,Ensino superior,Casado,2,Empregado,Contabilidade,2,270000.0,1,Casa/apartamento próprio
...,...,...,...,...,...,...,...,...,...,...,...
226054,6837905,43,Ensino médio,Casado,3,Empregado,Outro,7,355050.0,1,Casa/apartamento próprio
226055,6837906,43,Ensino médio,Casado,3,Empregado,Outro,7,355050.0,1,Casa/apartamento próprio
226056,6839936,34,Ensino médio,Casado,3,Empregado,Construção Civil,5,135000.0,1,Casa/apartamento próprio
226057,6840222,43,Ensino médio,Solteiro,1,Empregado,Construção Civil,8,103500.0,0,Casa/apartamento próprio


Para testarmos, copiamos a mesma linha de código que escrevemos anteriormente e colamos em uma nova linha.

Depois de engine, adicionamos o parâmetro colums=[]. Dentro de colchetes adicionamos aspas simples e dentro delas adicionamos as colunas que queremos visualizar, sendo: 'ID_cliente', 'Grau_escolaridade', 'Rendimento_anual'.


In [75]:
pd.read_sql_table('empregados', engine, columns=['ID_Cliente', 'Grau_escolaridade', 'Rendimento_anual'])


Unnamed: 0,ID_Cliente,Grau_escolaridade,Rendimento_anual
0,5008804,Ensino superior,427500.0
1,5008805,Ensino superior,427500.0
2,5008806,Ensino médio,112500.0
3,5008815,Ensino superior,270000.0
4,5112956,Ensino superior,270000.0
...,...,...,...
226054,6837905,Ensino médio,355050.0
226055,6837906,Ensino médio,355050.0
226056,6839936,Ensino médio,135000.0
226057,6840222,Ensino médio,103500.0


### Atualizando um banco de dados

In [76]:
query = 'SELECT * FROM clientes'

In [77]:
pd.read_sql(query, engine) 

Unnamed: 0,ID_Cliente,Idade,Grau_escolaridade,Estado_civil,Tamanho_familia,Categoria_de_renda,Ocupacao,Anos_empregado,Rendimento_anual,Tem_carro,Moradia
0,5008804,32,Ensino superior,União-estável,2,Empregado,Outro,12,427500.0,1,Apartamento alugado
1,5008805,32,Ensino superior,União-estável,2,Empregado,Outro,12,427500.0,1,Apartamento alugado
2,5008806,58,Ensino médio,Casado,2,Empregado,Segurança,3,112500.0,1,Casa/apartamento próprio
3,5008808,52,Ensino médio,Solteiro,1,Associado comercial,Vendas,8,270000.0,0,Casa/apartamento próprio
4,5008809,52,Ensino médio,Solteiro,1,Associado comercial,Vendas,8,270000.0,0,Casa/apartamento próprio
...,...,...,...,...,...,...,...,...,...,...,...
438458,6840104,62,Ensino médio,Divorciado,1,Pensionista,Outro,0,135000.0,0,Casa/apartamento próprio
438459,6840222,43,Ensino médio,Solteiro,1,Empregado,Construção Civil,8,103500.0,0,Casa/apartamento próprio
438460,6841878,22,Ensino superior,Solteiro,1,Associado comercial,Vendas,1,54000.0,0,Mora com os pais
438461,6842765,59,Ensino médio,Casado,2,Pensionista,Outro,0,72000.0,0,Casa/apartamento próprio


Suponhamos que a pessoa de ID 5008804 cancelou sua conta na instituição financeira. Isso significa que ela não faz mais parte do quadro de clientes.

Para tirá-la da tabela precisamos realizar uma consulta. Então, escrevemos query = ''. Dentro das aspas, inserimos a instrução DELETE seguido da cláusula FROM clientes. Agora, especificamos qual cliente será deletado, então, escrevemos WHERE seguido do nome da coluna ID_Cliente e o número do ID 5008804.

In [87]:
from sqlalchemy import text
query = text('DELETE FROM clientes WHERE ID_Cliente=5008804')

In [88]:
conn.commit()


In [89]:
query = text('DELETE FROM clientes WHERE ID_Cliente=5008804')
with engine.connect() as conn:
    conn.execute(query)
    conn.commit()

In [90]:
pd.read_sql_table('clientes', engine) 

Unnamed: 0,ID_Cliente,Idade,Grau_escolaridade,Estado_civil,Tamanho_familia,Categoria_de_renda,Ocupacao,Anos_empregado,Rendimento_anual,Tem_carro,Moradia
0,5008805,32,Ensino superior,União-estável,2,Empregado,Outro,12,427500.0,1,Apartamento alugado
1,5008806,58,Ensino médio,Casado,2,Empregado,Segurança,3,112500.0,1,Casa/apartamento próprio
2,5008808,52,Ensino médio,Solteiro,1,Associado comercial,Vendas,8,270000.0,0,Casa/apartamento próprio
3,5008809,52,Ensino médio,Solteiro,1,Associado comercial,Vendas,8,270000.0,0,Casa/apartamento próprio
4,5008810,52,Ensino médio,Solteiro,1,Associado comercial,Vendas,8,270000.0,0,Casa/apartamento próprio
...,...,...,...,...,...,...,...,...,...,...,...
438457,6840104,62,Ensino médio,Divorciado,1,Pensionista,Outro,0,135000.0,0,Casa/apartamento próprio
438458,6840222,43,Ensino médio,Solteiro,1,Empregado,Construção Civil,8,103500.0,0,Casa/apartamento próprio
438459,6841878,22,Ensino superior,Solteiro,1,Associado comercial,Vendas,1,54000.0,0,Mora com os pais
438460,6842765,59,Ensino médio,Casado,2,Pensionista,Outro,0,72000.0,0,Casa/apartamento próprio


In [101]:
query = text('UPDATE clientes SET Grau_escolaridade="Ensino superior" WHERE ID_Cliente=5008808')

In [102]:
conn.commit()


In [103]:
query = text('UPDATE clientes SET Grau_escolaridade="Ensino superior" WHERE ID_Cliente=5008808')
with engine.connect() as conn:
    conn.execute(query)

In [104]:
pd.read_sql_table('clientes', engine)

Unnamed: 0,ID_Cliente,Idade,Grau_escolaridade,Estado_civil,Tamanho_familia,Categoria_de_renda,Ocupacao,Anos_empregado,Rendimento_anual,Tem_carro,Moradia
0,5008805,32,Ensino superior,União-estável,2,Empregado,Outro,12,427500.0,1,Apartamento alugado
1,5008806,58,Ensino médio,Casado,2,Empregado,Segurança,3,112500.0,1,Casa/apartamento próprio
2,5008808,52,Ensino médio,Solteiro,1,Associado comercial,Vendas,8,270000.0,0,Casa/apartamento próprio
3,5008809,52,Ensino médio,Solteiro,1,Associado comercial,Vendas,8,270000.0,0,Casa/apartamento próprio
4,5008810,52,Ensino médio,Solteiro,1,Associado comercial,Vendas,8,270000.0,0,Casa/apartamento próprio
...,...,...,...,...,...,...,...,...,...,...,...
438457,6840104,62,Ensino médio,Divorciado,1,Pensionista,Outro,0,135000.0,0,Casa/apartamento próprio
438458,6840222,43,Ensino médio,Solteiro,1,Empregado,Construção Civil,8,103500.0,0,Casa/apartamento próprio
438459,6841878,22,Ensino superior,Solteiro,1,Associado comercial,Vendas,1,54000.0,0,Mora com os pais
438460,6842765,59,Ensino médio,Casado,2,Pensionista,Outro,0,72000.0,0,Casa/apartamento próprio
