<a href="https://colab.research.google.com/github/strawndri/python-ds-pandas-io/blob/main/Projeto_Python_Data_Science.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Python para Data Science

Neste Notebook, serão trabalhadas diferentes maneiras de importar e exportar arquivos utilizando a [biblioteca Pandas](https://pandas.pydata.org/docs/), do Python.

Todo o estudo é baseado no conteúdo apresentado no curso [Pandas I/O: trabalhando com diferentes formatos de arquivos](https://www.alura.com.br/curso-online-pandas-io-trabalhando-diferentes-formatos-arquivos), da Alura.

# 1. Fazendo leitura de arquivos CSV

## 1.1 Lendo arquivos CSV

O método `read_csv` é usado para ler dados de um arquivo CSV e criar um *DataFrame*.

https://pandas.pydata.org/docs/reference/api/pandas.read_csv.html

In [None]:
import pandas as pd

In [None]:
url = 'https://raw.githubusercontent.com/strawndri/python-ds-pandas-io/main/dados/superstore_data.csv'

In [None]:
dados_mercado = pd.read_csv(url)

In [None]:
dados_mercado.head()

Unnamed: 0,Id,Year_Birth,Education,Marital_Status,Income,Kidhome,Teenhome,Dt_Customer,Recency,MntWines,...,MntFishProducts,MntSweetProducts,MntGoldProds,NumDealsPurchases,NumWebPurchases,NumCatalogPurchases,NumStorePurchases,NumWebVisitsMonth,Response,Complain
0,1826,1970,Graduation,Divorced,84835.0,0,0,6/16/2014,0,189,...,111,189,218,1,4,4,6,1,1,0
1,1,1961,Graduation,Single,57091.0,0,0,6/15/2014,0,464,...,7,0,37,1,7,3,7,5,1,0
2,10476,1958,Graduation,Married,67267.0,0,1,5/13/2014,0,134,...,15,2,30,1,3,2,5,2,0,0
3,1386,1967,Graduation,Together,32474.0,1,1,11/5/2014,0,10,...,0,0,0,1,1,0,2,7,0,0
4,5371,1989,Graduation,Single,21474.0,1,0,8/4/2014,0,6,...,11,0,34,2,3,1,2,7,1,0


In [None]:
url2 = 'https://raw.githubusercontent.com/strawndri/python-ds-pandas-io/main/dados/superstore_data_ponto_virgula.csv'

In [None]:
dados_mercado_ponto_virgula = pd.read_csv(url2)

In [None]:
dados_mercado_ponto_virgula.head()

Unnamed: 0,Id;Year_Birth;Education;Marital_Status;Income;Kidhome;Teenhome;Dt_Customer;Recency;MntWines;MntFruits;MntMeatProducts;MntFishProducts;MntSweetProducts;MntGoldProds;NumDealsPurchases;NumWebPurchases;NumCatalogPurchases;NumStorePurchases;NumWebVisitsMonth;Response;Complain
0,1826;1970;Graduation;Divorced;84835;0;0;6/16/2...
1,1;1961;Graduation;Single;57091;0;0;6/15/2014;0...
2,10476;1958;Graduation;Married;67267;0;1;5/13/2...
3,1386;1967;Graduation;Together;32474;1;1;11/5/2...
4,5371;1989;Graduation;Single;21474;1;0;8/4/2014...


## 1.2 Parâmetros da função `read_csv`

### `sep`

O parâmetro `sep` no método `read_csv` é utilizado para especificar o **delimitador que separa os campos no arquivo CSV**. O delimitador é o caractere usado para indicar onde uma coluna termina e a próxima começa.

Por padrão, o `read_csv` assume que o delimitador é a vírgula (`,`), mas podemos usar outros delimitadores, como ponto e vírgula (`;`) e tabulação (`\t`).

In [None]:
dados_sem_virgula = pd.read_csv(url2, sep=';')

In [None]:
dados_sem_virgula.head()

Unnamed: 0,Id,Year_Birth,Education,Marital_Status,Income,Kidhome,Teenhome,Dt_Customer,Recency,MntWines,...,MntFishProducts,MntSweetProducts,MntGoldProds,NumDealsPurchases,NumWebPurchases,NumCatalogPurchases,NumStorePurchases,NumWebVisitsMonth,Response,Complain
0,1826,1970,Graduation,Divorced,84835.0,0,0,6/16/2014,0,189,...,111,189,218,1,4,4,6,1,1,0
1,1,1961,Graduation,Single,57091.0,0,0,6/15/2014,0,464,...,7,0,37,1,7,3,7,5,1,0
2,10476,1958,Graduation,Married,67267.0,0,1,5/13/2014,0,134,...,15,2,30,1,3,2,5,2,0,0
3,1386,1967,Graduation,Together,32474.0,1,1,11/5/2014,0,10,...,0,0,0,1,1,0,2,7,0,0
4,5371,1989,Graduation,Single,21474.0,1,0,8/4/2014,0,6,...,11,0,34,2,3,1,2,7,1,0


### `nrows`

O parâmetro `nrows` no método `read_csv` serve para especificar o **número de linhas a serem lidas do arquivo CSV**.

Caso não seja especificado, todas as linhas do arquivo são lidas.

In [None]:
dados_primeiras_linhas = pd.read_csv(url, nrows=5)

In [None]:
dados_primeiras_linhas

Unnamed: 0,Id,Year_Birth,Education,Marital_Status,Income,Kidhome,Teenhome,Dt_Customer,Recency,MntWines,...,MntFishProducts,MntSweetProducts,MntGoldProds,NumDealsPurchases,NumWebPurchases,NumCatalogPurchases,NumStorePurchases,NumWebVisitsMonth,Response,Complain
0,1826,1970,Graduation,Divorced,84835,0,0,6/16/2014,0,189,...,111,189,218,1,4,4,6,1,1,0
1,1,1961,Graduation,Single,57091,0,0,6/15/2014,0,464,...,7,0,37,1,7,3,7,5,1,0
2,10476,1958,Graduation,Married,67267,0,1,5/13/2014,0,134,...,15,2,30,1,3,2,5,2,0,0
3,1386,1967,Graduation,Together,32474,1,1,11/5/2014,0,10,...,0,0,0,1,1,0,2,7,0,0
4,5371,1989,Graduation,Single,21474,1,0,8/4/2014,0,6,...,11,0,34,2,3,1,2,7,1,0


### `usecols`

O parâmetro `usecols`, do método `read_csv`, é usado para **selecionar um conjunto específico de colunas** do arquivo CSV durante a leitura.

In [None]:
dados_selecao = pd.read_csv(url, usecols=['Id', 'Year_Birth', 'Income'])

In [None]:
dados_selecao

Unnamed: 0,Id,Year_Birth,Income
0,1826,1970,84835.0
1,1,1961,57091.0
2,10476,1958,67267.0
3,1386,1967,32474.0
4,5371,1989,21474.0
...,...,...,...
2235,10142,1976,66476.0
2236,5263,1977,31056.0
2237,22,1976,46310.0
2238,528,1978,65819.0


In [None]:
dados_selecao = pd.read_csv(url, usecols=[0, 1, 4])

In [None]:
dados_selecao

Unnamed: 0,Id,Year_Birth,Income
0,1826,1970,84835.0
1,1,1961,57091.0
2,10476,1958,67267.0
3,1386,1967,32474.0
4,5371,1989,21474.0
...,...,...,...
2235,10142,1976,66476.0
2236,5263,1977,31056.0
2237,22,1976,46310.0
2238,528,1978,65819.0


## 1.3 Escrevendo arquivos CSV

O método `to_csv` salva um *DataFrame* em um arquivo CSV.

https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.to_csv.html

In [None]:
dados_selecao.to_csv('clientes_mercado.csv')

In [None]:
clientes_mercado = pd.read_csv('/content/clientes_mercado.csv')

In [None]:
clientes_mercado.head()

Unnamed: 0.1,Unnamed: 0,Id,Year_Birth,Income
0,0,1826,1970,84835.0
1,1,1,1961,57091.0
2,2,10476,1958,67267.0
3,3,1386,1967,32474.0
4,4,5371,1989,21474.0


### `index`

O parâmetro `index`, do método `to_csv`, é usado para determinar se o índice do *DataFrame* deve ser incluído no arquivo CSV.

* `index=True` (padrão): indica que o índice do *DataFrame* será incluído;
* `index=False`: omite a apresentação do índice.

In [None]:
dados_selecao.to_csv('clientes_mercado.csv', index=False)

In [None]:
clientes_mercado = pd.read_csv('/content/clientes_mercado.csv')

In [None]:
clientes_mercado.head()

Unnamed: 0,Id,Year_Birth,Income
0,1826,1970,84835.0
1,1,1961,57091.0
2,10476,1958,67267.0
3,1386,1967,32474.0
4,5371,1989,21474.0


# 2. Utilizando planilhas

## 2.1 Lendo arquivos Excel

O método `read_excel` é usado para ler dados de uma planilha do Excel e criar um *DataFrame*.

https://pandas.pydata.org/docs/reference/api/pandas.read_excel.html

In [None]:
url = 'https://github.com/strawndri/python-ds-pandas-io/blob/main/dados/emissoes_CO2.xlsx?raw=True'

In [None]:
dados_co2 = pd.read_excel(url)

In [None]:
dados_co2.head()

Unnamed: 0,País,ISO 3166-1 alpha-3,Ano,Total,Carvão,Oléo,Gás,Cimento,Queima,Outro,Per Capita
0,Afeganistão,AFG,1750,0.0,,,,,,,
1,Afeganistão,AFG,1751,0.0,,,,,,,
2,Afeganistão,AFG,1752,0.0,,,,,,,
3,Afeganistão,AFG,1753,0.0,,,,,,,
4,Afeganistão,AFG,1754,0.0,,,,,,,


In [None]:
pd.ExcelFile(url).sheet_names

['emissoes_C02', 'emissoes_percapita', 'fontes']

## 2.2 Parâmetros da função `read_excel`

### `sheet_name`

O patâmetro `sheet_name`, no método `read_excel`, especifica qual folha (sheet) da planilha em questão deve ser lida.

**Maneiras de especificar:**
* `0` (padrão): primeira folha;
* `'Sheet2'`: identificação pelo nome;
* `[0, 1, 'Sheet3']`: leitura de mais de uma folha.  

In [None]:
percapita = pd.read_excel(url, sheet_name='emissoes_percapita')

In [None]:
percapita.head()

Unnamed: 0,País,ISO 3166-1 alpha-3,Ano,Total,Carvão,Óleo,Gás,Cimento,Queima,Outro
0,Afeganistão,AFG,1750,,,,,,,
1,Afeganistão,AFG,1751,,,,,,,
2,Afeganistão,AFG,1752,,,,,,,
3,Afeganistão,AFG,1753,,,,,,,
4,Afeganistão,AFG,1754,,,,,,,


In [None]:
fontes = pd.read_excel(url, sheet_name='fontes')

In [None]:
fontes.head()

Unnamed: 0,País,ISO 3166-1 alpha-3,Ano,Total,Carvão,Oléo,Gás,Cimento,Queima,Outro,Per Capita
0,Afeganistão,AFG,1750,[NONE],[NONE],[NONE],[NONE],[NONE],[NONE],[NONE],[NONE]
1,Afeganistão,AFG,1751,[NONE],[NONE],[NONE],[NONE],[NONE],[NONE],[NONE],[NONE]
2,Afeganistão,AFG,1752,[NONE],[NONE],[NONE],[NONE],[NONE],[NONE],[NONE],[NONE]
3,Afeganistão,AFG,1753,[NONE],[NONE],[NONE],[NONE],[NONE],[NONE],[NONE],[NONE]
4,Afeganistão,AFG,1754,[NONE],[NONE],[NONE],[NONE],[NONE],[NONE],[NONE],[NONE]


### `usecols`

O parâmetro `usecols`, no método `read_excel`, seleciona apenas um subconjunto específico da planilha Excel durante a leitura, de acordo com a determinação.

In [None]:
intervalo = pd.read_excel(url, sheet_name='emissoes_C02', usecols='A:D')

In [None]:
intervalo.head()

Unnamed: 0,País,ISO 3166-1 alpha-3,Ano,Total
0,Afeganistão,AFG,1750,0.0
1,Afeganistão,AFG,1751,0.0
2,Afeganistão,AFG,1752,0.0
3,Afeganistão,AFG,1753,0.0
4,Afeganistão,AFG,1754,0.0


### `nrows`

O parâmetro `nrows`, do método `read_excel`, especifica o número de linhas a serem lidas da planilha Excel.

In [None]:
intervalo_2 = pd.read_excel(url, sheet_name='emissoes_C02', usecols='A:D', nrows=10)

In [None]:
intervalo_2

Unnamed: 0,País,ISO 3166-1 alpha-3,Ano,Total
0,Afeganistão,AFG,1750,0
1,Afeganistão,AFG,1751,0
2,Afeganistão,AFG,1752,0
3,Afeganistão,AFG,1753,0
4,Afeganistão,AFG,1754,0
5,Afeganistão,AFG,1755,0
6,Afeganistão,AFG,1756,0
7,Afeganistão,AFG,1757,0
8,Afeganistão,AFG,1758,0
9,Afeganistão,AFG,1759,0


## 2.3 Escrevendo arquivos Excel

O método `to_excel` é usado para salvar um *DataFrame* em um arquivo Excel (`.xlsx`).

https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.to_excel.html

In [None]:
percapita.to_excel('co2_percapita.xlsx', index=False)

In [None]:
pd.read_excel('/content/co2_percapita.xlsx')

Unnamed: 0,País,ISO 3166-1 alpha-3,Ano,Total,Carvão,Óleo,Gás,Cimento,Queima,Outro
0,Afeganistão,AFG,1750,,,,,,,
1,Afeganistão,AFG,1751,,,,,,,
2,Afeganistão,AFG,1752,,,,,,,
3,Afeganistão,AFG,1753,,,,,,,
4,Afeganistão,AFG,1754,,,,,,,
...,...,...,...,...,...,...,...,...,...,...
63099,Global,WLD,2017,4749682.0,1908857.0,1610910.0,940144.0,198416.0,51579.0,39776.0
63100,Global,WLD,2018,4792753.0,1919213.0,1596350.0,979965.0,204225.0,53634.0,39366.0
63101,Global,WLD,2019,4775633.0,1896468.0,1589920.0,984878.0,208309.0,56569.0,39490.0
63102,Global,WLD,2020,4497423.0,1807760.0,1427353.0,963695.0,208844.0,51981.0,37789.0


## 2.4 Lendo dados do Google Planilhas

In [None]:
sheet_id = '1j4BZB9QDe42mV6MqPV1j0Lmd_aR6kd1JXiE1W9rNjyU'

In [None]:
url = f'https://docs.google.com/spreadsheets/d/{sheet_id}/gviz/tq?tqx=out:csv&sheet'

In [None]:
dados_co2_sheets = pd.read_csv(url)

In [None]:
dados_co2_sheets.head()

Unnamed: 0,País,ISO 3166-1 alpha-3,Ano,Total,Carvão,Oléo,Gás,Cimento,Queima,Outro,Per Capita
0,Afeganistão,AFG,1750,0,,,,,,,
1,Afeganistão,AFG,1751,0,,,,,,,
2,Afeganistão,AFG,1752,0,,,,,,,
3,Afeganistão,AFG,1753,0,,,,,,,
4,Afeganistão,AFG,1754,0,,,,,,,


In [None]:
sheet_id = '1j4BZB9QDe42mV6MqPV1j0Lmd_aR6kd1JXiE1W9rNjyU'
sheet_name = 'emissoes_percapita'
url_percapita = f'https://docs.google.com/spreadsheets/d/{sheet_id}/gviz/tq?tqx=out:csv&sheet={sheet_name}'

In [None]:
percapita_sheets = pd.read_csv(url_percapita)
percapita_sheets.head()

Unnamed: 0,País,ISO 3166-1 alpha-3,Ano,Total,Carvão,Óleo,Gás,Cimento,Queima,Outro
0,Afeganistão,AFG,1750,,,,,,,
1,Afeganistão,AFG,1751,,,,,,,
2,Afeganistão,AFG,1752,,,,,,,
3,Afeganistão,AFG,1753,,,,,,,
4,Afeganistão,AFG,1754,,,,,,,


In [None]:
sheet_id = '1j4BZB9QDe42mV6MqPV1j0Lmd_aR6kd1JXiE1W9rNjyU'
sheet_name = 'fontes'
url_fontes = f'https://docs.google.com/spreadsheets/d/{sheet_id}/gviz/tq?tqx=out:csv&sheet={sheet_name}'

In [None]:
fontes_sheets = pd.read_csv(url_fontes)
fontes_sheets.head()

Unnamed: 0,País,ISO 3166-1 alpha-3,Ano,Total,Carvão,Oléo,Gás,Cimento,Queima,Outro,Per Capita
0,Afeganistão,AFG,1750,[NONE],[NONE],[NONE],[NONE],[NONE],[NONE],[NONE],[NONE]
1,Afeganistão,AFG,1751,[NONE],[NONE],[NONE],[NONE],[NONE],[NONE],[NONE],[NONE]
2,Afeganistão,AFG,1752,[NONE],[NONE],[NONE],[NONE],[NONE],[NONE],[NONE],[NONE]
3,Afeganistão,AFG,1753,[NONE],[NONE],[NONE],[NONE],[NONE],[NONE],[NONE],[NONE]
4,Afeganistão,AFG,1754,[NONE],[NONE],[NONE],[NONE],[NONE],[NONE],[NONE],[NONE]


# 3. Manipulando arquivos JSON

## 3.1 Lendo arquivos JSON

O método `read_json` lê dados de um arquivo JSON *(JavaScript Object Notation)* e cria um *DataFrame*.

https://pandas.pydata.org/docs/reference/api/pandas.read_json.html

In [1]:
import pandas as pd

In [2]:
url = 'https://raw.githubusercontent.com/strawndri/python-ds-pandas-io/main/dados/pacientes.json'

In [3]:
dados_pacientes = pd.read_json(url)

In [4]:
dados_pacientes.head()

Unnamed: 0,ID_paciente,Doenca_cardiaca,IMC,Fumante,Consumo_alcool,AVC,Saude_fisica,Saude_mental,Dificuldade_caminhar,Sexo_biologico,Faixa_etaria,Raca,Diabetes,Atividade_fisica,Saude_geral,Horas_sono,Asma,Doenca_renal,Cancer_pele
0,0,Nao,16.6,Sim,Nao,Nao,3,30,Nao,Feminino,55-59,Branca,Sim,Sim,Muito boa,5,Sim,Nao,Sim
1,1,Nao,20.34,Nao,Nao,Sim,0,0,Nao,Feminino,80 ou +,Branca,Nao,Sim,Muito boa,7,Nao,Nao,Nao
2,2,Nao,26.58,Sim,Nao,Nao,20,30,Nao,Masculino,65-69,Branca,Sim,Sim,Razoavel,8,Sim,Nao,Nao
3,3,Nao,24.21,Nao,Nao,Nao,0,0,Nao,Feminino,75-79,Branca,Nao,No,Boa,6,Nao,Nao,Sim
4,4,Nao,23.71,Nao,Nao,Nao,28,0,Sim,Feminino,40-44,Branca,Nao,Sim,Muito boa,8,Nao,Nao,Nao


### Informações aninhadas

In [5]:
url_2 = 'https://raw.githubusercontent.com/strawndri/python-ds-pandas-io/main/dados/pacientes_2.json'

In [6]:
dados_pacientes_2 = pd.read_json(url_2)

In [7]:
dados_pacientes_2.head()

Unnamed: 0,Pesquisa,Ano,Pacientes
0,Principais Indicadores de Doenca Cardiaca,2020,"{'ID': '01', 'Faixa_etaria': '55-59', 'Sexo_bi..."
1,Principais Indicadores de Doenca Cardiaca,2020,"{'ID': '02', 'Faixa_etaria': '80 ou +', 'Sexo_..."
2,Principais Indicadores de Doenca Cardiaca,2020,"{'ID': '03', 'Faixa_etaria': '65-69', 'Sexo_bi..."


## 3.2 Normalizando arquivos JSON

Para uma leitura completa e adequada de um arquivo JSON, é necessário observar se ele não possui **dados aninhados**, tal qual o exemplo abaixo:

![Estrutura do arquivo pacientes_2.json](https://i.imgur.com/C8C5SxK.png)

Para contornar essa situação, podemos utilizar o método `json_normalize`, que "achata" dados JSON aninhados em uma estrutura tabular simples.

https://pandas.pydata.org/docs/reference/api/pandas.json_normalize.html

> **Observação:** A função `json_normalize` aceita apenas um dicionário ou uma lista de dicionários. Se tentarmos usar seus parâmetros em um arquivo JSON, podem surgir erros. Isso pode ser evitado importando o módulo `json` e lendo os arquivos desta forma:


```
import pandas as pd
import json

with open('pacientes_2.json','r') as f:
    dados = json.loads(f.read())

pd.json_normalize(dados, record_path='Pacientes', meta=['Pesquisa', 'Ano'])

```



In [8]:
df_normalizado = pd.json_normalize(dados_pacientes_2['Pacientes'])

In [9]:
df_normalizado

Unnamed: 0,ID,Faixa_etaria,Sexo_biologico,Raça,IMC,Fumante,Consumo_alcool,Saude_fisica,Saude_mental,Dificuldade_caminhar,Atividade_fisica,Saude_geral,Horas_sono,Problemas_saude
0,1,55-59,Feminino,Branca,16.6,Sim,Nao,3,30,Nao,Sim,Muito boa,5,"[Diabetes, Asma, Cancer_pele]"
1,2,80 ou +,Feminino,Branca,20.34,Nao,Nao,0,0,Nao,Sim,Muito boa,7,[AVC]
2,3,65-69,Masculino,Branca,26.58,Sim,Nao,20,30,Nao,Sim,Muito boa,8,"[diabetes, Asma]"


## 3.3 Escrevendo arquivos JSON

O método `to_json` é usado para salvar um *DataFrame* em um arquivo JSON.

https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.to_json.html

In [10]:
df_normalizado.to_json('historico_pacientes_normalizado.json')

In [11]:
pd.read_json('/content/historico_pacientes_normalizado.json')

Unnamed: 0,ID,Faixa_etaria,Sexo_biologico,Raça,IMC,Fumante,Consumo_alcool,Saude_fisica,Saude_mental,Dificuldade_caminhar,Atividade_fisica,Saude_geral,Horas_sono,Problemas_saude
0,1,55-59,Feminino,Branca,16.6,Sim,Nao,3,30,Nao,Sim,Muito boa,5,"[Diabetes, Asma, Cancer_pele]"
1,2,80 ou +,Feminino,Branca,20.34,Nao,Nao,0,0,Nao,Sim,Muito boa,7,[AVC]
2,3,65-69,Masculino,Branca,26.58,Sim,Nao,20,30,Nao,Sim,Muito boa,8,"[diabetes, Asma]"


# 4. Lendo dados em HTML E XML

## 4.1 Lendo páginas web

O método `read_html` é usado para ler tabelas de páginas HTML e criar *DataFrames* a partir delas. Dependendo da página lida, será criada uma lista de *DataFrames*.

https://pandas.pydata.org/docs/reference/api/pandas.read_html.html

In [12]:
import pandas as pd

In [13]:
url = 'https://raw.githubusercontent.com/strawndri/python-ds-pandas-io/main/dados/filmes_wikipedia.html'

In [14]:
dados_html = pd.read_html(url)

In [16]:
dados_html

[                                                    0  \
 0                                                1998   
 1                                                1999   
 2                                                2000   
 3                                                2001   
 4                                                2002   
 5                                                2003   
 6                                                2004   
 7                                                2005   
 8                                                2005   
 9                                                2006   
 10                                               2006   
 11                                               2007   
 12                                               2008   
 13  .mw-parser-output .hlist dl,.mw-parser-output ...   
 
                                                     1  
 0                                          100 Movies  
 1            

In [17]:
type(dados_html)

list

In [18]:
len(dados_html)

3

In [19]:
top_filmes = dados_html[1]

In [20]:
top_filmes.head()

Unnamed: 0,Film,Release year,Director,Production companies,Rank
0,Citizen Kane,1941,Orson Welles,RKO Radio Pictures,1
1,Casablanca,1942,Michael Curtiz,Warner Bros. Pictures,2
2,The Godfather,1972,Francis Ford Coppola,"Paramount Pictures, Alfran Productions",3
3,Gone with the Wind,1939,Victor Fleming,Selznick International Pictures,4
4,Lawrence of Arabia,1962,David Lean,Horizon Pictures,5


## 4.2 Escrevendo arquivos HTML

O método `to_html` é utilizado para gerar uma representação HTML de um *DataFrame*. Geralmente, são criadas tabelas a partir da tag `<table>`.

https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.to_html.html

In [21]:
top_filmes.to_html('top_filmes.html')

In [22]:
top_filmes.to_csv('top_filmes_1998.csv', index=False)

In [24]:
pd.read_csv('/content/top_filmes_1998.csv').head()

Unnamed: 0,Film,Release year,Director,Production companies,Rank
0,Citizen Kane,1941,Orson Welles,RKO Radio Pictures,1
1,Casablanca,1942,Michael Curtiz,Warner Bros. Pictures,2
2,The Godfather,1972,Francis Ford Coppola,"Paramount Pictures, Alfran Productions",3
3,Gone with the Wind,1939,Victor Fleming,Selznick International Pictures,4
4,Lawrence of Arabia,1962,David Lean,Horizon Pictures,5


## 4.3 Lendo/escrevendo arquivos XML

O método `read_xml` é usado para ler tabelas de arquivos XML e criar *DataFrames* a partir delas.

Enquanto isso, o método `to_xml` realiza o processo inverso, transformando *DataFrames* em arquivos XML.

https://pandas.pydata.org/docs/reference/api/pandas.read_xml.html

https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.to_xml.html

In [25]:
url = 'https://raw.githubusercontent.com/strawndri/python-ds-pandas-io/main/dados/imdb_top_1000.xml'

In [26]:
dados_imdb = pd.read_xml(url)

In [28]:
dados_imdb.head(3)

Unnamed: 0,index,Poster_Link,Series_Title,Released_Year,Certificate,Runtime,Genre,IMDB_Rating,Overview,Meta_score,Director,Star1,Star2,Star3,Star4,No_of_Votes,Gross
0,0,https://m.media-amazon.com/images/M/MV5BMDFkYT...,The Shawshank Redemption,1994,A,142 min,Drama,9.3,Two imprisoned men bond over a number of years...,80.0,Frank Darabont,Tim Robbins,Morgan Freeman,Bob Gunton,William Sadler,2343110,28341469
1,1,https://m.media-amazon.com/images/M/MV5BM2MyNj...,The Godfather,1972,A,175 min,"Crime, Drama",9.2,An organized crime dynasty's aging patriarch t...,100.0,Francis Ford Coppola,Marlon Brando,Al Pacino,James Caan,Diane Keaton,1620367,134966411
2,2,https://m.media-amazon.com/images/M/MV5BMTMxNT...,The Dark Knight,2008,UA,152 min,"Action, Crime, Drama",9.0,When the menace known as the Joker wreaks havo...,84.0,Christopher Nolan,Christian Bale,Heath Ledger,Aaron Eckhart,Michael Caine,2303232,534858444


In [29]:
dados_imdb.to_xml('filmes_imdb.xml')