In [7]:
import pandas as pd
# Criar o arquivo csv

with open('poetas.csv', 'w', encoding='utf-8') as f: 
    f.write('nome, idade, profissão\nEliot, 45, poeta\nFrost,50,poeta\nMilton,60,teólogo')

# Ler o arquivo
df = pd.read_csv('poetas.csv', index_col='nome', encoding='utf-8')
df

Unnamed: 0_level_0,idade,profissão
nome,Unnamed: 1_level_1,Unnamed: 2_level_1
Eliot,45,poeta
Frost,50,poeta
Milton,60,teólogo


In [9]:
colunas = ['nome', 'idade', 'profissão']

with open("poetas_sem_cabecalho.csv", "w", encoding="utf-8") as f:
    f.write("Eliot,45,poeta\nFrost,50,poeta\nMilton,60,teólogo")

df = pd.read_csv("poetas_sem_cabecalho.csv", names=colunas, header=None)
df


Unnamed: 0,nome,idade,profissão
0,Eliot,45,poeta
1,Frost,50,poeta
2,Milton,60,teólogo


In [23]:
with open('poetas_com_lixo.csv', 'w', encoding='utf-8') as f:
    f.write('# Arquivo gerado automaticamente\n# versão 1.0\nnome,idade,profissão\nEliot,45,poeta\nFrost,50,poeta')

df = pd.read_csv('poetas_com_lixo.csv', skiprows=2)
df

Unnamed: 0,nome,idade,profissão
0,Eliot,45,poeta
1,Frost,50,poeta


In [25]:
with open('poetas_com_nulos.csv', 'w', encoding='utf=8') as f:
    f.write('nome,idade,profissao\nEliot,45,poeta\nFrost,,poeta\nMilton,60,NA')

In [27]:
df = pd.read_csv('poetas_com_nulos.csv', na_values=['NA', ''])
df

Unnamed: 0,nome,idade,profissao
0,Eliot,45.0,poeta
1,Frost,,poeta
2,Milton,60.0,


In [31]:
pd.read_csv('poetas_com_nulos.csv', nrows=2)

Unnamed: 0,nome,idade,profissao
0,Eliot,45.0,poeta
1,Frost,,poeta


In [33]:
chunker = pd.read_csv('poetas_com_nulos.csv', chunksize=2)

for pedaco in chunker:
    print(pedaco)

    nome  idade profissao
0  Eliot   45.0     poeta
1  Frost    NaN     poeta
     nome  idade  profissao
2  Milton     60        NaN


In [35]:
df = pd.DataFrame({
    'nome': ['Eliot', 'Frost', 'Milton'],
    'idade': [45, 50, 60],
    'profissão': ['poeta', 'poeta', 'teólogo']
})

df.to_csv('poetas_exportados.csv', index=False, encoding='utf-8')

In [37]:
df_lido = pd.read_csv('poetas_exportados.csv')
df_lido

Unnamed: 0,nome,idade,profissão
0,Eliot,45,poeta
1,Frost,50,poeta
2,Milton,60,teólogo


In [39]:
import json
import pandas as pd

dados = [
    {'nome': 'Eliot', 'idade': 45, 'profissão': 'poeta'},
    {'nome': 'Frost', 'idade': 50, 'profissão': 'poeta'},
    {'nome': 'Frost', 'idade': 60, 'profissão': 'teólogo'}
]

# Escrever o JSON
with open('poetas.json', 'w', encoding='utf-8') as f:
    json.dump(dados, f, indent=2, ensure_ascii=False)

# Ler o JSON como DataFrame
df = pd.read_json('poetas.json')
df

Unnamed: 0,nome,idade,profissão
0,Eliot,45,poeta
1,Frost,50,poeta
2,Frost,60,teólogo


In [43]:
import json
import pandas as pd

dados = [
    {
        'nome': 'Eliot',
        'nacionalidade': 'Inglês',
        'obras': [
            {'título': 'Four Quartets', 'ano': 1943},
            {'título': 'The waste land', 'ano': 1922}            
        ]
    },
    {
        'nome': 'Milton',
        'nacionalidade': 'Inglês',
        'obras': [
            {'título': 'Paradise Lost', 'ano': 1667}
        ]
    }
]

# Salvar com json
with open('poetas_com_obras.json', 'w', encoding='utf-8') as f:
    json.dump(dados, f, indent=2, ensure_ascii=False)

# Ler com pandas - normal_flatten não funciona direito, então usamos json + normalization
with open('poetas_com_obras.json', encoding='utf-8') as f:
    dados_lidos = json.load(f)

# Normalizar o campo 'obras'
df_obras = pd.json_normalize(dados_lidos, 'obras', ['nome', 'nacionalidade'])
df_obras

Unnamed: 0,título,ano,nome,nacionalidade
0,Four Quartets,1943,Eliot,Inglês
1,The waste land,1922,Eliot,Inglês
2,Paradise Lost,1667,Milton,Inglês


In [45]:
# Criar um DataFrame
df = pd.DataFrame({
    'poeta': ['Eliot', 'Frost', 'Milton'],
    'idade': [45, 50, 60],
    'profissão': ['poeta', 'poeta', 'teólogo']
})

# Exportar para excel
df.to_excel('poetas.xlsx', index=False)


In [57]:
df = pd.read_excel('poetas.xlsx')
df

Unnamed: 0,poeta,idade,profissão
0,Eliot,45,poeta
1,Frost,50,poeta
2,Milton,60,teólogo


In [70]:
# Criar dois DataFrames
df1 = pd.DataFrame({
    'poeta': ['Eliot', 'Frost'],
    'nacionalidade': ['Inglês', 'Americano']
})

df2 = pd.DataFrame({
    'poeta': ['Milton', 'Wordsworth'],
    'nacionalidade': ['Inglês', 'Inglês']
})

# Salvar ambos no mesmo arquivo excel com abas diferentes
with pd.ExcelWriter('poetas_multi.xlsx', engine='openpyxl') as writer:
    df1.to_excel(writer, sheet_name='Modernos', index=False)
    df2.to_excel(writer, sheet_name='Antigos', index=False)

# Ler as abas individualmente
df_modernos = pd.read_excel('poetas_multi.xlsx', sheet_name='Modernos')
df_antigos = pd.read_excel('poetas_multi.xlsx', sheet_name='Antigos')

display(df_modernos)
display(df_antigos)

Unnamed: 0,poeta,nacionalidade
0,Eliot,Inglês
1,Frost,Americano


Unnamed: 0,poeta,nacionalidade
0,Milton,Inglês
1,Wordsworth,Inglês


In [72]:
pip install pyarrow

Note: you may need to restart the kernel to use updated packages.


In [3]:
import pandas as pd

df = pd.DataFrame({
    'poeta': ['Eliot', 'Frost', 'Milton'],
    'idade': [45, 50, 60],
    'profissão': ['poeta', 'poeta', 'teólogo']
})

# Exportar para parquet
df.to_parquet('poetas.parquet', index=False)

# ler de volta

df_lido = pd.read_parquet('poetas.parquet')
df_lido

Unnamed: 0,poeta,idade,profissão
0,Eliot,45,poeta
1,Frost,50,poeta
2,Milton,60,teólogo


In [5]:
pip install tables

Note: you may need to restart the kernel to use updated packages.


In [5]:
import pandas as pd

df = pd.DataFrame({
    'poeta': ['Eliot', 'Frost', 'Milton'],
    'idade': [45, 50, 60],
    'profissão': ['poeta', 'poeta', 'teólogo']
})

df.to_hdf('poetas.h5', key='dados_poetas', mode='w')

df_lido = pd.read_hdf('poetas.h5', key='dados_poetas')
df_lido

Unnamed: 0,poeta,idade,profissão
0,Eliot,45,poeta
1,Frost,50,poeta
2,Milton,60,teólogo
