# A Estrutura de dados DataFrame

In [2]:
import pandas as pd

In [2]:
# cria o DataFrame
dados = {
    'nome': ['Argentina', 'Brasil', 'França', 'Itália', 'Reino Unido'],
    'continente': ['América', 'América', 'Europa', 'Europa', 'Europa'],
    'extensao': [2780, 8511, 644, 301, 244],
    'corVerde': [0, 1, 0, 1, 0]
}

siglas = ['AR', 'BR', 'FR', 'IT', 'UK']

paises = pd.DataFrame(dados, index=siglas)

# imprime o DataFrame
print(paises)

           nome continente  extensao  corVerde
AR    Argentina    América      2780         0
BR       Brasil    América      8511         1
FR       França     Europa       644         0
IT       Itália     Europa       301         1
UK  Reino Unido     Europa       244         0


In [3]:
# Recupera e imprime as propriedades do DataFrame 'paises'
print('-----------')
num_linhas = paises.shape[0]
num_colunas = paises.shape[1]
indices = paises.index
colunas = paises.columns
paises_tipo = type(paises)
paises_dtypes = paises.dtypes
paises_idx_dtype = paises.index.dtype

print('número de linhas: ', num_linhas)
print('número de colunas: ', num_colunas)
print('rótulos das linhas: ', indices)
print('rótulos das colunas: ', colunas)
print('tipo (type): ', paises_tipo)
print('dtypes das colunas:\n', paises_dtypes)
print('dtype dos rótulos das linhas:', paises_idx_dtype)

-----------
número de linhas:  5
número de colunas:  4
rótulos das linhas:  Index(['AR', 'BR', 'FR', 'IT', 'UK'], dtype='object')
rótulos das colunas:  Index(['nome', 'continente', 'extensao', 'corVerde'], dtype='object')
tipo (type):  <class 'pandas.core.frame.DataFrame'>
dtypes das colunas:
 nome          object
continente    object
extensao       int64
corVerde       int64
dtype: object
dtype dos rótulos das linhas: object


In [None]:
# Exemplos de acesso a elementos do DataFrame 'paises' por indexação tradicional

# iloc e iat para acesso por índice inteiro
# loc e at para acesso por rótulo

# Usando iloc para acessar pelo índice inteiro
print(paises.iloc[1][0])              # Segunda linha, primeira coluna
print(paises.iat[1, 0])               # Segunda linha, primeira coluna (mais rápido)

# Usando iloc com nome de coluna
print(paises.iloc[3]['corVerde'])     # Quarta linha, coluna 'corVerde'

# Usando loc para acessar pelo rótulo do índice
print(paises.loc['IT'][1])            # Linha com índice 'IT', segunda coluna
print(paises.loc['FR']['nome'])       # Linha com índice 'FR', coluna 'nome'

# Usando at para acesso rápido por rótulo
print(paises.at['FR', 'nome'])        # Linha 'FR', coluna 'nome'

Brasil
Brasil
1
Europa
França
França


  print(paises.iloc[1][0])              # Segunda linha, primeira coluna
  print(paises.loc['IT'][1])            # Linha com índice 'IT', segunda coluna


In [6]:
# Exemplos de acesso a elementos do DataFrame 'paises' por fatiamento

# loc por rótulo e iloc por posição
# Acessando a coluna 'extensao'
print(paises['extensao'])

# Acessando a coluna 'corVerde'
print(paises.corVerde)

# Acessando a linha pelo rótulo do índice
print(paises.loc['BR'])

# Acessando a linha pelo índice inteiro
print(paises.iloc[2])

AR    2780
BR    8511
FR     644
IT     301
UK     244
Name: extensao, dtype: int64
AR    0
BR    1
FR    0
IT    1
UK    0
Name: corVerde, dtype: int64
nome           Brasil
continente    América
extensao         8511
corVerde            1
Name: BR, dtype: object
nome          França
continente    Europa
extensao         644
corVerde           0
Name: FR, dtype: object


In [7]:
# testa se um dado rótulo de linha existe
tem_BR = 'BR' in paises.index
tem_US = 'US' in paises.index
print("existe o rótulo 'BR'? ->", tem_BR)
print("existe o rótulo 'US'? ->", tem_US)
print('--------------------------')

# testa se um dado rótulo de coluna existe
tem_corVerde = 'corVerde' in paises.columns
tem_corAzul = 'corAzul' in paises.columns
print("existe o rótulo 'corVerde'? ->", tem_corVerde)
print("existe o rótulo 'corAzul'? ->", tem_corAzul)
print('--------------------------')

# testa se valor faz parte de uma coluna
tem_Brasil = paises['nome'].isin(['Brasil'])
print("existe o valor 'Brasil' na coluna 'nome'?")
print(tem_Brasil)

existe o rótulo 'BR'? -> True
existe o rótulo 'US'? -> False
--------------------------
existe o rótulo 'corVerde'? -> True
existe o rótulo 'corAzul'? -> False
--------------------------
existe o valor 'Brasil' na coluna 'nome'?
AR    False
BR     True
FR    False
IT    False
UK    False
Name: nome, dtype: bool


In [8]:
# insere o país Japão (JP)
paises.loc['JP'] = {
    'nome': 'Japão',
    'continente': 'Ásia',
    'extensao': 372,
    'corVerde': 0
}

# altera a extensão do Brasil
paises.at['BR', 'extensao'] = 8512

# remove a Argentina e o Reino Unido
paises = paises.drop(['AR', 'UK'])

print('DataFrame após as alterações:')
print(paises)

DataFrame após as alterações:
      nome continente  extensao  corVerde
BR  Brasil    América      8512         1
FR  França     Europa       644         0
IT  Itália     Europa       301         1
JP   Japão       Ásia       372         0


In [4]:
#Importação de arquivo CSV

paises = pd.read_csv(r'/workspaces/Pandas_python_livro_casa_do_codigo/cap_3/paises.csv', index_col='sigla')
print(paises)

              nome continente  extensao  corVerde
sigla                                            
AR       Argentina    América      2780         0
BR          Brasil    América      8511         1
FR          França     Europa       644         0
IT          Itália     Europa       301         1
UK     Reino Unido     Europa       244         0


In [5]:
notas = pd.read_csv(r'/workspaces/Pandas_python_livro_casa_do_codigo/cap_3/notas.csv', sep=';', names=['matricula', 'nota1', 'nota2'])
print(notas)

  matricula  nota1  nota2
0  M0012017    9.8    9.5
1  M0022017    5.3    4.1
2  M0032017    2.5    8.0
3  M0042017    7.5    7.5


In [8]:
capitais = pd.read_excel(r'/workspaces/Pandas_python_livro_casa_do_codigo/cap_3/capitais.xlsx')
print(capitais)

            capital   região  população
0   Belém            Sudeste    1446042
1   Belo Horizonte   Sudeste    2513451
2   Boa Vista          Norte     326419
3   Curitiba             Sul    1893977
4   Florianópolis        Sul     477798
5   Macapá             Norte     465495
6   Manaus             Norte    2094391
7   Palmas             Norte     279856
8   Porto Alegre         Sul    1481019
9   Porto Velho        Norte     511219
10  Rio Branco         Norte     377057
11  São Paulo        Sudeste   12038175
12  Rio de Janeiro   Sudeste    6498837
13  Vitória          Sudeste     359555


In [13]:
import json

with open(r'/workspaces/Pandas_python_livro_casa_do_codigo/cap_3/notas.json', 'r') as f:
    j_notas = json.load(f)

    notas2 = pd.DataFrame(j_notas,columns=['matricula', 'notas'])

    print(notas2)

  matricula       notas
0  M0012017  [9.8, 9.5]
1  M0022017  [5.3, 4.1]
2  M0032017  [2.5, 8.0]
3  M0042017  [7.5, 7.5]


In [None]:
dados = {'codigo': [1001, 1002, 1003, 1004, 1005],
         'nome': ['Leite', 'Café', 'Biscoito', 'Chá', 'Torradas']
        }

produtos = pd.DataFrame(dados)

# Exporta o DataFrame 'produtos' para CSV e Excel
produtos.to_csv(r'/workspaces/Pandas_python_livro_casa_do_codigo/cap_3/produtos.csv', sep='\t', index=False)

produtos.to_excel(r'/workspaces/Pandas_python_livro_casa_do_codigo/cap_3/produtos.xlsx')