<a href="https://colab.research.google.com/github/anicelysantos/python-data-wrangling/blob/main/DataFrame.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

In [25]:
import pandas as pd

In [26]:
import json

In [None]:
dados = {'nome':	['Argentina','Brasil','França','Itália',
										'Reino	Unido'],
									'continente':	['América','América','Europa','Europa',
																								'Europa'],
									'extensao':	[2780,8511,644,301,244],
									'corVerde':	[0,1,0,1,0]
}

In [None]:
siglas = 	['AR','BR','FR','IT','UK']

In [None]:
paises = pd.DataFrame(dados, index=siglas)

In [None]:
paises

Unnamed: 0,nome,continente,extensao,corVerde
AR,Argentina,América,2780,0
BR,Brasil,América,8511,1
FR,França,Europa,644,0
IT,Itália,Europa,301,1
UK,Reino\tUnido,Europa,244,0


In [None]:
paises.shape

(5, 4)

In [None]:
paises.index

Index(['AR', 'BR', 'FR', 'IT', 'UK'], dtype='object')

In [None]:
paises.columns

Index(['nome', 'continente', 'extensao', 'corVerde'], dtype='object')

In [None]:
type(paises)

pandas.core.frame.DataFrame

In [None]:
paises.dtypes

nome          object
continente    object
extensao       int64
corVerde       int64
dtype: object

In [None]:
paises.index.dtype

dtype('O')

### Técnicas para consulta e modificação de dados

**Indexação**

In [None]:
#Primeiro campo é a posição da linha, segundo campo é a posição da coluna
paises.iloc[1][0]

'Brasil'

In [None]:
paises.iat[1,0]

'Brasil'

In [None]:
paises.iloc[3]['corVerde']

1

In [None]:
paises.loc['IT'][1]

'Europa'

In [None]:
paises.loc['FR']['nome']

'França'

In [None]:
paises.at['FR','nome']

'França'

In [None]:
#retorna as informação que estão na coluna passada dentro do campo
paises['extensao']

AR    2780
BR    8511
FR     644
IT     301
UK     244
Name: extensao, dtype: int64

In [None]:
#Outra maneira de retornar as informações que estão em uma coluna
paises.corVerde

AR    0
BR    1
FR    0
IT    1
UK    0
Name: corVerde, dtype: int64

In [None]:
#retorna a linha associada a esse índice escrito por extenso
paises.loc['BR']

nome           Brasil
continente    América
extensao         8511
corVerde            1
Name: BR, dtype: object

In [None]:
#retorna a linha que ocupa essa posição numérica
paises.iloc[2]

nome          França
continente    Europa
extensao         644
corVerde           0
Name: FR, dtype: object

In [None]:
paises.iloc[:3,:2]

Unnamed: 0,nome,continente
AR,Argentina,América
BR,Brasil,América
FR,França,Europa


In [None]:
#retorna o valor armazenado na coluna corVerde que tem o rotulo BR e IT
paises.loc[['BR','IT'],'corVerde']

BR    1
IT    1
Name: corVerde, dtype: int64

In [None]:
#retorna as duas ultimas linhas e as colunas de indice 1 e 2
paises.iloc[-2:,1:3]

Unnamed: 0,continente,extensao
IT,Europa,301
UK,Europa,244


**Busca**

Testa se um dado rótudo de linha existe

In [None]:
'BR' in paises.index

True

In [None]:
'US' in paises.index

False

Testa se um dado rótulo de coluna existe

In [None]:
'corVerde' in paises.columns

True

In [None]:
'corAzul' in paises.columns

False

testa se valor faz parte de uma coluna

In [None]:
paises['nome'].isin(['Brasil'])

AR    False
BR     True
FR    False
IT    False
UK    False
Name: nome, dtype: bool

**Modificação**

In [None]:
#insere o país Japão (JP)
paises.loc['JP'] = {'nome': 'Japão',
                    'continente': 'Ásia',
                    'extensao':372,
                    'corVerde':0}

In [None]:
#altera a extensão do Brasil

paises.at['BR', 'extensao'] = 8512

In [None]:
#remove a Argentina e o Reino Unido
paises = paises.drop(['AR','UK'])

In [None]:
paises

Unnamed: 0,nome,continente,extensao,corVerde
BR,Brasil,América,8512,1
FR,França,Europa,644,0
IT,Itália,Europa,301,1
JP,Japão,Ásia,372,0


### Trabalhando com arquivos

**Importação de arquivo CSV**

In [None]:
paises = pd.read_csv('https://raw.githubusercontent.com/anicelysantos/python-data-wrangling/main/paises.csv', index_col='sigla')

In [None]:
paises

Unnamed: 0_level_0,nome,continente,extensao,corVerde
sigla,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
AR,Argentina,América,2780,0
BR,Brasil,América,8511,1
FR,França,Europa,644,0
IT,Itália,Europa,301,1
UK,Reino Unido,Europa,244,0


In [None]:
#importação de csv sem cabeçalho e com ";" como separador
notas = pd.read_csv('https://raw.githubusercontent.com/anicelysantos/python-data-wrangling/main/notas.csv', sep=';', names=['matricula','nota1','nota2'])

In [None]:
notas

Unnamed: 0,matricula,nota1,nota2
0,M0012017,9.8,9.5
1,M0022017,5.3,4.1
2,M0032017,2.5,8.0
3,M0042017,7.5,7.5


In [None]:
#importação o arquivo para uma Series
serie_gols = pd.read_csv('https://raw.githubusercontent.com/anicelysantos/python-data-wrangling/main/gols.csv', sep=' ', squeeze=True, index_col=0, names=['dia', 'gols'])

In [None]:
#converte o tipo do índice para datetime e imprime a série
serie_gols.index = pd.to_datetime(serie_gols.index, format='%d/%m/%Y')

In [None]:
serie_gols

dia
2019-06-05    1
2019-06-09    0
2019-06-16    5
2019-06-19    2
2019-06-23    1
2019-06-27    3
2019-06-30    0
Name: gols, dtype: int64

**Importação de planilha Excel**

In [None]:
cidades = pd.read_excel('/content/drive/MyDrive/dados_pandas/pandas_wrangling/capitais.xlsx')
cidades

Unnamed: 0,capital,região,população
0,Belém,Sudeste,1446042
1,Belo Horizonte,Sudeste,2513451
2,Boa Vista,Norte,326419
3,Curitiba,Sul,1893977
4,Florianópolis,Sul,477798
5,Macapá,Norte,465495
6,Manaus,Norte,2094391
7,Palmas,Norte,279856
8,Porto Alegre,Sul,1481019
9,Porto Velho,Norte,511219


**Importação de arquivos JSON**

In [28]:
#importa arquivos JSON para memória

with open('/content/drive/MyDrive/dados_pandas/pandas_wrangling/notas.json') as f:
  j_notas = json.load(f)

In [29]:
#transfere as informações para um DataFrame

notas = pd.DataFrame(j_notas, columns=['matricula', 'notas'])

In [30]:
notas

Unnamed: 0,matricula,notas
0,M0012017,"[9.8, 9.5]"
1,M0022017,"[5.3, 4.1]"
2,M0032017,"[2.5, 8.0]"
3,M0042017,"[7.5, 7.5]"


### Gravação de arquivos

In [31]:
#Criando um DataFrame para ser salvo

dados = {'codigo':[1001,1002,1003,1004,1005],
         'nome': ['Leite','Café','Biscoito','Chá','Torradas']
    
}

produtos = pd.DataFrame(dados)


In [32]:
#salva o conteudo para um arquivo
produtos.to_csv('produtos.csv', sep='\t', index=False)