### Criando um Dataframe

In [1]:
import pandas as pd
import numpy as np

In [2]:
# Criando um dicionário:
data = {'Estado': ['Paraná','Santa Catarina','Rio Grande do Sul'], 'Ano':[2002,2009,2021], 'População':[1.5,1.7,3.6]}

#Criando um dataframe a partir do dicionário:
frame = pd.DataFrame(data)
display(frame)

Unnamed: 0,Estado,Ano,População
0,Paraná,2002,1.5
1,Santa Catarina,2009,1.7
2,Rio Grande do Sul,2021,3.6


### Se o nome das colunas não estivesse definido, para definir:
* DataFrame(data, columns=['Estado', 'Ano', 'População'])

In [3]:
# Criando outro dataframe com os mesmos dados anteriores, mas adicionando uma coluna e indexes:

frame2 = pd.DataFrame(data, columns=['Estado', 'Ano', 'População', 'Débito'], index = ['um', 'dois', 'três'])
display(frame2)

Unnamed: 0,Estado,Ano,População,Débito
um,Paraná,2002,1.5,
dois,Santa Catarina,2009,1.7,
três,Rio Grande do Sul,2021,3.6,


In [4]:
# Testando slices:

frame2[:2] # Mostra tudo das linhas 0 e 1
frame2['Ano'][1] # Mostra apenas a informação da coluna Ano que está na linha 2 (posição 1)
frame2['um':'dois'] # Mostrará as linhas dos índices 'um' até o índice 'dois'

Unnamed: 0,Estado,Ano,População,Débito
um,Paraná,2002,1.5,
dois,Santa Catarina,2009,1.7,


In [5]:
# loc: Mostra que será inserido o NOME de um índice (linha). Especifica-se a coluna (se deixar sem especificar, mostra todas)
frame2.loc['um']['Ano']

2002

In [6]:
# iloc: Mostra que será inserido o índice numérico (independentemente do seu nome)
frame2.iloc[1]['Ano']

2009

In [7]:
# Preenchendo a coluna DÉBITO:

frame2['Débito'] = np.arange(10,13)
display(frame2)

Unnamed: 0,Estado,Ano,População,Débito
um,Paraná,2002,1.5,10
dois,Santa Catarina,2009,1.7,11
três,Rio Grande do Sul,2021,3.6,12


In [8]:
# Descrever os dados: quantidade, méddia, desvio padrão, valor mínimo, máximo e os percentis
frame2.describe()

Unnamed: 0,Ano,População,Débito
count,3.0,3.0,3.0
mean,2010.666667,2.266667,11.0
std,9.609024,1.159023,1.0
min,2002.0,1.5,10.0
25%,2005.5,1.6,10.5
50%,2009.0,1.7,11.0
75%,2015.0,2.65,11.5
max,2021.0,3.6,12.0


In [None]:
# É possível transformar uma coluna em índice:

# nomedoframe.set_index('nome da coluna')

### Importando arquivo csv com Pandas

In [9]:
tabela = pd.read_csv('salarios.csv')
display(tabela)

Unnamed: 0,Name,Position Title,Department,Employee Annual Salary
0,"AARON, ELVIA J",WATER RATE TAKER,WATER MGMNT,$88967.00
1,"AARON, JEFFERY M",POLICE OFFICER,POLICE,$80778.00
2,"AARON, KARINA",POLICE OFFICER,POLICE,$80778.00
3,"AARON, KIMBERLEI R",CHIEF CONTRACT EXPEDITER,GENERAL SERVICES,$84780.00
4,"ABAD JR, VICENTE M",CIVIL ENGINEER IV,WATER MGMNT,$104736.00
...,...,...,...,...
32177,"ZYGOWICZ, PETER J",POLICE OFFICER,POLICE,$86520.00
32178,"ZYMANTAS, MARK E",POLICE OFFICER,POLICE,$83616.00
32179,"ZYRKOWSKI, CARLO E",POLICE OFFICER,POLICE,$86520.00
32180,"ZYSKOWSKI, DARIUSZ",CHIEF DATA BASE ANALYST,DoIT,$110352.00


In [None]:
# Alterar o título das colunas:
# tabela = read_csv('nome do arquivo.csv', names = ['a', 'b', 'c'])
# ATENÇÃO: os antigos nomes das colunas serão convertidos numa linha da tabela

# Para salvar seusdados num arquivo csv:
# import sys

#nome_do_frame.to_csv(sys.stdout, sep = ',')

# Média:
# tabela.mean() >> Calcula a média para cada coluna
# tabela.mean(1) >> Calcula a média por linha

### Merge de dataframes:

In [11]:
primeiro = pd.DataFrame({'chave': ['chave1', 'chave2'], 'coluna1': [1, 2]})
segundo = pd.DataFrame({'chave': ['chave1', 'chave2'], 'coluna2': [4,5]})

pd.merge(primeiro, segundo, on = 'chave')

Unnamed: 0,chave,coluna1,coluna2
0,chave1,1,4
1,chave2,2,5


### Time Series:

In [15]:
# Criando um range de datas com frequência de segundos:

rng = pd.date_range('09/02/2021', periods = 50, freq = 'S')

ts = pd.Series(np.random.randint(0, 500, len(rng)), index = rng)

print(ts)

2021-09-02 00:00:00    195
2021-09-02 00:00:01    310
2021-09-02 00:00:02    422
2021-09-02 00:00:03    154
2021-09-02 00:00:04    250
2021-09-02 00:00:05     53
2021-09-02 00:00:06     25
2021-09-02 00:00:07    306
2021-09-02 00:00:08     24
2021-09-02 00:00:09    298
2021-09-02 00:00:10    224
2021-09-02 00:00:11    432
2021-09-02 00:00:12     41
2021-09-02 00:00:13    289
2021-09-02 00:00:14    173
2021-09-02 00:00:15    290
2021-09-02 00:00:16    443
2021-09-02 00:00:17     75
2021-09-02 00:00:18    418
2021-09-02 00:00:19    230
2021-09-02 00:00:20    426
2021-09-02 00:00:21    132
2021-09-02 00:00:22    368
2021-09-02 00:00:23    362
2021-09-02 00:00:24    389
2021-09-02 00:00:25    373
2021-09-02 00:00:26    316
2021-09-02 00:00:27    217
2021-09-02 00:00:28    274
2021-09-02 00:00:29    286
2021-09-02 00:00:30    328
2021-09-02 00:00:31    253
2021-09-02 00:00:32     28
2021-09-02 00:00:33    270
2021-09-02 00:00:34    104
2021-09-02 00:00:35    434
2021-09-02 00:00:36    190
2