# Biblioteca Pandas

In [49]:
# Importa somente a função que vou utilizar
from pandas import Series
from pandas import DataFrame

In [51]:
# importar a biblioteca inteira
import pandas as pd

In [5]:
# Verificar a versão 
pd.__version__

'1.0.1'

## Manipulando Series

In [7]:
# Criar uma serie sem especificar os indices 
Obj = Series ([67, 78, -56, 13])
Obj

0    67
1    78
2   -56
3    13
dtype: int64

In [8]:
type(Obj)

pandas.core.series.Series

In [9]:
Obj.values

array([ 67,  78, -56,  13], dtype=int64)

In [10]:
Obj.index

RangeIndex(start=0, stop=4, step=1)

In [14]:
# Criando serie com indices especificos
Obj2 = Series ([ 67,  78, -56,  13], index = ['a', 'b', 'c', 'd'])
Obj2

a    67
b    78
c   -56
d    13
dtype: int64

In [15]:
Obj2.values

array([ 67,  78, -56,  13], dtype=int64)

In [16]:
Obj2.index

Index(['a', 'b', 'c', 'd'], dtype='object')

In [18]:
# Retornar tudo que for maior que 3
Obj2[Obj2 > 3]

a    67
b    78
d    13
dtype: int64

In [20]:
# Utilização do index para trazer o valor. 
Obj2['b']

78

In [22]:
# Verificar se um dos indices se encontra no Obj2
'd' in Obj2

True

In [23]:
# Criando uma série de dados passando um dicionário como parâmetro. 
dict = {'Futebol':5200, 'Tênis':120, 'Natação':698, 'Volleyball':1550}

In [25]:
# Criando uma série apartir do dicionário
Obj3 = Series(dict)
Obj3

Futebol       5200
Tênis          120
Natação        698
Volleyball    1550
dtype: int64

In [26]:
type(Obj3)

pandas.core.series.Series

In [27]:
# Criando uma lista 
esportes = ['Futebol', 'Tênis', 'Natação', 'Basketball']

In [30]:
# Criando um serie e usando uma lista como indices
# O Pandas entende que se não existe no dicionário, ele acrescenta 'NaN'
Obj4 = Series (dict, index = esportes)
Obj4

Futebol       5200.0
Tênis          120.0
Natação        698.0
Basketball       NaN
dtype: float64

In [32]:
# Informa os elementos que estão 'NULO'
pd.isnull(Obj4)

Futebol       False
Tênis         False
Natação       False
Basketball     True
dtype: bool

In [35]:
# Informa os elementos que estão 'NÃO NULO'
pd.notnull(Obj4)

Futebol        True
Tênis          True
Natação        True
Basketball    False
dtype: bool

In [37]:
# Concatenar Series
Obj3 + Obj4

Basketball        NaN
Futebol       10400.0
Natação        1396.0
Tênis           240.0
Volleyball        NaN
dtype: float64

In [38]:
# Acrescentar um nome
Obj4.name = 'População'
Obj4

Futebol       5200.0
Tênis          120.0
Natação        698.0
Basketball       NaN
Name: População, dtype: float64

In [40]:
# Acrescentar nome no indice. 
Obj4.index.name = 'esporte'
Obj4

esporte
Futebol       5200.0
Tênis          120.0
Natação        698.0
Basketball       NaN
Name: População, dtype: float64

## Criando DataFrame

In [46]:
# Criando um dicionário
data = {'Estado':['Santa Catarina', 'Paraná', 'Goiás', 'Bahia', 'Minas gerais'],
        'Ano':['2002', '2003', '2004', '2005', '2006'],
        'População': [1.5, 1.7, 3.6, 2.4, 2.9] }
data

{'Estado': ['Santa Catarina', 'Paraná', 'Goiás', 'Bahia', 'Minas gerais'],
 'Ano': ['2002', '2003', '2004', '2005', '2006'],
 'População': [1.5, 1.7, 3.6, 2.4, 2.9]}

In [55]:
# Utilizado o DataFrame para criação de uma planilha 
df = DataFrame(data)

In [56]:
df

Unnamed: 0,Estado,Ano,População
0,Santa Catarina,2002,1.5
1,Paraná,2003,1.7
2,Goiás,2004,3.6
3,Bahia,2005,2.4
4,Minas gerais,2006,2.9


In [57]:
type(frame)

pandas.core.frame.DataFrame

In [60]:
# Comando utilizado para renomear as colunas, utilizado também para alterar a ordem das colunas
DataFrame(data, columns = ['Ano', 'Estado', 'População'])

Unnamed: 0,Ano,Estado,População
0,2002,Santa Catarina,1.5
1,2003,Paraná,1.7
2,2004,Goiás,3.6
3,2005,Bahia,2.4
4,2006,Minas gerais,2.9


In [66]:
# Criando outro DataFrame com os mesmo dados anteriores, mas alterando o index e acrescentando uma coluna
frame2 = DataFrame(data, columns=['Ano', 'Estado', 'População', 'Débito'], index =['um', 'dois', 'tres', 'quatro', 'cinco'])
frame2

Unnamed: 0,Ano,Estado,População,Débito
um,2002,Santa Catarina,1.5,
dois,2003,Paraná,1.7,
tres,2004,Goiás,3.6,
quatro,2005,Bahia,2.4,
cinco,2006,Minas gerais,2.9,


In [64]:
# Imprimir somente uma coluna
frame2['Estado']

um        Santa Catarina
dois              Paraná
tres               Goiás
quatro             Bahia
cinco       Minas gerais
Name: Estado, dtype: object

In [None]:
# Busca somente uma coluna
frame2.Ano

In [67]:
type(frame2)

pandas.core.frame.DataFrame

In [69]:
# Busca somente os indices
frame2.index

Index(['um', 'dois', 'tres', 'quatro', 'cinco'], dtype='object')

In [71]:
# Busca somente as colunas
frame2.columns

Index(['Ano', 'Estado', 'População', 'Débito'], dtype='object')

In [72]:
# Busca somente os valores 
frame2.values

array([['2002', 'Santa Catarina', 1.5, nan],
       ['2003', 'Paraná', 1.7, nan],
       ['2004', 'Goiás', 3.6, nan],
       ['2005', 'Bahia', 2.4, nan],
       ['2006', 'Minas gerais', 2.9, nan]], dtype=object)

In [76]:
# Verificar o tipo de cada coluna
frame2.dtypes

Ano           object
Estado        object
População    float64
Débito        object
dtype: object

In [80]:
# Busca somente as linhas 0 e 1 
frame2[:2]

Unnamed: 0,Ano,Estado,População,Débito
um,2002,Santa Catarina,1.5,
dois,2003,Paraná,1.7,
