# Pandas - Series

In [1]:
pip install pandas

Note: you may need to restart the kernel to use updated packages.


In [1]:
from pandas import Series

In [2]:
import pandas as pd

In [3]:
pd.__version__

'0.25.1'

In [4]:
# criando series sem especificar os indices

obj = Series([1,2,3,4])

In [5]:
obj

0    1
1    2
2    3
3    4
dtype: int64

In [6]:
type(obj)

pandas.core.series.Series

In [7]:
obj.values

array([1, 2, 3, 4], dtype=int64)

In [8]:
# stop: começa em 0 e termina em 4, excluindo o 4.
obj.index

RangeIndex(start=0, stop=4, step=1)

In [9]:
obj2 = Series([1,2,3,4], index = ['a', 'b', 'c', 'd'])

In [11]:
obj2

a    1
b    2
c    3
d    4
dtype: int64

In [12]:
type(obj2)

pandas.core.series.Series

In [13]:
# neste caso a exibição do indice é diferente
obj2.index

Index(['a', 'b', 'c', 'd'], dtype='object')

In [14]:
obj2.values

array([1, 2, 3, 4], dtype=int64)

In [15]:
obj2[obj2>2]

c    3
d    4
dtype: int64

In [16]:
obj2['a']

1

In [17]:
obj[2]

3

In [18]:
'd' in obj2

True

In [19]:
'e' in obj2

False

In [20]:
# Apenas para indices, valores nao funciona:
4 in obj2

False

In [22]:
dict = {'futebol': 1234, 'basquete': 1425, 'natação': 8787, 'voley': 8975}

In [23]:
#chave vira indicie e valor vira valor
obj3 = Series(dict)

In [24]:
obj3

futebol     1234
basquete    1425
natação     8787
voley       8975
dtype: int64

In [25]:
esporte = ['futebol', 'basquete', 'natação', 'tenis']

In [26]:
# foi criado o indice esporte e ele substituiu o meu indice do dict e colocou o 
obj4 = Series(dict, index = esporte)

In [27]:
#tenis nao exite no dict, por isso fica como valor missing NaN
obj4

futebol     1234.0
basquete    1425.0
natação     8787.0
tenis          NaN
dtype: float64

In [28]:
pd.isnull(obj4)

futebol     False
basquete    False
natação     False
tenis        True
dtype: bool

In [29]:
pd.notnull(obj4)

futebol      True
basquete     True
natação      True
tenis       False
dtype: bool

In [30]:
obj4.isnull()

futebol     False
basquete    False
natação     False
tenis        True
dtype: bool

In [32]:
obj3

futebol     1234
basquete    1425
natação     8787
voley       8975
dtype: int64

In [33]:
obj4

futebol     1234.0
basquete    1425.0
natação     8787.0
tenis          NaN
dtype: float64

In [34]:
#concatenação. apenas ocorre se houver ocorrencia dos indices em ambas as séries
obj3 + obj4

basquete     2850.0
futebol      2468.0
natação     17574.0
tenis           NaN
voley           NaN
dtype: float64

In [35]:
#nome do objeto
obj4.name = 'teste'

In [36]:
obj4

futebol     1234.0
basquete    1425.0
natação     8787.0
tenis          NaN
Name: teste, dtype: float64

In [37]:
obj4.index.name = 'nome index'

In [38]:
obj4

nome index
futebol     1234.0
basquete    1425.0
natação     8787.0
tenis          NaN
Name: teste, dtype: float64

In [39]:
# nome dos indices
obj4.index.name = 'esportes'

In [40]:
obj4

esportes
futebol     1234.0
basquete    1425.0
natação     8787.0
tenis          NaN
Name: teste, dtype: float64

# Dataframe

In [41]:
from pandas import DataFrame

In [42]:
data = {'Estado': ['MG', 'SP', 'RJ', 'GO', 'MA'],
       'Ano': [2002, 2003, 2004, 2005, 2006],
       'População': [1.5, 1.6, 1.7, 1.8, 1.9]}

In [43]:
frame = DataFrame(data)

In [44]:
frame

Unnamed: 0,Estado,Ano,População
0,MG,2002,1.5
1,SP,2003,1.6
2,RJ,2004,1.7
3,GO,2005,1.8
4,MA,2006,1.9


In [45]:
type(frame)

pandas.core.frame.DataFrame

In [46]:
#Definindo indices manualmente
DataFrame(data, columns = ['Ano', 'Estado', 'População'])

Unnamed: 0,Ano,Estado,População
0,2002,MG,1.5
1,2003,SP,1.6
2,2004,RJ,1.7
3,2005,GO,1.8
4,2006,MA,1.9


In [48]:
frame2 = DataFrame(data, columns = ['Ano', 'Estado', 'População', 'Debito'],
                  index = ['um', 'dois', 'tres', 'quatro', 'cinco']) 

In [49]:
frame2

Unnamed: 0,Ano,Estado,População,Debito
um,2002,MG,1.5,
dois,2003,SP,1.6,
tres,2004,RJ,1.7,
quatro,2005,GO,1.8,
cinco,2006,MA,1.9,


In [50]:
frame3 = DataFrame(data, columns = ['Ano', 'Estado'],
                  index = ['um', 'dois', 'tres', 'quatro', 'cinco']) 

In [51]:
frame3

Unnamed: 0,Ano,Estado
um,2002,MG
dois,2003,SP
tres,2004,RJ
quatro,2005,GO
cinco,2006,MA


In [52]:
frame2['Estado']

um        MG
dois      SP
tres      RJ
quatro    GO
cinco     MA
Name: Estado, dtype: object

In [53]:
frame2.index

Index(['um', 'dois', 'tres', 'quatro', 'cinco'], dtype='object')

In [54]:
frame2.columns

Index(['Ano', 'Estado', 'População', 'Debito'], dtype='object')

In [55]:
frame2.values

array([[2002, 'MG', 1.5, nan],
       [2003, 'SP', 1.6, nan],
       [2004, 'RJ', 1.7, nan],
       [2005, 'GO', 1.8, nan],
       [2006, 'MA', 1.9, nan]], dtype=object)

In [56]:
type(frame2)

pandas.core.frame.DataFrame

In [57]:
# o ano é um atributo do dataframe
frame2.Ano

um        2002
dois      2003
tres      2004
quatro    2005
cinco     2006
Name: Ano, dtype: int64

In [58]:
# indexação ainda funciona mesmo quando mudamos o nome do indice. aqui ele irá pegar os do indice 0 e 1. 
# por isso ali no nome do indice aparece um e dois 
frame2[:2]

Unnamed: 0,Ano,Estado,População,Debito
um,2002,MG,1.5,
dois,2003,SP,1.6,
