# Pandas

### Series

In [1]:
# importando apenas o obj Series
from pandas import Series

In [2]:
# importando todo o modulo usando um apelido 'pd'
import pandas as pd

In [3]:
# versão do pandas
pd.__version__

'1.4.2'

In [4]:
# criando uma Serie sem aplicar os indices
obj = Series([4, 7, -5, 3])

In [5]:
# ele cria os indices automaticamente começando do 0
obj

0    4
1    7
2   -5
3    3
dtype: int64

In [6]:
type(obj)

pandas.core.series.Series

In [7]:
obj.values

array([ 4,  7, -5,  3], dtype=int64)

In [8]:
obj.index

RangeIndex(start=0, stop=4, step=1)

In [9]:
# criando uma Serie com indices
obj2 = Series([4, 7, -5, 3], index=['d', 'b', 'a', 'c'])

In [10]:
obj2

d    4
b    7
a   -5
c    3
dtype: int64

In [11]:
obj2.index

Index(['d', 'b', 'a', 'c'], dtype='object')

In [12]:
obj2['a']

-5

In [13]:
obj2.values

array([ 4,  7, -5,  3], dtype=int64)

In [14]:
# filtro 
obj2[obj2 > 3]

d    4
b    7
dtype: int64

In [15]:
# retornar o valor do indice
obj2['b']

7

In [16]:
# está presente?
'd' in obj2

True

In [17]:
# criando uma Serie com um dicionario como parametros
dict = {'Futebol': 5220, 'Tenis': 120, 'Natação': 698, 'Volleyball': 590}

In [18]:
obj3 = Series(dict)

In [19]:
type(obj3)

pandas.core.series.Series

In [20]:
obj3

Futebol       5220
Tenis          120
Natação        698
Volleyball     590
dtype: int64

In [21]:
# criando uma lista
esportes = ['Futebol', 'Tenis', 'Natação', 'Basquete']

In [22]:
# criando uma Serie usando uma lista como indice
obj4 = Series(dict, index=esportes)

In [23]:
# caso o valor não exista, será retornado NaN
obj4

Futebol     5220.0
Tenis        120.0
Natação      698.0
Basquete       NaN
dtype: float64

In [24]:
# busacando os valores NaN
pd.isnull(obj4)

Futebol     False
Tenis       False
Natação     False
Basquete     True
dtype: bool

In [25]:
# buscando os valores não NaN
pd.notnull(obj4)

Futebol      True
Tenis        True
Natação      True
Basquete    False
dtype: bool

In [26]:
obj4.isnull()

Futebol     False
Tenis       False
Natação     False
Basquete     True
dtype: bool

In [27]:
# concatenando Series
obj3 + obj4

Basquete          NaN
Futebol       10440.0
Natação        1396.0
Tenis           240.0
Volleyball        NaN
dtype: float64

In [28]:
# nome do objeto
obj4.name = 'População'

In [29]:
# nome do indice
obj4.index.name = 'Esporte'

In [30]:
obj4

Esporte
Futebol     5220.0
Tenis        120.0
Natação      698.0
Basquete       NaN
Name: População, dtype: float64

### Dataframes

In [31]:
# importando o objeto DataFrame
from pandas import DataFrame

In [32]:
data = {'Estado': ['Santa Catarina', 'Paraná', 'Goiás','Bahia', 'Minas Gerais'],
        'Ano': [2002, 2003, 2004, 2005, 2006],
        'População': [1.5, 1.7, 3.6, 2.4, 2.9]}

In [33]:
frame = DataFrame(data)

In [34]:
type(frame)

pandas.core.frame.DataFrame

In [35]:
DataFrame(data, columns=['Ano', 'Estado', 'População'])

Unnamed: 0,Ano,Estado,População
0,2002,Santa Catarina,1.5
1,2003,Paraná,1.7
2,2004,Goiás,3.6
3,2005,Bahia,2.4
4,2006,Minas Gerais,2.9


In [36]:
# criando outro dataframe com os mesmos dados anterires mas adc um coluna
frame2 = DataFrame(data, columns = ['Ano', 'Estado', 'População', 'Débito'],
                    index = ['um', 'dois', 'tres', 'quatro', 'cinco'])

In [37]:
# visualizando o dataframe
frame2

Unnamed: 0,Ano,Estado,População,Débito
um,2002,Santa Catarina,1.5,
dois,2003,Paraná,1.7,
tres,2004,Goiás,3.6,
quatro,2005,Bahia,2.4,
cinco,2006,Minas Gerais,2.9,


In [38]:
# visualizando apenas uma coluna
frame2['Estado']

um        Santa Catarina
dois              Paraná
tres               Goiás
quatro             Bahia
cinco       Minas Gerais
Name: Estado, dtype: object

In [39]:
type(frame2)

pandas.core.frame.DataFrame

In [40]:
frame2.index

Index(['um', 'dois', 'tres', 'quatro', 'cinco'], dtype='object')

In [41]:
frame2.columns

Index(['Ano', 'Estado', 'População', 'Débito'], dtype='object')

In [42]:
frame2.values

array([[2002, 'Santa Catarina', 1.5, nan],
       [2003, 'Paraná', 1.7, nan],
       [2004, 'Goiás', 3.6, nan],
       [2005, 'Bahia', 2.4, nan],
       [2006, 'Minas Gerais', 2.9, nan]], dtype=object)

In [43]:
frame2.dtypes

Ano            int64
Estado        object
População    float64
Débito        object
dtype: object

In [44]:
frame2['Ano']

um        2002
dois      2003
tres      2004
quatro    2005
cinco     2006
Name: Ano, dtype: int64

In [45]:
# atributo do dataframe
frame2.Ano

um        2002
dois      2003
tres      2004
quatro    2005
cinco     2006
Name: Ano, dtype: int64

In [47]:
frame2[:2]

Unnamed: 0,Ano,Estado,População,Débito
um,2002,Santa Catarina,1.5,
dois,2003,Paraná,1.7,


### Usando Numpy a Pandas