# Pandas

In [3]:
from pandas import Series
import pandas as pd

In [4]:
pd.__version__

'0.23.0'

In [5]:
# Criando uma série sem especificando os indices
obj= Series([67,78,-56,13])

In [6]:
obj

0    67
1    78
2   -56
3    13
dtype: int64

In [7]:
type(obj)

pandas.core.series.Series

In [8]:
obj.values

array([ 67,  78, -56,  13], dtype=int64)

In [9]:
obj.index

RangeIndex(start=0, stop=4, step=1)

In [10]:
# criando um serie e especificando os indices
obj2 = Series([67,78,-56,13],index=['a','b','c','d'])

In [11]:
obj2

a    67
b    78
c   -56
d    13
dtype: int64

In [12]:
obj2.values

array([ 67,  78, -56,  13], dtype=int64)

In [13]:
obj2.index

Index(['a', 'b', 'c', 'd'], dtype='object')

In [14]:
obj2[obj2>3]

a    67
b    78
d    13
dtype: int64

In [15]:
obj2['b']

78

In [16]:
'd' in obj2

True

In [33]:
#criando uma serie de dados passando um dicionario como parametro
dict = {'futebol':5200,'tenis':120,'natação':698,'volei':1550}

In [34]:
#criando uma seria a partir de um dicionario
obj3 =Series(dict)

In [35]:
obj3

futebol    5200
tenis       120
natação     698
volei      1550
dtype: int64

In [36]:
type(obj3)

pandas.core.series.Series

In [37]:
#criando uma lista 
esportes =["futebol",'tenis','natação','basketball']

In [38]:
# criando uma serie e usando uma lista como indice 
obj4 = Series(dict,index=esportes)

In [39]:
obj4

futebol       5200.0
tenis          120.0
natação        698.0
basketball       NaN
dtype: float64

In [40]:
pd.isnull(obj4)

futebol       False
tenis         False
natação       False
basketball     True
dtype: bool

In [41]:
pd.notnull(obj4)

futebol        True
tenis          True
natação        True
basketball    False
dtype: bool

In [28]:
obj4.isnull()

futebol       False
tenis          True
natação       False
basketball     True
dtype: bool

In [29]:
# concatenando Series
obj3 + obj4

basketball        NaN
futebol       10400.0
natação        1396.0
tenis             NaN
volei             NaN
dtype: float64

In [30]:
obj4.name='população'

In [31]:
obj4.index.name='esporte'

In [32]:
obj4

esporte
futebol       5200.0
tenis            NaN
natação        698.0
basketball       NaN
Name: população, dtype: float64

# DataFrames

Data frames representam uma estrutura tabular semelhante de uma planilha de excel,contendo uma coleção de colunas em que cada uma pode ser um diferente tipo de valor (numero,string,etc). Os Dataframes possuem index e linhas e esta estrutura é muito semelhante a um dataframe em R. Os dados de uma dataframe são armazenados e um ou mais blocos bidimencionais, ao inves de listas, dicionarios ou alguma outras estrutura de array.

In [2]:
from pandas import  DataFrame

In [3]:
data= {'Estado':['Satnta Catarina','Paraná','Goiás','Bahia','Minas Gerais'],
      'Ano':[2002,2003,2004,2005,2006],
      'População':[1.5,1.7,3.6,2.4,2.9]}

In [4]:
frame = DataFrame(data)

In [6]:
frame

Unnamed: 0,Estado,Ano,População
0,Satnta Catarina,2002,1.5
1,Paraná,2003,1.7
2,Goiás,2004,3.6
3,Bahia,2005,2.4
4,Minas Gerais,2006,2.9


In [7]:
type(frame)

pandas.core.frame.DataFrame

In [8]:
DataFrame(data,columns=['Ano','Estado','População'])

Unnamed: 0,Ano,Estado,População
0,2002,Satnta Catarina,1.5
1,2003,Paraná,1.7
2,2004,Goiás,3.6
3,2005,Bahia,2.4
4,2006,Minas Gerais,2.9


In [9]:
#criando outro dataframe com os mesmos dados anteriores mas adicionando uma coluna
frame2 = DataFrame(data,columns=['Ano','Estado','População','Débito'],
                  index=['um','dois','tres','quatro','cinco'])

In [12]:
#imprimindo o DataFrame
frame2['Estado']

um        Satnta Catarina
dois               Paraná
tres                Goiás
quatro              Bahia
cinco        Minas Gerais
Name: Estado, dtype: object

In [13]:
type(frame2)

pandas.core.frame.DataFrame

In [14]:
frame2.index

Index(['um', 'dois', 'tres', 'quatro', 'cinco'], dtype='object')

In [15]:
frame2.columns

Index(['Ano', 'Estado', 'População', 'Débito'], dtype='object')

In [16]:
frame2.values

array([[2002, 'Satnta Catarina', 1.5, nan],
       [2003, 'Paraná', 1.7, nan],
       [2004, 'Goiás', 3.6, nan],
       [2005, 'Bahia', 2.4, nan],
       [2006, 'Minas Gerais', 2.9, nan]], dtype=object)

In [17]:
frame2['Ano']

um        2002
dois      2003
tres      2004
quatro    2005
cinco     2006
Name: Ano, dtype: int64

In [18]:
frame2.Ano

um        2002
dois      2003
tres      2004
quatro    2005
cinco     2006
Name: Ano, dtype: int64

In [19]:
frame2[:2]

Unnamed: 0,Ano,Estado,População,Débito
um,2002,Satnta Catarina,1.5,
dois,2003,Paraná,1.7,


# Usando NumPy e Pandas 

In [20]:
import numpy as np

In [35]:
#udando o numpy para alimentar uma das colunas do dataframe
frame2['Débito'] = np.arange(5.)

In [36]:
frame2

Unnamed: 0,Ano,Estado,População,Débito
um,2002,Satnta Catarina,1.5,0.0
dois,2003,Paraná,1.7,1.0
tres,2004,Goiás,3.6,2.0
quatro,2005,Bahia,2.4,3.0
cinco,2006,Minas Gerais,2.9,4.0


In [37]:
frame2.values

array([[2002, 'Satnta Catarina', 1.5, 0.0],
       [2003, 'Paraná', 1.7, 1.0],
       [2004, 'Goiás', 3.6, 2.0],
       [2005, 'Bahia', 2.4, 3.0],
       [2006, 'Minas Gerais', 2.9, 4.0]], dtype=object)

In [38]:
#resumo do Dataframe
frame2.describe()

Unnamed: 0,Ano,População,Débito
count,5.0,5.0,5.0
mean,2004.0,2.42,2.0
std,1.581139,0.864292,1.581139
min,2002.0,1.5,0.0
25%,2003.0,1.7,1.0
50%,2004.0,2.4,2.0
75%,2005.0,2.9,3.0
max,2006.0,3.6,4.0


In [42]:
frame2['dois':'quatro']

Unnamed: 0,Ano,Estado,População,Débito
dois,2003,Paraná,1.7,1.0
tres,2004,Goiás,3.6,2.0
quatro,2005,Bahia,2.4,3.0


In [40]:
frame2 < 5

Unnamed: 0,Ano,Estado,População,Débito
um,False,True,True,True
dois,False,True,True,True
tres,False,True,True,True
quatro,False,True,True,True
cinco,False,True,True,True
