# Pandas

Para poder trabalhar com Pandas, você deve conhecer bem duas estruturas: Series e DataFrame.

Para importar o pandas, utilize pandas as pd

Você também utilizar: from pandas import Series, DataFrame

Para atualizar o Pandas, abra o prompt de comando ou terminal e digite: pip install pandas -U

## Series

Series é um array unidimensional que contém um array de dado e um array de labels, chamado índice.

In [1]:
from pandas import Series

In [2]:
import pandas as pd

In [3]:
pd.__version__

'1.3.4'

In [4]:
# Criando uma série sem espeificar os índices
Obj = Series([67,78,-56,13])

In [5]:
Obj

0    67
1    78
2   -56
3    13
dtype: int64

In [6]:
type(Obj)

pandas.core.series.Series

In [7]:
Obj.values

array([ 67,  78, -56,  13])

In [8]:
Obj.index

RangeIndex(start=0, stop=4, step=1)

In [9]:
# Criando uma série e espeficiando os índices
Obj2 = Series([67,78,-56,13], index = ['a','b','c','d'])

In [10]:
Obj2

a    67
b    78
c   -56
d    13
dtype: int64

In [11]:
Obj2.values

array([ 67,  78, -56,  13])

In [12]:
Obj2.index

Index(['a', 'b', 'c', 'd'], dtype='object')

In [13]:
Obj2[Obj2 >3]

a    67
b    78
d    13
dtype: int64

In [14]:
Obj2['b']

78

In [15]:
'd' in Obj2

True

In [16]:
# Criando uma série de dados passando um dicionárrio como parâmetro
dict = {'Futebol':5200, 'Tenis': 120, 'Natação': 698, 'Volleyball': 1550}

In [17]:
# Criando uma série a partir de um dicionário
Obj3 = Series(dict)

In [18]:
Obj3

Futebol       5200
Tenis          120
Natação        698
Volleyball    1550
dtype: int64

In [19]:
type(Obj3)

pandas.core.series.Series

In [20]:
# Criando uma lista
esportes = ['Futebol','Tenis','Natação','Basktetball']

In [21]:
# Criando uma serie e usando uma lista como índice
Obj4 = Series(dict, index=esportes)

In [22]:
Obj4

Futebol        5200.0
Tenis           120.0
Natação         698.0
Basktetball       NaN
dtype: float64

In [23]:
pd.isnull(Obj4)

Futebol        False
Tenis          False
Natação        False
Basktetball     True
dtype: bool

In [24]:
pd.notnull(Obj4)

Futebol         True
Tenis           True
Natação         True
Basktetball    False
dtype: bool

In [25]:
Obj4.isnull()

Futebol        False
Tenis          False
Natação        False
Basktetball     True
dtype: bool

In [26]:
# Cocatenando Series
Obj3 + Obj4

Basktetball        NaN
Futebol        10400.0
Natação         1396.0
Tenis            240.0
Volleyball         NaN
dtype: float64

In [27]:
Obj4.name = 'população'

In [28]:
Obj4.index.name = 'esporte'

In [29]:
Obj4

esporte
Futebol        5200.0
Tenis           120.0
Natação         698.0
Basktetball       NaN
Name: população, dtype: float64

# Dataframes

Dataframes representam uma estrutura tabular semelhante a estrutura de uma planilha do Excel, contendo uma coleção de colunas em que cada uma pode ser um diferente tipo de valor (número, String, etc ...). Os Dataframes possuem index e linhas e esta estrutura é muito semelhante a um dataframe em R. Os dados de um dataframe são armazenados e um ou mais blocos bidimensionais, ao invés de listas, dicionários ou alguma outra estrutura de array.

In [30]:
from pandas import DataFrame

In [33]:
data = {'Estado': ['Santa Catarina','Paraná','Goiás','Bahia','Minas Gerais'],
       'Ano': [2002,2003,2004,2005,2006],
       'População': [1.5,1.7,3.6,2.4,2.9]}

In [34]:
frame = DataFrame(data)

In [36]:
frame

Unnamed: 0,Estado,Ano,População
0,Santa Catarina,2002,1.5
1,Paraná,2003,1.7
2,Goiás,2004,3.6
3,Bahia,2005,2.4
4,Minas Gerais,2006,2.9


In [37]:
type(frame)

pandas.core.frame.DataFrame

In [38]:
# definindo o nome da colunas manualmente
DataFrame(data, columns=['Ano','Estado','População'])

Unnamed: 0,Ano,Estado,População
0,2002,Santa Catarina,1.5
1,2003,Paraná,1.7
2,2004,Goiás,3.6
3,2005,Bahia,2.4
4,2006,Minas Gerais,2.9


In [39]:
# Criado outro dataframe com o mesmo dados anteriores mais adicionando uma coluna
frame2 = DataFrame(data, columns= ['Ano', 'Estado', 'População', 'Débito'],
                  index = ['um', 'dois', 'três', 'quatro', 'cinco'])

In [40]:
# imprimindo o Dataframe
frame2

Unnamed: 0,Ano,Estado,População,Débito
um,2002,Santa Catarina,1.5,
dois,2003,Paraná,1.7,
três,2004,Goiás,3.6,
quatro,2005,Bahia,2.4,
cinco,2006,Minas Gerais,2.9,


In [42]:
# Imprindo apenas uma coluna do Dataframe
frame2['Estado']

um        Santa Catarina
dois              Paraná
três               Goiás
quatro             Bahia
cinco       Minas Gerais
Name: Estado, dtype: object

In [43]:
type(frame2)

pandas.core.frame.DataFrame

In [44]:
frame2.index

Index(['um', 'dois', 'três', 'quatro', 'cinco'], dtype='object')

In [45]:
frame2.columns

Index(['Ano', 'Estado', 'População', 'Débito'], dtype='object')

In [46]:
frame2.values

array([[2002, 'Santa Catarina', 1.5, nan],
       [2003, 'Paraná', 1.7, nan],
       [2004, 'Goiás', 3.6, nan],
       [2005, 'Bahia', 2.4, nan],
       [2006, 'Minas Gerais', 2.9, nan]], dtype=object)

In [47]:
frame2.dtypes

Ano            int64
Estado        object
População    float64
Débito        object
dtype: object

In [48]:
frame2['Ano']

um        2002
dois      2003
três      2004
quatro    2005
cinco     2006
Name: Ano, dtype: int64

In [49]:
frame2.Ano

um        2002
dois      2003
três      2004
quatro    2005
cinco     2006
Name: Ano, dtype: int64

In [50]:
frame2[:2]

Unnamed: 0,Ano,Estado,População,Débito
um,2002,Santa Catarina,1.5,
dois,2003,Paraná,1.7,


# Usando o NumPy e Pandas

In [51]:
# Importando o NumPy
import numpy as np

In [52]:
# Usando o NumPy para alimentar uma das colunas do dataframe
frame2['Débito'] = np.arange(5.)

In [53]:
frame2

Unnamed: 0,Ano,Estado,População,Débito
um,2002,Santa Catarina,1.5,0.0
dois,2003,Paraná,1.7,1.0
três,2004,Goiás,3.6,2.0
quatro,2005,Bahia,2.4,3.0
cinco,2006,Minas Gerais,2.9,4.0


In [54]:
frame2.values

array([[2002, 'Santa Catarina', 1.5, 0.0],
       [2003, 'Paraná', 1.7, 1.0],
       [2004, 'Goiás', 3.6, 2.0],
       [2005, 'Bahia', 2.4, 3.0],
       [2006, 'Minas Gerais', 2.9, 4.0]], dtype=object)

In [55]:
# Resumo do Dataframe
frame2.describe()

Unnamed: 0,Ano,População,Débito
count,5.0,5.0,5.0
mean,2004.0,2.42,2.0
std,1.581139,0.864292,1.581139
min,2002.0,1.5,0.0
25%,2003.0,1.7,1.0
50%,2004.0,2.4,2.0
75%,2005.0,2.9,3.0
max,2006.0,3.6,4.0


In [56]:
frame2['dois':'quatro']

Unnamed: 0,Ano,Estado,População,Débito
dois,2003,Paraná,1.7,1.0
três,2004,Goiás,3.6,2.0
quatro,2005,Bahia,2.4,3.0


In [62]:
frame2  < 5

TypeError: '<' not supported between instances of 'str' and 'int'

assiti ate 04:59