## Series

###### Series é um array unidimensional que contém um array de dados e um array de labels, chamado índice.

In [1]:
from pandas import Series

In [76]:
import pandas as pd

In [3]:
pd.__version__

'0.23.0'

In [4]:
# Criando uma série sem especificar os índices
Obj = Series([67, 78, -56, 13])

In [5]:
Obj

0    67
1    78
2   -56
3    13
dtype: int64

In [6]:
type(Obj)

pandas.core.series.Series

In [7]:
Obj.values

array([ 67,  78, -56,  13], dtype=int64)

In [8]:
Obj.index

RangeIndex(start=0, stop=4, step=1)

In [9]:
# Criando uma série e especificando os índices
Obj2 = Series([67, 78, -56, 13], index= ['a', 'b', 'c', 'd'])

In [10]:
Obj2

a    67
b    78
c   -56
d    13
dtype: int64

In [11]:
Obj2.values

array([ 67,  78, -56,  13], dtype=int64)

In [12]:
Obj2.index

Index(['a', 'b', 'c', 'd'], dtype='object')

In [13]:
Obj2[Obj2 > 3]

a    67
b    78
d    13
dtype: int64

In [14]:
Obj2['b']

78

In [15]:
'd' in Obj2

True

In [16]:
# Criando uma série de dados passando um dicionário como parâmetro
dict = {'Futebol':5200, 'Tenis':120, 'Natação':698, 'Volleyball':1550}

In [17]:
Obj3 = Series(dict)

In [18]:
Obj3

Futebol       5200
Tenis          120
Natação        698
Volleyball    1550
dtype: int64

In [19]:
type(Obj3)

pandas.core.series.Series

In [20]:
# Criando uma lista
esportes = ['Futebol', 'Tenis', 'Natação', 'Baskteball']

In [21]:
# Criando uma serie e usando uma lista como índice
Obj4 = Series(dict, index=esportes)

In [22]:
Obj4

Futebol       5200.0
Tenis          120.0
Natação        698.0
Baskteball       NaN
dtype: float64

In [23]:
pd.isnull(Obj4)

Futebol       False
Tenis         False
Natação       False
Baskteball     True
dtype: bool

In [24]:
pd.notnull(Obj4)

Futebol        True
Tenis          True
Natação        True
Baskteball    False
dtype: bool

In [25]:
Obj4.isnull()

Futebol       False
Tenis         False
Natação       False
Baskteball     True
dtype: bool

In [26]:
# Concatenando Series
Obj3 + Obj4

Baskteball        NaN
Futebol       10400.0
Natação        1396.0
Tenis           240.0
Volleyball        NaN
dtype: float64

In [27]:
Obj4.name = 'população'

In [28]:
Obj4.index.name = 'esporte'

In [33]:
Obj4

esporte
Futebol       5200.0
Tenis          120.0
Natação        698.0
Baskteball       NaN
Name: população, dtype: float64

## Dataframes
Dataframes representam uma estrutura tabular semelhante a estrutura de uma panilha do Excel, contendo uma coleção de colunas em que cada uma pode ser um diferente tipo de valor (número, string, etc...). Os Dataframes possuem index e linhas e esta estrutura é muito semelhante a um dataframe em R. Os dados de um dataframe são armazenados em um ou mais blocos bidimensionais, ao invés de listas, dicionários ou alguma outra estrutura de array.

In [1]:
from pandas import DataFrame

In [13]:
data = {'Estado': ['Santa Catarina', 'Paraná', 'Goiás', 'Bahia', 'Minas Gerais'],
        'Ano': [2002, 2003, 2004, 2005, 2006],
        'População': [1.5, 1.7, 3.6, 2.4, 2.9]}

In [14]:
frame = DataFrame(data)

In [15]:
frame

Unnamed: 0,Estado,Ano,População
0,Santa Catarina,2002,1.5
1,Paraná,2003,1.7
2,Goiás,2004,3.6
3,Bahia,2005,2.4
4,Minas Gerais,2006,2.9


In [20]:
type(frame)

pandas.core.frame.DataFrame

In [24]:
DataFrame(data, columns=['Ano', 'Estado', 'População'])

Unnamed: 0,Ano,Estado,População
0,2002,Santa Catarina,1.5
1,2003,Paraná,1.7
2,2004,Goiás,3.6
3,2005,Bahia,2.4
4,2006,Minas Gerais,2.9


In [25]:
# Criando outro dataframe com os mesmos dados anteriores mas adicionando uma coluna
frame2 = DataFrame(data, columns = ['Ano', 'Estado', 'População', 'Débito'],
                   index = ['um', 'dois', 'três', 'quatro', 'cinco'])

In [26]:
frame2

Unnamed: 0,Ano,Estado,População,Débito
um,2002,Santa Catarina,1.5,
dois,2003,Paraná,1.7,
três,2004,Goiás,3.6,
quatro,2005,Bahia,2.4,
cinco,2006,Minas Gerais,2.9,


In [30]:
frame2

Unnamed: 0,Ano,Estado,População,Débito
um,2002,Santa Catarina,1.5,
dois,2003,Paraná,1.7,
três,2004,Goiás,3.6,
quatro,2005,Bahia,2.4,
cinco,2006,Minas Gerais,2.9,


In [35]:
# Imprimindo apenas uma coluna do Dataframe
frame2['Estado']

um        Santa Catarina
dois              Paraná
três               Goiás
quatro             Bahia
cinco       Minas Gerais
Name: Estado, dtype: object

In [36]:
type(frame2)

pandas.core.frame.DataFrame

In [39]:
frame2.index

Index(['um', 'dois', 'três', 'quatro', 'cinco'], dtype='object')

In [41]:
frame2.columns

Index(['Ano', 'Estado', 'População', 'Débito'], dtype='object')

In [42]:
frame2.values

array([[2002, 'Santa Catarina', 1.5, nan],
       [2003, 'Paraná', 1.7, nan],
       [2004, 'Goiás', 3.6, nan],
       [2005, 'Bahia', 2.4, nan],
       [2006, 'Minas Gerais', 2.9, nan]], dtype=object)

In [44]:
frame2.dtypes

Ano            int64
Estado        object
População    float64
Débito       float64
dtype: object

In [45]:
frame2['Ano']

um        2002
dois      2003
três      2004
quatro    2005
cinco     2006
Name: Ano, dtype: int64

In [46]:
frame2.Ano

um        2002
dois      2003
três      2004
quatro    2005
cinco     2006
Name: Ano, dtype: int64

In [51]:
frame2[:2]

Unnamed: 0,Ano,Estado,População,Débito
um,2002,Santa Catarina,1.5,
dois,2003,Paraná,1.7,


In [56]:
# Ranking por população
population = frame2.groupby(['Estado']).sum()['População']
population = DataFrame(population)

population.sort_values(by='População', ascending=False)

Unnamed: 0_level_0,População
Estado,Unnamed: 1_level_1
Goiás,3.6
Minas Gerais,2.9
Bahia,2.4
Paraná,1.7
Santa Catarina,1.5


## Usando NumPy e Pandas

In [57]:
import numpy as np

In [65]:
# Usando NumPy para alimentar uma das colunas do dataframe
frame2['Débito'] = np.arange(5.)

In [66]:
frame2

Unnamed: 0,Ano,Estado,População,Débito
um,2002,Santa Catarina,1.5,0.0
dois,2003,Paraná,1.7,1.0
três,2004,Goiás,3.6,2.0
quatro,2005,Bahia,2.4,3.0
cinco,2006,Minas Gerais,2.9,4.0


In [67]:
frame.values

array([['Santa Catarina', 2002, 1.5],
       ['Paraná', 2003, 1.7],
       ['Goiás', 2004, 3.6],
       ['Bahia', 2005, 2.4],
       ['Minas Gerais', 2006, 2.9]], dtype=object)

In [68]:
# Resumo do Dataframe
frame2.describe()

Unnamed: 0,Ano,População,Débito
count,5.0,5.0,5.0
mean,2004.0,2.42,2.0
std,1.581139,0.864292,1.581139
min,2002.0,1.5,0.0
25%,2003.0,1.7,1.0
50%,2004.0,2.4,2.0
75%,2005.0,2.9,3.0
max,2006.0,3.6,4.0


In [69]:
frame2['dois':'quatro']

Unnamed: 0,Ano,Estado,População,Débito
dois,2003,Paraná,1.7,1.0
três,2004,Goiás,3.6,2.0
quatro,2005,Bahia,2.4,3.0


In [70]:
frame2 < 5

Unnamed: 0,Ano,Estado,População,Débito
um,False,True,True,True
dois,False,True,True,True
três,False,True,True,True
quatro,False,True,True,True
cinco,False,True,True,True


## Localizando Registros Dentro do Dataframe

In [71]:
# Pelo index
frame2.loc['quatro']

Ano           2005
Estado       Bahia
População      2.4
Débito           3
Name: quatro, dtype: object

In [72]:
# Pelo número do índice
frame2.iloc[2]

Ano           2004
Estado       Goiás
População      3.6
Débito           2
Name: três, dtype: object

In [73]:
frame2.values

array([[2002, 'Santa Catarina', 1.5, 0.0],
       [2003, 'Paraná', 1.7, 1.0],
       [2004, 'Goiás', 3.6, 2.0],
       [2005, 'Bahia', 2.4, 3.0],
       [2006, 'Minas Gerais', 2.9, 4.0]], dtype=object)

## Invertendo as colunas e Índices

In [74]:
web_stats = {'Dias':[1, 2, 3, 4, 5, 6, 7],
             'Visitantes':[45, 23, 67, 78, 23, 12, 14],
             'Taxas':[11, 22, 33, 44, 55, 66, 77]}

In [77]:
df = pd.DataFrame(web_stats)

In [78]:
print(df)

   Dias  Visitantes  Taxas
0     1          45     11
1     2          23     22
2     3          67     33
3     4          78     44
4     5          23     55
5     6          12     66
6     7          14     77


In [79]:
# Visualizando uma coluna como index
print(df.set_index('Dias'))

      Visitantes  Taxas
Dias                   
1             45     11
2             23     22
3             67     33
4             78     44
5             23     55
6             12     66
7             14     77


In [80]:
print(df.head())

   Dias  Visitantes  Taxas
0     1          45     11
1     2          23     22
2     3          67     33
3     4          78     44
4     5          23     55


In [81]:
print(df['Visitantes'])

0    45
1    23
2    67
3    78
4    23
5    12
6    14
Name: Visitantes, dtype: int64


In [82]:
print(df[['Visitantes', 'Taxas']])

   Visitantes  Taxas
0          45     11
1          23     22
2          67     33
3          78     44
4          23     55
5          12     66
6          14     77


## Dataframes e Arquivos csv

In [83]:
# Usando o método read_csv
df = pd.read_csv('salarios.csv')

In [84]:
df

Unnamed: 0,Name,Position Title,Department,Employee Annual Salary
0,"AARON, ELVIA J",WATER RATE TAKER,WATER MGMNT,$88968.00
1,"AARON, JEFFERY M",POLICE OFFICER,POLICE,$80778.00
2,"AARON, KARINA",POLICE OFFICER,POLICE,$80778.00
3,"AARON, KIMBERLEI R",CHIEF CONTRACT EXPEDITER,GENERAL SERVICES,$84780.00
4,"ABAD JR, VICENTE M",CIVIL ENGINEER IV,WATER MGMNT,$104736.00
5,"ABARCA, ANABEL",ASST TO THE ALDERMAN,CITY COUNCIL,$70764.00
6,"ABARCA, EMMANUEL",GENERAL LABORER - DSS,STREETS & SAN,$40560.00
7,"ABBATACOLA, ROBERT J",ELECTRICAL MECHANIC,AVIATION,$91520.00
8,"ABBATEMARCO, JAMES J",FIRE ENGINEER,FIRE,$90456.00
9,"ABBATE, TERRY M",POLICE OFFICER,POLICE,$86520.00
