<h1>Pandas</h1>

<h2>Series</h2>
<p>Series é um array unidimensional que contém um array de dados e um array de labels, chamado índice.</p>

<h2>Dataframes</h2>
<p>Dataframes representam uma estrutura tabular semelhante a estrutura de uma planilha do microsoft ecxel, contendo uma coleção de colunas em que cada uma pode ser um diferente tipo de valor (número, string, etc...).</p>

In [15]:
import pandas as pd
import numpy as np

In [20]:
#Criando uma serie de dados passando um dicionário como parâmetro
dicionary = {"Futebol":5200, "Tenis":120, "Natação":698, "Voleyball":1500}

In [21]:
#Criando uma série a partir de um dicionário
obj3 = pd.Series(dicionary, dtype=np.int16)
obj3

Futebol      5200
Tenis         120
Natação       698
Voleyball    1500
dtype: int16

In [22]:
type(obj3)

pandas.core.series.Series

In [25]:
#Criando uma serie com uma lista como indice
esportes = ['Futebol', 'Tenis', 'Natação', 'Basketball']
obj4 = pd.Series(dicionary, index=esportes)
obj4

Futebol       5200.0
Tenis          120.0
Natação        698.0
Basketball       NaN
dtype: float64

In [26]:
#Perguntando se existe algum valor nulo
pd.isnull(obj4)

Futebol       False
Tenis         False
Natação       False
Basketball     True
dtype: bool

In [27]:
#Perguntando se existe algum valor não nulo
pd.notnull(obj4)

Futebol        True
Tenis          True
Natação        True
Basketball    False
dtype: bool

In [28]:
#Tambem podemos fazer assim
obj4.isnull()

Futebol       False
Tenis         False
Natação       False
Basketball     True
dtype: bool

In [29]:
#Concatenando Series
obj3 + obj4

Basketball        NaN
Futebol       10400.0
Natação        1396.0
Tenis           240.0
Voleyball         NaN
dtype: float64

In [31]:
#Muda o nome 
obj4.name = 'População'
obj4

Futebol       5200.0
Tenis          120.0
Natação        698.0
Basketball       NaN
Name: População, dtype: float64

In [32]:
#Muda o nome do indice
obj4.index.name = 'Esporte'
obj4

Esporte
Futebol       5200.0
Tenis          120.0
Natação        698.0
Basketball       NaN
Name: População, dtype: float64

In [38]:
data = {'Estado':['Santa Catarina', 'Paraná', 'bahia','Goiás', 'Minas Gerais'],
       'Ano': [2002, 2003, 2004, 2005, 2006],
       'População': [1.5, 1.7, 3.6, 2.4, 2.9]}

In [39]:
#Criando um dataframe com um dicionario
frame = pd.DataFrame(data)
frame

Unnamed: 0,Estado,Ano,População
0,Santa Catarina,2002,1.5
1,Paraná,2003,1.7
2,bahia,2004,3.6
3,Goiás,2005,2.4
4,Minas Gerais,2006,2.9


In [40]:
#mostra o tipo do dataframe
type(frame)

pandas.core.frame.DataFrame

In [41]:
#Cria um Dataframe passando o nome das colunas
pd.DataFrame(data, columns=['Ano', 'Estado', 'População'])

Unnamed: 0,Ano,Estado,População
0,2002,Santa Catarina,1.5
1,2003,Paraná,1.7
2,2004,bahia,3.6
3,2005,Goiás,2.4
4,2006,Minas Gerais,2.9


In [43]:
#criando outro dataframe com os mesmo dados anteriores mas adicionando uma coluna e indices
frame2 = pd.DataFrame(data, columns= ['Ano', 'Estado', 'População', 'Debito'],
                     index=['um', 'dois', 'tres', 'quatro', 'cinco'])
frame2

Unnamed: 0,Ano,Estado,População,Debito
um,2002,Santa Catarina,1.5,
dois,2003,Paraná,1.7,
tres,2004,bahia,3.6,
quatro,2005,Goiás,2.4,
cinco,2006,Minas Gerais,2.9,


In [44]:
#imprime apenas uma coluna do DataFrame
frame2['Estado']

um        Santa Catarina
dois              Paraná
tres               bahia
quatro             Goiás
cinco       Minas Gerais
Name: Estado, dtype: object

In [45]:
#Mostra o tipo do dataframe
type(frame2)


pandas.core.frame.DataFrame

In [46]:
#mostra os indices
frame2.index

Index(['um', 'dois', 'tres', 'quatro', 'cinco'], dtype='object')

In [47]:
#mostra as colunas
frame2.columns

Index(['Ano', 'Estado', 'População', 'Debito'], dtype='object')

In [48]:
#Mostra os valores
frame2.values

array([[2002, 'Santa Catarina', 1.5, nan],
       [2003, 'Paraná', 1.7, nan],
       [2004, 'bahia', 3.6, nan],
       [2005, 'Goiás', 2.4, nan],
       [2006, 'Minas Gerais', 2.9, nan]], dtype=object)

In [50]:
#Mostra os tipos de dados
frame2.dtypes

Ano            int64
Estado        object
População    float64
Debito        object
dtype: object

In [51]:
#Mostra uma coluna
frame2['Ano']

um        2002
dois      2003
tres      2004
quatro    2005
cinco     2006
Name: Ano, dtype: int64

In [53]:
#mostra apenas algumas linhas (inicio : fim)
frame2[:2]

Unnamed: 0,Ano,Estado,População,Debito
um,2002,Santa Catarina,1.5,
dois,2003,Paraná,1.7,


<h2>Usando Numpy com Pandas</h2>