## Pandas

## <h6>Para poder trabalhar com Pandas, você deve conhecer bem estas duas<br>estruturas: Series e DataFrame.<br>Para importar o pandas, utilize: import pandas as pd<br>Você também pode utilizar: from pandas import Series, DataFrame<br>Para atualizar o Pandas, abra o prompt de comando ou terminal e<br>digite pip install pandas -U</h6>

## Series<br><h6>Series é um array unidimensional que contém um array de dados<br>e um array de lavels, chamado indice.</h6>

In [38]:
# importando do pacote pandas o módulo series
from pandas import Series

In [39]:
# importando pacote pandas, não importar o pacote inteiro para aplicação
# módulo python, script para trabalho de análise importar somente o que for
# usar
# por convensão ele é apelidade de pd
import pandas as pd

In [40]:
pd.__version__

'0.25.1'

In [41]:
# criando series sem especificar indices
obj = Series([67, 78, -56, 13])

In [42]:
# mostrando series
# automaticamente ele insere indice as linhas
print(obj)

0    67
1    78
2   -56
3    13
dtype: int64


In [43]:
# tipo do objeto 
# pandas.core.series.Series
print(type(obj))

<class 'pandas.core.series.Series'>


In [44]:
# valores do obj
print(obj.values)

[ 67  78 -56  13]


In [45]:
# indexes do objeto
# mostra como start, stop, steps

print(obj.index)

RangeIndex(start=0, stop=4, step=1)


In [46]:
# criando uma Series e especificando os indexes
obj2 = Series([67, 78, -56, 13], index=['a', 'b', 'c', 'd'])

In [47]:
# mostrando objeto Series
# indexes definido na criação da Series

print(obj2)

a    67
b    78
c   -56
d    13
dtype: int64


In [48]:
# mostrando os valores em cada item da Series
print(obj2.values)

[ 67  78 -56  13]


In [49]:
# mostrando os indexes de cada item da Series
print(obj2.index)

Index(['a', 'b', 'c', 'd'], dtype='object')


In [50]:
# uma das principai caracteristicas do pandas é a indexação
# trabalhar com slince-in-dance, fatiar, filtrar, buscar
# buscando na Series um valor > 3
# ou seja podemos usar a nossa linguagem para fazer filtro no pandas

obj2[obj2 > 3]

a    67
b    78
d    13
dtype: int64

In [51]:
# retornar pelo indice o valor
obj2['b']

78

In [52]:
# verificando um indice em uma Series
'b' in obj2

True

In [53]:
# criando dicionário
# os objetos build-in do python eles são bons porém básicos para análise de dados

dict = {'Futebol': 5200, 'Tenis': 120, 'Natação': 698, 'Voleiball': 1550}

In [54]:
# adicionado o dicionário em uma Series

obj3 = Series(dict)

In [55]:
# mostrando a Series obj3

print(obj3)

Futebol      5200
Tenis         120
Natação       698
Voleiball    1550
dtype: int64


In [56]:
# mostrando o tipo do objeto obj3

print(type(obj3))

<class 'pandas.core.series.Series'>


In [57]:
# mostrando o valor do obj3
# o que é chave do dicionário vira indexes
# valor do dicionário em Series vira valor

print(obj3.values)

[5200  120  698 1550]


In [58]:
# mostrando indexes da Series

print(obj3.index)

Index(['Futebol', 'Tenis', 'Natação', 'Voleiball'], dtype='object')


In [59]:
# criando uma lista
esportes = ['Futebol', 'Tenis', 'Natação', 'Baskteball']

In [60]:
# criando uma Series e usando uma lista como indice
# estou passando para ele criar uma Series do dict
# e passando para ele colocar como indice a lista de esportes
# como em meu dicionario não tem valor correspondente a Basketball
# o pandas preenche o valor com NaN, valor missing - ausente
# e retirou o indexe Voleiball
# fizemos um match um casamento 
# isto aqui tem uma série de complicações porque se o pandas tivesse preenchido
# o indexe Baskteball com valor seria um valor errado

obj4 = Series(dict, index = esportes)

In [61]:
# mostrando a Series

print(obj4)

Futebol       5200.0
Tenis          120.0
Natação        698.0
Baskteball       NaN
dtype: float64


In [62]:
# utilizando isnull, para ver se tem valor nulo

print(obj4.isnull())

Futebol       False
Tenis         False
Natação       False
Baskteball     True
dtype: bool


In [63]:
# utilizando notnull, para ver valor não nulo

print(obj4.notnull())

Futebol        True
Tenis          True
Natação        True
Baskteball    False
dtype: bool


In [64]:
# concatenção entre Series
# o pandas busca a relação da 1º Series com a 2º Series
# entre os indice, aqueles indices que contém relação ele soma os valores
# os idexes que não contém relação ele coloca NaN, missing - ausente

print(obj3 + obj4)

Baskteball        NaN
Futebol       10400.0
Natação        1396.0
Tenis           240.0
Voleiball         NaN
dtype: float64


In [65]:
# mudando o nome deste objeto

obj4.name = 'população'

In [66]:
# mudando o nome do index

obj4.index.name = 'esporte'

# mostrando o nome do obj4

print(obj4)

# indexe 'esporte'
# name: população

esporte
Futebol       5200.0
Tenis          120.0
Natação        698.0
Baskteball       NaN
Name: população, dtype: float64


## DataFrame<br><h6>DataFrame representa uma esturtura tabular semelhante a estrutura de uma planilha do Excel.<br>Contendo uma coleção de colunas em que cada uma pode ser um diferente tipo de valor(número, string, etc..)<br>Os DataFrames possuem index e linhas e esta estrutura é muito semelhante a um dataframe em R.<br>Os dados de um dataframe são armazenados em um ou mais blocos bidimensionais, ao invés de listas, dicionários ou alguma outra estrutura de array.<h6>

In [67]:
# apartir de pandas importando DataFrame
from pandas import DataFrame

In [68]:
# criando um dicionário
data = {'Estado': ['Santa Catarina', 'Paraná', 'Goiás', 'Bahia', 'Minas Gerais'],
       'Ano': [2002, 2003, 2004, 2005, 2006],
       'População': [1.5, 1.7, 3.6, 2.4, 2.9]}

In [69]:
# armazenando dicionário em um DataFrame
# poderosa ferramenta de indexação
# slice, dice, busca através de indexação

frame = DataFrame(data)

In [71]:
# mostrando o DataFrame
# automaticamente foi colocado os indices

frame

Unnamed: 0,Estado,Ano,População
0,Santa Catarina,2002,1.5
1,Paraná,2003,1.7
2,Goiás,2004,3.6
3,Bahia,2005,2.4
4,Minas Gerais,2006,2.9


In [72]:
# vendo o tipo do objeto frame
print(type(frame))

<class 'pandas.core.frame.DataFrame'>


In [73]:
# alterando o ordem das colunas

DataFrame(data, columns=['Ano', 'Estado', 'População'])

Unnamed: 0,Ano,Estado,População
0,2002,Santa Catarina,1.5
1,2003,Paraná,1.7
2,2004,Goiás,3.6
3,2005,Bahia,2.4
4,2006,Minas Gerais,2.9


In [74]:
# criando DataFrame com mesmo dados do anterior e adicionando uma coluna Débito
# intexando linhas
frame2 = DataFrame(data, columns=['Ano', 'Estado', 'População', 'Débito'],
                   index=['um', 'dois', 'tres', 'quatro', 'cinco'])

In [75]:
# mostrando DataFrame
# NaN - missing - ausente
frame2

Unnamed: 0,Ano,Estado,População,Débito
um,2002,Santa Catarina,1.5,
dois,2003,Paraná,1.7,
tres,2004,Goiás,3.6,
quatro,2005,Bahia,2.4,
cinco,2006,Minas Gerais,2.9,


In [76]:
# imprimindo uma coluna do DataFrame
# filtor por nome de coluna

frame2['Estado']

um        Santa Catarina
dois              Paraná
tres               Goiás
quatro             Bahia
cinco       Minas Gerais
Name: Estado, dtype: object

In [77]:
# tipo do objeto frame2
type(frame2)

pandas.core.frame.DataFrame

In [79]:
# mostrando os indices, pode ser manipulado
frame2.index

Index(['um', 'dois', 'tres', 'quatro', 'cinco'], dtype='object')

In [80]:
# mostrando as colunas, pode ser manipulado
frame2.columns

Index(['Ano', 'Estado', 'População', 'Débito'], dtype='object')

In [81]:
# mostrando os valores, pode ser manipulado
frame2.values

array([[2002, 'Santa Catarina', 1.5, nan],
       [2003, 'Paraná', 1.7, nan],
       [2004, 'Goiás', 3.6, nan],
       [2005, 'Bahia', 2.4, nan],
       [2006, 'Minas Gerais', 2.9, nan]], dtype=object)

In [82]:
# tipo de dados dos valores
frame2.dtypes

Ano            int64
Estado        object
População    float64
Débito        object
dtype: object

In [83]:
# mostrando coluna apartir do nome
# anotação de slice

frame2['Ano']

um        2002
dois      2003
tres      2004
quatro    2005
cinco     2006
Name: Ano, dtype: int64

In [84]:
# mostrando coluna apartir de atributo

frame2.Ano

um        2002
dois      2003
tres      2004
quatro    2005
cinco     2006
Name: Ano, dtype: int64

In [85]:
# mostrando todas as linhas por slice
# sendo que o stop é exclusivo
# nós demos a indexação para començar por um
# porém o python usa seu comportamento interno

frame2[:2]

Unnamed: 0,Ano,Estado,População,Débito
um,2002,Santa Catarina,1.5,
dois,2003,Paraná,1.7,


## Usando NumPy e Pandas

In [87]:
# importando NumPy
# por convensão é apelidade de np

import numpy as np

In [88]:
# usando NumPy para alimentar uma das colunas do DataFrame
# arange o stop é exclusivo

frame2['Débito'] = np.arange(5.)

In [89]:
# mostrando frame2

frame2

Unnamed: 0,Ano,Estado,População,Débito
um,2002,Santa Catarina,1.5,0.0
dois,2003,Paraná,1.7,1.0
tres,2004,Goiás,3.6,2.0
quatro,2005,Bahia,2.4,3.0
cinco,2006,Minas Gerais,2.9,4.0


In [92]:
# mostrando os valores

frame2.values

array([[2002, 'Santa Catarina', 1.5, 0.0],
       [2003, 'Paraná', 1.7, 1.0],
       [2004, 'Goiás', 3.6, 2.0],
       [2005, 'Bahia', 2.4, 3.0],
       [2006, 'Minas Gerais', 2.9, 4.0]], dtype=object)

In [94]:
# resumo ESTATÍSTICO do DataFrame
# retorno estatístico no DataFrame
# count - total de linhas
# mean - média
# std = desvio padrão
# 25% - percent 
# 50% - percent
# 755 - percent
# max - valor máximo ou seja o maior valor

frame2.describe()

Unnamed: 0,Ano,População,Débito
count,5.0,5.0,5.0
mean,2004.0,2.42,2.0
std,1.581139,0.864292,1.581139
min,2002.0,1.5,0.0
25%,2003.0,1.7,1.0
50%,2004.0,2.4,2.0
75%,2005.0,2.9,3.0
max,2006.0,3.6,4.0


In [97]:
# obtendo resultado em slice por dois indices
# start, stop

frame2['dois':'cinco']

Unnamed: 0,Ano,Estado,População,Débito
dois,2003,Paraná,1.7,1.0
tres,2004,Goiás,3.6,2.0
quatro,2005,Bahia,2.4,3.0
cinco,2006,Minas Gerais,2.9,4.0


In [None]:
# trazendo operações relacionais apartir do indice

# frame2 < 5 error 

## Localizando registro dentro de um DataFrame

In [102]:
# location por elemeto
# localizar um elemento especifico no DataFrame

frame2.loc['quatro']

Ano           2005
Estado       Bahia
População      2.4
Débito           3
Name: quatro, dtype: object

In [103]:
# iloc index location
# localizar pelo número do indice

frame2.iloc[2]

Ano           2004
Estado       Goiás
População      3.6
Débito           2
Name: tres, dtype: object

## Convertendo as Colunas em Índices

In [104]:
# criando um dicionário 
web_stats = {'Dias': [1, 2, 3, 4, 5, 6, 7],
            'Visitantes': [45, 23, 67, 78, 23, 12, 14],
            'Taxas': [11, 22, 33, 44, 55, 66, 77]}

In [105]:
# criando um DataFrame
# apartir do dicionário
# pd.DataFrame utilizando do pacote inteiro do pandas
# uma outra forma de ser criado

df = pd.DataFrame(web_stats)

In [106]:
print(df)

   Dias  Visitantes  Taxas
0     1          45     11
1     2          23     22
2     3          67     33
3     4          78     44
4     5          23     55
5     6          12     66
6     7          14     77


In [108]:
# visualizando uma coluna como index
# uma forma de organizar os dados para pesquisa
# a indexação do pyhton continua como 0
# chamando a função print não é modificado o DataFrame

print(df.set_index('Dias'))

      Visitantes  Taxas
Dias                   
1             45     11
2             23     22
3             67     33
4             78     44
5             23     55
6             12     66
7             14     77


In [109]:
# mostrando o DataFrame 5 primeiras linhas

print(df.head())

   Dias  Visitantes  Taxas
0     1          45     11
1     2          23     22
2     3          67     33
3     4          78     44
4     5          23     55


In [110]:
# slice usando o nome de uma coluna

print(df['Visitantes'])

0    45
1    23
2    67
3    78
4    23
5    12
6    14
Name: Visitantes, dtype: int64


In [112]:
# slice usando o nome de mais de uma coluna
# dentro de lista

print(df[['Visitantes', 'Taxas']])

   Visitantes  Taxas
0          45     11
1          23     22
2          67     33
3          78     44
4          23     55
5          12     66
6          14     77
