## Pandas:

Series: equivalente ao array (1D) do numpy, porém, com Pandas, os arrays são compostos de valores e index.

In [1]:
import pandas as pd

s = pd.Series([12, -4, 7, 9])
print(s)

0    12
1    -4
2     7
3     9
dtype: int64


Estes index poderão ser trocados para valores ou strings desejados.

In [2]:
s = pd.Series([12, -4, 7, 9], index=['a','b','c','d'])
print(s)

a    12
b    -4
c     7
d     9
dtype: int64


Para obter somente os valores ou os index, há métodos para isso com values e index.

In [3]:
import pandas as pd

s = pd.Series([12, -4, 7, 9], index=['a','b','c','d'])
print(s.index)
print(s.values)

Index(['a', 'b', 'c', 'd'], dtype='object')
[12 -4  7  9]


Da mesma forma, os elementos internos poderão ser acessados separadamente

In [4]:
import pandas as pd

s = pd.Series([12, -4, 7, 9], index=['a','b','c','d'])
print(s[2])
print(s['b'])
print(s[0:2])

7
-4
a    12
b    -4
dtype: int64


A atribuição de valores é feita da mesma forma

In [5]:
import pandas as pd

s = pd.Series([12, -4, 7, 9], index=['a','b','c','d'])
s['b'] = 1
print(s)

a    12
b     1
c     7
d     9
dtype: int64


Como dito, array do numpy e Series do pandas são equivalentes e para convertê-los, pode-se utilizar funções das bibliotecas.

In [6]:
import pandas as pd
import numpy as np

arr = np.array([1,2,3,4])
serie = pd.Series(arr)
print(serie)
arr2 = np.array(serie)
print(arr2)

0    1
1    2
2    3
3    4
dtype: int32
[1 2 3 4]


#### Filtrando valores:

Pode-se criar condições de filtragem de valores dentro das Series para extrair valores desejados.

In [7]:
import pandas as pd

s = pd.Series([12, -4, 7, 9])
s[s > 8]

0    12
3     9
dtype: int64

A aplicação de operações matemáticas em pandas ocorre da mesma forma que no numpy

#### Analisando valores:

* s.unique(): Exibir valores de Series sem repetições     
* s.value_counts(): Exibir quantos valores diferentes há na Serie.                                            
* s.isin(): Dado o argumento, verifica-se os número passados estão na Serie e retorna booleanos para o index encontrado com o valor

In [8]:
import pandas as pd

s = pd.Series([1, 0, 2, 3, 1, 4, 0])
print(s.unique())
print(s.value_counts())
print(s.isin([2,3]))

[1 0 2 3 4]
1    2
0    2
2    1
3    1
4    1
dtype: int64
0    False
1    False
2     True
3     True
4    False
5    False
6    False
dtype: bool


#### Valores NaN:

Valores NotANumber, NaN, retorna em operações com problemas, como log de número negativo, divisão por zero, etc...

Em alguns casos, pode-se inserir o NaN dentro de uma Serie, com np.NaN. E, para encontrá-los pode-se usar isnull() para verificar se é NaN, retornando True se NaN e notnull, realizando o inverso.

In [9]:
import pandas as pd
import numpy as np

s = pd.Series([5, -3, np.NaN, 14])
print(s)
print(s.isnull())
print(s.notnull())

0     5.0
1    -3.0
2     NaN
3    14.0
dtype: float64
0    False
1    False
2     True
3    False
dtype: bool
0     True
1     True
2    False
3     True
dtype: bool


#### Series como Dicionários:

Series podem ser criadas a partir de dicionários.

In [10]:
import pandas as pd

Dict = {'red':2000,'blue':1000,'yellow':500,'orange':1000}
Series = pd.Series(Dict)
print(Series)

red       2000
blue      1000
yellow     500
orange    1000
dtype: int64


#### Operações entre Series:

Operações entre Series, como adição, são feitas apenas em valores, cujos index são iguais.

In [11]:
import pandas as pd

Dict = {'red':2000,'blue':1000,'yellow':500,'orange':1000}
Series = pd.Series(Dict)
Dict2 = {'red':400,'yellow':1000,'black':700}
Series2 = pd.Series(Dict2)
print(Series + Series2)


black        NaN
blue         NaN
orange       NaN
red       2400.0
yellow    1500.0
dtype: float64


#### Dataframes:

Dataframes são Series de mais dimensões.

In [12]:
import pandas as pd

data = {'color': ['blue','green','yellow','red','white'],
        'object':['ball','pen','pencil','paper','mug'],
        'price':[1.2, 1, 0.6, 0.9, 1.7]}
frame = pd.DataFrame(data)
frame2 = pd.DataFrame(data, columns=['object','price'])
print(frame)
print(frame2)

    color  object  price
0    blue    ball    1.2
1   green     pen    1.0
2  yellow  pencil    0.6
3     red   paper    0.9
4   white     mug    1.7
   object  price
0    ball    1.2
1     pen    1.0
2  pencil    0.6
3   paper    0.9
4     mug    1.7


Se nem todas as colunas do Dataframe são desejadas, recria-se o dataframe, especificando as colunas

Ainda, há outra forma de criar dataframes, usando np.arange().reshape()

In [13]:
import pandas as pd
import numpy as np

frame3 = pd.DataFrame(np.arange(16).reshape(4,4),
                      index= ['red','blue','yellow','white'],
                      columns= ['ball', 'pen', 'pencil', 'paper'])
print(frame3)

        ball  pen  pencil  paper
red        0    1       2      3
blue       4    5       6      7
yellow     8    9      10     11
white     12   13      14     15


Para exibir o nome das colunas, index e valores do Dataframe:

usar: frame3.columns, frame3.index e frame3.values

Para saber os valores de coluna, linha, index, valores ou colunas ou valores únicos, o código abaixo mostra funções apropriadas

In [14]:
import pandas as pd
import numpy as np

data = {'color': ['blue','green','yellow','red','white'],
        'object':['ball','pen','pencil','paper','mug'],
        'price':[1.2, 1, 0.6, 0.9, 1.7]}
frame3 = pd.DataFrame(data)
print('Dataframe: ')
print(frame3)
print('Colunas: ')
print(frame3.columns)
print('Index: ')
print(frame3.index)
print('Valores: ')
print(frame3.values)
print('Coluna Price')
print(frame3['price'])
print('Linha 2: ')
print(frame3.loc[2])
print('Valor único: ')
print(frame3['object'][3])

Dataframe: 
    color  object  price
0    blue    ball    1.2
1   green     pen    1.0
2  yellow  pencil    0.6
3     red   paper    0.9
4   white     mug    1.7
Colunas: 
Index(['color', 'object', 'price'], dtype='object')
Index: 
RangeIndex(start=0, stop=5, step=1)
Valores: 
[['blue' 'ball' 1.2]
 ['green' 'pen' 1.0]
 ['yellow' 'pencil' 0.6]
 ['red' 'paper' 0.9]
 ['white' 'mug' 1.7]]
Coluna Price
0    1.2
1    1.0
2    0.6
3    0.9
4    1.7
Name: price, dtype: float64
Linha 2: 
color     yellow
object    pencil
price        0.6
Name: 2, dtype: object
Valor único: 
paper


#### Atribuindo valores:

Com a atribuição de valores, pode-se nomear as colunas e os index, de forma a descrever as colunas, e não mudar nomes.

In [15]:
import pandas as pd

df = pd.DataFrame({'color': ['red','blue','green'],
                   'valores': ['1.6','2.5','3.8']})
df.columns.name = 'Infos'
df.index.name = 'Produtos'
print(df)

Infos     color valores
Produtos               
0           red     1.6
1          blue     2.5
2         green     3.8


#### Substituindo valores:

Em um dataframe criado e importado em uma variável, é possível mudar atributos dele, como valores, colunas e index.

In [16]:
import pandas as pd

df = pd.DataFrame({'color': ['red','blue','green'],
                   'valores': ['1.6','2.5','3.8']}, index=['a','b','c'])
df['color'][2] = 'black'
df['valores'][0] = '5.2'
df.index = ['g','f','3']
print(df)

   color valores
g    red     5.2
f   blue     2.5
3  black     3.8


#### Adicionando colunas:

Novos dados podem ser inseridos no dataframe.

In [17]:
import pandas as pd

df = pd.DataFrame({'color': ['red','blue','green'],
                   'valores': ['1.6','2.5','3.8']}, index=['a','b','c'])
df['Quantity'] = [52, 23, 15]
print(df)

   color valores  Quantity
a    red     1.6        52
b   blue     2.5        23
c  green     3.8        15


#### Deletando colunas:

A função 'del frame' pode ser usada para excluir uma coluna de um dataframe

In [18]:
import pandas as pd

df = pd.DataFrame({'color': ['red','blue','green'],
                   'valores': ['1.6','2.5','3.8']}, index=['a','b','c'])
del df['valores']
print(df)

   color
a    red
b   blue
c  green


#### Filtrando valores:

A filtragem em dataframes pode ser feita da mesma forma que em Serie.

Para a filtragem de valores, é necessário converter strings em inteiros.

In [19]:
import pandas as pd

df = pd.DataFrame({'color': ['red','blue','green'],
                   'valores': ['1.6','2.5','3.8']}, index=['a','b','c'])
df['valores'] = df['valores'].astype(float)
df_filtrado = df[df['valores'] > 2.4]
print(df_filtrado)

   color  valores
b   blue      2.5
c  green      3.8


#### Transposição do Dataframe:

A transposição do dataframe é feita com o atributo .T

In [20]:
import pandas as pd

df = pd.DataFrame({'color': ['red','blue','green'],
                   'valores': ['1.6','2.5','3.8']}, index=['a','b','c'])
print(df)
df = df.T
print(df)

   color valores
a    red     1.6
b   blue     2.5
c  green     3.8
           a     b      c
color    red  blue  green
valores  1.6   2.5    3.8


#### Métodos no Index:

Os objetos idxmin() e idxmax() retornam o id com o menor valor e maior valor.

In [21]:
import pandas as pd

df = pd.DataFrame({'color': ['red','blue','green'],
                   'valores': [1.6,2.5,3.8]})
print(df['valores'].idxmin())
print(df['valores'].idxmax())

0
2


#### Index com nomes duplicados:

Verificar se há index duplicados com o atributo is_unique

In [22]:
import pandas as pd

df = pd.DataFrame({'color': ['red','blue','green'],
                   'valores': [1.6,2.5,3.8]})
print(df.index.is_unique)

True


#### Outras Funcionalidades do Index:

Como não há possibilidades de indexar um Array após a criação do Array, há a possibilidade de utilizar a função reindex().

In [23]:
import pandas as pd

A = pd.Series([2, 5, 7, 4], index=['one','two','three','four'])
A = A.reindex(['one', 'two', 'three', 'four'])
print(A)

one      2
two      5
three    7
four     4
dtype: int64


Outra possibilidade é fazer o reindex em um intervalo definido para os valores cobrirem tal intervalo

In [24]:
import pandas as pd

B = pd.Series([1, 5, 6, 3], index = [0, 3, 5, 6])
B = B.reindex(range(6), method = 'ffill')
print(B)

0    1
1    1
2    1
3    5
4    5
5    6
dtype: int64


#### Dropping:

Função utilizada para deletar linhas ou colunas

In [25]:
import pandas as pd
import numpy as np

A = pd.Series(np.arange(4), index = ['red', 'blue', 'yellow', 'white'])
A = A.drop('yellow')
print(A)
A = A.drop(['blue', 'white'])
print(A)

red      0
blue     1
white    3
dtype: int32
red    0
dtype: int32


Para deletar colunas, especificar a referência do nome da coluna com axis = 1

In [26]:
import pandas as pd
import numpy as np

A = pd.DataFrame(np.arange(9).reshape(3,3))
A = A.drop(0, axis=1)
print(A)

   1  2
0  1  2
1  4  5
2  7  8


#### Operações entre Data Structures:

add(), sub(), div() e mul()

Operações entre Data Structures e Series:

Assim como todas as operações no Pandas, o index da Serie deve ser nomeado igualmente às colunas ou às linhas do DataFrame para realizar as operações.

Com isto, a operação será aplicada a todos os elementos da linha ou coluna.

Aplicação de Funções e Mapeamento:

As funções podem ser aplicada a todos os elementos, com np.sin(Frame).

Para aplicar funções criadas no DataFrame, usar:

In [27]:
import pandas as pd
import numpy as np

def f(x):
    return x.max() - x.min()

frame = pd.DataFrame(np.arange(4).reshape(2,2))
print(frame.apply(f))
print(frame.apply(f, axis= 1))

0    2
1    2
dtype: int32
0    1
1    1
dtype: int32


#### Funções Estatísticas:

Em algumas funções, não é necessário apply()

Soma das linhas ou colunas: frame.sum()
Média das linhas ou colunas: frame.mean()
Resumo Estáticos completo: frame.describe()

#### Sorting e Ranking:

Ordenação pode ser feita com sort_index, em ordem crescente ou alfabética

Para realizar em ordem descrescente e sob linhas, usar:

* ascending= False e axis= 1

In [28]:
import pandas as pd

A = pd.Series([5,3,8,4], index= ['pred','blue','white','green'])
A = A.sort_index()
print(A)
B = A.sort_index(ascending= False)
print(B)


blue     3
green    4
pred     5
white    8
dtype: int64
white    8
pred     5
green    4
blue     3
dtype: int64


Outra forma é a ordenação feita com valores

In [29]:
import pandas as pd

A = pd.Series([1, 2, 4, 3, 7, 6])
A = A.sort_values()
print(A)

0    1
1    2
3    3
2    4
5    6
4    7
dtype: int64


Em DataFrames, pode-se ordenar uma das colunas, passando no argumento: by = 'nome_index'

In [30]:
import pandas as pd
import numpy as np

A = pd.DataFrame(np.arange(9).reshape(3,3), index= ['red','blue','green'])
A = A.sort_values(ascending= False, by= 'green', axis= 1)
print(A)

       2  1  0
red    2  1  0
blue   5  4  3
green  8  7  6


#### Correlação e Covariância:

A covariância mede a relação entre as medidas.           
Se uma medida aumenta, enquanto outra diminui, a covariância é negativa.                                
Se as duas medidas aumentam ou diminuem, a cov é positiva.                                              
Se as medidas são independentes, a cov é 0.             

* A correlação mede o grau de associação de variáveis e varia de -1 a 1.                                      
* Se corr > 0, as variáveis tendem a aumentar juntas      
* Se corr < 0, as variáveis tendem a diminuir juntas      
* Se corr = 0, as variáveis são independentes         

In [31]:
import pandas as pd

A = pd.Series([3, 4, 3, 4, 5, 4, 3, 2], index= ['2006', '2007', '2008', '2009', '2010', '2011', '2012', '2013'])
B = pd.Series([1, 2, 3, 4, 4, 3, 2, 1], index= ['2006', '2007', '2008', '2009', '2010', '2011', '2012', '2013'])
C = A.corr(B)
D = A.cov(B)
print(C, D)

0.7745966692414834 0.8571428571428571


Para DataFrames, aplicar:

In [32]:
import pandas as pd

frame2 = pd.DataFrame([[1, 4, 3, 6], [4, 5, 6, 1], [3, 3, 1, 5], [4, 1, 6, 4]], index = ['red', 'blue', 'yellow', 'white'], columns = ['ball', 'pen', 'pencil', 'paper'])
print(frame2.cov())
print(frame2.corr())

            ball       pen    pencil     paper
ball    2.000000 -0.666667  2.000000 -2.333333
pen    -0.666667  2.916667 -0.333333 -1.333333
pencil  2.000000 -0.333333  6.000000 -3.666667
paper  -2.333333 -1.333333 -3.666667  4.666667
            ball       pen    pencil     paper
ball    1.000000 -0.276026  0.577350 -0.763763
pen    -0.276026  1.000000 -0.079682 -0.361403
pencil  0.577350 -0.079682  1.000000 -0.692935
paper  -0.763763 -0.361403 -0.692935  1.000000


O DataFrame de saída contém a coluna de frame2 nas linhas e colunas, de forma que é possível analisar qual a cov() entre as duas variáveis, por exemplo entre pen e pencil.

Para verificar a correlação entre DataFrame e Series, usar: corrwith().

In [33]:
import pandas as pd

A = pd.Series([3, 4, 3, 4], index= ['red', 'blue', 'yellow', 'white'])
frame2 = pd.DataFrame([[1, 4, 3, 6], [4, 5, 6, 1], [3, 3, 1, 5], [4, 1, 6, 4]], index = ['red', 'blue', 'yellow', 'white'])
print(frame2.corrwith(A))

0    0.816497
1   -0.169031
2    0.942809
3   -0.801784
dtype: float64


### Atribuindo a NaN:

#### Inserindo NaN:                                      
Para deixar valores inexistentes, usar: np.NaN (np.nan)

#### Retirando NaN:                                          
Retirar todos NaN, usar: A.dropna()
                     
Em DataFrames, usar dropna() retirará toda linha e coluna correspondente, o que não é desejado. 

Para isto, usar: dropna(how = 'all'). Ele irá retirar colunas e linhas em que NaN em toda coluna ou linha.

In [34]:
import pandas as pd
import numpy as np

ser = pd.Series([0,1,2,np.NaN,9], index=['red','blue','yellow','white','green'])
print(ser)
ser = ser.dropna()
print(ser)

red       0.0
blue      1.0
yellow    2.0
white     NaN
green     9.0
dtype: float64
red       0.0
blue      1.0
yellow    2.0
green     9.0
dtype: float64


#### Completando NaN com valores:

É possível atribuir em NaN.                         

* fillna(0) irá completar NaN com 0's.                    
Ou pode-se criar condições de atribuição, como:


In [35]:
import pandas as pd
import numpy as np

frame3 = pd.DataFrame([[6,np.nan,6],[np.nan,np.nan,np.nan],[2,np.nan,5]], index = ['blue','green','red'], columns = ['ball','mug','pen'])
frame3 = frame3.fillna(0)
print(frame3)
frame3 = pd.DataFrame([[6,np.nan,6],[np.nan,np.nan,np.nan],[2,np.nan,5]], index = ['blue','green','red'], columns = ['ball','mug','pen'])
frame3 = frame3.fillna({'ball': 1, 'mug': 0, 'pen': 99})
print(frame3)

       ball  mug  pen
blue    6.0  0.0  6.0
green   0.0  0.0  0.0
red     2.0  0.0  5.0
       ball  mug   pen
blue    6.0  0.0   6.0
green   1.0  0.0  99.0
red     2.0  0.0   5.0


#### Indexação hierarquica e nivelamento:

É possível que index sejam classificados dentro de outro index.

In [36]:
import pandas as pd

A = pd.Series(np.random.rand(8), index = [['white', 'white', 'white', 'blue', 'blue', 'red', 'red', 'red'], ['up', 'down', 'right', 'up', 'down', 'up', 'down', 'left']])
print(A)

white  up       0.186825
       down     0.778229
       right    0.991649
blue   up       0.036796
       down     0.839120
red    up       0.610899
       down     0.625179
       left     0.138235
dtype: float64


Desta forma, pesquisar por ['white'] exibirá todos os sub-index.                                            
Ou exibir em quais hierarquias estão 'up', com [:,'up']

A função unstack() transforma Series com hierarquia em DataFrame, separando as hierarquias em linhas e os index em colunas.

Ao contrário, para transformar DataFrame em Series com hierarquia, fazer: stack()

Também é possível criar um DataFrame com hierarquias.

In [37]:
import pandas as pd

A = pd.Series(np.random.rand(8), index = [['white', 'white', 'white', 'blue', 'blue', 'red', 'red', 'red'], ['up', 'down', 'right', 'up', 'down', 'up', 'down', 'left']])
print(A)
A = A.unstack()
print(A)
A = A.stack()
print(A)

white  up       0.421902
       down     0.678594
       right    0.239047
blue   up       0.319667
       down     0.168398
red    up       0.684030
       down     0.162130
       left     0.209750
dtype: float64
           down     left     right        up
blue   0.168398      NaN       NaN  0.319667
red    0.162130  0.20975       NaN  0.684030
white  0.678594      NaN  0.239047  0.421902
blue   down     0.168398
       up       0.319667
red    down     0.162130
       left     0.209750
       up       0.684030
white  down     0.678594
       right    0.239047
       up       0.421902
dtype: float64


#### Reordenando e Ordenando hierarquias:

* A função swaplevel() invertará a hierarquia com os index.

* A função sort_index() e as outras funcionam em hierarquias.

In [38]:
import pandas as pd

mframe = pd.DataFrame(np.random.randn(16).reshape(4,4), index=[['white','white','red','red'], ['up','down','up','down']], columns=[['pen','pen','paper','paper'],[1,2,1,2]])
mframe.columns.names = ['objetos', 'id']
mframe.index.names = ['cores','status']
print(mframe)
mframe.swaplevel('cores','status')
print('\n')
print(mframe)
print('\n')
mframe.sort_index(level= 'cores')
print(mframe)

objetos            pen               paper          
id                   1         2         1         2
cores status                                        
white up      0.460140  0.748252  0.618406 -0.066918
      down   -0.542575 -1.612018 -0.460214 -1.173706
red   up      0.767797 -1.125576  0.528123  1.046724
      down    1.119737 -3.216311 -0.263997 -0.822912


objetos            pen               paper          
id                   1         2         1         2
cores status                                        
white up      0.460140  0.748252  0.618406 -0.066918
      down   -0.542575 -1.612018 -0.460214 -1.173706
red   up      0.767797 -1.125576  0.528123  1.046724
      down    1.119737 -3.216311 -0.263997 -0.822912


objetos            pen               paper          
id                   1         2         1         2
cores status                                        
white up      0.460140  0.748252  0.618406 -0.066918
      down   -0.542575 -1.612018 -0.460214

#### Resumo Estatístico por Nível:

Pode-se aplicar as funções estáticas por nível, com: frame.sum(level = 'color')                             
Para aplicar as funções nas colunas, axis = 1

In [39]:
import pandas as pd

mframe = pd.DataFrame(np.random.randn(16).reshape(4,4), index=[['white','white','red','red'], ['up','down','up','down']], columns=[['pen','pen','paper','paper'],[1,2,1,2]])
mframe.index.names = ['cores','status']
print(mframe)
print('\n')
mframe.groupby(level= 'cores').sum()
print(mframe)

                   pen               paper          
                     1         2         1         2
cores status                                        
white up     -0.126902  0.088752  0.285032 -1.740524
      down    0.431891 -0.977951  0.143439  0.056516
red   up     -0.310485 -0.373489 -0.064544  1.201429
      down    2.201486  1.406032 -1.688875 -1.870495


                   pen               paper          
                     1         2         1         2
cores status                                        
white up     -0.126902  0.088752  0.285032 -1.740524
      down    0.431891 -0.977951  0.143439  0.056516
red   up     -0.310485 -0.373489 -0.064544  1.201429
      down    2.201486  1.406032 -1.688875 -1.870495


### Pandas: Lendo e Escrevendo Dados:

#### CSV e arquivo de texto:

In [40]:
import pandas as pd

A = pd.read_csv('nome.csv', sep= ',')

FileNotFoundError: [Errno 2] No such file or directory: 'nome.csv'

Para abrir o documento csv sem cabeçalho, adicionar o argumento: header= none

Para abrir o documento csv e adicionar um cabeçalho: names= ['coluna1','coluna2']

Em TXT, os dados podem estar em separadores que não seja a vírgula.

In [None]:
import pandas as pd

A = pd.read_table('nome.txt', sep='.')

Metacaracteres que podem ser usados como seperadores:

In [None]:
import pandas as pd

df = pd.DataFrame([['.','Caractere único'],['\d','Dígito'],['\D','Caractere não dígito'],['\s','Espaço em branco'],['\S','Caractere não em branco'],['\n','Caractere não nova linha'],['\t','Tab'],['\\uxxx','Unicode especificado pelo número hexadecimal xxxx']], columns= ['',''], index=['','','','','','','',''])
print(df)

                                                          
      .                                    Caractere único
     \d                                             Dígito
     \D                               Caractere não dígito
     \s                                   Espaço em branco
     \S                            Caractere não em branco
     \n                           Caractere não nova linha
     \t                                                Tab
  \uxxx  Unicode especificado pelo número hexadecimal xxxx


Pode-se ignorar linhas na leitura destes documentos.

In [None]:
import pandas as pd

A = pd.read_table('nome.txt', sep= ',', skiprows=[0, 1, 3, 6])

Pode-se adicionar a quantidade de linhas a serem consideradas também

In [None]:
import pandas as pd

A = pd.read_table('nome.txt' ,sep=',', nrows= 3)

#### Escrevendo Dados em CSV:

In [None]:
import pandas as pd

A = pd.Series(range(6))
A.to_csv('nome.csv')

Salvando os dados desta forma incluirá as colunas e os index.

Para retirá-los, adicionar os argumentos index= False e header= False na função to_csv

Na escrita, NaN são deixados em branco.

Para deixá-los visíveis, adicionais: na_rep= 'NaN'

Lendo e Escrevendo Dados em Excel:

In [None]:
import pandas as pd

A = pd.read_excel('nome.xlsx')
A = pd.read_excel('nome.xlsx', 'Planilha2')
A = pd.read_excel('nome.xlsx', 1)

Adicionar o argumento 'Planilha2' ao argumento fará com que os dados da segunda planilha sejam abertos.

Este argumento pode ser o número da planilha, de 1 a última planilha

Para escrever:

In [None]:
import pandas as pd

A.to_excel('nome.xlsx')

#### JSON Data:

In [None]:
import pandas as pd

A.to_json('nome.json')
A.read_json('nome.json')

Quando o JSON não possuir formato de tabela, ferramentas de conversão serão necessários = consultar o livro

#### Bancos de Dados SQL:

Usar biblioteca ferramentas para configurar acesso ao banco de dados.

Para salvar:                                            
A.to_sql('colors', engine): sendo engine o perfil do sql
A.read_sql('colors', engine)

### Manipulação de Dados com Pandas

Preparação dos Dados

#### Merging:

Consiste em conectar as linhas de dados cuja colunas possuam mesmo nome.

Linhas com colunas diferentes são ignoradas.

In [None]:
import pandas as pd

frame1 = pd.DataFrame({'id': ['ball','pencil','pen','mug','ashtray'], 'price': [12.33, 11.44, 33.21, 13.23, 33.62]})
frame2 = pd.DataFrame({'id':['pencil','pencil','ball','pen'],'color':['white','red','red','black']})
pd.merge(frame1, frame2)

Unnamed: 0,id,price,color
0,ball,12.33,red
1,pencil,11.44,white
2,pencil,11.44,red
3,pen,33.21,black


Pode-se especificar qual a coluna de referência para fazer merge.

In [None]:
import pandas as pd

frame1 = pd.DataFrame({'id': ['ball','pencil','pen','mug','ashtray'], 'price': [12.33, 11.44, 33.21, 13.23, 33.62]})
frame2 = pd.DataFrame({'id':['pencil','pencil','ball','pen'],'color':['white','red','red','black']})
pd.merge(frame1, frame2, on = 'id')

Unnamed: 0,id,price,color
0,ball,12.33,red
1,pencil,11.44,white
2,pencil,11.44,red
3,pen,33.21,black


Pode-se, também, especificar a forma de realizar merge. Sendo a opções:

how = 'outer', 'left', 'right', 'inner' (padrão).

Outer é a união do left e right joins e inner é a intersecção.

Outra forma de realizar o merge é com a função join.

Ela realiza join sobre o index e construirá o dataframe com index iguais e colunas diferentes.

As colunas dos dataframes de união devem ser diferentes.

#### Concantenação:

Concantenação enfileira as linhas dos dataframes.

In [None]:
import pandas as pd
import numpy as np

array1 = np.arange(9).reshape((3,3))
array2 = np.arange(9).reshape((3,3)) + 6
print(np.concatenate([array1, array2], axis= 1))
print(np.concatenate([array1, array2], axis= 0))

[[ 0  1  2  6  7  8]
 [ 3  4  5  9 10 11]
 [ 6  7  8 12 13 14]]
[[ 0  1  2]
 [ 3  4  5]
 [ 6  7  8]
 [ 6  7  8]
 [ 9 10 11]
 [12 13 14]]


Para Series e DataFrames, usar pd.concat().

In [None]:
import pandas as pd

ser1 = pd.Series(np.random.rand(4), index= [1,2,3,4])
ser2 = pd.Series(np.random.rand(4), index= [5,6,7,8])
print(pd.concat([ser1,ser2]))

1    0.050196
2    0.062600
3    0.019241
4    0.454714
5    0.966765
6    0.459309
7    0.507967
8    0.670264
dtype: float64


Usar keys = [1,2] criará hierarquia para os dados vindos de cada dataframes.

Se for concatenação por linhas, key será o nome da coluna

#### Combinação:

Combinação servirá para realizar merge de dados, especificando prioridade quando houver index diferentes

In [None]:
import pandas as pd

ser1 = pd.Series(np.random.rand(5), index= [1,2,3,4,5])
ser2 = pd.Series(np.random.rand(4), index= [2,4,5,6])
ser1.combine_first(ser2)

1    0.353151
2    0.825721
3    0.066095
4    0.830340
5    0.665087
6    0.569584
dtype: float64

#### Pivotação:

usar stack e unstack()

#### Remoção:

usar drop()

### Transformação de Dados

#### Removendo Duplicatas:

Detectando linhas duplicadas: A.duplicated() retornará valores booleanos

Removendo duplicatas: drop_duplicates()

### Mapeamento

#### Substituição por Mapeamento:

Definir as substituições por dicionário:

newcolors= {'rosso': 'red', 'verde': 'green'}

Usar a função:

A.replace(newcolors)

Substituição de um único valor:

A.replace(np.nan, 0)

Adicionando valores por Mapeamento

Definir o dicionário com os valores a serem adicionados.

In [None]:
import pandas as pd

frame = pd.DataFrame({'item': ['ball', 'mug'], 'color':['white','red']})
prices = {'ball': 5.5, 'mug': 4}
frame['price'] = frame['item'].map(prices)
print(frame)

   item  color  price
0  ball  white    5.5
1   mug    red    4.0


#### Renomeando index e colunas

Criar dicionário com index

In [None]:
import pandas as pd

reindex = {0: 'first', 1: 'second'}
recolumn = {'item': 'object', 'price': 'value'}
frame.rename(reindex)
frame.rename(index= reindex, columns= recolumn)

Unnamed: 0,object,color,value
first,ball,white,5.5
second,mug,red,4.0


Em casos de único valor:

In [None]:
import pandas as pd

reindex = {0: 'first', 1: 'second'}
recolumn = {'item': 'object', 'price': 'value'}
frame.rename(reindex)
frame.rename(index= {1: 'reindex'}, columns= {'item': 'object'})

Unnamed: 0,object,color,price
0,ball,white,5.5
reindex,mug,red,4.0


Para fazer com que as mudanças sejam aplicadas no objeto da função, 'frame', usar:

inplace = True

#### Discretização:

Dividir os dados em intervalos.

Exemplo: Dados de 0 a 100 divididos em intervalos de 0 a 25, 25 a 50, 50 a 75, 75 a 100.

In [None]:
import pandas as pd
import numpy as np

dados = np.arange(0, 100)
intervalo = [0, 25, 50, 75, 100]
resultado = pd.cut(dados, intervalo)
print(resultado)

[NaN, (0.0, 25.0], (0.0, 25.0], (0.0, 25.0], (0.0, 25.0], ..., (75, 100], (75, 100], (75, 100], (75, 100], (75, 100]]
Length: 100
Categories (4, interval[int64, right]): [(0, 25] < (25, 50] < (50, 75] < (75, 100]]


Esta função retornará os intervalos de pertencimento de cada valor

Para saber as ocorrências em cada intervalo, usar:

pd.value_counts(resultado)

Pode-se nomear os intervalo:

intervalo_nome = ['baixo', 'medio', 'alto', 'muito alto']
pd.cut(resultados, intervalos, labels = intervalo_nomes)

A função cut() também pode ser usada dividindo em intervalos iguais o nº de intervalos especificados.

pd.cut(dados, 5)

Os intervalos terão limites no valores mínimos e máximos dos valores de dados para cada intervalo.

Outra função qcut() dividirá o intervalo em quantidade de valores iguais.

pd.qcut(dados, 5)

#### Permutação:

Reordena aleatoriamente Series e linhas de DataFrame.

In [None]:
import pandas as pd

frame = pd.DataFrame(np.arange(25).reshape(5,5))
new_order = np.random.permutation(5)
frame.take(new_order)

Unnamed: 0,0,1,2,3,4
3,15,16,17,18,19
4,20,21,22,23,24
1,5,6,7,8,9
2,10,11,12,13,14
0,0,1,2,3,4


#### Amostragem aleatória:

In [None]:
import pandas as pd
import numpy as np
frame = pd.DataFrame(np.arange(25).reshape(5,5))
amostra = np.random.randint(0, len(frame), size= 3)
frame.take(amostra)

Unnamed: 0,0,1,2,3,4
2,10,11,12,13,14
3,15,16,17,18,19
4,20,21,22,23,24


A diferença entre Permutação e Amostragem é que a permutação reordenará todo o dataframe, enquanto a amostragem tomará parte do
dataframe.