# Manipulação de dados 

In [1]:
import pandas as pd
json_array=[ {'a':1,'b':2}, {'a':3,'b':4}, {'a':5,'b':6} ] 
df = pd.DataFrame(json_array)

- .info() = mostra informações sobre o DataFrame
- .describe() = mostra estatísticas descritivas
- .head() = mostra as 5 primeiras linhas do DataFrame
- .tail() = mostra as 5 últimas linhas do DataFrame
- .shape = mostra o número de linhas e colunas do DataFrame
- .columns = mostra os nomes das colunas do DataFrame
- .index = mostra os índices do DataFrame

In [2]:
df.info() # df.info() – exibe informações sobre o DataFrame

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3 entries, 0 to 2
Data columns (total 2 columns):
 #   Column  Non-Null Count  Dtype
---  ------  --------------  -----
 0   a       3 non-null      int64
 1   b       3 non-null      int64
dtypes: int64(2)
memory usage: 180.0 bytes


In [3]:
df.describe() # df.describe() – exibe estatísticas descritivas do DataFrame


Unnamed: 0,a,b
count,3.0,3.0
mean,3.0,4.0
std,2.0,2.0
min,1.0,2.0
25%,2.0,3.0
50%,3.0,4.0
75%,4.0,5.0
max,5.0,6.0


In [4]:
df = pd.DataFrame([[1, 2], [4, 5], [7, 8]],
    index=['cobra', 'viper', 'sidewinder'],
    columns=['max_speed', 'shield'])
print(df.loc['viper'])
print(df.loc[['viper', 'sidewinder']])

max_speed    4
shield       5
Name: viper, dtype: int64
            max_speed  shield
viper               4       5
sidewinder          7       8


# Queries
 - iloc[] = seleciona linhas e colunas por índice
 - loc[] = seleciona linhas e colunas por rótulo
 - at[] = seleciona um único valor por rótulo
 - iat[] = seleciona um único valor por índice

In [9]:
mydict = [{'a': 1, 'b': 2, 'c': 3, 'd': 4},
        {'a': 100, 'b': 200, 'c': 300, 'd': 400},
        {'a': 1000, 'b': 2000, 'c': 3000, 'd': 4000 }]
df = pd.DataFrame(mydict)
print('=' * 20)
print(df.iloc[0])
print('=' * 20)
print(df.iloc[[0]])
print('=' * 20)
print(df.iloc[[0, 1]])
print('=' * 20)
print(df.iloc[:3])
print('=' * 20)
print(df.iloc[lambda x: x.index % 2 == 0])
print('=' * 20)
print(df.iloc[[0, 2], [1, 3]])
print('=' * 20)
print(df.iloc[1:3, 0:3])
print('=' * 20)


a    1
b    2
c    3
d    4
Name: 0, dtype: int64
   a  b  c  d
0  1  2  3  4
     a    b    c    d
0    1    2    3    4
1  100  200  300  400
      a     b     c     d
0     1     2     3     4
1   100   200   300   400
2  1000  2000  3000  4000
      a     b     c     d
0     1     2     3     4
2  1000  2000  3000  4000
      b     d
0     2     4
2  2000  4000
      a     b     c
1   100   200   300
2  1000  2000  3000


In [13]:
df = pd.DataFrame({'A': range(1, 6),'B': range(10, 0, -2),'C': range(10, 5, -1)})
print('=' * 20)
print(df.query('A > B'))
print('=' * 20)
print(df.query('B == "C C"'))
print('=' * 20)
print(df[df.A > df.B])
print('=' * 20)

   A  B  C
4  5  2  6
Empty DataFrame
Columns: [A, B, C]
Index: []
   A  B  C
4  5  2  6


# Concatenando DataFrames
 - concat() - Concatena DataFrames ao longo de um eixo (0 ou 1)
 - append() - Adiciona DataFrames ao final de outro DataFrame
 - join() - Junta DataFrames com base em índices ou colunas
 - merge() - Mescla DataFrames com base em colunas comuns

In [14]:
s1 = pd.Series(['a', 'b'])
s2 = pd.Series(['c', 'd'])
pd.concat([s1, s2], axis=1)

Unnamed: 0,0,1
0,a,c
1,b,d


In [15]:

df1 = pd.DataFrame({'lkey': ['foo', 'bar', 'baz', 'foo'],'value': [1, 2, 3, 5]})
df2 = pd.DataFrame({'rkey': ['foo', 'bar', 'baz', 'foo'],'value': [5, 6, 7, 8]})
print(df1.merge(df2, left_on='lkey', right_on='rkey', suffixes=("_left","_right")))


  lkey  value_left rkey  value_right
0  foo           1  foo            5
1  foo           1  foo            8
2  bar           2  bar            6
3  baz           3  baz            7
4  foo           5  foo            5
5  foo           5  foo            8


In [16]:
df = pd.DataFrame({'key': ['K0', 'K1', 'K2', 'K3', 'K4', 'K5'],
                'A': ['A0', 'A1', 'A2', 'A3', 'A4', 'A5']})
other = pd.DataFrame({'key': ['K0', 'K1', 'K2'],
                    'B': ['B0', 'B1', 'B2']})
df.join(other, lsuffix='_caller', rsuffix='_other')

Unnamed: 0,key_caller,A,key_other,B
0,K0,A0,K0,B0
1,K1,A1,K1,B1
2,K2,A2,K2,B2
3,K3,A3,,
4,K4,A4,,
5,K5,A5,,


# Agregação
 - groupby() - Agrupa dados com base em uma ou mais colunas
 - agg() - Aplica funções de agregação a grupos
 - pivot_table() - Cria tabelas dinâmicas para resumir dados
 - apply() - Aplica funções a grupos ou colunas

In [20]:
df = pd.DataFrame({'Animal': ['Falcon', 'Falcon','Parrot', 'Parrot'],'Max Speed': [380., 370., 24., 26.]})
grouped = df.groupby(['Animal'])
print(grouped.mean())

        Max Speed
Animal           
Falcon      375.0
Parrot       25.0


In [26]:
import numpy as np

df = pd.DataFrame([[4, 9]] * 3, columns=['A', 'B'])

# Aplicando a raiz quadrada
df = df.apply(np.sqrt)
df['A'] = df['A'] + 1
df['C'] = df.apply(lambda x: x['A'] + x['B'], axis=1)

print(df)

     A    B    C
0  3.0  3.0  6.0
1  3.0  3.0  6.0
2  3.0  3.0  6.0
