# Estrutura de dados em Pandas: inspeccionar e selecionar dados

![alt text](http://joaomrcarvalho.github.io/images/add_new_column_pandas.png)

## Series 

In [None]:
import pandas as pd
import numpy as np

serie = pd.Series([2,3,9,6,4,3])
print(serie)

print('------------------------------------')
serie = pd.Series(2)
print(serie)

print('------------------------------------')

serie = pd.Series([1,2,3,4,5,6,7],index=['a','b','c','d','e','f','g'])
print(serie)

In [None]:
serie = pd.Series([1,2,3,4,5,6,7],index=['a','b','c','d','e','f','g'])
print(serie)

In [None]:
print("Série original:")
print(serie)

print('Seleccionar um único valor')
print(serie['a']) 
print(serie.iloc[0])
print(serie.loc['a'])

In [None]:
print("Série original:")
print(serie)

print('Seleccionar um intervalo de valores')
print(serie['b':'d'])
print(serie.iloc[1:4])
print(serie.loc['b':'d'])

In [None]:
print("Série original:")
print(serie)

print('Seleccionar o primeiro e o terceiro índices')
print(serie[['a','c']])
print(serie.iloc[[0, 2]])
print(serie.loc[['a','c']])

In [None]:
dicionario = {'a':1,'b':3,'c':3,'d':4,'e':5,'f':6}
serie = pd.Series(dicionario)
print(serie)

print('----------------------------------------------------------------')

print(dicionario.keys())
print(serie.keys())

print('----------------------------------------------------------------')

print(dicionario.values())
print(serie.values)

print('----------------------------------------------------------------')

print(dicionario['a'])
print(serie['a'])


In [None]:
array = np.arange(0, 25, 5)

serie = pd.Series(array, name='Série_Simples')
print(serie)

print('----------------------------------------------')

print(serie * 2)
print(array * 2)

print()

print(np.exp(serie))
print(np.exp(array))


A principal diferença entre pd.Series e arrays é que na primeira as operações são orientadas através dos indíces e na segunda pela ordem dos elementos:

In [None]:
serie_1 = pd.Series([1,2,3,4,5],index=['a','b','c','d','e'])
serie_2 = pd.Series([1,2,3,4,5],index=['a','b','d','e','f'])

print(serie_1 + serie_2)
print("-----------------")
print(serie_2 + serie_1)


## DataFrames

In [None]:
array = np.arange(30).reshape(10,3)

df = pd.DataFrame(array,columns=['x_1','x_2','x_3'])
print(df)

print('--------------------------------------------')

dic = {
       'x1':[2,7,8,2],
       'x2':[2,3,4,1],
       'x3':[4,7,8,1] 
      }

df = pd.DataFrame(dic)
print(df)

print('--------------------------------------------')

data = [{'a': 1, 'b': 2,'c':6}, {'a': 5, 'b': 10, 'c': 20}]

df = pd.DataFrame(data)

print(df)

**Manipulações básicas de dados num Dataframe:**

In [None]:
df = pd.DataFrame({'x1':np.random.randn(10),'x2':np.random.randn(10)})
print(df)


print('--------------------------------------------------------------')

print(df['x1'])

print('---------------------------------------------------------------')

df['x3'] = df['x1'] * 3 + df['x2']

print(df[['x1','x3']])

print('---------------------------------------------------------------------------')

df['positive'] = df['x3'] > 0

print(df)



In [None]:
df = pd.DataFrame({'x1':np.random.randn(10),'x2':np.random.randn(10),'x3':np.random.randn(10)})

print(df)

print('--------------------------------------------------------------------')

del df['x1']
print(df)

print('--------------------------------------------------------------------')

df.pop('x3')
print(df)


In [None]:
df = pd.DataFrame({'x1':np.random.randn(10),'x2':np.random.randn(10),'x3':np.random.randn(10)})

print(df)

print('--------------------------------------------------------------------')


df.drop([2,6], axis=0, inplace=True)

print(df)

print('--------------------------------------------------------------------')

df.drop(df['x2'][df['x2'] < 0].index, axis=0, inplace=True)

print(df)

## Operações básicas

In [None]:
df = pd.DataFrame(np.random.randn(12, 4), columns=['x1', 'x2', 'x3', 'x4'])
df2 = pd.DataFrame(np.random.randn(8, 3), columns=['x1', 'x2', 'x3'])

print(df)
print ("-----------------------------------")
print(df2)
print ("-----------------------------------")

print(df + df2)
print ("-----------------------------------")

print(df * df2)

In [None]:
df = pd.DataFrame(np.random.randn(12, 3), columns=['x1', 'x2', 'x3'])
df2 = pd.DataFrame(np.random.randn(8, 3), columns=['x1', 'x2', 'x3'])

print(df)
print ("-----------------------------------")
print(df2)
print ("-----------------------------------")

print(df - df2.iloc[3])

print('-----------------------------------------------------------------------------------------')

print(df - df2.iloc[[3,5,6]])


In [None]:
df = pd.DataFrame(np.random.randn(12, 4), columns=['x1', 'x2', 'x3','x4'])

print(df + 8)

print('---------------------------------------------')

print(df**2)

print('---------------------------------------------')

print(1/df)

In [None]:
df = pd.DataFrame(np.random.randn(5, 4), columns=['x1', 'x2', 'x3','x4'])

print(np.exp(df))

In [None]:
df.dot(df.iloc[0])