# Introdução ao Pandas


*pandas* é uma biblioteca de código aberto em Python   que dispõe de funcionalidades de importação, exportação e manipulação de dados para exploração e análise de dados.



## Introdução

Tipicamente, a exploração e análise de dados com *pandas* considera a importação dos módulos

In [1]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt

e apoia-se nas funcionalidades obtidas com a utilização das estruturas de dados fundamentais em *pandas*: Series e DataFrame.

#### Series

A primeira dessas estruturas é **Series** que representa um objeto unidimensional. As novidades principais desta estrutura são: os dados podem ter tipos distintos e possibilidade de definição explícita do índice.  

Por exemplo, 

In [2]:
# a partir de um ndarray 
data = np.random.randint(10, 50, 5)
print('data é do tipo', type(data), '\n')

data é do tipo <class 'numpy.ndarray'> 



In [3]:
indice = ['um', 'dois', 'tres', 'quatro', 'cinco']
s = pd.Series(data, index=indice)
s

um        49
dois      43
tres      34
quatro    39
cinco     32
dtype: int64

In [4]:
# a partir de um dicionário
d = {'a': 1., 'b': 2. , 'c': 4., 'd': 8., 'e':16., 'f':32.}
print('d é do tipo', type(data), '\n')
pot2 = pd.Series(d)
pot2

d é do tipo <class 'numpy.ndarray'> 



a     1.0
b     2.0
c     4.0
d     8.0
e    16.0
f    32.0
dtype: float64

In [5]:
# ou mesmo de um escalar
num = 3.14
sn = pd.Series(num, index = ['pi', 'outro pi', 'e ainda pi'])
sn

pi            3.14
outro pi      3.14
e ainda pi    3.14
dtype: float64

#### Dataframes

Outra estrutura de dados fundamental no *pandas* é **DataFrame**, uma estrutura de dados composta por linhas e colunas e que pode ser entendida como um grupo de *Series*.

In [6]:
d = {'2' : pot2,
     '3' : 3**np.log2(pot2)}
df = pd.DataFrame(d)
df

Unnamed: 0,2,3
a,1.0,1.0
b,2.0,3.0
c,4.0,9.0
d,8.0,27.0
e,16.0,81.0
f,32.0,243.0


In [7]:
mat = np.random.randint(16, size = (4, 4))
df1 = pd.DataFrame(mat)
df1

Unnamed: 0,0,1,2,3
0,1,12,3,4
1,9,12,3,7
2,4,6,5,8
3,14,9,4,15


#### Exemplos de uso

In [8]:
df

Unnamed: 0,2,3
a,1.0,1.0
b,2.0,3.0
c,4.0,9.0
d,8.0,27.0
e,16.0,81.0
f,32.0,243.0


In [9]:
df['2']

a     1.0
b     2.0
c     4.0
d     8.0
e    16.0
f    32.0
Name: 2, dtype: float64

In [10]:
df['outro'] = df['2'] * df['3']
df

Unnamed: 0,2,3,outro
a,1.0,1.0,1.0
b,2.0,3.0,6.0
c,4.0,9.0,36.0
d,8.0,27.0,216.0
e,16.0,81.0,1296.0
f,32.0,243.0,7776.0


In [11]:
meio = df[(df>10) & (df <100)].copy()
meio

Unnamed: 0,2,3,outro
a,,,
b,,,
c,,,36.0
d,,27.0,
e,16.0,81.0,
f,32.0,,


In [12]:
meio[meio.isnull()] = 0
meio

Unnamed: 0,2,3,outro
a,0.0,0.0,0.0
b,0.0,0.0,0.0
c,0.0,0.0,36.0
d,0.0,27.0,0.0
e,16.0,81.0,0.0
f,32.0,0.0,0.0


In [13]:
maior = meio['3'].idxmax()
print(maior)

e


In [14]:
meio['3'][maior]

81.0

In [15]:
meio.describe()

Unnamed: 0,2,3,outro
count,6.0,6.0,6.0
mean,8.0,18.0,6.0
std,13.38656,32.698624,14.696938
min,0.0,0.0,0.0
25%,0.0,0.0,0.0
50%,0.0,0.0,0.0
75%,12.0,20.25,0.0
max,32.0,81.0,36.0


## Referências adicionais

Leitura recomendada: http://pandas.pydata.org/pandas-docs/stable/tutorials.html

Documentação de referência: http://pandas.pydata.org/pandas-docs/stable/