# Introdução  ao Pandas
### Por Adriano Santos

##### O que é?

O Pandas é uma biblioteca open-source, em Python, para análise de dados.

In [1]:
# Importando o módulo Pandas
import pandas as pd

## Iniciando os trabalhos com Pandas Series

###### Quando trabalhamos com um vetor de uma única dimensão, devemos transformá-lo para uma Serie do Pandas
###### Uma série é um objeto unidemensional similar a um vetor, lista, ou coluna numa matriz ou tabela.

In [2]:
# Criando um vetor de idades
idade = [23, 25, 24, 25, 15, 25, 27, 25]
print (idade) # Imprime o vetor
print (type(idade)) # Imprime o tipo

[23, 25, 24, 25, 15, 25, 27, 25]
<class 'list'>


In [3]:
# Realizando algumas operações com o vetor criado
print ('Soma:', sum(idade))
print ('Valor máximo:', max(idade))
print ('Velor mínimo:', min(idade))

# Se você desejar realizar mais operações matemáticas, importe o módulo math (import math)


Soma: 189
Valor máximo: 27
Velor mínimo: 15


In [3]:
# Transformando o vetor em uma série
idade_pd = pd.Series(idade, name='idades') # O primeiro parâmetro é o vetor que será convertido. O segundo, o nome da série
print (idade_pd)
print (type(idade_pd))

0    23
1    25
2    24
3    25
4    15
5    25
6    27
7    25
Name: idades, dtype: int64
<class 'pandas.core.series.Series'>


In [5]:
# Análise descritiva
print ('Quantidade: %.d' % idade_pd.count())
print('Soma: %.d' % idade_pd.sum())
print('Máximo: %.d' % idade_pd.max())
print('Mínimo: %.d' % idade_pd.min())
print('Média: %.4f' % idade_pd.mean())
print('Moda: %.d' % idade_pd.mode())
print('Mediana: %.4f' % idade_pd.median())
print ('Variância: %.4f' % idade_pd.var())
print ('Desvio Padrão: %.4f' % idade_pd.std())
print ('Sumário: \n', idade_pd.describe())

Quantidade: 8
Soma: 189
Máximo: 27
Mínimo: 15
Média: 23.6250
Moda: 25
Mediana: 25.0000
Variância: 13.4107
Desvio Padrão: 3.6621
Sumário: 
 count     8.000000
mean     23.625000
std       3.662064
min      15.000000
25%      23.750000
50%      25.000000
75%      25.000000
max      27.000000
Name: idades, dtype: float64


### Iniciando os trabalhos com Pandas DataFrame

##### DataFrame é uma estrutura de dados tabular de duas dimensões  composta de colunas e linhas indexadas, similar a uma tabela de excel. 


In [6]:
# Utilizarei o vetor idade, criado no início do script e criarei um vetor peso
peso = [56, 78, 86, 88, 66, 77, 89, 90]
print (peso)
# Criando um dataset
dados = list(zip(idade,peso)) # a função zip realiza um merge entre os vetores
print (dados)

[56, 78, 86, 88, 66, 77, 89, 90]
[(23, 56), (25, 78), (24, 86), (25, 88), (15, 66), (25, 77), (27, 89), (25, 90)]


In [7]:
# Criando um dataframe (dados) com os vetores de idade e peso

df_pd = pd.DataFrame(data=dados, 
                     columns=['Idades', 'Pesos'])
print (df_pd)

   Idades  Pesos
0      23     56
1      25     78
2      24     86
3      25     88
4      15     66
5      25     77
6      27     89
7      25     90


In [8]:
# As mesmas operações descritivas podem ser realizadas no dataframe...
df_pd.describe() # Para todos.

Unnamed: 0,Idades,Pesos
count,8.0,8.0
mean,23.625,78.75
std,3.662064,12.267844
min,15.0,56.0
25%,23.75,74.25
50%,25.0,82.0
75%,25.0,88.25
max,27.0,90.0


In [9]:
# Para analisar uma coluna, em especial, faça:
df_pd['Idades'].mean()

23.625

In [10]:
# Para adicionar uma nova coluna, ao dataframe faça:
altura = [1.56, 1.78, 1.89, 1.67, 1.58, 1.90, 1.87, 1.76]
df_pd['Alturas'] = altura
print (df_pd)

   Idades  Pesos  Alturas
0      23     56     1.56
1      25     78     1.78
2      24     86     1.89
3      25     88     1.67
4      15     66     1.58
5      25     77     1.90
6      27     89     1.87
7      25     90     1.76


Muitas vezes também precisamos remover dimensões de um Dataframe. Para que isso seja possíve, execute:

In [None]:
df.drop('Alturas', axis=1)