# Disciplina: Ciência de Dados

Prof. Luiz Affonso Guedes Engenharia de Computação - UFRN 2018-2


## Pacote Pandas

Pandas é construído sobre o Pacote Numpy. Porém, direntemente dos arrays de NumPy, variáveis manipuladas pelo Pandas podem ser de tipos diversos (não homogêneos). Assim, uma determinada variável pode contém elementos de diversos tipos. DataFrame e Series são exemplos de dados complexo de Pandas. 

DataFrames são dados "retangulares", usualmente utilizados para representar informação em formato de planilha, por exemplo. Assim, as colunas devem ter as mesmas dimensões e cada coluna contém elementos de um mesmo tipo de dado.

Series são objetos tipo array uni-dimensional contendo um array de dados (equivalente ao array uni-dimensional NumPy) e um array de labels do array de dados (denominados de index da Serie). Na sua forma mais simples, Series podem conter apenas os arrays de dados. Neste caso, os indexes segue o padrão dos arrays NumPy (índices de zero a n-1).

Pandas implementa uma série de operações sobre dados para usuários familiarizados com banco de dados e planilhas.




Convensão de notação:
- from pandas import Series, DataFrame
- import pandas as pd

In [0]:
# Exemplo: Importanto Pandas

from pandas import Series, DataFrame
import pandas as pd


In [0]:
a = 1
a

In [0]:
a

### Objeto do tipo Serie em Pandas

In [0]:
# Exemplo: criação de um objeto Pandas do tipo Series 
# - sem especificar os seus índices

dado = pd.Series([0.25, 0.5, 0.75, 1.0])
dado

In [0]:
# Exemplo: criação de um objeto Pandas do tipo Series 
# - sem especificar os seus índices

#obj_Serie = np.Series([4, 7, -5, 3])

obj_Serie = Series([4, 7, -5, 3])
print(obj_Serie)
type(obj_Serie)

In [0]:
# Exemplo: Acessando valores de um objeto do tipo Serie - Pandas
print(obj_Serie.values)
type(obj_Serie.values)


In [0]:
# Exemplo: Acessando indexes de um objeto do tipo Serie - Pandas

print(obj_Serie.index)
type(obj_Serie.index)

Pelo que vimos até agora, pode-se parecer que o objeto Series é basicamente intercambiável com um array NumPy unidimensional. A diferença essencial é a presença do índice: enquanto o array NumPy possui um índice inteiro implícito definido para acessar os valores, a Serie Pandas possui um índice explicitamente definido associado aos valores.

Esta definição explícita de índice fornece recursos adicionais do objeto Series. Por exemplo, o índice não precisa ser um número inteiro, mas pode consistir em valores de qualquer tipo desejado. Por exemplo, se quisermos, podemos usar Strings como um índice.

In [0]:
# Exemplo: criação de um objeto pandas do tipo Series - Pandas
# - com especificação dos seus índices

obj_Serie2 = Series([4, 7, -5, 3], index=['d', 'b', 'a', 'c'])
obj_Serie2

In [0]:
# Exemplo: Acessando elementos de Series via especificação do índice ou conjunto de índices
print("O acesso a elemento de Series é similar ao de arrays NumPy")
print(obj_Serie2['a'])
print(obj_Serie2[2])
print(obj_Serie2[-2])
print(obj_Serie2[['b', 'd', 'a']])

In [0]:
# Exemplo: filtros nos índices em Pandas são similares aos Arrays Numpy

obj_Serie2 > 0

In [0]:
# Exemplo: filtros nos índices em Pandas são similares aos Arrays Numpy

obj_Serie2[obj_Serie2 > 0]

In [0]:
# Exemplo: filtro nos índices de Arrays Numpy

import numpy as np
A = np.array([1, 4, 2, 5, 3])
A[A>2]

In [0]:
# Exemplo: As operações preservam os índices dos objetos Series - Pandas
print(obj_Serie2*3)
print()
print(obj_Serie2**2)

Também é  possível passar dados do tipo dictionaries como parâmetros para Series Pandas, como no exemplo abaixo.


In [0]:
# Exemplo de Series - Pandas usando tipos dictioneries

idadeD = {'Maria': 24, 'Pedro': 22, 'Mariana': 21, 'Joao': 20}
idadeSerie = Series(idadeD)
idadeSerie

In [0]:
# Exemplo de Series - Pandas usando tipos dictionaries

idadeLista = ['Alice', 'Pedro', 'Mariana', 'Joao']
idadeSerie = Series(idadeD, index=idadeLista)
idadeSerie

In [0]:
print("Por que o valor do índice Alice é NaN?, O que significa isto?")


In [0]:
# Execute este comando e verifique o resultado

idadeSerie.isnull()

In [0]:
# Execute este comando e verifique o resultado

idadeSerie.notnull()

### Dados não declarados - Data Missing
- indicar a falta de dados de diferentes maneiras.
- NaN (Not a Number).
- None.

Há diversos métodos em Pandas para tratar Data Missing.
- técnicas de eliminação
- técnicas de preenchimento

In [0]:
# Exemplo: Eliminando data missing

idadeSerie[idadeSerie.notnull()]

In [0]:
# Exemplo: Eliminando data missing

idadeSerie

In [0]:
# Exemplo: Eliminando data missing
idadeSerie.dropna()

In [0]:
# Exemplo: Preenchimento de data missing
idadeSerie.fillna(-1)

In [0]:
# Operações sobre Series - Pandas

turmaLista1 = ['Alice', 'Pedro', 'Mariana', 'Joao']
turmaLista2 = ['Maria', 'Pedro', 'Mariana', 'Joao']

turmaSerie1 = Series([2,1,0.5,1], index=turmaLista1)
turmaSerie2 = Series([2,2,2,2], index=turmaLista2)

turmaSerie1 + turmaSerie2

In [0]:
# Exemplo - Rotulando índices e nomes de Series - Pandas

turmaSerie1.name = 'Turma de Ciência de Dados'
turmaSerie1.index.name = 'Alunos'
turmaSerie1

Series Pandas podem ser vistas como o equivalente ao tipo básico dictionaries. Porém, assim como operações em arrays NumPy são mais eficientes que em Listas, operar em Series é bem mais eficiente que operarar sobre variáveis do tipo Dictonarie. 

In [0]:
? Series

In [0]:
# Exemplo: População de alguns estados dos Estados Unidos

pop_dict = {'California': 38332521,
'Texas': 26448193,
'New York': 19651127,
'Florida': 19552860,
'Illinois': 12882135}

In [0]:
# Exemplo: Área de alguns estados dos Estados Unidos
area_dict = {'California': 423967, 'Texas': 695662, 'New York': 141297,
'Florida': 170312, 'Illinois': 149995}

In [0]:
dict.values(pop_dict)

In [0]:
dict.keys(pop_dict)

In [0]:
#Exercício: 
#           - Transforme a variável dicionario 'pop_dict' em uma Serie-Pandas
#           - Transforme a variável dicionario 'area_dict' em uma Serie-Pandas        
#           - Obtenha os estados com mais de 20 milhões de habitantes.
#           - Obtenha o número de habitantes da California
#           - Obtenha o estado com mais habitantes
#           - Obtenha o estado com menos habitantes
#           - Obtenha a lista dos estados com área entre 400.000 e 500.000 
#           - A densidade (número de habitantes por área) desses estados



Os Indexers: loc, iloc e ix
- indicação de índice específico. --> dado[3]
- indicação de intervalo de índices. --> dado[1:3]. Segue o padrão de Lista.
- métodos .loc(), .iloc() e  .ix() 

In [0]:
# Exemplo de indicação de índice em Pandas

data = pd.Series(['a', 'b', 'c', 'd'], index=[1,3, 5, 7])
data

In [0]:
# Exemplo de indicação específica de índice em Pandas
data[1]
#data[0]

In [0]:
# Exemplo de indicação de intervalo de índice em Pandas
data[1:3]
#data[0:2]

In [0]:
# Exemplo de indicação de índice em Pandas usando o método .loc()
print(data.loc[1])
print()
print(data.loc[1:3])

In [0]:
# Exemplo de indicação de índice em Pandas usando o método .iloc()
print(data.iloc[1])
print()
print(data.iloc[1:3])

In [0]:
# Exemplo de indicação de índice em Pandas usando o método .ix()
# Warning: o método está em desuso.

print(data.ix[1])
print()
print(data.ix[1:3])

### Objeto do tipo DataFrame em Pandas

Se uma Serie-Pandas é um análogo de um array NumPy unidimensional com índices explícitos e flexíveis, então um DataFrame é um análogo de array NumPy bidimensional com índices de linha e de colunas flexíveis.

Assim, DataFrame Pandas equivale a uma Matriz com índices explícitos, porém, diferentemenete dos arrays NumPy, os elementos podem ser de tipos diferentes.

DataFrames podem ser vistos como uma sequência de objetos Series-Pandas alinhados por índices.

In [0]:
# Exemplo - Transformação de dict em Serie-Pandas
populacao = pd.Series(pop_dict)
populacao

In [0]:
# Exemplo - Transformação de dict em Serie-Pandas
area = pd.Series(area_dict)
area

In [0]:
# Exemplo - Criação de um DataFrame Pandas

estados = pd.DataFrame({'população': populacao,'área': area})
estados

In [0]:
type(estados)

In [0]:
estados.index

In [0]:
estados.columns

Da mesma forma, também podemos pensar em um DataFrame como uma especialização de um dicionário. Onde um dicionário mapeia uma chave para um valor, um DataFrame mapeia um nome de coluna para uma série de dados de coluna. Por exemplo, pedir o atributo 'área' retorna o objeto Series que contém as áreas que vimos anteriormente:

In [0]:
estados['área']

DataFrame Pandas podem ser criados de diversas formas.
- A partir de objetos Series
- A partir de Listas de Dicionários
- A partir de Dicionários de objetos Series
- A partir de arrays NumPy bidimensionais
- A partir de array NumPy estruturado

In [0]:
# Exemplo: Criação de DataFrame Pandas a partir de objetos Series
pd.DataFrame(populacao, columns=['população'])

In [0]:
# Exemplo: Criação de DataFrame Pandas a partir de Lista de Dicionário
data = [{'a': i, 'b': 2 * i} for i in range(3)]
pd.DataFrame(data)
#data

In [0]:
# Exemplo: Criação de DataFrame Pandas a partir de Lista de Dicionário
# Data Missing (Dados perdidos) - similar ao objeto Serie

pd.DataFrame([{'a': 1, 'b': 2}, {'b': 3, 'c': 4}])

In [0]:
# Exercício: Troque os índices do DataFrame acima
#            para linha1 e linha2, respecitvamente



#### Tratando Data Missing em DataFrame
De forma similar a Series, podemos tratar data missing em DataFrame
- técnicas de eliminação
    - df.dropna(parametros)
- técnicas de preenchimento
    - df.fillna(parametros)

In [0]:
# Exemplo: Eliminando data missing em DataFrames
# Eliminar as linhas com NaN
# Eliminar as colunas com NaN
# Eliminar as linhas e colunas com NaN

df = pd.DataFrame([[1, np.nan, 2],
[2, 3, 5],
[np.nan, 4, 6]])
print("df com NaN \n", df)

print("\n df sem NaN - com eliminação de linhas \n", df.dropna())

print("\n df sem NaN - com eliminação de colunas \n", df.dropna(axis='columns'))


In [0]:
# Exemplo: Eliminando data missing em DataFrames
# Eliminar as linhas com NaN
# Eliminar as colunas com NaN
# Eliminar as linhas e colunas com NaN

dataF = DataFrame([[1., 6.5, 3.], [1., None, None], [None, None, None], [None, 6.5, 3.]])
dataF

In [0]:

dataF.dropna(how='all')

In [0]:
# Exemplo: Preenchimento de data missing em DataFrames
df = DataFrame(np.random.randn(7, 3))
df

In [0]:
df.ix[:4, 1] = None; df.ix[:2, 2] = None
df

In [0]:
# Exemplo: Preenchimento de data missing em DataFrames
#          com valor ZERO

df.fillna(0)

In [0]:
df.iloc[3:4,0:1] = None
df


In [0]:
# Exemplo: Preenchimento de data missing em DataFrames
df.fillna(method='ffill')

In [0]:
# Exemplo: Preenchimento de data missing em DataFrames
# Chamendo .fillna() com um tipo 'dict', 
# pode-se usar um valor diferente de preenchimento para cada coluna

df.fillna({1: 0.5, 2: -1})

In [0]:
# Exemplo: Criação de DataFrame Pandas 
#          a partir Dicionários de objetos Series

pd.DataFrame({'população1': populacao,'área1': area})


In [0]:
# Exemplo: Criação de DataFrame Pandas 
#          a partir de arrays NumPy bidimensionais

import numpy as np

pd.DataFrame(np.random.rand(3, 2),
             columns=['coluna 1', 'coluna 2'],
             index=['linha 1', 'linha 2', 'linha 3'])

In [0]:
# Exemplo: Criação de DataFrame Pandas 
#          a partir de array NumPy estruturado
Resultado = np.zeros(3, dtype=[('A', 'i8'), ('B', 'f8')])
Resultado

In [0]:
pd.DataFrame(Resultado)

A seguir, são apresentados alguns exemplos de como acessar DataFrames e elementos de DataFrames

In [0]:
estados

In [0]:
estados['área']

In [0]:
estados[['área','população']]

In [0]:
estados.área

Incluir e modificar colunas no DataFrame Pandas
- uma das formas, pode ser usando uma sintaxe similar à sintaxe de dicionários com objetos Series Pandas.


In [0]:
# Exemplo - Inclusão de uma nova coluna no DataFrame Pandas

estados['densidade'] = estados['população'] / estados['área']
estados

Como DataFrames podem ser arrays bidimensionais, podemos utilizar operações a esses. 

In [0]:
# Exemplo - Como inverter a representação do DataFrame Pandas
estados.T

In [0]:
# Exemplo - Obtendo índicers de DataFrames Pandas
estados.values

In [0]:
# Exemplo - Obtendo índices de DataFrames Pandas
estados.values[0]

In [0]:
# Exemplo - Obtendo índices de DataFrames Pandas
estados.values[:][0]

In [0]:
estados[estados.densidade > 100]

In [0]:
estados.densidade > 100

In [0]:
estados[estados.densidade > 100].densidade

In [0]:
estados[estados.densidade > 100][['população', 'densidade']]

In [0]:
# Exercício: Liste o atributo 'densidade'
#           dos estados da Florida e Illinois 

In [0]:
# Exemplo de listagem de sub-DataFrame em Pandas
# O método .iloc() pemite acesso por numeração - localicação

estados.iloc[:3, :2]

#estados[:3,:2]

In [0]:
# Exemplo de listagem de sub-DataFrame em Pandas
# O método .loc() permite acesso por labels

estados.loc[:'Illinois', :'população']

In [0]:
# Exemplo de listagem de sub-DataFrame em Pandas
# O método .ix() permite acesso por numeração e label

estados.ix[:3, :'população']

In [0]:
estados

In [0]:
# Exemplo de listagem de sub-DataFrame em Pandas
# Uso do estilo NumPy para acessar sub Arrays
# Formato:
# dataFrame.loc[LINHAS, COLUNAS]

estados.loc[estados.densidade > 100, ['população', 'densidade']]

In [0]:
# Exercício: 
# Obenha apenas os Estados com população acima de 20 milhões.
# Exiba as colunas 'população'e 'densidade'



Métodos:
    - pd.head(x)  --> lista as x primeiras linhas do DataFrame
    - pd.tail(x)  --> lista as x últimas linhas do DataFrame
    - pd.info()   --> resume o conteúdo do DataFrame

In [0]:
# Exemplo de uso do método pd.head()
estados.head(2)
#estados.head()

In [0]:
# Exemplo de uso do método pd.tail()
estados.tail(2)
#estados.tail()

In [0]:
# Exemplo de uso do método pd.info()
estados.info()

Como se pode alterar os valores de elementos de DataFrames?


In [0]:
# Verifique uma forma de alterar valores de elementos do DataFrame estados


Pandas foi desenvolvido sobre o NumPy e manteve a compatibilidade das operações NumPy.
- dados Pandas (Series, DataFrame) aceitam as operações NumPy

In [0]:
# Exemplo de operação NumPy sobre dados Pandas
# Definindo o objeto ser - Tipo Series Pandas
import pandas as pd
import numpy as np

rng = np.random.RandomState(42)
ser = pd.Series(rng.randint(0, 10, 4))
ser

In [0]:
# Exemplo de operação NumPy sobre dados Pandas
# Operação exponencial sobre um objeto Series Pandas

np.exp(ser)

In [0]:
# Exemplo de operação NumPy sobre dados Pandas
# Definindo o objeto df - Tipo DataFrame Pandas

df = pd.DataFrame(rng.randint(0, 10, (3, 4)),
columns=['A', 'B', 'C', 'D'])
df

In [0]:
# Exemplo de operação NumPy sobre dados Pandas
# Operação seno sobre um objeto DataFrame Pandas

np.sin(df * np.pi / 4)

Alinhamento de índices em Pandas:

Para operações binárias em dois objetos Series ou DataFrame, Pandas alinhará índices no processo de execução da operação. Isso é muito conveniente quando você está trabalhando com dados incompletos, como veremos em alguns dos exemplos que se seguem.

In [0]:
# Exemplo: Alinahmento automático de índices em Pandas
# Criação das Series Pandas - area e population

area = pd.Series({'Alaska': 1723337, 'Texas': 695662,
'California': 423967}, name='área')

population = pd.Series({'California': 38332521, 'Texas': 26448193,
'New York': 19651127}, name='população')


# Pandas irá completar com NaN os dados incompletos (data missing)
population / area

O Array resultante é a união união de índices dos dois arrays de entrada.
- Equivale a fazer a união explícita no padrão Python:
    - area.index | population.index
- Os índices resultantes da união que não tiverem entradas são marcados com NaN (data missing).

In [0]:
area.index | population.index

In [0]:
# Exemplo de alinhamento automático em Pandas

A = pd.Series([2, 4, 6], index=[0, 1, 2])
B = pd.Series([1, 3, 5], index=[1, 2, 3])
A + B

In [0]:
# Exemplo: Similar ao exemplo anterior, 
#          mas preenchendo os data missing com valor ZERO
# Uso do estilo de operadores-métodos no NumPY

A.add(B, fill_value=0)


Métodos de operadores binários em Pandas 
- add() --> Adição
- sub(), subtract() --> Subtração
- mul(), multiply() --> Multiplicação
- truediv(), div(), divide() --> Divição
- floordiv()  --> (parte inteira da divisão)
- mod()     ---> (resto da divisão)
- pow()   --> potência

Exercício: Escreva o seguinte programa
    - df1 - Dataframe com 3 linhas e 2 colunas (col1, col2). Inicie o DataFrame de forma ra
    - df2 - Dataframe com 2 linhas e 3 colunas (col1, col2, col3)
    - df3 = df1 + df2
    - df4 = df1 / df2
    - o quadrado de df1
    - Inicie os DataFrames df1 e df2 de forma randômica.

In [0]:
# Exercício:
    

Não podemos esquecer que operações sobre Series e DataFrames Pandas opera por linhas, como nos arrays NumPy.

In [0]:
# Criação de um Array NumPy

A = rng.randint(10, size=(3, 4))
A

In [0]:
# Operação por linha entre arrays NumPy
A - A[0]

In [0]:
# Criação de uma DataFrame Pandas

df = pd.DataFrame(A, columns=list('QRST'))
df

In [0]:
# Operação por linha com DataFrame Pandas

df - df.iloc[0]

In [0]:
# Operação de subtração por coluna sobre DataFrame Pandas

df.subtract(df['R'], axis=0)

In [0]:
# Exercício
# Explique o que a linha de código abaixo executa.

halfrow = df.iloc[0, ::2]
halfrow
#df - halfrow

Exemplo de concatenação de Series e DataFrames Pandas

In [0]:
# Concatenação de Series Pandas

ser1 = pd.Series(['A', 'B', 'C'], index=[1, 2, 3])
ser2 = pd.Series(['D', 'E', 'F'], index=[4, 5, 6])
pd.concat([ser1, ser2])

In [0]:
# Função para preencher um DataFrame Pandas

def make_df(cols, ind):
  data = {c: [str(c) + str(i) for i in ind]
  for c in cols}
  return pd.DataFrame(data, ind)

# exemplo de uso da função DataFrame
make_df('ABC', range(3))

In [0]:
# Concatenação de DataFrames Pandas

df1 = make_df('AB', [1, 2])
df2 = make_df('AB', [3, 4])
print(df1);
print()
print(df2)
print()
print(pd.concat([df1, df2]))

In [0]:
# Anexação de DataFrame Pandas

print(df1.append(df2))

#### Objeto Index em Pandas
É uma classe em Pandas que possui métodos próprios para operar sobre os índices de objetos Pandas, como Series e DataFrames.
Index pode ser:
- Array imutável
- Conjunto ordenado

In [0]:
# Criação de um objeto Index como Array Imutável
# No caos, uma lista de inteiros

ind = pd.Index([2, 3, 5, 7, 11])
print(ind)
print(ind[1])
print(ind[::2])
print("\nObjeto Index possui métodos similares aos dos arrays NumPy")
print(ind.size, ind.shape, ind.ndim, ind.dtype)

In [0]:
# Index não podem ser modificados - Eles são imutáveis
nd[1] = 0

In [0]:
# Criação de um objeto Index conjunto ordenado


In [0]:
indA = pd.Index([1, 3, 5, 7, 9])
indB = pd.Index([2, 3, 5, 7, 11])

print("interseção --> ", indA & indB)

print("união -->  ", indA | indB)

print("diferença simétrica --> ",  indA ^ indB)


## Carregar, armazenar e formatar DataFrames



### Métodos para carregar/ler/importar dados tipo DataFrame Pandas

Pandas possui vários métodos para ler dados tabulados.
- pd.read_csv('arquivo.csv', parametros). Carrega dado com formato .csv delimitado a partir de um arquivo, URL ou objeto tipo arquivo. Usa vígula como delimitador padrão.


- pd.read_table(árquivo.txt', parametros) -  Carrega dado delimitado a partir de arquivo, URL, ou objeto tipo arquivo. Usa tab ('\t') como delimitador padrão.


In [0]:
teste1 = pd.read_csv('ScoobyDoo.csv')

In [0]:
teste1

In [0]:
teste2 = pd.read_csv('ScoobyDoo.csv', header=None)

In [0]:
teste2

In [0]:
# Exemplo: Obtendo informação do DataFrame
teste1.info()

In [0]:
teste3 = pd.read_csv('ScoobyDoo.csv', names=['Coluna 1', 'Coluna 2'])
teste3

In [0]:
teste3.describe()

Exemplos de algumas possibilidades de cálculo com DataFrame

In [0]:
teste1['idade'].sum()

In [0]:
teste1['idade']>19

In [0]:
# Exercício: Inclua uma coluna 'Sexo'no DataFrame teste1
# Atribua o sexeo adequadamente para os personagens 
# ('M'- masculino, 'F' - Feminino')
# Calcule a média de idade dos personagens femininos


In [0]:
# Exercício: Inclua uma coluna 'Peso' no DataFrame teste1
# Scooby - 40 kg
# Salsicha - 55 kg
# Fred  - 70 Kg
# 
# Velma = None
# Daphne = 50 Kg


In [0]:
# Exercício: Inclua uma coluna 'Altura' no DataFrame teste1
# Scooby - 1.5m
# Salsicha - 1.75m
# Fred  - 1.80m
# 
# Velma = 1.60m
# Daphne = 1.65m

In [0]:
# Exercício: Inclua uma coluna 'IMC' no DataFrame teste1
# Preencha essa coluna com o valor de Índice de Massa Corporea dos personagens
# Obtenha o personagem que tem a menor IMC

### Lendo arquivos via URL

In [0]:
# arquivo do GitHub - Livro Handbook of data Science
Estados_USA = pd.read_csv('https://raw.githubusercontent.com/jakevdp/PythonDataScienceHandbook/master/notebooks/data/state-population.csv')

In [0]:
Estados_USA

### Salvando DataFrames como arquivos .csv, .xlx, etc

In [0]:
teste1.to_csv('teste4.csv')

In [0]:
#dataF.to_excel('nome_do_arquivo.xlsx', index=False)

In [6]:
from google.colab import files

uploaded = files.upload()

for fn in uploaded.keys():
  print('User uploaded file "{name}" with length {length} bytes'.format(
      name=fn, length=len(uploaded[fn])))

KeyboardInterrupt: ignored

In [11]:
import pandas as pd
df = (pd.read_csv("births.csv"))
serie = pd.Series(df)
serie

ValueError: ignored