# Disciplina: Ciência de Dados

Prof. Luiz Affonso Guedes Engenharia de Computação - UFRN 2018-2


## Pacote Pandas

Pandas é construído sobre o Pacote Numpy. Porém, direntemente dos arrays de NumPy, variáveis manipuladas pelo Pandas podem ser de tipos diversos (não homogêneos). Assim, uma determinada variável pode contém elementos de diversos tipos. DataFrame e Series são exemplos de dados complexo de Pandas. 

DataFrames são dados "retangulares", usualmente utilizados para representar informação em formato de planilha, por exemplo. Assim, as colunas devem ter as mesmas dimensões e cada coluna contém elementos de um mesmo tipo de dado.

Series são objetos tipo array uni-dimensional contendo um array de dados (equivalente ao array uni-dimensional NumPy) e um array de labels do array de dados (denominados de index da Serie). Na sua forma mais simples, Series podem conter apenas os arrays de dados. Neste caso, os indexes segue o padrão dos arrays NumPy (índices de zero a n-1).

Pandas implementa uma série de operações sobre dados para usuários familiarizados com banco de dados e planilhas.




Convensão de notação:
- from pandas import Series, DataFrame
- import pandas as pd

In [1]:
# Exemplo: Importanto Pandas

from pandas import Series, DataFrame
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt


In [2]:
a = 1
a

1

In [3]:
a

1

### Objeto do tipo Serie em Pandas

In [4]:
# Exemplo: criação de um objeto Pandas do tipo Series 
# - sem especificar os seus índices

dado = pd.Series([0.25, 0.5, 0.75, 1.0])
dado

0    0.25
1    0.50
2    0.75
3    1.00
dtype: float64

In [5]:
# Exemplo: criação de um objeto Pandas do tipo Series 
# - sem especificar os seus índices

#obj_Serie = np.Series([4, 7, -5, 3])

obj_Serie = Series([4, 7, -5, 3])
print(obj_Serie)
type(obj_Serie)

0    4
1    7
2   -5
3    3
dtype: int64


pandas.core.series.Series

In [6]:
# Exemplo: Acessando valores de um objeto do tipo Serie - Pandas
print(obj_Serie.values)
type(obj_Serie.values)


[ 4  7 -5  3]


numpy.ndarray

In [7]:
# Exemplo: Acessando indexes de um objeto do tipo Serie - Pandas

print(obj_Serie.index)
type(obj_Serie.index)

RangeIndex(start=0, stop=4, step=1)


Pelo que vimos até agora, pode-se parecer que o objeto Series é basicamente intercambiável com um array NumPy unidimensional. A diferença essencial é a presença do índice: enquanto o array NumPy possui um índice inteiro implícito definido para acessar os valores, a Serie Pandas possui um índice explicitamente definido associado aos valores.

Esta definição explícita de índice fornece recursos adicionais do objeto Series. Por exemplo, o índice não precisa ser um número inteiro, mas pode consistir em valores de qualquer tipo desejado. Por exemplo, se quisermos, podemos usar Strings como um índice.

In [8]:
# Exemplo: criação de um objeto pandas do tipo Series - Pandas
# - com especificação dos seus índices

obj_Serie2 = Series([4, 7, -5, 3], index=['d', 'b', 'a', 'c'])
obj_Serie2

d    4
b    7
a   -5
c    3
dtype: int64

In [9]:
# Exemplo: Acessando elementos de Series via especificação do índice ou conjunto de índices
print("O acesso a elemento de Series é similar ao de arrays NumPy")
print(obj_Serie2['a'])
print(obj_Serie2[2])
print(obj_Serie2[-2])
print(obj_Serie2[['b', 'd', 'a']])

O acesso a elemento de Series é similar ao de arrays NumPy
-5
-5
-5
b    7
d    4
a   -5
dtype: int64


In [10]:
# Exemplo: filtros nos índices em Pandas são similares aos Arrays Numpy

obj_Serie2 > 0

d     True
b     True
a    False
c     True
dtype: bool

In [11]:
# Exemplo: filtros nos índices em Pandas são similares aos Arrays Numpy

obj_Serie2[obj_Serie2 > 0]

d    4
b    7
c    3
dtype: int64

In [12]:
# Exemplo: filtro nos índices de Arrays Numpy

import numpy as np
A = np.array([1, 4, 2, 5, 3])
A[A>2]

array([4, 5, 3])

In [13]:
# Exemplo: As operações preservam os índices dos objetos Series - Pandas
print(obj_Serie2*3)
print()
print(obj_Serie2**2)

d    12
b    21
a   -15
c     9
dtype: int64

d    16
b    49
a    25
c     9
dtype: int64


Também é  possível passar dados do tipo dictionaries como parâmetros para Series Pandas, como no exemplo abaixo.


In [14]:
# Exemplo de Series - Pandas usando tipos dictioneries

idadeD = {'Maria': 24, 'Pedro': 22, 'Mariana': 21, 'Joao': 20}
idadeSerie = Series(idadeD)
idadeSerie

Maria      24
Pedro      22
Mariana    21
Joao       20
dtype: int64

In [15]:
# Exemplo de Series - Pandas usando tipos dictionaries

idadeLista = ['Alice', 'Pedro', 'Mariana', 'Joao']
idadeSerie = Series(idadeD, index=idadeLista)
idadeSerie

Alice       NaN
Pedro      22.0
Mariana    21.0
Joao       20.0
dtype: float64

In [None]:
print("Por que o valor do índice Alice é NaN?, O que significa isto?")


In [16]:
# Execute este comando e verifique o resultado

idadeSerie.isnull()

Alice       True
Pedro      False
Mariana    False
Joao       False
dtype: bool

In [17]:
# Execute este comando e verifique o resultado

idadeSerie.notnull()

Alice      False
Pedro       True
Mariana     True
Joao        True
dtype: bool

### Dados não declarados - Data Missing
- indicar a falta de dados de diferentes maneiras.
- NaN (Not a Number).
- None.

Há diversos métodos em Pandas para tratar Data Missing.
- técnicas de eliminação
- técnicas de preenchimento

In [18]:
# Exemplo: Eliminando data missing

idadeSerie[idadeSerie.notnull()]

Pedro      22.0
Mariana    21.0
Joao       20.0
dtype: float64

In [19]:
# Exemplo: Eliminando data missing

idadeSerie

Alice       NaN
Pedro      22.0
Mariana    21.0
Joao       20.0
dtype: float64

In [20]:
# Exemplo: Eliminando data missing
idadeSerie.dropna()

Pedro      22.0
Mariana    21.0
Joao       20.0
dtype: float64

In [21]:
# Exemplo: Preenchimento de data missing
idadeSerie.fillna(-1)

Alice      -1.0
Pedro      22.0
Mariana    21.0
Joao       20.0
dtype: float64

In [22]:
# Operações sobre Series - Pandas

turmaLista1 = ['Alice', 'Pedro', 'Mariana', 'Joao']
turmaLista2 = ['Maria', 'Pedro', 'Mariana', 'Joao']

turmaSerie1 = Series([2,1,0.5,1], index=turmaLista1)
turmaSerie2 = Series([2,2,2,2], index=turmaLista2)

turmaSerie1 + turmaSerie2

Alice      NaN
Joao       3.0
Maria      NaN
Mariana    2.5
Pedro      3.0
dtype: float64

In [28]:
# Exemplo - Rotulando índices e nomes de Series - Pandas

turmaSerie1.name = 'Turma de Ciência de Dados'
turmaSerie1.index.name = 'Alunos'
print(turmaSerie1.name)

Turma de Ciência de Dados


Series Pandas podem ser vistas como o equivalente ao tipo básico dictionaries. Porém, assim como operações em arrays NumPy são mais eficientes que em Listas, operar em Series é bem mais eficiente que operarar sobre variáveis do tipo Dictonarie. 

In [29]:
? Series

In [3]:
# Exemplo: População de alguns estados dos Estados Unidos

pop_dict = {'California': 38332521,
'Texas': 26448193,
'New York': 19651127,
'Florida': 19552860,
'Illinois': 12882135}

In [4]:
# Exemplo: Área de alguns estados dos Estados Unidos
area_dict = {'California': 423967, 'Texas': 695662, 'New York': 141297,
'Florida': 170312, 'Illinois': 149995}

In [32]:
dict.values(pop_dict)

dict_values([38332521, 26448193, 19651127, 19552860, 12882135])

In [33]:
dict.keys(pop_dict)

dict_keys(['California', 'Texas', 'New York', 'Florida', 'Illinois'])

In [5]:
#Exercício: 
#           - Transforme a variável dicionario 'pop_dict' em uma Serie-Pandas
popDictSerie = Series(pop_dict)
#           - Transforme a variável dicionario 'area_dict' em uma Serie-Pandas
areaDictSerie = Series(area_dict)
#           - Obtenha os estados com mais de 20 milhões de habitantes.
popDictSerie[popDictSerie > 20000000]
#           - Obtenha o número de habitantes da California
popDictSerie['California']
#           - Obtenha o estado com mais habitantes
popDictSerie[popDictSerie == popDictSerie.max()]
#           - Obtenha o estado com menos habitantes
popDictSerie[popDictSerie == popDictSerie.min()]
#           - Obtenha a lista dos estados com área entre 400.000 e 500.000
areaDictSerie[(areaDictSerie > 400000) & (areaDictSerie < 500000)]
#           - A densidade (número de habitantes por área) desses estados



California    423967
dtype: int64

Os Indexers: loc, iloc e ix
- indicação de índice específico. --> dado[3]
- indicação de intervalo de índices. --> dado[1:3]. Segue o padrão de Lista.
- métodos .loc(), .iloc() e  .ix() 

In [38]:
# Exemplo de indicação de índice em Pandas

data = pd.Series(['a', 'b', 'c', 'd'], index=[1,3, 5, 7])
data

1    a
3    b
5    c
7    d
dtype: object

In [39]:
# Exemplo de indicação específica de índice em Pandas
data[1]
#data[0]

'a'

In [40]:
# Exemplo de indicação de intervalo de índice em Pandas
data[1:3]
#data[0:2]

3    b
5    c
dtype: object

In [41]:
# Exemplo de indicação de índice em Pandas usando o método .loc()
print(data.loc[1])
print()
print(data.loc[1:3])

a

1    a
3    b
dtype: object


In [10]:
# Exemplo de indicação de índice em Pandas usando o método .iloc()
print(data.iloc[1])
print()
print(data.iloc[1:3])

b

3    b
5    c
dtype: object


In [11]:
# Exemplo de indicação de índice em Pandas usando o método .ix()
# Warning: o método está em desuso.

print(data.ix[1])
print()
print(data.ix[1:3])

a

1    a
3    b
dtype: object


.ix is deprecated. Please use
.loc for label based indexing or
.iloc for positional indexing

See the documentation here:
http://pandas.pydata.org/pandas-docs/stable/indexing.html#ix-indexer-is-deprecated
  after removing the cwd from sys.path.
.ix is deprecated. Please use
.loc for label based indexing or
.iloc for positional indexing

See the documentation here:
http://pandas.pydata.org/pandas-docs/stable/indexing.html#ix-indexer-is-deprecated
  


### Objeto do tipo DataFrame em Pandas

Se uma Serie-Pandas é um análogo de um array NumPy unidimensional com índices explícitos e flexíveis, então um DataFrame é um análogo de array NumPy bidimensional com índices de linha e de colunas flexíveis.

Assim, DataFrame Pandas equivale a uma Matriz com índices explícitos, porém, diferentemenete dos arrays NumPy, os elementos podem ser de tipos diferentes.

DataFrames podem ser vistos como uma sequência de objetos Series-Pandas alinhados por índices.

In [12]:
# Exemplo - Transformação de dict em Serie-Pandas
populacao = pd.Series(pop_dict)
populacao

California    38332521
Texas         26448193
New York      19651127
Florida       19552860
Illinois      12882135
dtype: int64

In [13]:
# Exemplo - Transformação de dict em Serie-Pandas
area = pd.Series(area_dict)
area

California    423967
Texas         695662
New York      141297
Florida       170312
Illinois      149995
dtype: int64

In [14]:
# Exemplo - Criação de um DataFrame Pandas

estados = pd.DataFrame({'população': populacao,'área': area})
estados

Unnamed: 0,população,área
California,38332521,423967
Texas,26448193,695662
New York,19651127,141297
Florida,19552860,170312
Illinois,12882135,149995


In [15]:
type(estados)

pandas.core.frame.DataFrame

In [16]:
estados.index

Index(['California', 'Texas', 'New York', 'Florida', 'Illinois'], dtype='object')

In [17]:
estados.columns

Index(['população', 'área'], dtype='object')

Da mesma forma, também podemos pensar em um DataFrame como uma especialização de um dicionário. Onde um dicionário mapeia uma chave para um valor, um DataFrame mapeia um nome de coluna para uma série de dados de coluna. Por exemplo, pedir o atributo 'área' retorna o objeto Series que contém as áreas que vimos anteriormente:

In [18]:
estados['área']

California    423967
Texas         695662
New York      141297
Florida       170312
Illinois      149995
Name: área, dtype: int64

DataFrame Pandas podem ser criados de diversas formas.
- A partir de objetos Series
- A partir de Listas de Dicionários
- A partir de Dicionários de objetos Series
- A partir de arrays NumPy bidimensionais
- A partir de array NumPy estruturado

In [19]:
# Exemplo: Criação de DataFrame Pandas a partir de objetos Series
pd.DataFrame(populacao, columns=['população'])

Unnamed: 0,população
California,38332521
Texas,26448193
New York,19651127
Florida,19552860
Illinois,12882135


In [20]:
# Exemplo: Criação de DataFrame Pandas a partir de Lista de Dicionário
data = [{'a': i, 'b': 2 * i} for i in range(3)]
pd.DataFrame(data)
#data

Unnamed: 0,a,b
0,0,0
1,1,2
2,2,4


In [22]:
# Exemplo: Criação de DataFrame Pandas a partir de Lista de Dicionário
# Data Missing (Dados perdidos) - similar ao objeto Serie

dados = pd.DataFrame([{'a': 1, 'b': 2}, {'b': 3, 'c': 4}])

In [25]:
# Exercício: Troque os índices do DataFrame acima
#            para linha1 e linha2, respecitvamente
dados.index = ['linha1', 'linha2']
dados


Unnamed: 0,a,b,c
linha1,1.0,2,
linha2,,3,4.0


#### Tratando Data Missing em DataFrame
De forma similar a Series, podemos tratar data missing em DataFrame
- técnicas de eliminação
    - df.dropna(parametros)
- técnicas de preenchimento
    - df.fillna(parametros)

In [26]:
# Exemplo: Eliminando data missing em DataFrames
# Eliminar as linhas com NaN
# Eliminar as colunas com NaN
# Eliminar as linhas e colunas com NaN

df = pd.DataFrame([[1, np.nan, 2],
[2, 3, 5],
[np.nan, 4, 6]])
print("df com NaN \n", df)

print("\n df sem NaN - com eliminação de linhas \n", df.dropna())

print("\n df sem NaN - com eliminação de colunas \n", df.dropna(axis='columns'))


df com NaN 
      0    1  2
0  1.0  NaN  2
1  2.0  3.0  5
2  NaN  4.0  6

 df sem NaN - com eliminação de linhas 
      0    1  2
1  2.0  3.0  5

 df sem NaN - com eliminação de colunas 
    2
0  2
1  5
2  6


In [27]:
# Exemplo: Eliminando data missing em DataFrames
# Eliminar as linhas com NaN
# Eliminar as colunas com NaN
# Eliminar as linhas e colunas com NaN

dataF = DataFrame([[1., 6.5, 3.], [1., None, None], [None, None, None], [None, 6.5, 3.]])
dataF

Unnamed: 0,0,1,2
0,1.0,6.5,3.0
1,1.0,,
2,,,
3,,6.5,3.0


In [28]:

dataF.dropna(how='all')

Unnamed: 0,0,1,2
0,1.0,6.5,3.0
1,1.0,,
3,,6.5,3.0


In [29]:
# Exemplo: Preenchimento de data missing em DataFrames
df = DataFrame(np.random.randn(7, 3))
df

Unnamed: 0,0,1,2
0,0.553078,-1.54554,0.028022
1,-0.337836,0.707679,1.168405
2,-1.06528,0.247123,0.532538
3,-0.184632,0.900637,-0.783228
4,0.969856,-0.157266,-1.213117
5,-0.866916,1.411864,-0.092345
6,0.894157,0.539526,-0.343515


In [30]:
df.ix[:4, 1] = None; df.ix[:2, 2] = None
df

.ix is deprecated. Please use
.loc for label based indexing or
.iloc for positional indexing

See the documentation here:
http://pandas.pydata.org/pandas-docs/stable/indexing.html#ix-indexer-is-deprecated
  """Entry point for launching an IPython kernel.


Unnamed: 0,0,1,2
0,0.553078,,
1,-0.337836,,
2,-1.06528,,
3,-0.184632,,-0.783228
4,0.969856,,-1.213117
5,-0.866916,1.411864,-0.092345
6,0.894157,0.539526,-0.343515


In [42]:
# Exemplo: Preenchimento de data missing em DataFrames
#          com valor ZERO

df.fillna(0)

Unnamed: 0,0,1,2
0,0.553078,0.0,0.0
1,-0.337836,0.0,0.0
2,-1.06528,0.0,0.0
3,-0.184632,0.0,-0.783228
4,0.969856,0.0,-1.213117
5,-0.866916,1.411864,-0.092345
6,0.894157,0.539526,-0.343515


In [43]:
df.iloc[3:4,0:1] = None
df


Unnamed: 0,0,1,2
0,0.553078,,
1,-0.337836,,
2,-1.06528,,
3,,,-0.783228
4,0.969856,,-1.213117
5,-0.866916,1.411864,-0.092345
6,0.894157,0.539526,-0.343515


In [44]:
# Exemplo: Preenchimento de data missing em DataFrames
df.fillna(method='ffill')

Unnamed: 0,0,1,2
0,0.553078,,
1,-0.337836,,
2,-1.06528,,
3,-1.06528,,-0.783228
4,0.969856,,-1.213117
5,-0.866916,1.411864,-0.092345
6,0.894157,0.539526,-0.343515


In [45]:
# Exemplo: Preenchimento de data missing em DataFrames
# Chamendo .fillna() com um tipo 'dict', 
# pode-se usar um valor diferente de preenchimento para cada coluna

df.fillna({1: 0.5, 2: -1})

Unnamed: 0,0,1,2
0,0.553078,0.5,-1.0
1,-0.337836,0.5,-1.0
2,-1.06528,0.5,-1.0
3,,0.5,-0.783228
4,0.969856,0.5,-1.213117
5,-0.866916,1.411864,-0.092345
6,0.894157,0.539526,-0.343515


In [46]:
# Exemplo: Criação de DataFrame Pandas 
#          a partir Dicionários de objetos Series

pd.DataFrame({'população1': populacao,'área1': area})


Unnamed: 0,população1,área1
California,38332521,423967
Texas,26448193,695662
New York,19651127,141297
Florida,19552860,170312
Illinois,12882135,149995


In [47]:
# Exemplo: Criação de DataFrame Pandas 
#          a partir de arrays NumPy bidimensionais

import numpy as np

pd.DataFrame(np.random.rand(3, 2),
             columns=['coluna 1', 'coluna 2'],
             index=['linha 1', 'linha 2', 'linha 3'])

Unnamed: 0,coluna 1,coluna 2
linha 1,0.75046,0.489709
linha 2,0.734363,0.972174
linha 3,0.291482,0.2982


In [48]:
# Exemplo: Criação de DataFrame Pandas 
#          a partir de array NumPy estruturado
Resultado = np.zeros(3, dtype=[('A', 'i8'), ('B', 'f8')])
Resultado

array([(0, 0.), (0, 0.), (0, 0.)], dtype=[('A', '<i8'), ('B', '<f8')])

In [49]:
pd.DataFrame(Resultado)

Unnamed: 0,A,B
0,0,0.0
1,0,0.0
2,0,0.0


A seguir, são apresentados alguns exemplos de como acessar DataFrames e elementos de DataFrames

In [50]:
estados

Unnamed: 0,população,área
California,38332521,423967
Texas,26448193,695662
New York,19651127,141297
Florida,19552860,170312
Illinois,12882135,149995


In [51]:
estados['área']

California    423967
Texas         695662
New York      141297
Florida       170312
Illinois      149995
Name: área, dtype: int64

In [52]:
estados[['área','população']]

Unnamed: 0,área,população
California,423967,38332521
Texas,695662,26448193
New York,141297,19651127
Florida,170312,19552860
Illinois,149995,12882135


In [53]:
estados.área

California    423967
Texas         695662
New York      141297
Florida       170312
Illinois      149995
Name: área, dtype: int64

Incluir e modificar colunas no DataFrame Pandas
- uma das formas, pode ser usando uma sintaxe similar à sintaxe de dicionários com objetos Series Pandas.


In [54]:
# Exemplo - Inclusão de uma nova coluna no DataFrame Pandas

estados['densidade'] = estados['população'] / estados['área']
estados

Unnamed: 0,população,área,densidade
California,38332521,423967,90.413926
Texas,26448193,695662,38.01874
New York,19651127,141297,139.076746
Florida,19552860,170312,114.806121
Illinois,12882135,149995,85.883763


Como DataFrames podem ser arrays bidimensionais, podemos utilizar operações a esses. 

In [55]:
# Exemplo - Como inverter a representação do DataFrame Pandas
estados.T

Unnamed: 0,California,Texas,New York,Florida,Illinois
população,38332520.0,26448190.0,19651130.0,19552860.0,12882140.0
área,423967.0,695662.0,141297.0,170312.0,149995.0
densidade,90.41393,38.01874,139.0767,114.8061,85.88376


In [56]:
# Exemplo - Obtendo índicers de DataFrames Pandas
estados.values

array([[3.83325210e+07, 4.23967000e+05, 9.04139261e+01],
       [2.64481930e+07, 6.95662000e+05, 3.80187404e+01],
       [1.96511270e+07, 1.41297000e+05, 1.39076746e+02],
       [1.95528600e+07, 1.70312000e+05, 1.14806121e+02],
       [1.28821350e+07, 1.49995000e+05, 8.58837628e+01]])

In [57]:
# Exemplo - Obtendo índices de DataFrames Pandas
estados.values[0]

array([3.83325210e+07, 4.23967000e+05, 9.04139261e+01])

In [75]:
# Exemplo - Obtendo índices de DataFrames Pandas
estados.values[:][0]

array([3.83325210e+07, 4.23967000e+05, 9.04139261e+01])

In [58]:
estados[estados.densidade > 100]

Unnamed: 0,população,área,densidade
New York,19651127,141297,139.076746
Florida,19552860,170312,114.806121


In [76]:
estados.densidade > 100

California    False
Texas         False
New York       True
Florida        True
Illinois      False
Name: densidade, dtype: bool

In [59]:
estados[estados.densidade > 100].densidade

New York    139.076746
Florida     114.806121
Name: densidade, dtype: float64

In [60]:
estados[estados.densidade > 100][['população', 'densidade']]

Unnamed: 0,população,densidade
New York,19651127,139.076746
Florida,19552860,114.806121


In [74]:
# Exercício: Liste o atributo 'densidade'
#           dos estados da Florida e Illinois
estados[(estados.index == 'Florida') | (estados.index == 'Illinois')].densidade

Florida     114.806121
Illinois     85.883763
Name: densidade, dtype: float64

In [77]:
# Exemplo de listagem de sub-DataFrame em Pandas
# O método .iloc() pemite acesso por numeração - localicação

estados.iloc[:3, :2]

#estados[:3,:2]

Unnamed: 0,população,área
California,38332521,423967
Texas,26448193,695662
New York,19651127,141297


In [78]:
# Exemplo de listagem de sub-DataFrame em Pandas
# O método .loc() permite acesso por labels

estados.loc[:'Illinois', :'população']

Unnamed: 0,população
California,38332521
Texas,26448193
New York,19651127
Florida,19552860
Illinois,12882135


In [79]:
# Exemplo de listagem de sub-DataFrame em Pandas
# O método .ix() permite acesso por numeração e label

estados.ix[:3, :'população']

.ix is deprecated. Please use
.loc for label based indexing or
.iloc for positional indexing

See the documentation here:
http://pandas.pydata.org/pandas-docs/stable/indexing.html#ix-indexer-is-deprecated
  after removing the cwd from sys.path.


Unnamed: 0,população
California,38332521
Texas,26448193
New York,19651127


In [80]:
estados

Unnamed: 0,população,área,densidade
California,38332521,423967,90.413926
Texas,26448193,695662,38.01874
New York,19651127,141297,139.076746
Florida,19552860,170312,114.806121
Illinois,12882135,149995,85.883763


In [81]:
# Exemplo de listagem de sub-DataFrame em Pandas
# Uso do estilo NumPy para acessar sub Arrays
# Formato:
# dataFrame.loc[LINHAS, COLUNAS]

estados.loc[estados.densidade > 100, ['população', 'densidade']]

Unnamed: 0,população,densidade
New York,19651127,139.076746
Florida,19552860,114.806121


In [82]:
# Exercício: 
# Obenha apenas os Estados com população acima de 20 milhões.
# Exiba as colunas 'população'e 'densidade'
estados.loc[estados.população > 20000000, ['população', 'densidade']]



Unnamed: 0,população,densidade
California,38332521,90.413926
Texas,26448193,38.01874


Métodos:
    - pd.head(x)  --> lista as x primeiras linhas do DataFrame
    - pd.tail(x)  --> lista as x últimas linhas do DataFrame
    - pd.info()   --> resume o conteúdo do DataFrame

In [83]:
# Exemplo de uso do método pd.head()
estados.head(2)
#estados.head()

Unnamed: 0,população,área,densidade
California,38332521,423967,90.413926
Texas,26448193,695662,38.01874


In [84]:
# Exemplo de uso do método pd.tail()
estados.tail(2)
#estados.tail()

Unnamed: 0,população,área,densidade
Florida,19552860,170312,114.806121
Illinois,12882135,149995,85.883763


In [85]:
# Exemplo de uso do método pd.info()
estados.info()

<class 'pandas.core.frame.DataFrame'>
Index: 5 entries, California to Illinois
Data columns (total 3 columns):
população    5 non-null int64
área         5 non-null int64
densidade    5 non-null float64
dtypes: float64(1), int64(2)
memory usage: 320.0+ bytes


Como se pode alterar os valores de elementos de DataFrames?


In [None]:
# Verifique uma forma de alterar valores de elementos do DataFrame estados


Pandas foi desenvolvido sobre o NumPy e manteve a compatibilidade das operações NumPy.
- dados Pandas (Series, DataFrame) aceitam as operações NumPy

In [86]:
# Exemplo de operação NumPy sobre dados Pandas
# Definindo o objeto ser - Tipo Series Pandas
import pandas as pd
import numpy as np

rng = np.random.RandomState(42)
ser = pd.Series(rng.randint(0, 10, 4))
ser

0    6
1    3
2    7
3    4
dtype: int64

In [87]:
# Exemplo de operação NumPy sobre dados Pandas
# Operação exponencial sobre um objeto Series Pandas

np.exp(ser)

0     403.428793
1      20.085537
2    1096.633158
3      54.598150
dtype: float64

In [88]:
# Exemplo de operação NumPy sobre dados Pandas
# Definindo o objeto df - Tipo DataFrame Pandas

df = pd.DataFrame(rng.randint(0, 10, (3, 4)),
columns=['A', 'B', 'C', 'D'])
df

Unnamed: 0,A,B,C,D
0,6,9,2,6
1,7,4,3,7
2,7,2,5,4


In [89]:
# Exemplo de operação NumPy sobre dados Pandas
# Operação seno sobre um objeto DataFrame Pandas

np.sin(df * np.pi / 4)

Unnamed: 0,A,B,C,D
0,-1.0,0.7071068,1.0,-1.0
1,-0.707107,1.224647e-16,0.707107,-0.7071068
2,-0.707107,1.0,-0.707107,1.224647e-16


Alinhamento de índices em Pandas:

Para operações binárias em dois objetos Series ou DataFrame, Pandas alinhará índices no processo de execução da operação. Isso é muito conveniente quando você está trabalhando com dados incompletos, como veremos em alguns dos exemplos que se seguem.

In [90]:
# Exemplo: Alinahmento automático de índices em Pandas
# Criação das Series Pandas - area e population

area = pd.Series({'Alaska': 1723337, 'Texas': 695662,
'California': 423967}, name='área')
area

population = pd.Series({'California': 38332521, 'Texas': 26448193,
'New York': 19651127}, name='população')
population

# Pandas irá completar com NaN os dados incompletos (data missing)
population / area

Alaska              NaN
California    90.413926
New York            NaN
Texas         38.018740
dtype: float64

O Array resultante é a união união de índices dos dois arrays de entrada.
- Equivale a fazer a união explícita no padrão Python:
    - area.index | population.index
- Os índices resultantes da união que não tiverem entradas são marcados com NaN (data missing).

In [91]:
area.index | population.index

Index(['Alaska', 'California', 'New York', 'Texas'], dtype='object')

In [92]:
# Exemplo de alinhamento automático em Pandas

A = pd.Series([2, 4, 6], index=[0, 1, 2])
B = pd.Series([1, 3, 5], index=[1, 2, 3])
A + B

0    NaN
1    5.0
2    9.0
3    NaN
dtype: float64

In [93]:
# Exemplo: Similar ao exemplo anterior, 
#          mas preenchendo os data missing com valor ZERO
# Uso do estilo de operadores-métodos no NumPY

A.add(B, fill_value=0)


0    2.0
1    5.0
2    9.0
3    5.0
dtype: float64

Métodos de operadores binários em Pandas 
- add() --> Adição
- sub(), subtract() --> Subtração
- mul(), multiply() --> Multiplicação
- truediv(), div(), divide() --> Divição
- floordiv()  --> (parte inteira da divisão)
- mod()     ---> (resto da divisão)
- pow()   --> potência

Exercício: Escreva o seguinte programa
    - df1 - Dataframe com 3 linhas e 2 colunas (col1, col2). Inicie o DataFrame de forma ra
    - df2 - Dataframe com 2 linhas e 3 colunas (col1, col2, col3)
    - df3 = df1 + df2
    - df4 = df1 / df2
    - o quadrado de df1
    - Inicie os DataFrames df1 e df2 de forma randômica.

In [8]:
# Exercício:
df1 = pd.DataFrame(np.random.rand(3,2), columns=['col1', 'col2'])
df2 = pd.DataFrame(np.random.rand(2,3), columns=['col1', 'col2', 'col3'])
df3 = df1 + df2
df4 = df1/df2
np.power(df1, 2)

Unnamed: 0,col1,col2
0,0.063211,0.832051
1,0.152956,0.105269
2,0.901744,0.258904


Não podemos esquecer que operações sobre Series e DataFrames Pandas opera por linhas, como nos arrays NumPy.

In [10]:
# Criação de um Array NumPy

A = np.random.randint(10, size=(3, 4))
A

array([[2, 4, 1, 0],
       [4, 5, 3, 3],
       [0, 2, 2, 0]])

In [11]:
# Operação por linha entre arrays NumPy
A - A[0]

array([[ 0,  0,  0,  0],
       [ 2,  1,  2,  3],
       [-2, -2,  1,  0]])

In [12]:
# Criação de uma DataFrame Pandas

df = pd.DataFrame(A, columns=list('QRST'))
df

Unnamed: 0,Q,R,S,T
0,2,4,1,0
1,4,5,3,3
2,0,2,2,0


In [13]:
# Operação por linha com DataFrame Pandas

df - df.iloc[0]

Unnamed: 0,Q,R,S,T
0,0,0,0,0
1,2,1,2,3
2,-2,-2,1,0


In [16]:
# Operação de subtração por coluna sobre DataFrame Pandas
#df['R']
df.subtract(df['R'], axis=0)

Unnamed: 0,Q,R,S,T
0,-2,0,-3,-4
1,-1,0,-2,-2
2,-2,0,0,-2


In [19]:
# Exercício
# Explique o que a linha de código abaixo executa.
print(df)
halfrow = df.iloc[0, ::2]
halfrow
#df - halfrow

   Q  R  S  T
0  2  4  1  0
1  4  5  3  3
2  0  2  2  0


Q    2
S    1
Name: 0, dtype: int64

Exemplo de concatenação de Series e DataFrames Pandas

In [20]:
# Concatenação de Series Pandas

ser1 = pd.Series(['A', 'B', 'C'], index=[1, 2, 3])
ser2 = pd.Series(['D', 'E', 'F'], index=[4, 5, 6])
pd.concat([ser1, ser2])

1    A
2    B
3    C
4    D
5    E
6    F
dtype: object

In [21]:
# Função para preencher um DataFrame Pandas

def make_df(cols, ind):
  data = {c: [str(c) + str(i) for i in ind]
  for c in cols}
  return pd.DataFrame(data, ind)

# exemplo de uso da função DataFrame
make_df('ABC', range(3))

Unnamed: 0,A,B,C
0,A0,B0,C0
1,A1,B1,C1
2,A2,B2,C2


In [22]:
# Concatenação de DataFrames Pandas

df1 = make_df('AB', [1, 2])
df2 = make_df('AB', [3, 4])
print(df1);
print()
print(df2)
print()
print(pd.concat([df1, df2]))

    A   B
1  A1  B1
2  A2  B2

    A   B
3  A3  B3
4  A4  B4

    A   B
1  A1  B1
2  A2  B2
3  A3  B3
4  A4  B4


In [23]:
# Anexação de DataFrame Pandas

print(df1.append(df2))

    A   B
1  A1  B1
2  A2  B2
3  A3  B3
4  A4  B4


#### Objeto Index em Pandas
É uma classe em Pandas que possui métodos próprios para operar sobre os índices de objetos Pandas, como Series e DataFrames.
Index pode ser:
- Array imutável
- Conjunto ordenado

In [24]:
# Criação de um objeto Index como Array Imutável
# No caos, uma lista de inteiros

ind = pd.Index([2, 3, 5, 7, 11])
print(ind)
print(ind[1])
print(ind[::2])
print("\nObjeto Index possui métodos similares aos dos arrays NumPy")
print(ind.size, ind.shape, ind.ndim, ind.dtype)

Int64Index([2, 3, 5, 7, 11], dtype='int64')
3
Int64Index([2, 5, 11], dtype='int64')

Objeto Index possui métodos similares aos dos arrays NumPy
5 (5,) 1 int64


In [25]:
# Index não podem ser modificados - Eles são imutáveis
ind[1] = 0

TypeError: Index does not support mutable operations

In [None]:
# Criação de um objeto Index conjunto ordenado


In [27]:
indA = pd.Index([1, 3, 5, 7, 9])
indB = pd.Index([2, 3, 5, 7, 11])

print("interseção --> ", indA & indB)

print("união -->  ", indA | indB)

print("diferença simétrica --> ",  indA ^ indB) #O que tem em um e não tem no outro


interseção -->  Int64Index([3, 5, 7], dtype='int64')
união -->   Int64Index([1, 2, 3, 5, 7, 9, 11], dtype='int64')
diferença simétrica -->  Int64Index([1, 2, 9, 11], dtype='int64')


## Carregar, armazenar e formatar DataFrames



### Métodos para carregar/ler/importar dados tipo DataFrame Pandas

Pandas possui vários métodos para ler dados tabulados.
- pd.read_csv('arquivo.csv', parametros). Carrega dado com formato .csv delimitado a partir de um arquivo, URL ou objeto tipo arquivo. Usa vígula como delimitador padrão.


- pd.read_table(árquivo.txt', parametros) -  Carrega dado delimitado a partir de arquivo, URL, ou objeto tipo arquivo. Usa tab ('\t') como delimitador padrão.


In [28]:
teste1 = pd.read_csv('ScoobyDoo.csv')

In [29]:
teste1.head(5)

Unnamed: 0,nome,idade
0,Scooby,10
1,Salsicha,18
2,Fred,20
3,Velma,21
4,Daphne,19


In [30]:
teste2 = pd.read_csv('ScoobyDoo.csv', header=None)

In [31]:
teste2

Unnamed: 0,0,1
0,nome,idade
1,Scooby,10
2,Salsicha,18
3,Fred,20
4,Velma,21
5,Daphne,19


In [32]:
# Exemplo: Obtendo informação do DataFrame
teste1.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 5 entries, 0 to 4
Data columns (total 2 columns):
nome     5 non-null object
idade    5 non-null int64
dtypes: int64(1), object(1)
memory usage: 160.0+ bytes


In [33]:
teste3 = pd.read_csv('ScoobyDoo.csv', names=['Coluna 1', 'Coluna 2'])
teste3

Unnamed: 0,Coluna 1,Coluna 2
0,nome,idade
1,Scooby,10
2,Salsicha,18
3,Fred,20
4,Velma,21
5,Daphne,19


In [34]:
teste3.describe()

Unnamed: 0,Coluna 1,Coluna 2
count,6,6
unique,6,6
top,Velma,21
freq,1,1


Exemplos de algumas possibilidades de cálculo com DataFrame

In [35]:
teste1['idade'].sum()

In [36]:
teste1['idade']>19

0    False
1    False
2     True
3     True
4    False
Name: idade, dtype: bool

In [57]:
# Exercício: Inclua uma coluna 'Sexo'no DataFrame teste1
# Atribua o sexeo adequadamente para os personagens 
# ('M'- masculino, 'F' - Feminino')
teste1['sexo'] = Series(['M', 'M', 'M', 'F', 'F'])
teste1
# Calcule a média de idade dos personagens femininos
teste1.loc[teste1['sexo'] == 'F'].idade.mean()


20.0

In [58]:
# Exercício: Inclua uma coluna 'Peso' no DataFrame teste1
# Scooby - 40 kg
# Salsicha - 55 kg
# Fred  - 70 Kg
# 
# Velma = None
# Daphne = 50 Kg
teste1['peso'] = Series([40,55,70,None,50])


In [60]:
# Exercício: Inclua uma coluna 'Altura' no DataFrame teste1
# Scooby - 1.5m
# Salsicha - 1.75m
# Fred  - 1.80m
# 
# Velma = 1.60m
# Daphne = 1.65m
teste1['altura'] = Series([1.5,1.75,1.8,1.6,1.65])
teste1


Unnamed: 0,nome,idade,sexo,peso,altura
0,Scooby,10,M,40.0,1.5
1,Salsicha,18,M,55.0,1.75
2,Fred,20,M,70.0,1.8
3,Velma,21,F,,1.6
4,Daphne,19,F,50.0,1.65


In [62]:
# Exercício: Inclua uma coluna 'IMC' no DataFrame teste1
# Preencha essa coluna com o valor de Índice de Massa Corporea dos personagens
teste1['IMC'] = Series(teste1.peso/np.power(teste1.altura, 2))
teste1
# Obtenha o personagem que tem a menor IMC
teste1.IMC.min


<bound method Series.min of 0    17.777778
1    17.959184
2    21.604938
3          NaN
4    18.365473
Name: IMC, dtype: float64>

### Lendo arquivos via URL

In [63]:
# arquivo do GitHub - Livro Handbook of data Science
Estados_USA = pd.read_csv('https://raw.githubusercontent.com/jakevdp/PythonDataScienceHandbook/master/notebooks/data/state-population.csv')

In [64]:
Estados_USA

Unnamed: 0,state/region,ages,year,population
0,AL,under18,2012,1117489.0
1,AL,total,2012,4817528.0
2,AL,under18,2010,1130966.0
3,AL,total,2010,4785570.0
4,AL,under18,2011,1125763.0
5,AL,total,2011,4801627.0
6,AL,total,2009,4757938.0
7,AL,under18,2009,1134192.0
8,AL,under18,2013,1111481.0
9,AL,total,2013,4833722.0


### Salvando DataFrames como arquivos .csv, .xlx, etc

In [66]:
teste1.to_csv('teste4.csv')

In [None]:
#dataF.to_excel('nome_do_arquivo.xlsx', index=False)