In [3]:
import numpy as np
import pandas as pd

### Series

Uma series é como uma coluna em uma tabela, é uma matriz unidimensional contendo dados de qualquer tipo. Os rótulos dos eixos são chamados coletivamente de índices. Uma Serie suporta tanto a indexação inteira, quanto a baseada em rótulo e fornece uma série de métodos para executar operações envolvendo o índice.

A criação de uma série pode ser feita das seguintes formas:

* A partir de um array 

In [4]:
#Criando o array médias com as médias dos alunos (Valores da Série)
medias = np.array([7.88, 5.21, 6.85, 5.90, 6.28, 8.46, 7.08, 3.41, 5.11, 8.11])

#Criando um array nomes dos alunos que serão os indices da série
nomes = np.array(['Luciano', 'Matheus', 'Rodrigo', 'Bruno', 'Michel',
                  'Raul', 'Lucas', 'Caio', 'Paulo', 'Vitor'])

#Criando a série turma com as médias e ps nomes como índices
turma = pd.Series(medias, index = nomes)


In [5]:
#Exibindo a coluna values (valores) da Série
turma.values

array([7.88, 5.21, 6.85, 5.9 , 6.28, 8.46, 7.08, 3.41, 5.11, 8.11])

In [6]:
#Exibindo a coluna index (índice) da Série
turma.index

Index(['Luciano', 'Matheus', 'Rodrigo', 'Bruno', 'Michel', 'Raul', 'Lucas',
       'Caio', 'Paulo', 'Vitor'],
      dtype='object')

In [7]:
#Resultado mostra os nomes e médias
turma.head()

Luciano    7.88
Matheus    5.21
Rodrigo    6.85
Bruno      5.90
Michel     6.28
dtype: float64

In [8]:
#Exibindo a média do aluno Paulo
turma['Paulo']

5.11

In [9]:
#Exibindo a média da turma
print('Média da turma: ', turma.mean())

Média da turma:  6.428999999999999


In [10]:
#Exibindo um resumo estatistico da turma
turma.describe()

count    10.000000
mean      6.429000
std       1.574071
min       3.410000
25%       5.382500
50%       6.565000
75%       7.680000
max       8.460000
dtype: float64

O Pandas permite a aplicação de expressões matemáticas e funções matemáticas do numpy diretamente. 

In [11]:
novas_medias = turma + 1
novas_medias

Luciano    8.88
Matheus    6.21
Rodrigo    7.85
Bruno      6.90
Michel     7.28
Raul       9.46
Lucas      8.08
Caio       4.41
Paulo      6.11
Vitor      9.11
dtype: float64

### Data Frames 

DataFrame é uma estrutura de dados bidimensional com os dados alinhados de forma tabular em linhas e colunas, mutável em tamanho e potencialmente heterogênea. 

* Criando um Data Frame

In [12]:
#Criando um Data Frame com 2 linhas (inidexes 0 e 1) e 4 colunas ('Idade', 'Sexo', 'Peso', 'Altura')
meu_df = pd.DataFrame([[21, "F", 50, 1.57], [22, 'F', 58, 1.70]], index = range(0,2), columns=['Idade', 'Sexo', 'Peso', 'Altura'])

#Exibindo o Data Frame criado
meu_df

Unnamed: 0,Idade,Sexo,Peso,Altura
0,21,F,50,1.57
1,22,F,58,1.7


In [13]:
#Acesso as linhas do dataframe a partir do sue índice. Utilizar a função .iloc[indice].
#Exibir a segunda linha do Data Frame
meu_df.iloc[1]

Idade      22
Sexo        F
Peso       58
Altura    1.7
Name: 1, dtype: object

* Uma Série Pandas: um array unidimensional capaz de armazenar qualquer tipo de dados com rótulos ou índice de eixo. Um exemplo de um objeto Series é uma coluna de um DataFrame.

In [14]:
#Criando uma Série formada por nomes e com índices de 0 até 4.
nomes = pd.Series(['Luciano', 'Matheus', 'Rodrigo', 'Bruno', 'Michel'], index = range(0,5))

#Criando um Data Frame a partir da Serie nomes com a coluna denominada Nomes
df = pd.DataFrame(data = nomes, columns=['Nomes'])

df

Unnamed: 0,Nomes
0,Luciano
1,Matheus
2,Rodrigo
3,Bruno
4,Michel


* Uma matriz bidimensional, que pode ser um registro ou estruturada

In [15]:
#Criando um numpy.array (data) bidimensional (3x3)
data = np.array([['Portugal', 'Lisboa', 10000000], 
                 ['Peru', 'Lima', 32000000],
                 ['Chile', 'Santiago', 18000000],
                 ['Brasil', 'Brasília', 209000000]])

#Criando o Data Frame com np.array (data) com as colunas 
#('País', 'Capital', 'População'), indexado de 100 até 103
df_novo = pd.DataFrame(data, index= range(100,104), columns= ['País', 'Capital', 'População'])

#Exibindo o DataFrame
df_novo

Unnamed: 0,País,Capital,População
100,Portugal,Lisboa,10000000
101,Peru,Lima,32000000
102,Chile,Santiago,18000000
103,Brasil,Brasília,209000000


In [16]:
#Exibindo uma linha do Data Frame selecionando a partir do índice.
#Para isso utilizamos a função .loc[indice]

df_novo.loc[102]

País            Chile
Capital      Santiago
População    18000000
Name: 102, dtype: object

In [17]:
#Exibindo os dados de uma coluna (Capital), usada como Índice do Data Frame

df_novo['Capital']

100      Lisboa
101        Lima
102    Santiago
103    Brasília
Name: Capital, dtype: object

In [18]:
#Exibindo as linhas onde a população é maior que 10 milhões de habitantes.
#Utilizamos a função .loc[condicional]

df_novo.loc[df_novo['População'] > '10000000']

Unnamed: 0,País,Capital,População
101,Peru,Lima,32000000
102,Chile,Santiago,18000000
103,Brasil,Brasília,209000000


* Um ndarray bidimensional

In [19]:
#Criando o array bidiomensional 2x3
x = np.array([[1,2,3], [4,5,6]], np.int32)

#Criando o DataFrame a a partir do ndarray 2x3, renomeado as colunas
df2 = pd.DataFrame(x, columns = ['col1', 'col2', 'col3'])

In [20]:
#Exibindo o DataFrame
df2

Unnamed: 0,col1,col2,col3
0,1,2,3
1,4,5,6


In [21]:
#Exibindo apenas os dados da coluna 'col3' onde o valor da 'col2' é igual a 5 (df.loc)
df2.loc[df2['col2']==5, 'col3']

1    6
Name: col3, dtype: int32

* Dicionários de ndarray unidimensionais, listas, dicionários ou Séries.

In [22]:
#Criando 4 séries a partir de um dicionário que contém 3 chaves: valor

jogador1 = pd.Series({'Nome': 'Gabriel Barbosa', 'Gols': 25, 'Time': 'C.R Flamengo'})

jogador2 = pd.Series({'Nome': 'Bruno Henrique', 'Gols': 21, 'Time': 'C.R Flamengo'})

jogador3 = pd.Series({'Nome': 'Gilberto', 'Gols': 14, 'Time': 'E.C Bahia'})

jogador4 = pd.Series({'Nome': 'Everaldo', 'Gols': 13, 'Time': 'A. Chapecoense'})


#Criando o Data Frame a partir das Séries Criadas
df_jogadores = pd.DataFrame([jogador1, jogador2, jogador3, jogador4])

In [23]:
#Exibindo o Data Frame Criado
df_jogadores

Unnamed: 0,Nome,Gols,Time
0,Gabriel Barbosa,25,C.R Flamengo
1,Bruno Henrique,21,C.R Flamengo
2,Gilberto,14,E.C Bahia
3,Everaldo,13,A. Chapecoense


In [24]:
#Exibir apenas as colunas Nome e Time dos jogadores com mais de 20 gols. Utiliza-se a função loc()
df_jogadores.loc[df_jogadores['Gols'] > 20, ['Nome', 'Gols', 'Time']]

Unnamed: 0,Nome,Gols,Time
0,Gabriel Barbosa,25,C.R Flamengo
1,Bruno Henrique,21,C.R Flamengo


In [25]:
#Utilizando a técnica de slice para recuperar linhas do DataFrame
df_jogadores[1:2]

Unnamed: 0,Nome,Gols,Time
1,Bruno Henrique,21,C.R Flamengo


### Seleção de Dados do Pandas

Existem várias maneiras de selecionar e indexar linhas e colunas dos DataFrames do Pandas, mas existem 3 possíveis maneiras para realizar as atividades de seleção e indexação no Pandas que são:

* Selecionando os dados pela técnica de Slice
* Selecionando dados por números de linha (.iloc)
* Selecionando dados por rótulo ou por uma declaração condicional (.loc)

In [26]:
#Criando um Data Frame a partir do Arquivo.csv As colunas do arquivo não serão usadas como índice (index_col = False)
df_population = pd.read_csv('http://gsociology.icaap.org/data/PD_data_cia.csv ', index_col = False)

In [27]:
df_population.head()

Unnamed: 0,pop,area,density,coastline,coast2area,revenue,expenditure,expnd_rev,expndpop,gini,...,North,DegEW,SecEW,EW,East,m_elecconsum,elecproduction,IMR,literacy,end
0,31056997,647500,47.964474,0.0,0.0,269.0,561.0,2.085502,18.063562,,...,33,65,0,E,65,1042.0,905000000.0,160.23,0.36,1
1,3581655,28748,124.587971,362.0,1.259218,1960.0,2377.0,1.212755,663.659677,28.2,...,41,20,0,E,20,6760.0,5680000000.0,20.75,0.865,1
2,32930091,2381740,13.826065,998.0,0.041902,42050.0,30750.0,0.731272,933.796387,35.3,...,28,3,0,E,3,24900.0,26990000000.0,29.87,0.7,1
3,57794,199,290.422111,116.0,58.291457,121.0,127.0,1.049587,2197.459944,,...,-14,170,0,W,-170,120.9,130000000.0,9.07,0.97,1
4,71201,468,152.138889,0.0,0.0,373.5,373.5,1.0,5245.712841,,...,42,1,30,E,1,,,4.04,1.0,1


In [28]:
df_population

Unnamed: 0,pop,area,density,coastline,coast2area,revenue,expenditure,expnd_rev,expndpop,gini,...,North,DegEW,SecEW,EW,East,m_elecconsum,elecproduction,IMR,literacy,end
0,31056997,647500,47.964474,0.0,0.000000,269.0,561.0,2.085502,18.063562,,...,33,65,0,E,65,1042.0,9.050000e+08,160.23,0.360,1
1,3581655,28748,124.587971,362.0,1.259218,1960.0,2377.0,1.212755,663.659677,28.2,...,41,20,0,E,20,6760.0,5.680000e+09,20.75,0.865,1
2,32930091,2381740,13.826065,998.0,0.041902,42050.0,30750.0,0.731272,933.796387,35.3,...,28,3,0,E,3,24900.0,2.699000e+10,29.87,0.700,1
3,57794,199,290.422111,116.0,58.291457,121.0,127.0,1.049587,2197.459944,,...,-14,170,0,W,-170,120.9,1.300000e+08,9.07,0.970,1
4,71201,468,152.138889,0.0,0.000000,373.5,373.5,1.000000,5245.712841,,...,42,1,30,E,1,,,4.04,1.000,1
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
230,2460492,5860,419.879181,0.0,0.000000,964.0,1340.0,1.390041,544.606526,,...,32,35,15,E,35,,,19.15,0.919,1
231,273008,266000,1.026346,1110.0,0.417293,,,,,,...,24,13,0,W,-13,83.7,8.500000e+07,,,1
232,21456188,527970,40.639029,1906.0,0.361005,5616.0,5719.0,1.018340,266.543153,33.4,...,15,48,0,E,48,2827.0,3.848000e+09,59.88,0.502,1
233,11502010,752614,15.282748,0.0,0.000000,1688.0,1866.0,1.105450,162.232514,52.6,...,-15,30,0,E,30,5345.0,8.347000e+09,86.84,0.806,1


In [29]:
#Selecionando os dois primeiros registros
df_population[:2]

Unnamed: 0,pop,area,density,coastline,coast2area,revenue,expenditure,expnd_rev,expndpop,gini,...,North,DegEW,SecEW,EW,East,m_elecconsum,elecproduction,IMR,literacy,end
0,31056997,647500,47.964474,0.0,0.0,269.0,561.0,2.085502,18.063562,,...,33,65,0,E,65,1042.0,905000000.0,160.23,0.36,1
1,3581655,28748,124.587971,362.0,1.259218,1960.0,2377.0,1.212755,663.659677,28.2,...,41,20,0,E,20,6760.0,5680000000.0,20.75,0.865,1


In [30]:
#Selecionanod a população das posições 1,2 e 3, usando a função iloc
df_population.iloc[1:4, 0]

1     3581655
2    32930091
3       57794
Name: pop, dtype: int64

In [31]:
#Exibindo População e area com menos de 10000 habitantes

df_population.loc[df_population['pop'] < 10000, ['pop', 'area']]

Unnamed: 0,pop,area
43,1493,135
44,574,14
68,2967,12173
144,9439,102
157,2166,260
158,1828,35
177,7502,413
180,7026,242
200,2701,61020
210,1392,10


### Revisão Groupby

https://medium.com/data-hackers/8-coisas-que-voc%C3%AA-n%C3%A3o-sabia-sobre-o-pandas-groupby-b2c9033d7034

### Revisão Sort_values

https://www.geeksforgeeks.org/python-pandas-dataframe-sort_values-set-1/