# Data Manipulation - Pandas and Numpy
### Series

In [1]:
import pandas as pd
import numpy as np

In [2]:
numeros = pd.Series([1,2,3,4,5,6,7,8,9,10,11,12])

In [3]:
numeros.index

RangeIndex(start=0, stop=12, step=1)

In [4]:
meses = ['Janeiro', 'Fevereiro', 'Março', 'Abril', 'Maio', 'Junho', 'Julho', 'Agosto', 'Setembro', 'Outubro', 'Novembro', 'Dezembro']

In [5]:
meses_rs = pd.Series(np.arange(1, 13), index=meses)

In [6]:
meses_rs

Janeiro       1
Fevereiro     2
Março         3
Abril         4
Maio          5
Junho         6
Julho         7
Agosto        8
Setembro      9
Outubro      10
Novembro     11
Dezembro     12
dtype: int64

In [7]:
meses_rs.index

Index(['Janeiro', 'Fevereiro', 'Março', 'Abril', 'Maio', 'Junho', 'Julho',
       'Agosto', 'Setembro', 'Outubro', 'Novembro', 'Dezembro'],
      dtype='object')

In [8]:
new_meses = pd.Series([meses[x] for x in range(len(meses))], index=np.arange(1, 13))

In [9]:
new_meses

1       Janeiro
2     Fevereiro
3         Março
4         Abril
5          Maio
6         Junho
7         Julho
8        Agosto
9      Setembro
10      Outubro
11     Novembro
12     Dezembro
dtype: object

In [10]:
world_cup = {'Brasil': 5, 'Alemanha': 4, 'Itália': 4, 'Argentina': 2, 'Uruguai': 2, 'Inglaterra': 1, 'Franca': 1}

In [11]:
world_cup

{'Brasil': 5,
 'Alemanha': 4,
 'Itália': 4,
 'Argentina': 2,
 'Uruguai': 2,
 'Inglaterra': 1,
 'Franca': 1}

In [12]:
pd.Series(world_cup)

Brasil        5
Alemanha      4
Itália        4
Argentina     2
Uruguai       2
Inglaterra    1
Franca        1
dtype: int64

In [13]:
world_cup_sr = pd.Series(
    world_cup,
    index = ['Brasil', 'Alemanha', 'Itália', 'Argentina', 'Inglaterra', 'Espanha'],
    name = 'wcSeries')

In [14]:
world_cup_sr

Brasil        5.0
Alemanha      4.0
Itália        4.0
Argentina     2.0
Inglaterra    1.0
Espanha       NaN
Name: wcSeries, dtype: float64

In [15]:
world_cup_sr.Espanha = '1'

In [16]:
world_cup_sr

Brasil        5.0
Alemanha      4.0
Itália        4.0
Argentina     2.0
Inglaterra    1.0
Espanha       1.0
Name: wcSeries, dtype: float64

In [17]:
world_cup_sr['Paraguai'] = 0

In [18]:
world_cup_sr

Brasil        5.0
Alemanha      4.0
Itália        4.0
Argentina     2.0
Inglaterra    1.0
Espanha       1.0
Paraguai      0.0
Name: wcSeries, dtype: float64

In [19]:
path = 'data/Alunos.xlsx'

In [20]:
xls = pd.ExcelFile('dataset/Alunos.xlsx')

In [21]:
xls.sheet_names

['Alunos', 'Notas', 'Trimestre']

In [22]:
alunos = xls.parse('Alunos')
notas = xls.parse('Notas')
trimestre = xls.parse('Trimestre')
alunos.head()

Unnamed: 0,Alunos
0,Ana
1,Clara
2,Célia
3,João
4,Carlos


In [23]:
notas.head()

Unnamed: 0,Alunos,Notas
0,Ana,5.7
1,Clara,9.9
2,Célia,8.0
3,João,9.9
4,Carlos,7.0


In [24]:
trimestre.head()

Unnamed: 0,Alunos,Sobrenome,Mês 01,Mês 02,Mês 03
0,Ana,Santos,5.7,6.8,4.6
1,Clara,Mafra,9.9,7.0,9.0
2,Célia,Tavares,8.0,8.0,9.0
3,João,Nunes,9.9,9.0,8.0
4,Carlos,Guilherme,7.0,7.5,6.0


In [25]:
alunos.Alunos

0        Ana
1      Clara
2      Célia
3       João
4     Carlos
5      Jorge
6     Lilian
7    Antônio
Name: Alunos, dtype: object

In [26]:
trimestre['Mês 01'][0]

5.7

In [27]:
trimestre.index

RangeIndex(start=0, stop=8, step=1)

In [28]:
trimestre.columns

Index(['Alunos', 'Sobrenome', 'Mês 01', 'Mês 02', 'Mês 03'], dtype='object')

In [29]:
'joão' + ' ' + 'Numes'

'joão Numes'

In [30]:
trimestre['Nome Completo'] = trimestre.Alunos + ' ' + trimestre.Sobrenome

In [31]:
trimestre

Unnamed: 0,Alunos,Sobrenome,Mês 01,Mês 02,Mês 03,Nome Completo
0,Ana,Santos,5.7,6.8,4.6,Ana Santos
1,Clara,Mafra,9.9,7.0,9.0,Clara Mafra
2,Célia,Tavares,8.0,8.0,9.0,Célia Tavares
3,João,Nunes,9.9,9.0,8.0,João Nunes
4,Carlos,Guilherme,7.0,7.5,6.0,Carlos Guilherme
5,Jorge,Silva,6.8,7.0,5.0,Jorge Silva
6,Lilian,Vianna,7.8,8.0,8.5,Lilian Vianna
7,Antônio,Costa,7.0,6.5,6.0,Antônio Costa


In [32]:
diarias = pd.read_csv('dataset/Diarias.csv', sep='\t', encoding='latin')

In [33]:
diarias.describe(include=['object'])

Unnamed: 0,Nome Órgão Superior,Nome Órgão Subordinado,Nome Unidade Gestora,Nome Função,Nome Subunção,Nome Programa,Código Ação,Nome Ação,Linguagem Cidadã,CPF Favorecido,Nome Favorecido,Documento Pagamento,Data Pagamento,Valor Pagamento
count,38745,38745,38745,38745,38745,38745,38745,38745,11831,38745,38745,38745,38745,38745
unique,22,224,1454,25,69,76,308,308,26,22994,26160,3034,18,6969
top,MINISTERIO DA EDUCACAO,INSTITUTO NACIONAL DO SEGURO SOCIAL,DIVISAO DE DIARIAS E PASSAGENS DA AGU,Educação,Administração Geral,Educação de qualidade para todos,2000,Administração da Unidade,Administração de unidade,***.018.44*-**,SILVIA OLINDA BIAGI FERRARI,2017OB800072,16/02/2017,6768
freq,10048,3763,663,10045,7900,9511,6668,6668,6668,39,38,147,3946,5005


In [34]:
type(diarias)

pandas.core.frame.DataFrame

In [35]:
diarias.shape

(38745, 21)

In [36]:
diarias.dtypes

Código Órgão Superior        int64
Nome Órgão Superior         object
Código Órgão Subordinado     int64
Nome Órgão Subordinado      object
Código Unidade Gestora       int64
Nome Unidade Gestora        object
Código Função                int64
Nome Função                 object
Código Subfunção             int64
Nome Subunção               object
Código Programa              int64
Nome Programa               object
Código Ação                 object
Nome Ação                   object
Linguagem Cidadã            object
CPF Favorecido              object
Nome Favorecido             object
Documento Pagamento         object
Gestão Pagamento             int64
Data Pagamento              object
Valor Pagamento             object
dtype: object

In [37]:
filmes = pd.read_csv('dataset/movies.csv')

In [38]:
filmes.head()

Unnamed: 0,star rating,title,content rating,genre,duration,actors list
0,9.3,The Shawshank Redemption,R,Crime,142,"[u'Tim Robbins', u'Morgan Freeman', u'Bob Gunt..."
1,9.2,The Godfather,R,Crime,175,"[u'Marlon Brando', u'Al Pacino', u'James Caan']"
2,9.1,The Godfather: Part II,R,Crime,200,"[u'Al Pacino', u'Robert De Niro', u'Robert Duv..."
3,9.0,The Dark Knight,PG-13,Action,152,"[u'Christian Bale', u'Heath Ledger', u'Aaron E..."
4,8.9,Pulp Fiction,R,Crime,154,"[u'John Travolta', u'Uma Thurman', u'Samuel L...."


In [39]:
filmes.describe()

Unnamed: 0,star rating,duration
count,979.0,979.0
mean,7.889785,120.979571
std,0.336069,26.21801
min,7.4,64.0
25%,7.6,102.0
50%,7.8,117.0
75%,8.1,134.0
max,9.3,242.0


In [40]:
filmes.shape

(979, 6)

In [41]:
filmes.dtypes

star rating       float64
title              object
content rating     object
genre              object
duration            int64
actors list        object
dtype: object

In [42]:
filmes.describe(include=[object])

Unnamed: 0,title,content rating,genre,actors list
count,979,976,979,979
unique,975,12,16,969
top,True Grit,R,Drama,"[u'Daniel Radcliffe', u'Emma Watson', u'Rupert..."
freq,2,460,278,6


In [43]:
filmes.describe()

Unnamed: 0,star rating,duration
count,979.0,979.0
mean,7.889785,120.979571
std,0.336069,26.21801
min,7.4,64.0
25%,7.6,102.0
50%,7.8,117.0
75%,8.1,134.0
max,9.3,242.0


In [44]:
filmes.columns

Index(['star rating', 'title', 'content rating', 'genre', 'duration',
       'actors list'],
      dtype='object')

In [45]:
filmes.columns = 'start_rating', 'title', 'content_rating', 'genre', 'duration', 'actor_list'

In [46]:
filmes.columns

Index(['start_rating', 'title', 'content_rating', 'genre', 'duration',
       'actor_list'],
      dtype='object')

In [47]:
filmes.columns = filmes.columns.str.replace('_', ' ')

In [48]:
filmes.columns

Index(['start rating', 'title', 'content rating', 'genre', 'duration',
       'actor list'],
      dtype='object')

In [49]:
filmes.columns = filmes.columns.str.replace(' ', '_')

In [50]:
filmes.columns

Index(['start_rating', 'title', 'content_rating', 'genre', 'duration',
       'actor_list'],
      dtype='object')

In [55]:
filmes01 = filmes.drop('title', axis=1)

In [58]:
filmes01.head()

Unnamed: 0,start_rating,content_rating,genre,duration,actor_list
0,9.3,R,Crime,142,"[u'Tim Robbins', u'Morgan Freeman', u'Bob Gunt..."
1,9.2,R,Crime,175,"[u'Marlon Brando', u'Al Pacino', u'James Caan']"
2,9.1,R,Crime,200,"[u'Al Pacino', u'Robert De Niro', u'Robert Duv..."
3,9.0,PG-13,Action,152,"[u'Christian Bale', u'Heath Ledger', u'Aaron E..."
4,8.9,R,Crime,154,"[u'John Travolta', u'Uma Thurman', u'Samuel L...."


In [59]:
filmes01 = filmes.drop(['start_rating', 'content_rating'], axis=1)

In [61]:
filmes01.head()

Unnamed: 0,title,genre,duration,actor_list
0,The Shawshank Redemption,Crime,142,"[u'Tim Robbins', u'Morgan Freeman', u'Bob Gunt..."
1,The Godfather,Crime,175,"[u'Marlon Brando', u'Al Pacino', u'James Caan']"
2,The Godfather: Part II,Crime,200,"[u'Al Pacino', u'Robert De Niro', u'Robert Duv..."
3,The Dark Knight,Action,152,"[u'Christian Bale', u'Heath Ledger', u'Aaron E..."
4,Pulp Fiction,Crime,154,"[u'John Travolta', u'Uma Thurman', u'Samuel L...."


In [66]:
filmes.sort_values('start_rating', ascending=False).head()

Unnamed: 0,start_rating,title,content_rating,genre,duration,actor_list
0,9.3,The Shawshank Redemption,R,Crime,142,"[u'Tim Robbins', u'Morgan Freeman', u'Bob Gunt..."
1,9.2,The Godfather,R,Crime,175,"[u'Marlon Brando', u'Al Pacino', u'James Caan']"
2,9.1,The Godfather: Part II,R,Crime,200,"[u'Al Pacino', u'Robert De Niro', u'Robert Duv..."
3,9.0,The Dark Knight,PG-13,Action,152,"[u'Christian Bale', u'Heath Ledger', u'Aaron E..."
4,8.9,Pulp Fiction,R,Crime,154,"[u'John Travolta', u'Uma Thurman', u'Samuel L...."


In [79]:
filmes.sort_values('duration', ascending=False).head()

Unnamed: 0,start_rating,title,content_rating,genre,duration,actor_list
476,7.8,Hamlet,PG-13,Drama,242,"[u'Kenneth Branagh', u'Julie Christie', u'Dere..."
157,8.2,Gone with the Wind,G,Drama,238,"[u'Clark Gable', u'Vivien Leigh', u'Thomas Mit..."
78,8.4,Once Upon a Time in America,R,Crime,229,"[u'Robert De Niro', u'James Woods', u'Elizabet..."
142,8.3,Lagaan: Once Upon a Time in India,PG,Adventure,224,"[u'Aamir Khan', u'Gracy Singh', u'Rachel Shell..."
445,7.9,The Ten Commandments,APPROVED,Adventure,220,"[u'Charlton Heston', u'Yul Brynner', u'Anne Ba..."


In [80]:
film_180 = filmes.duration >= 180

In [85]:
filmes[film_180].head()

Unnamed: 0,start_rating,title,content_rating,genre,duration,actor_list
2,9.1,The Godfather: Part II,R,Crime,200,"[u'Al Pacino', u'Robert De Niro', u'Robert Duv..."
7,8.9,The Lord of the Rings: The Return of the King,PG-13,Adventure,201,"[u'Elijah Wood', u'Viggo Mortensen', u'Ian McK..."
8,8.9,Schindler's List,R,Biography,195,"[u'Liam Neeson', u'Ralph Fiennes', u'Ben Kings..."
17,8.7,Seven Samurai,UNRATED,Drama,207,"[u'Toshir\xf4 Mifune', u'Takashi Shimura', u'K..."
40,8.5,The Green Mile,R,Crime,189,"[u'Tom Hanks', u'Michael Clarke Duncan', u'Dav..."


In [91]:
filmes[filmes.duration >= 200]['genre']

2          Crime
7      Adventure
17         Drama
78         Crime
85     Adventure
142    Adventure
157        Drama
204    Adventure
445    Adventure
476        Drama
630    Biography
767       Action
Name: genre, dtype: object

In [89]:
filmes.loc[filmes.duration >= 200, 'genre']

2          Crime
7      Adventure
17         Drama
78         Crime
85     Adventure
142    Adventure
157        Drama
204    Adventure
445    Adventure
476        Drama
630    Biography
767       Action
Name: genre, dtype: object