In [8]:
import pandas as pd
import numpy as np

<p style = 'font-size:40px'> <strong> Pandas Series (The Series Data Structure)</strong> </p>

<p style = 'font-size:30px'> <strong> Introdução </strong> </p>

* <p style = 'font-size:20px'>As Series são uma estrutura de armazenament de dados do Python.</p>

* <p style = 'font-size:20px'> Elas podem ser formadas a partir de listas no np.array's </p>

In [12]:
USP_number = [3000,3450,3180]
name = ['Felipe', 'Leticia','Vitor']

# Podemos modificar o nome da Series com .name
usp = pd.Series(name, index= USP_number)
usp.name = 'USP'
usp

3000     Felipe
3450    Leticia
3180      Vitor
Name: USP, dtype: object

* <p style = 'font-size:20px'> Ao criar uma Series, você pode se deparar com valores Nan ou None </p>
* <p style = 'font-size:20px'> No Python, o None possui um tipo especial <strong> NoneType</strong>. Já o NaN e considerado um float.

In [9]:
# Diferenças entre None e np.nan
# None é reconhecido pelo Python como NoneType
# Já np.nan é tido como um float
print(type(None))
print(type(np.nan))

<class 'NoneType'>
<class 'float'>


* <p style = 'font-size:20px'> Caso a coluna seja composta por strings, o valor vazio será considerado um None </p>
* <p style = 'font-size:20px'> Caso essa seja constituída por números, esse mesmo espaço passará a ser preenchido por um NaN </p>

<p style = 'font-size:30px'>  <em>Series com dicionários</em> </p>

In [16]:
# Vamos criar uma Series a partir de um dicionário do Python!
d = {'Felipe':6.5, 'Ana': 5, 'Eduardo':10, 'Paulo':3.5}
pd.Series(d)

Felipe      6.5
Ana         5.0
Eduardo    10.0
Paulo       3.5
dtype: float64

<p style = 'font-size:30px'> <em> Seleção de dados para a Series </em> </p>

In [18]:
# Podemos definir quais dados do dicionário queremos passar para a Series
# Isso pode ser feito com o argumento index

pd.Series(d, index = ['Felipe','Eduardo','Aron'])

# Note que excluímos a Ana de nossa Series e incluímos o Aron, um estudante não mencionado no dicionário que
# terá, portanto, a sua nota igual a NaN

Felipe      6.5
Eduardo    10.0
Aron        NaN
dtype: float64

<p style = 'font-size:30px'> <strong> Pandas Series (Querying a Series) </strong> </p>

<p style = 'font-size:30px'> <em> Métodos de recorte de Series </em> </p>

In [21]:
# Podemos fazer uma consulta ou recortar uma Series com os métodos iloc e loc


d = {'Donald': 100, 'Lira':200, 'Pedro': 340, 'Lara': 900, 'Paula':120}
series = pd.Series(d)

# Abaixo, estamos pegando o saldo de Pedro de duas maneiras distintas
print(series.iloc[2])
print(series.loc['Pedro'])

340
340


* <p style = 'font-size:20px'> Lembre-se, caso você tenha criado o index como uma lista de integers, o resultado de iloc e loc podem ser diferentes! </p>

<p style = 'font-size:30px'> <em> Funções em uma Series </em> </p>

* <p style = 'font-size:20px'> Podemos utilizar funções numéricas em nossas Series. </p>
* <p style = 'font-size:20px'> A sua invocação ocorre de maneira similar à de uma função do numpy </p>

In [23]:
# Vamos calcular a receita média de nossa Series 'series'
d = {'Donald': 100, 'Lira':200, 'Pedro': 340, 'Lara': 900, 'Paula':120}
series = pd.Series(d)
series.mean()

332.0

<p style = 'font-size:30px'> <em> timeit </em> </p>

* <p style = 'font-size:20px'> O IPython possui funções mágicas que são capazes de realizar tarefas bastante úteis no Jupyter Lab. </p>
* <p style = 'font-size:20px'> Um dessas funções é o timeit, responsável por calcular o tempo médio de execução de um determinado programa. </p>
* <p style = 'font-size:20px'> Ele roda o programa um determinado número de vezes e obtém o tempo médio de execução.</p>

In [33]:
%%timeit -n 1000
total = 0
for number in series:
    total +=number
total/len(series)

6.7 µs ± 806 ns per loop (mean ± std. dev. of 7 runs, 1000 loops each)


In [35]:
%%timeit -n 1000
series.sum() / len(series)

74.5 µs ± 4.15 µs per loop (mean ± std. dev. of 7 runs, 1000 loops each)


* <p style = 'font-size:20px'>Podemos utlizar essa função para avaliar a eficiência de diferentes maneiras de se produzir um código  </p>

<p style = 'font-size:30px'><em>iteritems()</em></p>

* <p style = 'font-size:20px'> Uma função para iterarmos sobre os valores de uma series. </p>

In [39]:
for label, value in series.iteritems():
    print(label, value)

Donald 100
Lira 200
Pedro 340
Lara 900
Paula 120


<p style = 'font-size:16px'><u>Obs</u>: Para operações específicas, é recomendável realizarmos uma equação matemática diretamente com a series. </p>

In [41]:
# Exemplo -> vamos somar 10 à todas as linhas de nossa series.
series = series +10
series

Donald    120
Lira      220
Pedro     360
Lara      920
Paula     140
dtype: int64

<p style = 'font-size:30px'> <em>append</em></p>

* <p style = 'font-size:20px'>O append aglutinará uma series a uma outra já existente.</p> 

In [42]:
series1 = pd.Series([12,41,5], index = ['Felipe', 'Julio','César'])
series2 = pd.Series([12,4], index= ['Olavo','Lucas'])

series1.append(series2)

Felipe    12
Julio     41
César      5
Olavo     12
Lucas      4
dtype: int64

<p style = 'font-size:40px'> <strong>Pandas DataFrame (The DataFrame Structure) </strong> </p>

<p style = 'font-size:30px'> <em> Introdução </em> </p>

* <p style = 'font-size:20px'> Os DataFrames do Pandas são agrupamentos de dados em linhas e colunas. </p>
* <p style = 'font-size:20px'> Diferentemente das Series, eles são bidimensionais. </p>

<p style = 'font-size:30px'> <em>DataFrames com Series</em> </p>

In [55]:
# As linhas da Series pertencerão a uma coluna do DF.
series1 = pd.Series(['Felipe', 'Química', 90], index = ['Nome','Matéria','Nota'])
series2 = pd.Series(['Guilherme', 'Português', 45], index = ['Nome','Matéria','Nota'])

students = pd.DataFrame([series1, series2],index = ['School1', 'School2'])
students

Unnamed: 0,Nome,Matéria,Nota
School1,Felipe,Química,90
School2,Guilherme,Português,45


<p style = 'font-size:30px'><em> DataFrames com Listas de Dicionários</em> </p>

* <p style = 'font-size:20px'> O mesmo resultado poderia ser alcançado por meio de uma lista de dicionários.</p>

In [53]:
l = [{'Nome':'Felipe',
     'Matéria':'Química',
     'Nota':90},
     
    {'Nome':'Guilherme',
    'Matéria':'Português',
     'Nota':45}]

students = pd.DataFrame(l, index = ['School1', 'School2'])
students

Unnamed: 0,Nome,Matéria,Nota
School1,Felipe,Química,90
School2,Guilherme,Português,45


<p style = 'font-size:30px'> <strong>Métodos e Propriedades com DataFrames </strong> </p>

<p style = 'font-size:30px'> <em>T</em> </p>

* <p style = 'font-size:20px'> T nos retornará o DataFrame transposto ao original. </p>

In [51]:
students.T

Unnamed: 0,0,1
Nome,Felipe,Guilherme
Matéria,Química,Português
Nota,90,45


<p style = 'font-size:30px'> <em>loc, iloc</em> </p>

* <p style = 'font-size:20px'> São responsáveis por nos retornar uma view recortada de nosso DataFrame. </p>
* <p style = 'font-size:20px'> O primeiro argumento são as linhas a serem selecionadas; o segundo, as colunas. </p>

In [57]:
students.loc['School1','Matéria']

'Química'

<p style = 'font-size:30px'> <em> drop</em> </p>

* <p style = 'font-size:20px'> O drop será responsável por remover uma determinada linha ou coluna de nosso DataFrame.</p>

* <p style = 'font-size:20px'> O resultado final dessa função será uma VIEW do DataFrame. Portanto, é necessário definir <strong> inplace = True</strong> para que o drop seja efetivado. </p>

* <p style = 'font-size:20px'> Lembrando: o pandas procura, por padrão, remover uma <strong>linha</strong> cujo nome corresponda com o nome dado na função. Portanto, a remoção de uma <strong>coluna</strong> exige que o argumento <strong>axis</strong> seja igualado a 1. </p>

In [59]:
students.drop('Nome', inplace=True, axis = 1)
students

Unnamed: 0,Matéria,Nota
School1,Química,90
School2,Português,45


<p style = 'font-size:30px'> <em> assign</em> </p>

* <p style = 'font-size:20px'>Essa função criará uma nova coluna no DataFrame de uma maneira mais elegante.</p>

In [80]:
# Aqui, estamos criando uma coluna com as médias das notas dos estudantes.
faculdade = pd.DataFrame([{'Nome':'Felipe','Matéria':'Matemática Financeira', 'Nota 1':85, 'Nota 2': 60},
              {'Nome':'Joana', 'Matéria':'Psicologia','Nota 1':30, 'Nota 2': 90}])

faculdade = faculdade.assign(Média=faculdade[['Nota 1', 'Nota 2']].mean().values)
faculdade

Unnamed: 0,Nome,Matéria,Nota 1,Nota 2,Média
0,Felipe,Matemática Financeira,85,60,57.5
1,Joana,Psicologia,30,90,75.0


<p style = 'font-size:30px'> <strong> Abrindo arquivos csv</strong> </p>

* <p style = 'font-size:20px'> Antes de começarmos, uma dica: podemos executar comandos de shell no Jupyter notebook com o uso de uma exclamação. </p>
* <p style = 'font-size:20px'> Vamos ler o conteúdo de um arquivo em csv. </p>

In [90]:
! less Admission_Predict\ \(1\).csv

Serial No.,GRE Score,TOEFL Score,University Rating,SOP,LOR ,CGPA,Research,Chance of Admit 
1,337,118,4,4.5,4.5,9.65,1,0.92
2,324,107,4,4,4.5,8.87,1,0.76
3,316,104,3,3,3.5,8,1,0.72
4,322,110,3,3.5,2.5,8.67,1,0.8
5,314,103,2,2,3,8.21,0,0.65
6,330,115,5,4.5,3,9.34,1,0.9
7,321,109,3,3,4,8.2,1,0.75
8,308,101,2,3,4,7.9,0,0.68
9,302,102,1,2,1.5,8,0,0.5
10,323,108,3,3.5,3,8.6,0,0.45
11,325,106,3,3.5,4,8.4,1,0.52
12,327,111,4,4,4.5,9,1,0.84
13,328,112,4,4,4.5,9.1,1,0.78
14,307,109,3,4,3,8,1,0.62
15,311,104,3,3.5,2,8.2,1,0.61
16,314,105,3,3.5,2.5,8.3,0,0.54
17,317,107,3,4,3,8.7,0,0.66
18,319,106,3,4,3,8,1,0.65
19,318,110,3,4,3,8.8,0,0.63
20,303,102,3,3.5,3,8.5,0,0.62
21,312,107,3,3,2,7.9,1,0.64
[K22,325,114,4,3,2,8.4,0,0.7csv[m[K
:[K

<p style = 'font-size:30px'> <em>read_csv </em> </p>

In [178]:
import pandas as pd
df = pd.read_csv('Admission_Predict (1).csv', index_col = 0)

<p style = 'font-size:30px'> <em> rename </em> </p>

* <p style = 'font-size:20px'> Vamos renomear algumas colunas.</p>
* <p style = 'font-size:20px'> Podemos enxergar que nosso DF possui um defeito: o nome de certas colunas possui um espaço indesejado como último caractere. </p>

In [179]:
df.columns

Index(['GRE Score', 'TOEFL Score', 'University Rating', 'SOP', 'LOR ', 'CGPA',
       'Research', 'Chance of Admit '],
      dtype='object')

* <p style = 'font-size:20px'> Podemos utilizar o argumento mapper juntamente com str.strip para retirarmos esse espaço.  </p>

In [180]:
# Agora, não temos mais o espaço
df.rename(mapper = str.strip, axis = 1, inplace = True)
df.columns

Index(['GRE Score', 'TOEFL Score', 'University Rating', 'SOP', 'LOR', 'CGPA',
       'Research', 'Chance of Admit'],
      dtype='object')

* <p style ='font-size:20px'> Vamos transformar algumas siglas das colunas em nomes por extenso. </p>

In [183]:
d = {'SOP': 'Statement of Purpose' , 'LOR':'Letter of Recommendation'}
df.rename(columns = d, inplace = True)
df.head()

Unnamed: 0_level_0,GRE Score,TOEFL Score,University Rating,Statement of Purpose,Letter of Recommendation,CGPA,Research,Chance of Admit
Serial No.,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
1,337,118,4,4.5,4.5,9.65,1,0.92
2,324,107,4,4.0,4.5,8.87,1,0.76
3,316,104,3,3.0,3.5,8.0,1,0.72
4,322,110,3,3.5,2.5,8.67,1,0.8
5,314,103,2,2.0,3.0,8.21,0,0.65


<p style = 'font-size:30px'> <strong> Recorte de DF (boolean masking)</strong> </p>

* <p style = 'font-size:20px'> Assim como nas Series e em arrays do numpy, podemos selecionar determinados trechos de nossos DataFrames com base em um critério. </p>

In [128]:
import pandas as pd
df = pd.read_csv('Admission_Predict (1).csv', index_col = 0)
d = {'SOP': 'Statement of Purpose' , 'LOR':'Letter of Recommendation'}
df.rename(mapper = str.strip, axis = 1, inplace = True)
df.rename(columns = d, inplace = True)

* <p style = 'font-size:20px'> Vamos selecionar os estudantes com mais de 110 pontos no TOELF. </p>

In [134]:
# Esse recorte é feito com base na Series booleana produzida com a imposição de uma condição a uma determinada coluna.
# No nosso caso, queremos os valores de 'TOEFL Score' acima de 110.
df['TOEFL Score'] > 110

Serial No.
1       True
2      False
3      False
4      False
5      False
       ...  
396    False
397    False
398     True
399    False
400     True
Name: TOEFL Score, Length: 400, dtype: bool

In [137]:
# Vamos utilizar essa Series booleana como parâmetro de recorte de nosso DataFrame.
# O Python selecionará apenas as linhas que retornem True.
df[df['TOEFL Score']>110]

Unnamed: 0_level_0,GRE Score,TOEFL Score,University Rating,Statement of Purpose,Letter of Recommendation,CGPA,Research,Chance of Admit
Serial No.,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
1,337,118,4,4.5,4.5,9.65,1,0.92
6,330,115,5,4.5,3.0,9.34,1,0.90
12,327,111,4,4.0,4.5,9.00,1,0.84
13,328,112,4,4.0,4.5,9.10,1,0.78
22,325,114,4,3.0,2.0,8.40,0,0.70
...,...,...,...,...,...,...,...,...
386,335,117,5,5.0,5.0,9.82,1,0.96
393,326,112,4,4.0,3.5,9.12,1,0.84
395,329,111,4,4.5,4.0,9.23,1,0.89
398,330,116,4,5.0,4.5,9.45,1,0.91


* <p style = 'font-size:20px'> Podemos também impor mais de uma condição em nosso fatiamento,</p>

In [151]:
# Atenção: as condições devem estar contidas entre parênteses.
# Devemos semppre utilizar os operados lógicos & ou |
df[(df['TOEFL Score']> 110 ) & (df['GRE Score'] > 330)].head()

Unnamed: 0_level_0,GRE Score,TOEFL Score,University Rating,Statement of Purpose,Letter of Recommendation,CGPA,Research,Chance of Admit
Serial No.,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
1,337,118,4,4.5,4.5,9.65,1,0.92
24,334,119,5,5.0,4.5,9.7,1,0.95
25,336,119,5,4.0,3.5,9.8,1,0.97
26,340,120,5,4.5,4.5,9.6,1,0.94
33,338,118,4,3.0,4.5,9.4,1,0.91


<p style = 'font-size:30px'> <em> gt, lt</em> </p>

* <p style = 'font-size:20px'> Podemos utilizar também as funções gt (greater than) e lt (less than) para fazermos o recorte booleano. </p>

In [158]:
df[(df['TOEFL Score'].gt(110)) & (df['University Rating'].lt(3))] 

Unnamed: 0_level_0,GRE Score,TOEFL Score,University Rating,Statement of Purpose,Letter of Recommendation,CGPA,Research,Chance of Admit
Serial No.,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
76,329,114,2,2.0,4.0,8.56,1,0.72
139,326,116,2,4.5,3.0,9.08,1,0.8
142,332,118,2,4.5,3.5,9.36,1,0.9
145,325,112,2,3.0,3.5,8.96,1,0.8
146,320,113,2,2.0,2.5,8.64,1,0.81


<p style = 'font-size:30px'> <strong> Indexação de DataFrames</strong> </p>

* <p style = 'font-size:20px'> O pandas possui uma série de funcionalidades de indexação. </p>

In [167]:
import pandas as pd
df = pd.read_csv('Admission_Predict (1).csv', index_col = 0)
df.rename(mapper = str.strip, axis = 1, inplace = True)
df.rename(columns =d , inplace= True)
df.head()

Unnamed: 0_level_0,GRE Score,TOEFL Score,University Rating,Statement of Purpose,Letter of Recommendation,CGPA,Research,Chance of Admit
Serial No.,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
1,337,118,4,4.5,4.5,9.65,1,0.92
2,324,107,4,4.0,4.5,8.87,1,0.76
3,316,104,3,3.0,3.5,8.0,1,0.72
4,322,110,3,3.5,2.5,8.67,1,0.8
5,314,103,2,2.0,3.0,8.21,0,0.65


In [170]:
# Digamos que nós quiséssemos colocar a colunas 'Chance of Admit' como nosso index
# Poderíamos simplesmente utilizar a função set_index, mas isso deletaria as informações do índice atual (Serial No.)
# Para preservarmos essa coluna, teríamos que, primeiro, utilizar a função reset_index para transformarmos o índice
# atual em uma coluna ordinária.

df.reset_index().set_index('Chance of Admit')

Unnamed: 0_level_0,Serial No.,GRE Score,TOEFL Score,University Rating,Statement of Purpose,Letter of Recommendation,CGPA,Research
Chance of Admit,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
0.92,1,337,118,4,4.5,4.5,9.65,1
0.76,2,324,107,4,4.0,4.5,8.87,1
0.72,3,316,104,3,3.0,3.5,8.00,1
0.80,4,322,110,3,3.5,2.5,8.67,1
0.65,5,314,103,2,2.0,3.0,8.21,0
...,...,...,...,...,...,...,...,...
0.82,396,324,110,3,3.5,3.5,9.04,1
0.84,397,325,107,3,3.0,3.5,9.11,1
0.91,398,330,116,4,5.0,4.5,9.45,1
0.67,399,312,103,3,3.5,4.0,8.78,0


<p style = 'font-size:30px'> <em> Indexação Multinível </em> </p>

In [232]:
import pandas as pd
df = pd.read_csv('census.csv')
df.head()

Unnamed: 0,SUMLEV,REGION,DIVISION,STATE,COUNTY,STNAME,CTYNAME,CENSUS2010POP,ESTIMATESBASE2010,POPESTIMATE2010,...,RDOMESTICMIG2011,RDOMESTICMIG2012,RDOMESTICMIG2013,RDOMESTICMIG2014,RDOMESTICMIG2015,RNETMIG2011,RNETMIG2012,RNETMIG2013,RNETMIG2014,RNETMIG2015
0,40,3,6,1,0,Alabama,Alabama,4779736,4780127,4785161,...,0.002295,-0.193196,0.381066,0.582002,-0.467369,1.030015,0.826644,1.383282,1.724718,0.712594
1,50,3,6,1,1,Alabama,Autauga County,54571,54571,54660,...,7.242091,-2.915927,-3.012349,2.265971,-2.530799,7.606016,-2.626146,-2.722002,2.59227,-2.187333
2,50,3,6,1,3,Alabama,Baldwin County,182265,182265,183193,...,14.83296,17.647293,21.845705,19.243287,17.197872,15.844176,18.559627,22.727626,20.317142,18.293499
3,50,3,6,1,5,Alabama,Barbour County,27457,27457,27341,...,-4.728132,-2.50069,-7.056824,-3.904217,-10.543299,-4.874741,-2.758113,-7.167664,-3.978583,-10.543299
4,50,3,6,1,7,Alabama,Bibb County,22915,22919,22861,...,-5.527043,-5.068871,-6.201001,-0.177537,0.177258,-5.088389,-4.363636,-5.403729,0.754533,1.107861


* <p style = 'font-size:20px'> Note que as linhas cujo SUMLEV = 40 representam dados que resumem as estatísticas de um determinado estado </p>
* <p style = 'font-size:20px'> Vamos excluir essas linhas. </p>

In [186]:
df = df[df['SUMLEV'] == 50]
df

Unnamed: 0,SUMLEV,REGION,DIVISION,STATE,COUNTY,STNAME,CTYNAME,CENSUS2010POP,ESTIMATESBASE2010,POPESTIMATE2010,...,RDOMESTICMIG2011,RDOMESTICMIG2012,RDOMESTICMIG2013,RDOMESTICMIG2014,RDOMESTICMIG2015,RNETMIG2011,RNETMIG2012,RNETMIG2013,RNETMIG2014,RNETMIG2015
1,50,3,6,1,1,Alabama,Autauga County,54571,54571,54660,...,7.242091,-2.915927,-3.012349,2.265971,-2.530799,7.606016,-2.626146,-2.722002,2.592270,-2.187333
2,50,3,6,1,3,Alabama,Baldwin County,182265,182265,183193,...,14.832960,17.647293,21.845705,19.243287,17.197872,15.844176,18.559627,22.727626,20.317142,18.293499
3,50,3,6,1,5,Alabama,Barbour County,27457,27457,27341,...,-4.728132,-2.500690,-7.056824,-3.904217,-10.543299,-4.874741,-2.758113,-7.167664,-3.978583,-10.543299
4,50,3,6,1,7,Alabama,Bibb County,22915,22919,22861,...,-5.527043,-5.068871,-6.201001,-0.177537,0.177258,-5.088389,-4.363636,-5.403729,0.754533,1.107861
5,50,3,6,1,9,Alabama,Blount County,57322,57322,57373,...,1.807375,-1.177622,-1.748766,-2.062535,-1.369970,1.859511,-0.848580,-1.402476,-1.577232,-0.884411
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
3188,50,4,8,56,37,Wyoming,Sweetwater County,43806,43806,43593,...,1.072643,16.243199,-5.339774,-14.252889,-14.248864,1.255221,16.243199,-5.295460,-14.075283,-14.070195
3189,50,4,8,56,39,Wyoming,Teton County,21294,21294,21297,...,-1.589565,0.972695,19.525929,14.143021,-0.564849,0.654527,2.408578,21.160658,16.308671,1.520747
3190,50,4,8,56,41,Wyoming,Uinta County,21118,21118,21102,...,-17.755986,-4.916350,-6.902954,-14.215862,-12.127022,-18.136812,-5.536861,-7.521840,-14.740608,-12.606351
3191,50,4,8,56,43,Wyoming,Washakie County,8533,8533,8545,...,-11.637475,-0.827815,-2.013502,-17.781491,1.682288,-11.990126,-1.182592,-2.250385,-18.020168,1.441961


In [233]:
# Vamos manter apenas as colunas que nos interessam
import re
l = ['STNAME', 'CTYNAME']
pattern = 'BIRTHS\d{4}'
for element  in re.findall(pattern,','.join(list(df.columns)) ):
    l.append(element)

pattern2 = 'POPES\w+'
for element  in re.findall(pattern2,','.join(list(df.columns)) ):
    l.append(element)

df = df[l]
df.head()

Unnamed: 0,STNAME,CTYNAME,BIRTHS2010,BIRTHS2011,BIRTHS2012,BIRTHS2013,BIRTHS2014,BIRTHS2015,POPESTIMATE2010,POPESTIMATE2011,POPESTIMATE2012,POPESTIMATE2013,POPESTIMATE2014,POPESTIMATE2015
0,Alabama,Alabama,14226,59689,59062,57938,58334,58305,4785161,4801108,4816089,4830533,4846411,4858979
1,Alabama,Autauga County,151,636,615,574,623,600,54660,55253,55175,55038,55290,55347
2,Alabama,Baldwin County,517,2187,2092,2160,2186,2240,183193,186659,190396,195126,199713,203709
3,Alabama,Barbour County,70,335,300,283,260,269,27341,27226,27159,26973,26815,26489
4,Alabama,Bibb County,44,266,245,259,247,253,22861,22733,22642,22512,22549,22583


In [234]:
# Agora, vamos definir STNAME e CTYNAME como os índices de nosso DF
# Dica, append manterá o índice atual ao se adicionar as novas colunas.
df.set_index(['STNAME', 'CTYNAME'], inplace=True)
df

Unnamed: 0_level_0,Unnamed: 1_level_0,BIRTHS2010,BIRTHS2011,BIRTHS2012,BIRTHS2013,BIRTHS2014,BIRTHS2015,POPESTIMATE2010,POPESTIMATE2011,POPESTIMATE2012,POPESTIMATE2013,POPESTIMATE2014,POPESTIMATE2015
STNAME,CTYNAME,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1
Alabama,Alabama,14226,59689,59062,57938,58334,58305,4785161,4801108,4816089,4830533,4846411,4858979
Alabama,Autauga County,151,636,615,574,623,600,54660,55253,55175,55038,55290,55347
Alabama,Baldwin County,517,2187,2092,2160,2186,2240,183193,186659,190396,195126,199713,203709
Alabama,Barbour County,70,335,300,283,260,269,27341,27226,27159,26973,26815,26489
Alabama,Bibb County,44,266,245,259,247,253,22861,22733,22642,22512,22549,22583
...,...,...,...,...,...,...,...,...,...,...,...,...,...
Wyoming,Sweetwater County,167,640,595,657,629,620,43593,44041,45104,45162,44925,44626
Wyoming,Teton County,76,259,230,261,249,269,21297,21482,21697,22347,22905,23125
Wyoming,Uinta County,73,324,311,316,316,316,21102,20912,20989,21022,20903,20822
Wyoming,Washakie County,26,108,90,95,96,90,8545,8469,8443,8443,8316,8328


In [243]:
# Vamos aprender a consultar o nosso DF com múltiplos níveis
# Podemos passar os nomes dos índices dentro de uma tupla em loc
df.loc[('Michigan', 'Allegan County'), 'BIRTHS2010']

  return self._getitem_tuple(key)


STNAME    CTYNAME       
Michigan  Allegan County    339
Name: BIRTHS2010, dtype: int64

In [242]:
# Podemos também pegar dados de mais de um condado de Michigan
# Devemos fazer esta operação com uma lista de tuplas
df.loc[[('Michigan','Wexford County'), ('Michigan','Tuscola County')]]

Unnamed: 0_level_0,Unnamed: 1_level_0,BIRTHS2010,BIRTHS2011,BIRTHS2012,BIRTHS2013,BIRTHS2014,BIRTHS2015,POPESTIMATE2010,POPESTIMATE2011,POPESTIMATE2012,POPESTIMATE2013,POPESTIMATE2014,POPESTIMATE2015
STNAME,CTYNAME,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1
Michigan,Wexford County,109,441,374,392,443,432,32757,32694,32597,32538,32922,33003
Michigan,Tuscola County,156,506,531,569,538,541,55696,55392,54714,54222,53993,53777


<p style = 'font-size:30px'> <strong> Missing Values</strong> </p>

* <p style = 'font-size:20px'> Os valores nulos são recorrentes no dia a dia de um cientista de dados. Portanto, é essência aprender a lidar com eles. </p>
* <p style = 'font-size:20px'> Vamos importar uma planilha para lidarmos um pouco com os NA's. </p>

In [249]:
import pandas as pd
df = pd.read_csv('class_grades.csv')
df.head()

Unnamed: 0,Prefix,Assignment,Tutorial,Midterm,TakeHome,Final
0,5,57.14,34.09,64.38,51.48,52.5
1,8,95.05,105.49,67.5,99.07,68.33
2,8,83.7,83.17,,63.15,48.89
3,7,,,49.38,105.93,80.56
4,8,91.32,93.64,95.0,107.41,73.89


In [251]:
# Podemos verificar a existência de valores NA/None com o método isnull.
# Ele nos devolve uma máscara booleana do DF, com True para os valores nulos.
df.isnull().head()

Unnamed: 0,Prefix,Assignment,Tutorial,Midterm,TakeHome,Final
0,False,False,False,False,False,False
1,False,False,False,False,False,False
2,False,False,False,True,False,False
3,False,True,True,False,False,False
4,False,False,False,False,False,False


In [253]:
# O pandas possui também a função dropna, que exclui as linhas com valores nulos.
# Aqui, é nítido que as linhas 2 e 3 foram apagadas.
df.dropna().head()

Unnamed: 0,Prefix,Assignment,Tutorial,Midterm,TakeHome,Final
0,5,57.14,34.09,64.38,51.48,52.5
1,8,95.05,105.49,67.5,99.07,68.33
4,8,91.32,93.64,95.0,107.41,73.89
5,7,95.0,92.58,93.12,97.78,68.06
6,8,95.05,102.99,56.25,99.07,50.0


In [255]:
# Se quiséssemos substituir os valores NA por um específico, podemos utilizar fillna.
# Vamos trocar NA em todo o nosso DF por 0.
df.fillna(0).head()

Unnamed: 0,Prefix,Assignment,Tutorial,Midterm,TakeHome,Final
0,5,57.14,34.09,64.38,51.48,52.5
1,8,95.05,105.49,67.5,99.07,68.33
2,8,83.7,83.17,0.0,63.15,48.89
3,7,0.0,0.0,49.38,105.93,80.56
4,8,91.32,93.64,95.0,107.41,73.89


<p style = 'font-size:30px'> <em> ffill, bfill </em> </p>

* <p style = 'font-size:20px'> Podemos utilizar estes métodos nas funções fillna.</p>
* <p style = 'font-size:20px'> ffill: pega o último valor válido para substituir os NA's subsequentes. </p>
* <p style = 'font-size:20px'> bfill: pega o valor válido de baixo mais próximo para substituir os NA's de cima. </p>

In [273]:
df = pd.read_csv('log.csv', index_col = [0,1]).sort_index()
df.fillna(method = 'ffill').head(10)

Unnamed: 0_level_0,Unnamed: 1_level_0,video,playback position,paused,volume
time,user,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
1469974424,cheryl,intro.html,5,False,10.0
1469974424,sue,advanced.html,23,False,10.0
1469974454,cheryl,intro.html,6,False,10.0
1469974454,sue,advanced.html,24,False,10.0
1469974484,cheryl,intro.html,7,False,10.0
1469974514,cheryl,intro.html,8,False,10.0
1469974524,sue,advanced.html,25,False,10.0
1469974544,cheryl,intro.html,9,False,10.0
1469974554,sue,advanced.html,26,False,10.0
1469974574,cheryl,intro.html,10,False,10.0


<p style = 'font-size:30px'> <em> replace</em> </p>

In [277]:
# O replace do pandas possui uma atuação mais abrangente e pode substituir qualquer valor de um DF.
import numpy as np
df = pd.DataFrame({'A':np.random.randint(0,10,5),
                  'B':np.random.randint(0,10,5),
                  'C': np.random.randint(0,10,5)})
df

Unnamed: 0,A,B,C
0,2,7,5
1,1,1,1
2,2,1,7
3,5,1,2
4,2,2,2


In [285]:
# Vamos trocar todos os valores 2 por 500 e todos os 5 por 300
d = {2:500, 5:300}
df.replace(d)

Unnamed: 0,A,B,C
0,500,7,300
1,1,1,1
2,500,1,7
3,300,1,500
4,500,500,500


* <p style = 'font-size:20px'> Voltemos ao DF de log.csv </p>
* <p style = 'font-size:20px'> O método <em> replace </em> também suporta expressões regulares </p>

In [299]:
# Vamos trocar a expressão 'intro', de 'intro.html', por basic
# Note como o pandas é cirúgico em substituir apenas a porção que nós desejamos:
df = pd.read_csv('log.csv', index_col =[0,1]).sort_index()
df.replace('intro+', 'basic', regex = True)

Unnamed: 0_level_0,Unnamed: 1_level_0,video,playback position,paused,volume
time,user,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
1469974424,cheryl,basic.html,5,False,10.0
1469974424,sue,advanced.html,23,False,10.0
1469974454,cheryl,basic.html,6,,
1469974454,sue,advanced.html,24,,
1469974484,cheryl,basic.html,7,,
1469974514,cheryl,basic.html,8,,
1469974524,sue,advanced.html,25,,
1469974544,cheryl,basic.html,9,,
1469974554,sue,advanced.html,26,,
1469974574,cheryl,basic.html,10,,


<p style = 'font-size:30px'> <strong> Manipulação de um DataFrame </strong> </p>

In [428]:
import pandas as pd
presidents = pd.read_csv('presidents.csv')
presidents.head()

Unnamed: 0,#,President,Born,Age atstart of presidency,Age atend of presidency,Post-presidencytimespan,Died,Age
0,1,George Washington,"Feb 22, 1732[a]","57 years, 67 daysApr 30, 1789","65 years, 10 daysMar 4, 1797","2 years, 285 days","Dec 14, 1799","67 years, 295 days"
1,2,John Adams,"Oct 30, 1735[a]","61 years, 125 daysMar 4, 1797","65 years, 125 daysMar 4, 1801","25 years, 122 days","Jul 4, 1826","90 years, 247 days"
2,3,Thomas Jefferson,"Apr 13, 1743[a]","57 years, 325 daysMar 4, 1801","65 years, 325 daysMar 4, 1809","17 years, 122 days","Jul 4, 1826","83 years, 82 days"
3,4,James Madison,"Mar 16, 1751[a]","57 years, 353 daysMar 4, 1809","65 years, 353 daysMar 4, 1817","19 years, 116 days","Jun 28, 1836","85 years, 104 days"
4,5,James Monroe,"Apr 28, 1758","58 years, 310 daysMar 4, 1817","66 years, 310 daysMar 4, 1825","6 years, 122 days","Jul 4, 1831","73 years, 67 days"


In [371]:
# Vamos aproveitar a coluna 'President' e criar uma coluna com o primeiro nome e outra com o sobrenome dos presidentes.
# Primeiramente, devemos transformar a coluna 'President' em uma string para o módulo re analisar
a = ','.join(list(presidents['President']))
# Eis aqui uma string com os nomes de todos os presidentes dos EUA.
a

'George Washington,John Adams,Thomas Jefferson,James Madison,James Monroe,John Quincy Adams,Andrew Jackson,Martin Van Buren,William H. Harrison,John Tyler,James K. Polk,Zachary Taylor,Millard Fillmore,Franklin Pierce,James Buchanan,Abraham Lincoln,Andrew Johnson,Ulysses S. Grant,Rutherford B. Hayes,James A. Garfield,Chester A. Arthur,Grover Cleveland,Benjamin Harrison,Grover Cleveland,William McKinley,Theodore Roosevelt,William H. Taft,Woodrow Wilson,Warren G. Harding,Calvin Coolidge,Herbert Hoover,Franklin D. Roosevelt,Harry S. Truman,Dwight D. Eisenhower,John F. Kennedy,Lyndon B. Johnson,Richard Nixon,Gerald Ford,Jimmy Carter,Ronald Reagan,George H. W. Bush,Bill Clinton,George W. Bush,Barack Obama'

In [386]:
# Agora, vamos aplicar um padrão de re e obter a separação desejada
import re
pattern = '(\w+) ([\w]. )?([\w\s]+)'
names = re.findall(pattern, a) 

first_name = []
last_name = []
for first, optional, surname in names:
    first_name.append(first)
    last_name.append(surname)
    
    
presidents.insert(2,'First Name', first_name)
presidents.insert(3, 'Last Name', last_name)
presidents.head()

Unnamed: 0,#,President,First Name,Last Name,Born,Age atstart of presidency,Age atend of presidency,Post-presidencytimespan,Died,Age
0,1,George Washington,George,Washington,"Feb 22, 1732[a]","57 years, 67 daysApr 30, 1789","65 years, 10 daysMar 4, 1797","2 years, 285 days","Dec 14, 1799","67 years, 295 days"
1,2,John Adams,John,Adams,"Oct 30, 1735[a]","61 years, 125 daysMar 4, 1797","65 years, 125 daysMar 4, 1801","25 years, 122 days","Jul 4, 1826","90 years, 247 days"
2,3,Thomas Jefferson,Thomas,Jefferson,"Apr 13, 1743[a]","57 years, 325 daysMar 4, 1801","65 years, 325 daysMar 4, 1809","17 years, 122 days","Jul 4, 1826","83 years, 82 days"
3,4,James Madison,James,Madison,"Mar 16, 1751[a]","57 years, 353 daysMar 4, 1809","65 years, 353 daysMar 4, 1817","19 years, 116 days","Jun 28, 1836","85 years, 104 days"
4,5,James Monroe,James,Monroe,"Apr 28, 1758","58 years, 310 daysMar 4, 1817","66 years, 310 daysMar 4, 1825","6 years, 122 days","Jul 4, 1831","73 years, 67 days"


<p style = 'font-size:30px'> <em>str.extract</em> </p>

* <p style = 'font-size:20px'> Essa função é capaz de extrair agrupamentos de expressões regulares de uma coluna de DF e criar um novo Dataframe, em que cada coluna será um dos grupos definidos pelo padrão procurado. </p>
* <p style = 'font-size:20px'> Com ela, não precisaremos tornar a coluna em uma string, como no caso anterior. </p>

In [380]:
# Vamos excluir aquelas colunas criadas em nossa última tarefa
presidents.drop(columns = ['Last Name', 'First Name'], inplace=True)

In [387]:
# Agora, vamos utilizar a função str.extract para a coluna 'President'
# O nome de um grupo se tornará título de coluna
pattern = '(?P<First>\w+) ([\w]. )?(?P<Last>[\w\s]+)'
presidents['President'].str.extract(pattern).head()

Unnamed: 0,First,1,Last
0,George,,Washington
1,John,,Adams
2,Thomas,,Jefferson
3,James,,Madison
4,James,,Monroe


<p style = 'font-size:30px'> <em> Extraindo datas</em> </p>

In [426]:
# A coluna 'Born' de presidents possui a data de nascimento de cada presidente americano.
# No entanto, algumas datas possuem um símbolo de observação da Wikipedia. Para filtrá-lo de 'Born', temos que
# utilizar regular expressions.
    
pattern = '(?P<Data_of_Birth>\w{3} \d{1,2}, \d{4})'
presidents = presidents.assign(Born=presidents['Born'].str.extract(pattern))

In [427]:
# Agora, podemos converter o tipo de 'Born' para datetime
# Et voilà!
presidents['Born'] = pd.to_datetime(presidents['Born'])
presidents.head()

Unnamed: 0,#,President,Born,Age atstart of presidency,Age atend of presidency,Post-presidencytimespan,Died,Age
0,1,George Washington,1732-02-22,"57 years, 67 daysApr 30, 1789","65 years, 10 daysMar 4, 1797","2 years, 285 days","Dec 14, 1799","67 years, 295 days"
1,2,John Adams,1735-10-30,"61 years, 125 daysMar 4, 1797","65 years, 125 daysMar 4, 1801","25 years, 122 days","Jul 4, 1826","90 years, 247 days"
2,3,Thomas Jefferson,1743-04-13,"57 years, 325 daysMar 4, 1801","65 years, 325 daysMar 4, 1809","17 years, 122 days","Jul 4, 1826","83 years, 82 days"
3,4,James Madison,1751-03-16,"57 years, 353 daysMar 4, 1809","65 years, 353 daysMar 4, 1817","19 years, 116 days","Jun 28, 1836","85 years, 104 days"
4,5,James Monroe,1758-04-28,"58 years, 310 daysMar 4, 1817","66 years, 310 daysMar 4, 1825","6 years, 122 days","Jul 4, 1831","73 years, 67 days"
