#  Pandas e manipulação de dados 

### Manipulação de dados com "Pandas"

- Pandas nos permite carregar o dados muito facilmente, explorar as variáveis, e fazer gráficos com matplotlib.
- Este pacote fornece estruturas de dados e funções ricas projetadas para tornar o trabalho dados estruturados rápidos, fáceis e expressivos. E, como você verá, um dos ingredientes críticos permitindo que o Python seja um ambiente de análise de dados poderoso e produtivo.

**1. Introdução a estrutura de dados**
- Para começar com pandas, você precisará se sentir confortável com suas estruturas de dados: `Series` e `DataFrame`. Embora não sejam uma solução universal para problema, eles fornecem uma base sólida e fácil de usar para a maioria das aplicações.

**1.1 `Series`**
- A Series é um objeto de tipo matriz unidimensional contendo uma matriz de dados (de NumPy tipo de dados) e uma matriz associada de rótulos de dados, chamado seu índice. A série mais simples é formada apenas a partir de uma matriz de dados:

In [11]:
import pandas as pd

In [12]:
obj = pd.Series([4, 7, -5, 3])

In [13]:
obj

0    4
1    7
2   -5
3    3
dtype: int64

- A representação de sequência de caracteres de uma série exibida interativamente mostra o índice à esquerda e os valores à direita. Como não especificamos um índice para os dados, é criado um padrão consistindo nos inteiros 0 a N-1 (onde N é o comprimento dos dados). Você pode obter a representação de matriz eo objeto de índice da Série por meio de seus valores e atributos de índice, respectivamente:

In [14]:
obj.values

array([ 4,  7, -5,  3])

In [17]:
obj.index

RangeIndex(start=0, stop=4, step=1)

- Muitas vezes, será desejável criar uma Série com um índice identificando cada ponto de dados:

In [19]:
obj2 = pd.Series([4, 7, -5, 3], index=['d', 'b', 'a', 'c'])

In [20]:
obj2

d    4
b    7
a   -5
c    3
dtype: int64

- Existem pelo menos 3 maneiras de acessar os elementos de uma série:

In [21]:
obj2['a'] # acessando pela chave usando a notação de dicionários

-5

In [22]:
obj2.a # acessando pela chave usando a notação de objetos de uma classe

-5

In [24]:
obj.iloc[2] # acessando pela posição

-5

### Operações com `Series`

In [25]:
obj2 * 2

d     8
b    14
a   -10
c     6
dtype: int64

In [26]:
obj2[obj2>0] # seleciona os positivos`

d    4
b    7
c    3
dtype: int64

In [27]:
obj2>0

d     True
b     True
a    False
c     True
dtype: bool



## DataFrames

- São generalizações de Séries, onde temos uma lista de séries concatenadas. 

In [28]:
import pandas as pd

## Criando DataFrames

In [29]:
dict=[{'Nome': 'Ney', 'Profissao': 'Professor'}, {'Nome': 'Bruna Marquezini', 'Profissao': 'Atriz'}]

In [30]:
df=pd.DataFrame(dict)

**df** será um objeto **DataFrame**. Você pode pensar neste objeto mantendo o conteúdo do listaindex  em um formato semelhante a uma tabela sql ou uma planilha do Excel. Vamos dar uma olhada abaixo no conteúdo dentro df .

In [31]:
df

Unnamed: 0,Nome,Profissao
0,Ney,Professor
1,Bruna Marquezini,Atriz


In [32]:
dict=[{'char': chr(i), 'num': i } for i in range(48,122)]

In [10]:
dict

[{'char': '0', 'num': 48},
 {'char': '1', 'num': 49},
 {'char': '2', 'num': 50},
 {'char': '3', 'num': 51},
 {'char': '4', 'num': 52},
 {'char': '5', 'num': 53},
 {'char': '6', 'num': 54},
 {'char': '7', 'num': 55},
 {'char': '8', 'num': 56},
 {'char': '9', 'num': 57},
 {'char': ':', 'num': 58},
 {'char': ';', 'num': 59},
 {'char': '<', 'num': 60},
 {'char': '=', 'num': 61},
 {'char': '>', 'num': 62},
 {'char': '?', 'num': 63},
 {'char': '@', 'num': 64},
 {'char': 'A', 'num': 65},
 {'char': 'B', 'num': 66},
 {'char': 'C', 'num': 67},
 {'char': 'D', 'num': 68},
 {'char': 'E', 'num': 69},
 {'char': 'F', 'num': 70},
 {'char': 'G', 'num': 71},
 {'char': 'H', 'num': 72},
 {'char': 'I', 'num': 73},
 {'char': 'J', 'num': 74},
 {'char': 'K', 'num': 75},
 {'char': 'L', 'num': 76},
 {'char': 'M', 'num': 77},
 {'char': 'N', 'num': 78},
 {'char': 'O', 'num': 79},
 {'char': 'P', 'num': 80},
 {'char': 'Q', 'num': 81},
 {'char': 'R', 'num': 82},
 {'char': 'S', 'num': 83},
 {'char': 'T', 'num': 84},
 

In [33]:
df=pd.DataFrame(dict)

In [34]:
df

Unnamed: 0,char,num
0,0,48
1,1,49
2,2,50
3,3,51
4,4,52
5,5,53
6,6,54
7,7,55
8,8,56
9,9,57


In [72]:
df[['char','num']]

Unnamed: 0,char,num
0,0,48
1,1,49
2,2,50
3,3,51
4,4,52
5,5,53
6,6,54
7,7,55
8,8,56
9,9,57


Para criar uma nova coluna de dados é fácil.

In [35]:
df['binario']=df['num'].apply(bin)

`apply` nesse caso aplica uma função em cada elemento da série. 

In [36]:
bin(23)

'0b10111'

In [37]:
df[['num','binario']]

Unnamed: 0,num,binario
0,48,0b110000
1,49,0b110001
2,50,0b110010
3,51,0b110011
4,52,0b110100
5,53,0b110101
6,54,0b110110
7,55,0b110111
8,56,0b111000
9,57,0b111001


Para acessar os dados pelo índice.

In [42]:
df.iloc[30]


char               N
num               78
binario    0b1001110
Name: 30, dtype: object

**3. Exportar arquivos em csv com pandas**
- Exporte o dataframe para um arquivo csv . Podemos nomear o arquivo dicchar.csv . A função to_csv será usada para exportar o arquivo. O arquivo será salvo no mesmo local do notebook, a menos que especificado de outra forma.

In [43]:
df.to_csv ( 'dicchar.csv' , index = False , header = True)

In [44]:
!more dicchar.csv


char,num,binario
0,48,0b110000
1,49,0b110001
2,50,0b110010
3,51,0b110011
4,52,0b110100
5,53,0b110101
6,54,0b110110
7,55,0b110111
8,56,0b111000
9,57,0b111001
:,58,0b111010
;,59,0b111011
<,60,0b111100
=,61,0b111101
>,62,0b111110
?,63,0b111111
@,64,0b1000000
A,65,0b1000001
B,66,0b1000010
C,67,0b1000011
D,68,0b1000100
E,69,0b1000101
[7m--More--(29%)[m

- Podemos exportar arquivos em em excel ou leitura colocando no **.xls** ou **.txt** no lugar do csv no exemplo a cima.

**4. Obter dados**

In [1]:
!ls -la > teste.txt

In [2]:
file=open('teste.txt','r')
data=[]
for line in file:
    data=data+[line.split()]
data=data[1:]

In [3]:
data[0]

['drwxr-xr-x', '3', 'user', 'user', '22', 'May', '3', '17:27', '.']

In [4]:
import pandas as pd

In [5]:
filedict=[{'perm': list[0],  'group': list[1], 'user': list[2], 'usercode': list[3],
           'filesize': list[4],
  'month': list[5], 'day': list[6], 'hour': list[7], 'filename':list[8]} for list in data]
df=pd.DataFrame(filedict)
df

Unnamed: 0,day,filename,filesize,group,hour,month,perm,user,usercode
0,3,.,22,3,17:27,May,drwxr-xr-x,user,user
1,3,..,33,23,16:00,May,drwxr-xr-x,user,user
2,3,.Aula24.04.2017.ipynb.sage-jupyter2,112047,1,16:01,May,-rw-r--r--,user,user
3,3,.Aula9.ipynb.sage-jupyter2,89550,1,17:29,May,-rw-r--r--,user,user
4,1,.python.dados.pandas.ipynb.sage-jupyter2,23468,1,16:34,May,-rw-r--r--,user,user
5,3,Aula9.ipynb,125193,1,17:29,May,-rw-r--r--,user,user
6,3,DUE_DATE.txt,46,1,16:43,May,-rw-r--r--,user,user
7,1,arq_abr_outuno.txt,406,1,16:46,Mar,-rw-r--r--,user,user
8,1,arq_ago_inverno.txt,1121,1,16:46,Mar,-rw-r--r--,user,user
9,1,arq_dez_primavera.txt,1220,1,16:46,Mar,-rw-r--r--,user,user


**- Quantos arquivos são escondidos?**

In [22]:
!ls -la 

total 141
drwxr-xr-x  3 user user     21 May  1 16:45 .
drwxr-xr-x 23 user user     33 May  1 16:37 ..
-rw-r--r--  1 user user 109663 May  1 16:35 .Aula24.04.2017.ipynb.sage-jupyter2
-rw-r--r--  1 user user  87757 May  1 16:45 .Aula9.ipynb.sage-jupyter2
-rw-r--r--  1 user user  23468 May  1 16:34 .python.dados.pandas.ipynb.sage-jupyter2
-rw-r--r--  1 user user 156331 May  1 16:45 Aula24.04.2017.ipynb
-rw-r--r--  1 user user 127072 May  1 16:45 Aula9.ipynb
-rw-r--r--  1 user user    406 Mar  1 16:46 arq_abr_outuno.txt
-rw-r--r--  1 user user   1121 Mar  1 16:46 arq_ago_inverno.txt
-rw-r--r--  1 user user   1220 Mar  1 16:46 arq_dez_primavera.txt
-rw-r--r--  1 user user    684 Mar  1 16:46 arq_fev_verao.txt
-rw-r--r--  1 user user   1368 Mar  1 16:46 arq_jan_verao.txt
-rw-r--r--  1 user user    885 Mar  1 16:46 arq_jul_inverno.txt
-rw-r--r--  1 user user   1276 Mar  1 16:46 arq_jun_outuno.txt
-rw-r--r--  1 user user   1102 Mar  1 16:46 arq_mai_outuno.txt
-rw-r--r--  1 use

In [8]:
df['filename']

0                                            .
1                                           ..
2          .Aula24.04.2017.ipynb.sage-jupyter2
3                   .Aula9.ipynb.sage-jupyter2
4     .python.dados.pandas.ipynb.sage-jupyter2
5                                  Aula9.ipynb
6                                 DUE_DATE.txt
7                           arq_abr_outuno.txt
8                          arq_ago_inverno.txt
9                        arq_dez_primavera.txt
10                           arq_fev_verao.txt
11                           arq_jan_verao.txt
12                         arq_jul_inverno.txt
13                          arq_jun_outuno.txt
14                          arq_mai_outuno.txt
15                           arq_mar_verao.txt
16                       arq_nov_primavera.txt
17                       arq_out_primavera.txt
18                       arq_set_primavera.txt
19                               cookbook-data
20                                 dicchar.csv
21           

In [6]:

[filename for filename  in df['filename'] if filename[0]=="."]

['.',
 '..',
 '.Aula24.04.2017.ipynb.sage-jupyter2',
 '.Aula9.ipynb.sage-jupyter2',
 '.python.dados.pandas.ipynb.sage-jupyter2']

In [7]:
len([filename for filename  in df['filename'] if filename[0]=="."])

5

**Quantos não são diretórios?**

In [9]:
df['perm'] 

0     drwxr-xr-x
1     drwxr-xr-x
2     -rw-r--r--
3     -rw-r--r--
4     -rw-r--r--
5     -rw-r--r--
6     -rw-r--r--
7     -rw-r--r--
8     -rw-r--r--
9     -rw-r--r--
10    -rw-r--r--
11    -rw-r--r--
12    -rw-r--r--
13    -rw-r--r--
14    -rw-r--r--
15    -rw-r--r--
16    -rw-r--r--
17    -rw-r--r--
18    -rw-r--r--
19    drwxr-xr-x
20    -rw-r--r--
21    -rw-r--r--
Name: perm, dtype: object

In [25]:
len([perm for perm  in df['perm'] if perm[0]=="-"])

18

**- Qual é o maior arquivo? Qual é o menor?** 

In [10]:
df['filesize']

0         22
1         33
2     112047
3      89550
4      23468
5     125193
6         46
7        406
8       1121
9       1220
10       684
11      1368
12       885
13      1276
14      1102
15       342
16      1586
17       610
18       610
19         2
20      1133
21         0
Name: filesize, dtype: object

In [11]:
(df['filesize'].max(),df['filesize'].min())

('89550', '0')

Ops ...

In [17]:
filedict=[{'perm': list[0],  'group': list[1], 'user': list[2], 'usercode': list[3],
           'filesize': int(list[4]),
  'month': list[5], 'day': list[6], 'hour': list[7], 'filename':list[8]} for list in data]
df=pd.DataFrame(filedict)

maxi,mini=(df['filesize'].max(),df['filesize'].min())

In [14]:
"O maior arquivo possui  {} bytes, o menor {} bytes".format(maxi,mini)

'O maior arquivo possui  125193 bytes, o menor 0 bytes'

**- Quantos arquivos  são notebooks?**

In [15]:
len([filename for filename  in df['filename'] if filename[-6:]==".ipynb"])

1

In [18]:
df

Unnamed: 0,day,filename,filesize,group,hour,month,perm,user,usercode
0,3,.,22,3,17:27,May,drwxr-xr-x,user,user
1,3,..,33,23,16:00,May,drwxr-xr-x,user,user
2,3,.Aula24.04.2017.ipynb.sage-jupyter2,112047,1,16:01,May,-rw-r--r--,user,user
3,3,.Aula9.ipynb.sage-jupyter2,89550,1,17:29,May,-rw-r--r--,user,user
4,1,.python.dados.pandas.ipynb.sage-jupyter2,23468,1,16:34,May,-rw-r--r--,user,user
5,3,Aula9.ipynb,125193,1,17:29,May,-rw-r--r--,user,user
6,3,DUE_DATE.txt,46,1,16:43,May,-rw-r--r--,user,user
7,1,arq_abr_outuno.txt,406,1,16:46,Mar,-rw-r--r--,user,user
8,1,arq_ago_inverno.txt,1121,1,16:46,Mar,-rw-r--r--,user,user
9,1,arq_dez_primavera.txt,1220,1,16:46,Mar,-rw-r--r--,user,user


## Exercícios

1. Quando foi criado o primeiro arquivo?
2. Quantos arquivos possuem nomes com mais do que 5 caracteres? 

## Datas

### Trabalhar com datas 
O módulo datetime possui dentro de si uma classe date definida. Nessa classe, existem alguns métodos para manipulação de datas, como a função today, que retorna um objeto do tipo `datetime.date`

In [19]:
from datetime import date, timedelta,datetime

In [20]:
hj=date.today()
print(hj)

2019-05-03


Um comando útil para ordenar datas é: 

In [21]:
print(hj.toordinal())

737182


### Trabalhar com  Tempos

Para instantes do tempo, temos  que trabalhar com a classe `datetime`. 

In [22]:
agora=datetime.now()
agora.timestamp()


1556905937.332182

In [23]:
agora

datetime.datetime(2019, 5, 3, 17, 52, 17, 332182)

Para descobrir uma data no futuro. 

In [24]:
futuro=hj+timedelta(days=45) # hoje + 45 dias
print(futuro)

2019-06-17


Para descobrir um dia da semana:

In [26]:
hj.weekday()

4

In [27]:
dias = ('Segunda-feira', 'Terça-feira', 'Quarta-feira', 'Quinta-feira', 'Sexta-feira', 'Sábado', 'Domingo')
print ("Hoje é", dias[hj.weekday()])

Hoje é Sexta-feira


In [11]:
hj.weekday()

0

In [28]:
niver=date(2019,9,21)

In [29]:
"Faltam {} dias para o meu aniversário. E ele vai cair em uma  {}".format((niver-hj).days  ,dias[niver.weekday()])

'Faltam 141 dias para o meu aniversário. E ele vai cair em uma  Sábado'

## Impressão de Datas

Para descobrir as datas das próximas aulas de Física Computracional

In [31]:
aula=date(2019,5,3)
lisdatas=[aula+timedelta(weeks=delay)  for delay in range(1,6) ]
lisdatas

[datetime.date(2019, 5, 10),
 datetime.date(2019, 5, 17),
 datetime.date(2019, 5, 24),
 datetime.date(2019, 5, 31),
 datetime.date(2019, 6, 7)]

Interessante mas difícil de ler. Para esses e muitas outras coisas é que temos 
o comando `strftime`. 

In [32]:
datetime.strftime(lisdatas[0], "%d/%m/%y")

'10/05/19'

O segundo argumento é misterioso mas ele indica o formato que será impressa a data. Nesse
caso dia/mes/ano. 

In [33]:

lisdatas=[datetime.strftime(aula+timedelta(weeks=delay), "%d/%m/%y")  for delay in range(0,9) ]
lisdatas

['03/05/19',
 '10/05/19',
 '17/05/19',
 '24/05/19',
 '31/05/19',
 '07/06/19',
 '14/06/19',
 '21/06/19',
 '28/06/19']

A tabela abaixo mostra as opções para formatação. 

| Directive | 	Meaning | 	Example |
|-----------|-----------|-------------|
| %a| 	Weekday as locale’s abbreviated name | Sun, Mon, ..., Sat (en_US)|  So, Mo, ..., Sa (de_DE)  |
| %A| 	Weekday as locale’s full name.	| Sunday, Monday, ..., Saturday (en_US);| Sonntag, Montag, ..., Samstag (de_DE)|
| %w| 	Weekday as a decimal number, where 0 is Sunday and 6 is Saturday.|	0, 1, ..., 6	 |
| %d|	Day of the month as a zero-padded decimal number..|	01, 02, ..., 31	 |
| %b|	Month as locale’s abbreviated name.	 Jan, Feb, ..., Dec (en_US);| Jan, Feb, ..., Dez (de_DE)|
| %B|	Month as locale’s full name.|	 January, February, ..., December (en_US); Januar, Februar, ..., Dezember (de_DE)|
| %m|	Month as a zero-padded decimal number.|	01, 02, ..., 12	  %y	Year without century as a zero-padded decimal number.	00, 01, ..., 99	 | %Y|	Year with century as a decimal number.|	0001, 0002, ..., 2013, 2014, ..., 9998, 9999	(2) %H	Hour (24-hour clock) as a zero-padded decimal number.|	00, 01, ..., 23	 |
| %I|	Hour (12-hour clock) as a zero-padded decimal number.|	01, 02, ..., 12	  %p	Locale’s equivalent of either AM or PM.	 AM, PM (en_US); am, pm (de_DE)|
| %M|	Minute as a zero-padded decimal number.|	00, 01, ..., 59	 |
| %S|	Second as a zero-padded decimal number.|	00, 01, ..., 59	|
| %f|	Microsecond as a decimal number, zero-padded on the left.|	000000, 000001, ..., 999999	|
| %z|	UTC offset in the form +HHMM or -HHMM (empty string if the object is naive).	(empty),| +0000, -0400, +1030|
| %Z|	Time zone name (empty string if the object is naive).	(empty),| UTC, EST, CST	 |
| %j|	Day of the year as a zero-padded decimal number.|	001, 002, ..., 366	 |
| %U|	Week number of the year (Sunday as the first day of the week) as a zero padded decimal number. All days in a new year preceding the first Sunday are considered to be in week 0.|	00, 01, ..., 53	|
| %W|	Week number of the year (Monday as the first day of the week) as a decimal number. All days in a new year preceding the first Monday are considered to be in week 0.|	00, 01, ..., 53	|
| %c|	Locale’s appropriate date and time representation.|	 Tue Aug 16 21:30:00 1988 (en_US); Di 16 Aug 21:30:00 1988 (de_DE)|
| %x|	Locale’s appropriate date representation.|	 08/16/88 (None); 08/16/1988 (en_US); 16.08.1988 (de_DE)|
| %X|	Locale’s appropriate time representation.|	 21:30:00 (en_US); 21:30:00 (de_DE)|
| %%|	A literal '%' character.|	%	 |

A função  `strptime` faz o caminho reverso e importa dados com um determinado formato. 

In [35]:
datalegal=datetime.strptime("21/11/06 16:30", "%d/%m/%y %H:%M")

In [36]:
datalegal.strftime("%B") 

'November'

In [37]:

datalegal.strftime("%b") 

'Nov'

##  Arquivo mais Antigo Revisitado

Primeiro crio uma coluna extra nos dados combinando day, month e hour. 


In [38]:
df

Unnamed: 0,day,filename,filesize,group,hour,month,perm,user,usercode
0,3,.,22,3,17:27,May,drwxr-xr-x,user,user
1,3,..,33,23,16:00,May,drwxr-xr-x,user,user
2,3,.Aula24.04.2017.ipynb.sage-jupyter2,112047,1,16:01,May,-rw-r--r--,user,user
3,3,.Aula9.ipynb.sage-jupyter2,89550,1,17:29,May,-rw-r--r--,user,user
4,1,.python.dados.pandas.ipynb.sage-jupyter2,23468,1,16:34,May,-rw-r--r--,user,user
5,3,Aula9.ipynb,125193,1,17:29,May,-rw-r--r--,user,user
6,3,DUE_DATE.txt,46,1,16:43,May,-rw-r--r--,user,user
7,1,arq_abr_outuno.txt,406,1,16:46,Mar,-rw-r--r--,user,user
8,1,arq_ago_inverno.txt,1121,1,16:46,Mar,-rw-r--r--,user,user
9,1,arq_dez_primavera.txt,1220,1,16:46,Mar,-rw-r--r--,user,user


In [39]:
df['stringdata']=("2019"+" "+ df["month"]+" "+df["day"]+ " "+df["hour"])

In [40]:
df

Unnamed: 0,day,filename,filesize,group,hour,month,perm,user,usercode,stringdata
0,3,.,22,3,17:27,May,drwxr-xr-x,user,user,2019 May 3 17:27
1,3,..,33,23,16:00,May,drwxr-xr-x,user,user,2019 May 3 16:00
2,3,.Aula24.04.2017.ipynb.sage-jupyter2,112047,1,16:01,May,-rw-r--r--,user,user,2019 May 3 16:01
3,3,.Aula9.ipynb.sage-jupyter2,89550,1,17:29,May,-rw-r--r--,user,user,2019 May 3 17:29
4,1,.python.dados.pandas.ipynb.sage-jupyter2,23468,1,16:34,May,-rw-r--r--,user,user,2019 May 1 16:34
5,3,Aula9.ipynb,125193,1,17:29,May,-rw-r--r--,user,user,2019 May 3 17:29
6,3,DUE_DATE.txt,46,1,16:43,May,-rw-r--r--,user,user,2019 May 3 16:43
7,1,arq_abr_outuno.txt,406,1,16:46,Mar,-rw-r--r--,user,user,2019 Mar 1 16:46
8,1,arq_ago_inverno.txt,1121,1,16:46,Mar,-rw-r--r--,user,user,2019 Mar 1 16:46
9,1,arq_dez_primavera.txt,1220,1,16:46,Mar,-rw-r--r--,user,user,2019 Mar 1 16:46


Depois gero outra coluna transformando em `timestamp`.  

In [41]:
df['floatdate']=[datetime.strptime(str, "%Y %b %d %H:%M").timestamp() for str in df['stringdata']]

O golpe final é achar o indice do mínimo e imprimir o arquivo. 

In [42]:
df

Unnamed: 0,day,filename,filesize,group,hour,month,perm,user,usercode,stringdata,floatdate
0,3,.,22,3,17:27,May,drwxr-xr-x,user,user,2019 May 3 17:27,1556904000.0
1,3,..,33,23,16:00,May,drwxr-xr-x,user,user,2019 May 3 16:00,1556899000.0
2,3,.Aula24.04.2017.ipynb.sage-jupyter2,112047,1,16:01,May,-rw-r--r--,user,user,2019 May 3 16:01,1556899000.0
3,3,.Aula9.ipynb.sage-jupyter2,89550,1,17:29,May,-rw-r--r--,user,user,2019 May 3 17:29,1556905000.0
4,1,.python.dados.pandas.ipynb.sage-jupyter2,23468,1,16:34,May,-rw-r--r--,user,user,2019 May 1 16:34,1556728000.0
5,3,Aula9.ipynb,125193,1,17:29,May,-rw-r--r--,user,user,2019 May 3 17:29,1556905000.0
6,3,DUE_DATE.txt,46,1,16:43,May,-rw-r--r--,user,user,2019 May 3 16:43,1556902000.0
7,1,arq_abr_outuno.txt,406,1,16:46,Mar,-rw-r--r--,user,user,2019 Mar 1 16:46,1551459000.0
8,1,arq_ago_inverno.txt,1121,1,16:46,Mar,-rw-r--r--,user,user,2019 Mar 1 16:46,1551459000.0
9,1,arq_dez_primavera.txt,1220,1,16:46,Mar,-rw-r--r--,user,user,2019 Mar 1 16:46,1551459000.0


In [47]:
index=df['floatdate'].idxmin()
df.iloc[index][1]

'arq_abr_outuno.txt'

In [49]:
zod="""
Áries	19 de abril a 13 de maio	25 dias	Hamal
Touro	14 de maio a 19 de junho	37 dias	Aldebaran
Gêmeos	20 de junho a 20 de julho	31 dias	Beta Geminorum (Pollux)
Câncer	21 de julho a 9 de agosto	20 dias	Al Tarf
Leão	10 de agosto a 15 de setembro	37 dias	Regulus
Virgem	16 de setembro a 30 de outubro	45 dias	Spica
Libra	31 de outubro a 22 de novembro	23 dias	Zubeneschamali
Escorpião	23 de novembro a 29 de novembro	7 dias	Antares
Serpentário	30 de novembro a 17 de dezembro	18 dias	Rasalhague
Sagitário	18 de dezembro a 18 de janeiro	32 dias	Kaus Australis
Capricórnio	19 de janeiro a 15 de fevereiro	28 dias	Deneb Algedi
Aquário	16 de fevereiro a 11 de março	24 dias	Sadalsuud
Peixes	12 de março a 18 de abril	38 dias	Eta Piscium"""


In [58]:
zod1=zod.split("\n")
zod2=zod1[1:]
zod3=[line.split("\t")[0:-2] for line in zod2 ]
{line[0]: line[1].split(" a ") for line in zod3}

{'Aquário': ['16 de fevereiro', '11 de março'],
 'Capricórnio': ['19 de janeiro', '15 de fevereiro'],
 'Câncer': ['21 de julho', '9 de agosto'],
 'Escorpião': ['23 de novembro', '29 de novembro'],
 'Gêmeos': ['20 de junho', '20 de julho'],
 'Leão': ['10 de agosto', '15 de setembro'],
 'Libra': ['31 de outubro', '22 de novembro'],
 'Peixes': ['12 de março', '18 de abril'],
 'Sagitário': ['18 de dezembro', '18 de janeiro'],
 'Serpentário': ['30 de novembro', '17 de dezembro'],
 'Touro': ['14 de maio', '19 de junho'],
 'Virgem': ['16 de setembro', '30 de outubro'],
 'Áries': ['19 de abril', '13 de maio']}

In [60]:
dicmonth={"janeiro":1,"fevereiro":2,"março":3,"abril":4,"maio":5,
         "junho":6,"julho":7,"agosto":8, "setembro":9, "outubro":10,"novembro":11,"dezembro":12}


## Exercícios

Com base na wikipedia, determine a data de nascimento dos pais da Física Moderna:
- Albert Einstein
- Niels Bohr
- Max Born
- Max Plank 
- Erwin Schrödinger
- Werner Heisenberg
- Paul Dirac

- Crie um objeto Serie com essas informações. 
- Determine o dia da semana de nascimento de  cada um desses cientistas
- Ache o número de dias de diferença entre o nascimento do primeiro 
e último a nascer. 

*Desafio:* Acha o signo de cada um deles. 