# Introdução a análise de dados com Pandas
## Funcionalidades avançadas (2)
### Pivoteamento de DataFrames

O pivoteamento de um ```DataFrame``` pode ser feito quando existem pelo menos duas colunas categóricas com pares de valores que não se repetem e uma ou mais colunas colunas numéricas ou catogóricas quaisquer.

Utilizamos o comando ```DataFrame.pivot(index='coluna_índex', columns='coluna_para_colunas', values='coluna_valores')```. Para exemplificar a aplicação do comando, utilizaremos o ```DataFrame``` abaixo.

In [17]:
import pandas as pd

df = pd.DataFrame({'nome': ['Ronaldo', 'Hugo', 'Victor', 'João', 'Gabriel', 'Ronaldo', 'Hugo', 'Victor', 'João', 'Gabriel', 'Ronaldo', 'Hugo', 'Victor', 'João', 'Gabriel'],
                   'disciplina': ['A', 'A', 'A', 'A', 'A', 'B', 'B', 'B', 'B', 'B', 'C', 'C', 'C', 'C', 'C'],
                   'nota_final': [10, 9, 10, 8, 7, 9, 8, 8, 10 ,10, 9, 9, 9, 8, 9],
                   'freq': [1.0, 0.9, 0.95, 0.9, 0.8, 0.85, 0.8, 0.75, 0.9, 0.9, 1.0, 1.0, 0.75, 0.8, 0.9]})
df

Unnamed: 0,nome,disciplina,nota_final,freq
0,Ronaldo,A,10,1.0
1,Hugo,A,9,0.9
2,Victor,A,10,0.95
3,João,A,8,0.9
4,Gabriel,A,7,0.8
5,Ronaldo,B,9,0.85
6,Hugo,B,8,0.8
7,Victor,B,8,0.75
8,João,B,10,0.9
9,Gabriel,B,10,0.9


Temos, nesse caso, as colunas ```nome``` e ```disciplina``` representado os nomes dos alunos e disciplinas, respectivamente. Como não existe nem um registro duplicado do par ```(nome, disciplina)```, podemos aplicar o comando ```pivot()```. Utilizaremos o ```nome``` como ```index``` e ```disciplina``` como ```columns```. Para o parâmetro ```values```, podemos passar qualquer uma das colunas restantes. Abaixo, temos o resultado para a coluna ```nota_final```. 

In [19]:
df.pivot(index='nome', columns='disciplina', values='nota_final')

disciplina,A,B,C
nome,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Gabriel,7,10,9
Hugo,9,8,9
João,8,10,8
Ronaldo,10,9,9
Victor,10,8,9


### Transposta de um DataFrame
Com o comando ```DataFrame.transpose()``` obtemos a transposta do ```DataFrame```. Em outras palavras, obtemos o ```DataFrame``` com as colunas no lugar dos indices e vice e versa. 

Utilizaremos o ```DataFrame``` anterior pivoteado. 

In [22]:
df1 = df.pivot(index='nome', columns='disciplina', values='nota_final')
df1.transpose()

nome,Gabriel,Hugo,João,Ronaldo,Victor
disciplina,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
A,7,9,8,10,10
B,10,8,10,9,8
C,9,9,8,9,9


### Operações de texto

```Series``` do tipo ```object``` possuem funcionalidades especiais de texto que possibilitam a extração de informação. Acessando o atributo ```Series.str```, temos a nossa disposição as funcionalidades no da classe ```str``` do python, incluindo a possibilidade de lidar com texto na forma de lista de caracteres.

No arquivo ```NationalNames.csv```, temos uma lista de nomes de bebês mais utilizados nos Estados Unidos, especificando o ano, sexo e frequência. 

In [42]:
df2 = pd.read_csv('dados/NationalNames.csv')
df2.tail()

Unnamed: 0,Id,Name,Year,Gender,Count
1825428,1825429,Zykeem,2014,M,5
1825429,1825430,Zymeer,2014,M,5
1825430,1825431,Zymiere,2014,M,5
1825431,1825432,Zyran,2014,M,5
1825432,1825433,Zyrin,2014,M,5


Utilizaremos esse exemplo para listar somente os nomes que iniciam com a letra "R".

In [30]:
df2[df2.Name.str[0] == 'R'].head()

Unnamed: 0,Id,Name,Year,Gender,Count
29,30,Rose,1880,F,700
51,52,Rosa,1880,F,507
91,92,Rebecca,1880,F,236
92,93,Ruth,1880,F,234
108,109,Rachel,1880,F,166


Para listar os nomes contendo somente três letras, utilizamos o comando ```Series.str.len()```. A lista completa de funcionalidades de texto encontra-se no link: https://pandas.pydata.org/pandas-docs/stable/user_guide/text.html

In [39]:
df2[df2.Name.str.len() == 3].head()

Unnamed: 0,Id,Name,Year,Gender,Count
6,7,Ida,1880,F,1472
32,33,Ada,1880,F,652
40,41,Eva,1880,F,614
56,57,May,1880,F,462
70,71,Mae,1880,F,344


### Agrupando dados utilizando comandos de texto

É possível utilizar as funcionalidades de texto de uma ```Series``` como critério de agrupamento. Por exemplo, podemos agrupar os nomes de acordo com o primeiro caractere, somando a frequência contida na coluna ```Count```.

In [43]:
df2.groupby(df2.Name.str[0]).Count.sum()

Name
A    27308805
B    16198757
C    24779742
D    23801401
E    16248524
F     5057044
G    10448713
H     7948419
I     3154699
J    43578244
K    16396504
L    18205788
M    31968148
N     7434205
O     1942209
P     9062678
Q      243155
R    23237528
S    20758307
T    14054925
U      138212
V     4635528
W     8202492
X      202914
Y      785463
Z     1343022
Name: Count, dtype: int64

### Exportando dados
Podemos exportar o ```DataFrame``` pra diversos formatos, incluindo csv e xlsx. Para o formato csv, utilizamos o comando ```DataFrame.to_csv()``` ou ```Series.to_csv()```, passando o _path_ do arquivo como parâmetro. Criaremos o arquivo csv a partir do ```DataFrame``` ```df2``` agrupado pelo caractere inicial dos nomes do ano de 2014.

In [50]:
df2[df2.Year == 2014].groupby(df2.Name.str[0]).Count.sum().to_csv('nomes_2014.csv', header=True)