# Exercícios: Séries Pandas

### Somando Notas com Dicionários

Para demonstrar as capacidades das Séries Pandas, vamos solucionar um problema com as estrutura Nativa do Python e, em seguida, utilizando uma série do Pandas.<br>
Dados os seguintes dicionários contendo a nota dos alunos em duas disciplinas distintas, escreva uma função que gere um novo dicionário contendo o nome do aluno e a soma das notas nas duas disciplinas.<br>
Utilize a função criada para imprimir a soma das notas das duas disciplinas.

In [1]:
notas_d1 = {'José': 6, 'Maria': 10, 'João': 8, 'Ana': 7, 'Carlos': 3, 'Luiza': 6, 'Pedro': 6, 'Mariana': 8, 'Fernando': 7, 'Isabela': 1, 'Francisco':6}
notas_d2 = {'Ana': 8,'Isabela': 6, 'Fernando': 4, 'Pedro': 5, 'Luiza': 4,'Maria': 1, 'Carlos': 2,  'João': 1,  'José': 10, 'Mariana': 5,'Henrique':8}

In [2]:
def soma_notas(d1={},d2={}):
    soma = {}
    alunos1 = set(d1.keys())
    alunos2 = set(d2.keys())  
    alunos = alunos1.union(alunos2)
    for aluno in alunos:
        soma[aluno] = d1.get(aluno,0) + d2.get(aluno,0)    
    return soma

soma_dict = soma_notas(notas_d1,notas_d2)
print(soma_dict)

{'Francisco': 6, 'Maria': 11, 'Henrique': 8, 'Mariana': 13, 'Isabela': 7, 'Ana': 15, 'Fernando': 11, 'Luiza': 10, 'João': 9, 'Carlos': 5, 'José': 16, 'Pedro': 11}


Com base no dicionário gerado, defina uma função para calcular a média das notas.<br>
Utilize-a para imprimir, em ordem alfabértica, o nome dos alunos cuja soma das notas é menor que a média da turma.

In [3]:
def media_notas(soma_dict={}):
    return sum(list(soma_dict.values())) / len(soma_dict.values())

nomes = [ nome for nome in soma_dict if soma_dict[nome] < media_notas(soma_dict)]
print(sorted(nomes))

['Carlos', 'Francisco', 'Henrique', 'Isabela', 'João', 'Luiza']


### Somando Notas com Séries Pandas

Converta os dicionários para Séries Pandas e faça a soma das notas dos alunos em ambas as disciplinas e imprima o resultado.<br>
Verifique o que ocorre com os valores que não se encontram em ambas as séries e pesquise o parâmetro do método pd.Series.add() para solucionar o problema.
Se necessário, consulte a documentação em: https://pandas.pydata.org/docs/reference/api/pandas.Series.html

In [4]:
import pandas as pd
soma_pd = pd.Series(notas_d1).add(pd.Series(notas_d2),fill_value=0)
print(soma_pd)

Ana          15.0
Carlos        5.0
Fernando     11.0
Francisco     6.0
Henrique      8.0
Isabela       7.0
José         16.0
João          9.0
Luiza        10.0
Maria        11.0
Mariana      13.0
Pedro        11.0
dtype: float64


Utilizando a série, imprima o nome dos alunos cujas notas estão abaixo da média da turma.

In [5]:
list(soma_pd[soma_pd<soma_pd.mean()].index)

['Carlos', 'Francisco', 'Henrique', 'Isabela', 'João', 'Luiza']

Remova da lista de notas totais os alunos cujas notas são inferiores à média.

In [6]:
soma_pd = soma_pd.drop(soma_pd[soma_pd<soma_pd.mean()].index)

### Benchmark: Dicionários x Séries Pandas

O Jupyter permite, por meio da inclusão do termo %%time no início da célula de código, analisar o tempo necessário para execução de um trecho de código.<br>
A fim de comparar o desempenho das versões do código, vamos gerar listas de notas com milhões de entradas executando o código abaixo.<br>
* Atenção: a geração dos dados pode demorar alguns minutos para ser executada.

In [47]:
%%time
import secrets
import string
from random import randrange

def generate_random_string(n):
    characters = string.ascii_uppercase
    random_string = ''.join(secrets.choice(characters) for _ in range(n))

    return random_string

notas_d1={ generate_random_string(5): randrange(10) for i in range(0,12**6) }
notas_d2={ generate_random_string(5): randrange(10) for i in range(0,12**6) }

notas_p1 = pd.Series(notas_d1)
notas_p2 = pd.Series(notas_d2)

CPU times: total: 32.5 s
Wall time: 32.6 s


Utilizando a função criada no primeiro exercício, analise o tempo necessário para execução da soma das notas e compare com o desempenho da soma utilizando Séries Pandas.

In [48]:
%%time
dsum_=soma_notas(notas_d1,notas_d2)

CPU times: total: 4.72 s
Wall time: 4.79 s


In [49]:
%%time
pd_sum=notas_p1+notas_p2

CPU times: total: 13.3 s
Wall time: 13.3 s


Compare agora o tempo necessário para cálculo das médias utilizando a função definida no exercício 1 e com Pandas.

In [50]:
%%time
media = sum(list(dsum_.values())) / len(dsum_.values())

CPU times: total: 15.6 ms
Wall time: 50.8 ms


In [51]:
%%time
pd_sum.mean()

CPU times: total: 15.6 ms
Wall time: 30.1 ms


8.999461398829053

Compare agora o tempo necessário para soma das notas da turma 1 com as próprias notas da turma 1 utilizando as duas implementações.<br>
O que pode explicar a diferença observada?

In [52]:
%%time
dsum11=soma_notas(notas_d1,notas_d1)

CPU times: total: 2.5 s
Wall time: 2.52 s


In [54]:
%%time
pdsum11=notas_p1+notas_p1

CPU times: total: 62.5 ms
Wall time: 59.1 ms


### Tipos de Dados Séries Pandas & Numpy

Conforme visto em aula, as séries armazenam tipos uniformes de dados, tais como:
<table>
    <tr><th>Tipo de Dado</th><th>Código do Tipo de Dado</th><th>Descrição</th></tr>
    <tr><td>int8, uint8</td><td>i1, u1</td><td>Tipos inteiros de 8 bits (1 byte) com e sem sinal</td></tr>
    <tr><td>int16, uint16</td><td>i2, u2</td><td>Tipos inteiros de 16 bits com e sem sinal</td></tr>
    <tr><td>int32, uint32</td><td>i4, u4</td><td>Tipos inteiros de 32 bits com e sem sinal</td></tr>
    <tr><td>int64, uint64</td><td>i8, u8</td><td>Tipos inteiros de 64 bits com e sem sinal</td></tr>
    <tr><td>float16</td><td>f2</td><td>Ponto flutuante com metade da precisão</td></tr>
    <tr><td>float32</td><td>f4 ou f</td><td>Ponto flutuante padrão com precisão única; compatível com o float de C</td></tr>
    <tr><td>float64</td><td>f8 ou d</td><td>Ponto flutuante padrão com dupla precisão; compatível com o double de C e o objeto float de Python</td></tr>
    <tr><td>float128</td><td>f16 ou g</td><td>Ponto flutuante com precisão estendida</td></tr>
    <tr><td>complex64, complex128, complex256</td><td>c8, c16, c32</td><td>Números complexos representados por dois floats de 32, 64 ou 128, respectivamente</td></tr>
    <tr><td>bool</td><td>?</td><td>Tipo booleano que armazena os valores True e False</td></tr>
    <tr><td>object</td><td>O</td><td>Tipo objeto de Python; um valor pode ser qualquer objeto Python</td></tr>
    <tr><td>string_</td><td>S</td><td>Tipo string ASCII de tamanho fixo (1 byte por caractere); por exemplo, para criar um dtype string com tamanho 1O, utilize 'S10'</td></tr>
    <tr><td>unicode_</td><td>U</td><td>Tipo Unicode de tamanho fixo (número de bytes é específico de cada plataforma); a mesma semântica de especificação de string_ (por exemplo, 'U10')</td></tr>
</table>

Dados os dois dicionários abaixo, converta-os para séries pandas e verifique o tipo de dados resultante, imprimindo o atributo pd.Series.dtype.

In [59]:
notas1 = {'Ana': 8,'Isabela': 6, 'Fernando': 4, 'Pedro': 5}
notas2 = {'Ana': 5,'Isabela': 'N/D', 'Fernando': 3, 'Pedro': 'N/D'}

In [80]:
np1 = pd.Series(notas1)
print(np1.dtype)
np2 = pd.Series(notas2)
print(np2.dtype)

int64
object


Faça a soma das séries e observe o que ocorre.

In [71]:
np1+np2

TypeError: unsupported operand type(s) for +: 'int' and 'str'

In [None]:
Substitua, utilizando indexação booleana, os valores 'N/D' pelo valor 0 e tente novamente fazer a soma.

In [84]:
np2[np2=='N/D']=0
soma= np2+np1

Ana         13
Isabela     15
Fernando     7
Pedro        5
dtype: object

Converta a o tipo de dados da série para um tipo inteiro.

In [85]:
np2.astype('int8')

Ana         5
Isabela     9
Fernando    3
Pedro       0
dtype: int8