# Terceira prática

*(Vale 7 pontos)*

**OBS:** Esta prática será continuada na próxima segunda-feira, dia 04/04, quando será feita a entrega.

Existe a hipótese de que duas variáveis, que serão aqui denominadas de $X$ e $Y$, são correlacionadas, isto é, os valores das duas variáveis no fenômeno onde são observadas é relacionado, de forma que quando uma cresce a outra também cresce (ou decresce). Além disso, supõe-se que a relação entre elas seja linear.

Um laboratório quer verificar essa relação e para isso contratou diversos experimentadores, que trabalharam realizando repetidamente um experimento e coletando os valores das variáveis em cada um dos experimentos. Agora precisamos analisar esses resultados para ver se essa relação realmente existe.

Uma forma de avaliar a correlação entre duas variáveis, quando a correlação é suposta linear, é calcular o denominado *coeficiente de correlação de Pearson*, definido como segue. Dado um conjunto de $n$ observações para as quais anotamos os valores $x_i$ e $y_i$ para as variáveis $X$ e $Y$ respectivamente, o coeficiente de Pearson $r$ é definido por:
$$
r = \frac{\sum_i (x_i - \bar{x})(y_i - \bar{y})}{\sqrt{\sum_i (x_i - \bar{x})^2} \sqrt{\sum_i (y_i - \bar{y})^2}},
$$
onde $\bar{x} = \frac{1}{n}\sum_i x_i$, $\bar{y} = \frac{1}{n}\sum_i y_i$ são as médias dos $x_i$ e dos $y_i$ respectivamente e as somatórias se extendem por todas as observações.

O coeficiente de Pearson tem a seguinte característica: Se não há correlação entre as variáveis, o valor de $r$ será próximo de $0$. Se as duas variáveis são perfeitamente correlacionadas de forma linear, com uma variável crescendo quando a outra cresce, $r$ será $1.0$; se uma variável decresce quando a outra cresce, então $r=-1.0$.  Para correlações intermediárias, os valores de $r$ serão intermediários.

Todos os resultados dos experimentos realizados estão coletados em um arquivo com o seguinte formato: O arquivo consiste em um série de linhas. Cada linha tem o nome do experimentador, o valor anotado para $X$ e o valor anotado para $Y$, nessa ordem, separados por vírgula. Podem haver espaços em branco adicionais no começo e final da linha, bem como ao redor das vírgulas. Note também que o nome do experimentador pode conter espaços em branco (por exemplo, "Maria Clara").

Sua tarefa será a seguinte: Escrever um código para ler os dados do arquivo e mostrar o resultado das seguintes análises:
- Para cada experimentador distinto, queremos saber o valor do coeficiente de correlação de Pearson de seus resultados.
- Queremos também saber o valor do coeficiente de correlação de Pearson considerando os resultados de todos os experimentadores simultaneamente.

Organize o seu código seguindo as indicações abaixo.

**Nota: 7**

## Calculando o coeficiente de correlação de Pearson

Primeiro você vai escrever o código para calcular o coeficiente de correlação das duas seqüências de valores das medidas das variáveis.

Em primeiro lugar, escreva uma função para calcular a média de um conjunto de valores. Na célula abaixo, escreva uma função que ao receber uma lista de valores no parâmetro `v`, retorne a média desses valores. A lista tem que ter ao menos um valor para a média fazer sentido.

In [3]:
def media(v):
    x= sum(v)
    return x/len(v)

Para testar, você pode rodar a célula abaixo.

In [4]:
def verifica(conseguido, esperado):
    if abs(conseguido - esperado) < 1e-12:
        print("OK")
    else:
        print("Erro: Resultado foi", conseguido, "quando devia ser", esperado)

verifica(media([1]), 1.0)
verifica(media([i for i in range(11)]), 5.0)
verifica(media([i for i in range(12)]), 5.5)
verifica(media([i for i in range(3,12,2)]), 7.0)
verifica(media([i*i for i in range(100)]), 3283.5)

OK
OK
OK
OK
OK


Agora **usando a função `media` acima**, escreva uma função que calcule o coeficiente de Pearson, dados duas listas de valores `x` e `y` como parâmetro, sendo que os valores de `x[i]` e `y[i]` são provenientes de uma mesma observação. Note que, para fazer sentido, o número de valores nas duas listas deve ser igual.

In [5]:
import math

def pearson(x, y):
    x_media = media(x)
    y_media = media(y)
    
    som = 0
    som2 = 0
    som3 = 0
    
    for i, j in zip(x, y):
        som = som + (i - x_media)*(j - y_media)          
            
    for k in x:
        som2 = som2 + ((k - x_media)**2)
    
    for l in y:
        som3 = som3 + ((l - y_media)**2)
            
    den = ((math.sqrt(som2))*(math.sqrt(som3)))
    
    r= som / den
    
    return r
    
        

Abreviaturas com `list comprehension`:

    som2 = sum((k - x_media)**2 for k in x)
    
*GT*

Para testar, execute a célula abaixo.

In [6]:
import random
print("Estas precisam dar exatamente 1.0:")
print(pearson([i for i in range(10)], [i for i in range(10)]))
print(pearson([i for i in range(10)], [2*i for i in range(10)]))
print(pearson([i for i in range(10)], [10.5*i for i in range(10)]))
print("A seguinte precisa dar exatamente -1.0:")
print(pearson([i for i in range(10)], [-2.14738*i for i in range(10)]))
print("Estes precisam ser próximos de zero:")
print(pearson([random.random() for i in range(1000)], [random.random() for i in range(1000)]))
print(pearson([2*random.random() for i in range(1000)], [7*random.random() for i in range(1000)]))
print(pearson([random.random() for i in range(1000)], [-random.random() for i in range(1000)]))
print("Estes precisam ter valores que vão crescendo até próximo de 1:")
print(pearson([0.00004*i + random.random() for i in range(1000)], [0.00009*i+random.random() for i in range(1000)]))
print(pearson([0.0005*i + random.random() for i in range(1000)], [0.0003*i+random.random() for i in range(1000)]))
print(pearson([0.002*i + random.random() for i in range(1000)], [0.007*i+random.random() for i in range(1000)]))
print(pearson([4*i + random.random() for i in range(1000)], [6*i+random.random() for i in range(1000)]))
print("Os próximos devem ter valores que vão decaindo até próximo de -1:")
print(pearson([0.00004*i + random.random() for i in range(1000)], [-0.00009*i+random.random() for i in range(1000)]))
print(pearson([-0.0005*i + random.random() for i in range(1000)], [0.0003*i+random.random() for i in range(1000)]))
print(pearson([0.002*i + random.random() for i in range(1000)], [-0.007*i+random.random() for i in range(1000)]))
print(pearson([5-4*i + random.random() for i in range(1000)], [6*i+random.random() for i in range(1000)]))

Estas precisam dar exatamente 1.0:
1.0
1.0
1.0
A seguinte precisa dar exatamente -1.0:
-1.0
Estes precisam ser próximos de zero:
0.03146347749308564
-0.01223302610034403
-0.009193846210784305
Estes precisam ter valores que vão crescendo até próximo de 1:
-0.029519326506302443
0.1419349583274459
0.8943922342547131
0.9999999545764867
Os próximos devem ter valores que vão decaindo até próximo de -1:
-0.034727342906392615
-0.12822725192465775
-0.8882862170771748
-0.9999999560761875


## Lendo o arquivo de dados

Queremos ler os dados do arquivo e retornar uma lista de tuplas, onde o primeiro elemento da tupla é o nome do experimentador, o segundo é o valor de $x_i$ e o terceiro o valor de $y_i$, sendo que do nome do experimentador foi "normalizado" retirando espaços no início e no final e convertendo a cadeia para maiúsculas.

Você vai fazer isso em dois passos. Em primeiro lugar, implemente uma função que, dada a cadeia lida de uma linha do arquivo, separe os elementos dessa linha e retorne a tupla correpondente. Para implementar essa função, você vai achar úteis os métodos `split`, `strip`, e `upper` de cadeias de caracteres, discutidos no notebook da Aula 2. Também, para converter de uma string `s1` para um número de ponto flutuante basta fazer `float(s1)`.

In [7]:
def le_linha(linha):

    separado = linha.split(',')  
    nome = separado[0]
    x = float(separado[1])
    y = float(separado[2])
    
    tupla = (nome.strip().upper(), x, y)
    
    return tupla
    

Segue uma célula com testes.

In [8]:
print('OK' if le_linha('ana, 1, 3') == ('ANA', 1.0, 3.0) else 'Falhou')
print('OK' if le_linha('ana,1,3') == ('ANA', 1.0, 3.0) else 'Falhou')
print('OK' if le_linha('   ana,    1   ,   3    ') == ('ANA', 1.0, 3.0) else 'Falhou')
print('OK' if le_linha('Ana, 1, 3') == ('ANA', 1.0, 3.0) else 'Falhou')
print('OK' if le_linha('ana maria silva, 1.5247, -3.14') == ('ANA MARIA SILVA', 1.5247, -3.14) else 'Falhou')
print(le_linha('   ana,    1,   3'))

OK
OK
OK
OK
OK
('ANA', 1.0, 3.0)


Agora para completar a leitura, basta escrever uma função que lê as linhas do arquivo, passa cada linha para a função `le_linha` e adiciona o resultado na lista de tuplas a ser retornada.

Na função abaixo, o parâmetro `nome` indica o nome do arquivo onde os dados estão.

In [9]:
def le_dados(nome):
    arquivo = open(nome, "r")  
    strings = arquivo.readlines()
    valores=[]
    for linha in strings:
        valores.append(le_linha(linha))   
    arquivo.close
    return valores        

Para fechar o arquivo, use `arquivo.close()`. Sem os parêntesis o método não vai ser chamado.

*GT*

Para testar a sua função, existe um pequeno arquivo chamado "teste_leitura.dat" que você pode ler e conferir manualmente os resultados. O esperado é:

    [('MARIO', 10.12, 5.43),
     ('JOSÉ', 4.03, 3.21),
     ('MARIO', 0.42, 1.37),
     ('CARLOS HENRIQUE SOARES', 2.78, 0.031467)]

In [10]:
le_dados('teste_leitura.dat')


[('MARIO', 10.12, 5.43),
 ('JOSÉ', 4.03, 3.21),
 ('MARIO', 0.42, 1.37),
 ('CARLOS HENRIQUE SOARES', 2.78, 0.031467)]

## Juntando as peças

Agora basta colocar essas funções para trabalhar juntas, para resolver nosso problema. Considerando que todos os dados coletados estão em um arquivo denominado "experimentos.dat", escreva um código (que não precisa estar numa função) que leia esse arquivo e então faça os seguintes processamentos:
1. Encontre os nomes de todos os experimentadores que participaram.
1. Para cada experimentador, separe os valores de $x_i$ e $y_i$ encontrados por esse experimentador e calcule o coeficiente de correlação de Pearson para esses resultados. Mostre o nome do experimentador com o valor de $r$ correspondente.
1. Por fim, junte todos os $x_i$ e $y_i$ de todos os experimentadores e calcule o coeficiente de correlação geral.

Para o primeiro passo acima, lembre-se que uma forma simples de achar todos os valores únicos de uma lista de valores é transformá-la em um `set`. Assim, se `nomes` é a lista de todos os nomes, com repetições, `set(nomes)` vai ser um conjunto em que cada nome aparece apenas uma vez.

In [60]:
dados = le_dados('experimentos.dat')
experimentadores = {}
valorx = []
valory = []
for i, j, k in dados:
    valorx.append(j)
    valory.append(k)
    
for nomes, x, y in dados:
    if nomes in experimentadores.keys():
        experimentadores[nomes][0].append(x)
        experimentadores[nomes][1].append(y)
    
    else:
        experimentadores[nomes]= [[x], [y]]


for i in experimentadores.keys():
    
    print(i, pearson(experimentadores[i][0], experimentadores[i][1]))
    
    
   
print("Coeficiente de Pearson geral: ", pearson(valorx, valory))    
    
   

TÂMARA 0.6524989731618762
JOÃO PAULO 0.909578124581981
SILVIA 0.557984305711555
OSVALDO 0.7659997749423901
RENATA 0.46858754516859996
JOSÉ PEDRO 0.6540351631110363
LUIZA 0.6718600908553367
HENRIQUE 0.7206491536581988
SÔNIA 0.6498831135910007
MARIA APARECIDA 0.7251169332380335
PAULA 0.747652075015062
ROBERTO 0.6120720742131935
WALTER 0.20516628231291498
ISABEL 0.8787905769547227
CLAUDIA 0.5411947193446824
NÚBIO 0.813703893718404
PEDRO 0.4304621223659441
CARLOS CESAR 0.36483512321865297
MARCOS 0.5248550935538274
ROBSON 0.37449543526906576
SÉRGIO 0.29270119355577506
FRANCISCO 0.565223010717558
DANILO 0.8131624612455496
CARLOS EDUARDO 0.7401431211804199
GISELE 0.8959803099334681
ANA MARIA 0.5818965421295076
LUCAS 0.929391439580908
VERA 0.9690329126255294
DAVID 0.49104944885188523
1.2542079508284782
Coeficiente de Pearson geral:  0.5928536007077562


## Instruções

Entregue este notebook com o seu código preenchido nos locais solicitados.

Lembre-se que você pode criar células adicionais para fazer rascunho, mas ou crie essas células adicionais abaixo desta, ou desloque-as para baixo desta ou as apage antes da entrega.