# Tests cortitos

### Importamos la librerías necesarias

In [33]:
import numpy as np
import matplotlib.pyplot as plt
import subprocess
import time
from tqdm import tqdm

### Definimos las funciones necesarias para correr las funciones de C++ y chequearlas

In [34]:
# Corre alguna de las funciones de C++ (especificando el metodo segun el README.md),
# guarda el archivo de salida en la misma carpeta y devuelve el tiempo de computo.
def runMethod(filePATH, method, outputPATH):
    startTime = time.time()
    process = subprocess.run(['./tp01', filePATH, outputPATH, str(method)])
    endTime = time.time()
    duration = endTime - startTime
    return duration


def equalWithError(a, b, e):
    ans = True
    if (a + e < b - e and a - e > b + e):
        ans = False
    return ans


# Chequea que el output de un test sea igual que el esperado.
def checkOutput(outputPATH, expectedPATH, error):
    output = open(outputPATH, 'r').readlines()
    expected = open(expectedPATH, 'r').readlines()
    
    if len(output) != len(expected):
        return 'ERROR: El output y el expected no miden lo mismo.' 
    else:
        ans = True
        for line in range(2):
            if not equalWithError(float(output[line][:-1]), float(expected[line][:-1]), error):
                ans = False
        if ans:
            return f'El output es igual al esperado con un error de {error}.'
        else:
            return f'El output no es igual al esperado.'
    output.close()
    expected.close()
        


### Usamos los tests que armamos para chequear las funciones

In [35]:
testWPPATH = 'src/TestsWP/'
testCMMPATH = 'src/TestsCMM/'
tests = ['test1', 'test2', 'test-prob-1', 'test-prob-2']

error = 1e-4

In [36]:
for i in range(len(tests)):
    runMethod(testWPPATH + tests[i] + '.in', 0, testWPPATH + tests[i] + '.out')
    runMethod(testCMMPATH + tests[i] + '.in', 0, testCMMPATH + tests[i] + '.out')

print('-------- WP Tests --------')
for i in range(len(tests)):
    print(tests[i] + ': ' + checkOutput(testWPPATH + tests[i] + '.out', testWPPATH + tests[i] + '.expected', error))

print('-------- CMM Tests --------')
for i in range(len(tests)):
    print(tests[i] + ': ' + checkOutput(testCMMPATH + tests[i] + '.out', testCMMPATH + tests[i] + '.expected', error))

-------- WP Tests --------
test1: El output es igual al esperado con un error de 0.0001.
test2: El output es igual al esperado con un error de 0.0001.
test-prob-1: El output es igual al esperado con un error de 0.0001.
test-prob-2: El output es igual al esperado con un error de 0.0001.
-------- CMM Tests --------
test1: El output es igual al esperado con un error de 0.0001.
test2: El output es igual al esperado con un error de 0.0001.
test-prob-1: El output es igual al esperado con un error de 0.0001.
test-prob-2: El output es igual al esperado con un error de 0.0001.


### Armamos listas con tuplas del tiempo promedio de cómputo de cada test y de la desviación estándar

In [5]:
def getAvgTime(filePATH, method, outputPATH, n=100):
    times = []
    for _ in range(n):
        times.append(runMethod(filePATH, method, outputPATH))
    return np.mean(times), np.std(times)

In [6]:
timesWP = []
timesCMM = []
for i in tqdm(range(len(tests))):
    timesWP.append(getAvgTime(testWPPATH + tests[i] + '.in', 0, testWPPATH + tests[i] + '.out'))
    timesCMM.append(getAvgTime(testCMMPATH + tests[i] + '.in', 0, testCMMPATH + tests[i] + '.out'))

print(timesWP)
print(timesCMM)

100%|██████████| 4/4 [00:02<00:00,  1.38it/s]

[(0.0039446473121643065, 0.0012475001910283849), (0.003260371685028076, 0.00047785659356402353), (0.0032678890228271485, 0.0006130040463421049), (0.0038899922370910643, 0.0006463818020272798)]
[(0.003020415306091309, 0.0002023393921661053), (0.005065500736236572, 0.002441888459455921), (0.0029526567459106446, 0.0001470088000580274), (0.0033592867851257326, 0.0002389077453111092)]





# Tests posta

### Definimos los archivos con equipos de NBA (Basketball) y jugadores de ATP (Tennis).

In [73]:
import pandas as pd


teamsNBA = pd.read_csv('data/nba_2016_teams.csv', names=['id', 'team'])
scoresNBA = pd.read_csv('data/nba_2016_scores.csv', names=['???', 'date', 'team1', 'loca1', 'score1', 'team2', 'local2', 'score2'])

## NBA

In [74]:
print('------ Equipos ------')
print(teamsNBA)
print(scoresNBA)

------ Equipos ------
    id            team
0    1         Atlanta
1    2          Boston
2    3        Brooklyn
3    4       Charlotte
4    5         Chicago
5    6       Cleveland
6    7          Dallas
7    8          Denver
8    9         Detroit
9   10    Golden_State
10  11         Houston
11  12         Indiana
12  13     LA_Clippers
13  14       LA_Lakers
14  15         Memphis
15  16           Miami
16  17       Milwaukee
17  18       Minnesota
18  19     New_Orleans
19  20        New_York
20  21   Oklahoma_City
21  22         Orlando
22  23    Philadelphia
23  24         Phoenix
24  25        Portland
25  26      Sacramento
26  27     San_Antonio
27  28         Toronto
28  29            Utah
29  30      Washington
         ???      date  team1  loca1  score1  team2  local2  score2
0     736263  20151027      9     -1     106      1       1      94
1     736263  20151027      5      1      97      6      -1      95
2     736263  20151027     10      1     111     19      -1  

### Hagamos un archivo .in que tenga la info de los partidos.

In [75]:
file = open('data/nba_2016_scores.in', 'w+')
file.write(str(len(teamsNBA)) + ' ' + str(len(scoresNBA)) + '\n')

for i in range(len(scoresNBA)):
    file.write(str(scoresNBA.loc[i, 'date']) + ' ' + str(scoresNBA.loc[i, 'team1']) + ' ' + 
               str(scoresNBA.loc[i, 'score1']) + ' ' + str(scoresNBA.loc[i, 'team2']) + ' ' + 
               str(scoresNBA.loc[i, 'score2']) + '\n')
file.close()

### Ejecutemos las funciones WP y CMM para estos equipos.

In [76]:
runMethod('data/nba_2016_scores.in', 0, 'data/nba_2016_scores_0.out')
runMethod('data/nba_2016_scores.in', 1, 'data/nba_2016_scores_1.out')

0.011733293533325195

### Veamos el ranking según WP y CMM.

In [77]:
fileCMM = open('data/nba_2016_scores_0.out', 'r').readlines()
fileWP = open('data/nba_2016_scores_1.out', 'r').readlines()
ratingCMM = []
ratingWP = []
for line in fileCMM:
    ratingCMM.append(float(line))
for line in fileWP:
    ratingWP.append(float(line))

teamsNBA.insert(2, 'ratingCMM', ratingCMM)
teamsNBA.insert(3, 'ratingWP', ratingWP)
print(teamsNBA)

    id            team  ratingCMM  ratingWP
0    1         Atlanta   0.558822  0.507463
1    2          Boston   0.565690  0.567164
2    3        Brooklyn   0.290736  0.507692
3    4       Charlotte   0.558224  0.712121
4    5         Chicago   0.516007  0.909091
5    6       Cleveland   0.692428  0.363636
6    7          Dallas   0.502178  0.469697
7    8          Denver   0.420858  0.439394
8    9         Detroit   0.500250  0.582090
9   10    Golden_State   0.874063  0.134328
10  11         Houston   0.511327  0.477612
11  12         Indiana   0.547962  0.582090
12  13     LA_Clippers   0.629708  0.560606
13  14       LA_Lakers   0.236722  0.283582
14  15         Memphis   0.563176  0.681818
15  16           Miami   0.577367  0.537313
16  17       Milwaukee   0.435025  0.411765
17  18       Minnesota   0.319984  0.507463
18  19     New_Orleans   0.384521  0.411765
19  20        New_York   0.414393  0.426471
20  21   Oklahoma_City   0.655552  0.671642
21  22         Orlando   0.43224

In [78]:
print('------ Ranking CMM ------')

teamsNBA_ordered = teamsNBA.sort_values(by='ratingCMM', ascending=False)
print(teamsNBA_ordered)

print('------ Ranking WP ------')

teamsNBA_ordered = teamsNBA.sort_values(by='ratingWP', ascending=False)
print(teamsNBA_ordered)

------ Ranking CMM ------
    id            team  ratingCMM  ratingWP
9   10    Golden_State   0.874063  0.134328
26  27     San_Antonio   0.803976  0.636364
5    6       Cleveland   0.692428  0.363636
27  28         Toronto   0.659347  0.393939
20  21   Oklahoma_City   0.655552  0.671642
12  13     LA_Clippers   0.629708  0.560606
15  16           Miami   0.577367  0.537313
1    2          Boston   0.565690  0.567164
14  15         Memphis   0.563176  0.681818
0    1         Atlanta   0.558822  0.507463
3    4       Charlotte   0.558224  0.712121
11  12         Indiana   0.547962  0.582090
4    5         Chicago   0.516007  0.909091
24  25        Portland   0.515941  0.268657
10  11         Houston   0.511327  0.477612
6    7          Dallas   0.502178  0.469697
8    9         Detroit   0.500250  0.582090
28  29            Utah   0.487206  0.313433
29  30      Washington   0.483709  0.205882
16  17       Milwaukee   0.435025  0.411765
21  22         Orlando   0.432244  0.850746
7    8

## ATP

### Ahora hagamos lo mismo que hicimos para NBA con los datos de ATP.

In [79]:
playersATP = pd.read_csv('data/atp_players.csv', encoding='latin-1', names=['id', 'name', 'last name', 'hand', 'born', 'country'])
matchesATP = pd.read_csv('data/atp_matches_2015.csv')

print('------ Jugadores ------')
print(playersATP)
print('------ Partidos ------')
print(matchesATP)

------ Jugadores ------
           id            name        last name hand        born country
0      100001         Gardnar           Mulloy    R  19131122.0     USA
1      100002          Pancho           Segura    R  19210620.0     ECU
2      100003           Frank          Sedgman    R  19271002.0     AUS
3      100004        Giuseppe            Merlo    R  19271011.0     ITA
4      100005  Richard Pancho         Gonzales    R  19280509.0     USA
...       ...             ...              ...  ...         ...     ...
45679  200593           Adria          Alvarez    U  19970412.0     ESP
45680  200594        Kristian            Lozan    U  19981026.0     RUS
45681  200595         Lorenzo           Bocchi    R  19971129.0     ITA
45682  200596           Elvio         Di Cosmo    U  19971124.0     ITA
45683  200597    Andres Ariel  Fernandez Lopez    R  19980421.0     ARG

[45684 rows x 6 columns]
------ Partidos ------
     tourney_id                 tourney_name surface  draw_size

### Notemos que hay un problema con los id de jugadores, ya que empieza desde 1000001 y además porque se saltea varios números, ya que termina en 200597 cuando hay 45684 jugadores. Para el algoritmo CMM asumimos que los jugadores tienen id desde 1 hasta la cantidad total de jugadores lo cual en este caso no se cumple, así que vamos a tener que cambiar los id cuando escribamos el archivo .in. Lo que podemos hacer es cambiar todos los id de los jugadores en la lista de partidos y de jugadores por algunos que nos gusten (del 1 al 45683).

In [83]:
old_to_new = {}
new_to_old = {}
print('---------- Jugadores Repetidos ----------')
for i in tqdm(range(len(playersATP.loc[:, 'id']))):
    try:
        print(old_to_new[playersATP.loc[i, 'id']])
    except:
        old_to_new.update({playersATP.loc[i, 'id']: i + 1})
        new_to_old.update({i + 1: playersATP.loc[i, 'id']})

  9%|▉         | 4160/45684 [00:00<00:00, 41599.94it/s]

---------- Jugadores Repetidos ----------
5693


 39%|███▉      | 17838/45684 [00:00<00:00, 44055.21it/s]

9437
9439
9441
9443
9445
9447
9449
9451
9453
9455
9457
9459
9461
9463
9465
9467
9469
9471
9473
9475
9477
9479
9481
9483
9485
9487
9489
9491
9493
9495
9497
9499
9501
9503
9505
9507
9509
9511
9513
9515
9517
9519
9521
9523
9525
9527
9529
9531
9533
9535
9700


100%|██████████| 45684/45684 [00:00<00:00, 47279.14it/s]


### Esto demuestra que hay jugadores repetidos en el csv. Uno puede chequearlo si quiere abriendolo y yendo a la fila con cualquiera de estos números y viendo que hay dos filas iguales. Entonces, este diccionario tiene todos los jugadores con sus nuevos id y sin repetir y además tenemos el diccionario invertido. Esto nos va a permitir traducir rápidamente cualquier id. Ahora hagamos el archivo .in. Ya que hay tantos torneos distintos estaría bueno hacer un archivo por torneo.

In [71]:
file = open('data/atp_matches_2015.in', 'w+')
file.write(str(len(new_to_old)) + ' ' + str(len(matchesATP)) + '\n')

for i in range(len(matchesATP)):
    file.write(str(matchesATP.loc[i, 'tourney_id']) + ' ' + str(old_to_new[matchesATP.loc[i, 'winner_id']]) +
               ' ' + '1' + ' ' + str(old_to_new[matchesATP.loc[i, 'loser_id']]) + ' ' + '0' + '\n')
file.close()