In [1]:
import os
import random
import numpy as np
import pandas as pd

In [2]:
FILE_NAME = 'data.csv'

# Data have 5 scales:
#     +1   : True
#     +0.5 : Maybe true
#     0    : Unknown
#     -0.5 : Maybe false
#     -1   : False

df = pd.read_csv(FILE_NAME, index_col=0)
idx2col = {i:col for i, col in enumerate(df.columns)}
idx2row = {i:row for i, row in enumerate(df.index)}
data = df.values

print('Data information:')
print('Number of plates: %d' % len(idx2row))
print('Number of questions: %d' % len(idx2col))

# Duplicates
p, c = np.unique(df.index, return_counts=True)
if len(p[c > 1]) > 0:
    print('\nDuplicates found (%s), check rows: ' % p[c > 1][0])
    for i, t in enumerate(df.index):
        if t == p[c > 1][0]:
            print(i + 2, end=', ')
            
# Get conflicts
print('\n\n---CONFLICTS---\n')

done = 0
max_conflicts = 5
conflicts = []

for i in range(len(data)):
    for j in range(i+1, len(data)):
        if np.all(data[i] == data[j]):
            conflicts.append((i, j))
            if len(conflicts) == max_conflicts:
                done = 1
                break
    if done == 1:
        break

for i,j in conflicts:
    print('Conflict between \'%s\' and \'%s\'' % (idx2row[i], idx2row[j]))
    
if len(conflicts) == 0:
    print('YAY! no conflicts :)')

Data information:
Number of plates: 41
Number of questions: 23


---CONFLICTS---

Conflict between 'Quesadilla' and 'Tequeños'
Conflict between 'Köttbullar' and 'Olluquito'


In [3]:
np.sum(data == -1, axis=0)

array([ 9, 32, 36, 36, 33, 36, 28, 32, 32, 38, 34, 39, 39, 39, 30, 17, 31,
       37, 39, 32, 39, 33, 39])

In [4]:
np.sum(data == 1, axis=0)

array([32,  9,  5,  5,  8,  5, 13,  9,  9,  3,  7,  2,  2,  2, 11, 24, 10,
        4,  2,  9,  2,  8,  2])

In [5]:
[(idx2col[i], i) for i in np.argsort(np.sum(data == 1, axis=0))]

[('Lleva zapallo?', 11),
 ('Lleva chicha de jora?', 20),
 ('Es comida de la selva?', 18),
 ('Lleva papas fritas?', 13),
 ('Es comida china?', 12),
 ('Lleva albahaca?', 22),
 ('Lleva chancho?', 9),
 ('Lleva salsa de tomates?', 17),
 ('Es frio?', 3),
 ('Lleva pescado?', 5),
 ('Es picante?', 2),
 ('Es comida marina?', 10),
 ('Lleva Queso?', 21),
 ('Lleva arroz?', 4),
 ('Lleva fideos?', 7),
 ('Lleva carne de res?', 8),
 ('Consiste en algun relleno o masa de harina?', 1),
 ('Es liquido/sopa?', 19),
 ('Lleva huevo?', 16),
 ('Lleva papas?', 14),
 ('Lleva pollo/gallina?', 6),
 ('Lleva cebolla?', 15),
 ('Lleva algun tipo de carne, pescado o mariscos?', 0)]

In [6]:
def explore_plate(idx):
    print('Plate: %s\n' % idx2row[idx])
    for i, d in enumerate(data[idx]):
        t = 'True' if d > 0 else 'False'
        print('%s: (%s)' % (idx2col[i], t))
        
explore_plate(random.choice(range(len(data))))

Plate: Sopa seca

Lleva algun tipo de carne, pescado o mariscos?: (True)
Consiste en algun relleno o masa de harina?: (False)
Es picante?: (False)
Es frio?: (False)
Lleva arroz?: (False)
Lleva pescado?: (False)
Lleva pollo/gallina?: (True)
Lleva fideos?: (True)
Lleva carne de res?: (False)
Lleva chancho?: (False)
Es comida marina?: (False)
Lleva zapallo?: (False)
Es comida china?: (False)
Lleva papas fritas?: (False)
Lleva papas?: (False)
Lleva cebolla?: (True)
Lleva huevo?: (False)
Lleva salsa de tomates?: (False)
Es comida de la selva?: (False)
Es liquido/sopa?: (False)
Lleva chicha de jora?: (False)
Lleva Queso?: (False)
Lleva albahaca?: (False)
