Dataset Link: https://archive.ics.uci.edu/dataset/410/paper+reviews

Import Libraries

In [None]:
import numpy as np
import pandas as pd

Problem Statement: Load the dataset and explore the structure

In [None]:
import json
with open('/content/reviews.json') as f:
    data = json.load(f)

reviews = []
for paper in data["paper"]:
    for review in paper["review"]:
        review["paper_id"] = paper["id"]  # Adding paper_id to each review
        reviews.append(review)

# We are converting it into DataFrame
df = pd.DataFrame(reviews)
print(df.head())


  confidence evaluation  id lan orientation remarks  \
0          4          1   1  es           0           
1          4          1   2  es           1           
2          5          1   3  es           1           
3          4          2   1  es           1           
4          4          2   2  es           0           

                                                text    timespan  paper_id  
0  - El artículo aborda un problema contingente y...  2010-07-05         1  
1  El artículo presenta recomendaciones prácticas...  2010-07-05         1  
2  - El tema es muy interesante y puede ser de mu...  2010-07-05         1  
3  Se explica en forma ordenada y didáctica una e...  2010-07-05         2  
4                                                     2010-07-05         2  


Problem Statement: Display Basic Information About the Dataset


In [None]:
df.describe()

Unnamed: 0,id,paper_id
count,405.0,405.0
mean,1.824691,84.945679
std,0.821362,49.854958
min,1.0,1.0
25%,1.0,38.0
50%,2.0,92.0
75%,2.0,126.0
max,4.0,172.0


Identify Missing Values in the *Dataset*

In [None]:
df.isnull().sum()


Unnamed: 0,0
confidence,2
evaluation,0
id,0
lan,0
orientation,0
remarks,0
text,0
timespan,0
paper_id,0


Problem Statement: Find shape of the given dataset

In [None]:
df.shape

(405, 9)

Problem Statement: Display the first 5 rows of the dataset to get an overview of the structure of the data.

In [None]:
df.head()

Unnamed: 0,confidence,evaluation,id,lan,orientation,remarks,text,timespan,paper_id
0,4,1,1,es,0,,- El artículo aborda un problema contingente y...,2010-07-05,1
1,4,1,2,es,1,,El artículo presenta recomendaciones prácticas...,2010-07-05,1
2,5,1,3,es,1,,- El tema es muy interesante y puede ser de mu...,2010-07-05,1
3,4,2,1,es,1,,Se explica en forma ordenada y didáctica una e...,2010-07-05,2
4,4,2,2,es,0,,,2010-07-05,2


Problem Statement: Display the last 5 rows of the dataset to check for any recent entries.

In [None]:
print(df.tail())


    confidence evaluation  id lan orientation remarks  \
400          5         -1   1  es          -2           
401          4         -1   2  es          -1           
402          4         -1   1  es           0           
403          3          1   2  es          -1           
404          4          1   1  es          -1           

                                                  text    timespan  paper_id  
400  El trabajo pretende ofrecer una visión del uso...  2015-07-05       170  
401  El paper está bien escrito y de fácil lectura....  2015-07-05       170  
402  Observación de fondo:  No se presenta un ejemp...  2015-07-05       171  
403  Se propone un procedimiento para elaborar máqu...  2015-07-05       171  
404  El artículo describe básicamente los component...  2015-07-05       172  


Problem Statement: Display the first 5 reviews for paper ID 1.


In [None]:
print(df[df['paper_id'] == 1].head())


  confidence evaluation  id lan orientation remarks  \
0          4          1   1  es           0           
1          4          1   2  es           1           
2          5          1   3  es           1           

                                                text    timespan  paper_id  
0  - El artículo aborda un problema contingente y...  2010-07-05         1  
1  El artículo presenta recomendaciones prácticas...  2010-07-05         1  
2  - El tema es muy interesante y puede ser de mu...  2010-07-05         1  


Problem Statement: Find the papers that received the most reviews.

In [None]:
paper_reviews_count = df['paper_id'].value_counts()
most_reviewed_papers = paper_reviews_count.head(10)
print(most_reviewed_papers)


paper_id
128    4
112    4
130    4
129    4
102    4
80     4
92     4
50     4
55     4
40     3
Name: count, dtype: int64


Problem Statement: Count the Number of Reviews for Each Paper

In [None]:
paper_reviews_count = df['paper_id'].value_counts()
paper_reviews_count


Unnamed: 0_level_0,count
paper_id,Unnamed: 1_level_1
128,4
112,4
130,4
129,4
102,4
...,...
63,1
71,1
70,1
68,1


Problem Statement: Filter reviews where the evaluation is very positive (evaluation = 2).


In [None]:
positive_reviews = df[df['evaluation'] == 2]
print(positive_reviews[['paper_id', 'text', 'evaluation']].head())


Empty DataFrame
Columns: [paper_id, text, evaluation]
Index: []


Problem Statement: Count the number of reviews written in Spanish (lan == 'es') and English (lan == 'en')


In [None]:
language_distribution = df['lan'].value_counts()
print(language_distribution)


lan
es    388
en     17
Name: count, dtype: int64


Problem Statement: Filter out reviews that have fewer than 10 words.

In [None]:
df['word_count'] = df['text'].apply(lambda x: len(x.split()))
filtered_reviews = df[df['word_count'] >= 10]
print(filtered_reviews[['paper_id', 'text', 'word_count']].head())


   paper_id                                               text  word_count
0         1  - El artículo aborda un problema contingente y...          93
1         1  El artículo presenta recomendaciones prácticas...          94
2         1  - El tema es muy interesante y puede ser de mu...         211
3         2  Se explica en forma ordenada y didáctica una e...         200
5         2  Los autores describen una metodología para des...         299


Problem Statement: Calculate the minimum, maximum, and average length (in words) of the reviews.


In [None]:
review_length_stats = {
    'min_length': np.min(df['word_count']),
    'max_length': np.max(df['word_count']),
    'avg_length': np.mean(df['word_count'])
}
print(review_length_stats)


{'min_length': 0, 'max_length': 1007, 'avg_length': np.float64(160.51604938271606)}


Problem Statement: Count the number of reviews in each language (es for Spanish and en for English)




In [None]:
language_distribution = df['lan'].value_counts()
language_distribution

Unnamed: 0_level_0,count
lan,Unnamed: 1_level_1
es,388
en,17


Problem Statement: Exclude reviews in English (lan == 'en') and focus only on the Spanish reviews.

In [None]:
df_es = df[df['lan'] == 'es']
df_es

Unnamed: 0,confidence,evaluation,id,lan,orientation,remarks,text,timespan,paper_id,word_count
0,4,1,1,es,0,,- El artículo aborda un problema contingente y...,2010-07-05,1,93
1,4,1,2,es,1,,El artículo presenta recomendaciones prácticas...,2010-07-05,1,94
2,5,1,3,es,1,,- El tema es muy interesante y puede ser de mu...,2010-07-05,1,211
3,4,2,1,es,1,,Se explica en forma ordenada y didáctica una e...,2010-07-05,2,200
4,4,2,2,es,0,,,2010-07-05,2,0
...,...,...,...,...,...,...,...,...,...,...
400,5,-1,1,es,-2,,El trabajo pretende ofrecer una visión del uso...,2015-07-05,170,110
401,4,-1,2,es,-1,,El paper está bien escrito y de fácil lectura....,2015-07-05,170,89
402,4,-1,1,es,0,,Observación de fondo: No se presenta un ejemp...,2015-07-05,171,134
403,3,1,2,es,-1,,Se propone un procedimiento para elaborar máqu...,2015-07-05,171,69


Problem Statement: Display the last 5 reviews where the evaluation score is -2 (very negative).

In [None]:
print(df[df['evaluation'] == -2].tail())


Empty DataFrame
Columns: [confidence, evaluation, id, lan, orientation, remarks, text, timespan, paper_id, word_count]
Index: []


Problem Statement: Check if there are any duplicate rows in the dataset.

In [None]:
print(df.duplicated().sum())


0


Problem Statement: Sort the dataset by the 'timespan' column in descending order.


In [None]:
print(df.sort_values(by='timespan', ascending=False))


    confidence evaluation  id lan orientation  \
404          4          1   1  es          -1   
364          3          1   2  es           1   
346          4         -1   2  es          -1   
347          4         -2   1  es          -2   
348          4          1   2  es          -1   
..         ...        ...  ..  ..         ...   
82           4          2   2  es           2   
83           2          1   3  es           1   
84           4          2   1  es           2   
85           5          2   2  es           2   
0            4          1   1  es           0   

                                               remarks  \
404                                                      
364  El artículo aborda una temática de gran releva...   
346                                                      
347  Si se considera un track para mostrar proyecto...   
348  Desde mi punto de vista, es un trabajo regular...   
..                                                 ...   
82   

Problem Statement: Get the count of unique values in the 'lan' column (language column).


In [None]:
print(df['lan'].value_counts())


lan
es    388
en     17
Name: count, dtype: int64


Problem Statement: Convert the 'confidence' column to numeric type for further analysis.


In [None]:
df['confidence'] = pd.to_numeric(df['confidence'], errors='coerce')
print(df.head())


   confidence evaluation  id lan orientation remarks  \
0         4.0          1   1  es           0           
1         4.0          1   2  es           1           
2         5.0          1   3  es           1           
3         4.0          2   1  es           1           
4         4.0          2   2  es           0           

                                                text    timespan  paper_id  \
0  - El artículo aborda un problema contingente y...  2010-07-05         1   
1  El artículo presenta recomendaciones prácticas...  2010-07-05         1   
2  - El tema es muy interesante y puede ser de mu...  2010-07-05         1   
3  Se explica en forma ordenada y didáctica una e...  2010-07-05         2   
4                                                     2010-07-05         2   

   word_count  
0          93  
1          94  
2         211  
3         200  
4           0  
