commit-live-students · tracedence · Jan 18, 2019 · Jan 18, 2019 · Jan 18, 2019 · Jan 18, 2019
diff --git a/__pycache__/__init__.cpython-36.pyc b/__pycache__/__init__.cpython-36.pyc
diff --git a/q01_Unique_users_subreddit/__pycache__/__init__.cpython-36.pyc b/q01_Unique_users_subreddit/__pycache__/__init__.cpython-36.pyc
diff --git a/q01_Unique_users_subreddit/__pycache__/build.cpython-36.pyc b/q01_Unique_users_subreddit/__pycache__/build.cpython-36.pyc
diff --git a/q01_Unique_users_subreddit/build.py b/q01_Unique_users_subreddit/build.py
@@ -1,7 +1,20 @@
+# %load q01_Unique_users_subreddit/build.py
 import pandas as pd
 import numpy as np
 from sklearn.model_selection import train_test_split
 
 
-def q01_Unique_users_subreddit():
+def q01_Unique_users_subreddit(path):
+
+    df = pd.read_csv(path, compression='zip')
+    variable1 = len(df['username'].unique())
+    variable2 = len(df['subreddit'].unique())
+
+    return df,variable1, variable2
+
+
+path = 'data/subreddit-interactions-for-25000-users.zip'
+q01_Unique_users_subreddit(path)
+
+
 
diff --git a/q01_Unique_users_subreddit/tests/__pycache__/__init__.cpython-36.pyc b/q01_Unique_users_subreddit/tests/__pycache__/__init__.cpython-36.pyc
diff --git a/q01_Unique_users_subreddit/tests/__pycache__/test.cpython-36.pyc b/q01_Unique_users_subreddit/tests/__pycache__/test.cpython-36.pyc
diff --git a/q02_top_subreddits_wordcloud/__pycache__/__init__.cpython-36.pyc b/q02_top_subreddits_wordcloud/__pycache__/__init__.cpython-36.pyc
diff --git a/q02_top_subreddits_wordcloud/__pycache__/build.cpython-36.pyc b/q02_top_subreddits_wordcloud/__pycache__/build.cpython-36.pyc
diff --git a/q02_top_subreddits_wordcloud/build.py b/q02_top_subreddits_wordcloud/build.py
@@ -1,10 +1,34 @@
+# %load q02_top_subreddits_wordcloud/build.py
 import pandas as pd
 import numpy as np
 import matplotlib.pyplot as plt
 from wordcloud import WordCloud
 from sklearn.model_selection import train_test_split
 from greyatomlib.recommendor_system_project.q01_Unique_users_subreddit.build import q01_Unique_users_subreddit
 
-def q02_top_subreddits_wordcloud():
+def q02_top_subreddits_wordcloud(path):
+
+    # importing data
+    df, u_user, u_subreddit = q01_Unique_users_subreddit(path)
+    # Generating a DataFrame that comprise count of each username  by subreddit
+    df_count_subreddit = df.groupby('subreddit')['username'].count().reset_index().sort_values('username',ascending = False)
+    # setting subreddit name as index of dataframe
+    df_count_subreddit.index = df_count_subreddit['subreddit']
+    df_count_subreddit.drop('subreddit', inplace = True,axis = 1)
+    #creating dictionary of dataframe where key is subreddit name and value is frequency of particular subreddit
+    d = df_count_subreddit.to_dict()['username']
+    # creating object of wordCloud
+    wordcloud = WordCloud()
+    # generating wordcloud with frequencies store in dictionary
+    wordcloud.generate_from_frequencies(frequencies=d)
+    plt.figure()
+    plt.imshow(wordcloud, interpolation='bilinear')
+    plt.axis('off')
+    plt.show()
+
+
+path = 'data/subreddit-interactions-for-25000-users.zip'
+q02_top_subreddits_wordcloud(path)
+ls
 
 
diff --git a/q02_top_subreddits_wordcloud/tests/__pycache__/__init__.cpython-36.pyc b/q02_top_subreddits_wordcloud/tests/__pycache__/__init__.cpython-36.pyc
diff --git a/q02_top_subreddits_wordcloud/tests/__pycache__/test.cpython-36.pyc b/q02_top_subreddits_wordcloud/tests/__pycache__/test.cpython-36.pyc
diff --git a/q03_plot_topK_subreddit_of_a_user/__pycache__/__init__.cpython-36.pyc b/q03_plot_topK_subreddit_of_a_user/__pycache__/__init__.cpython-36.pyc
diff --git a/q03_plot_topK_subreddit_of_a_user/__pycache__/build.cpython-36.pyc b/q03_plot_topK_subreddit_of_a_user/__pycache__/build.cpython-36.pyc
diff --git a/q03_plot_topK_subreddit_of_a_user/build.py b/q03_plot_topK_subreddit_of_a_user/build.py
@@ -1,8 +1,18 @@
+# %load q03_plot_topK_subreddit_of_a_user/build.py
 import pandas as pd
 import numpy as np
 import matplotlib.pyplot as plt
 from sklearn.model_selection import train_test_split
 from greyatomlib.recommendor_system_project.q01_Unique_users_subreddit.build import q01_Unique_users_subreddit
 
-def q03_plot_topK_subreddit_of_a_user():
+def q03_plot_topK_subreddit_of_a_user(path, user='kabanossi', k= 14):
 
+    df, u_user, u_subreddit = q01_Unique_users_subreddit(path)
+    df1= df.groupby('subreddit')['username'].count().reset_index().sort_values('username',ascending=False)
+    df1['percentage'] = df1['username'].apply(lambda value: (float(value)/total_user)*100)
+    return df1[:k]
+
+path = 'data/subreddit-interactions-for-25000-users.zip'
+q03_plot_topK_subreddit_of_a_user(path, user='kabanossi', k= 14)
+
+
diff --git a/q03_plot_topK_subreddit_of_a_user/tests/__pycache__/__init__.cpython-36.pyc b/q03_plot_topK_subreddit_of_a_user/tests/__pycache__/__init__.cpython-36.pyc
diff --git a/q03_plot_topK_subreddit_of_a_user/tests/__pycache__/test.cpython-36.pyc b/q03_plot_topK_subreddit_of_a_user/tests/__pycache__/test.cpython-36.pyc
diff --git a/q04_weightage/__pycache__/__init__.cpython-36.pyc b/q04_weightage/__pycache__/__init__.cpython-36.pyc
diff --git a/q04_weightage/__pycache__/build.cpython-36.pyc b/q04_weightage/__pycache__/build.cpython-36.pyc
diff --git a/q04_weightage/build.py b/q04_weightage/build.py
@@ -1,6 +1,24 @@
+# %load q04_weightage/build.py
 import pandas as pd
 import numpy as np
 from sklearn.model_selection import train_test_split
 from greyatomlib.recommendor_system_project.q01_Unique_users_subreddit.build import q01_Unique_users_subreddit
 
-def q04_weightage():
+def q04_weightage(path):
+
+    df, u_user, u_subreddit = q01_Unique_users_subreddit(path)
+    # minimum value in utc
+    mininum = min(df['utc'])
+    #maximum value in utc for normalization
+    maximum = max(df['utc'])
+
+    # creating weight column
+    df['weight'] = ((df['utc'] - mininum)+1)/maximum
+
+    return df
+
+
+path = 'data/subreddit-interactions-for-25000-users.zip'
+q04_weightage(path)
+
+
diff --git a/q04_weightage/tests/__pycache__/__init__.cpython-36.pyc b/q04_weightage/tests/__pycache__/__init__.cpython-36.pyc
diff --git a/q04_weightage/tests/__pycache__/test.cpython-36.pyc b/q04_weightage/tests/__pycache__/test.cpython-36.pyc
diff --git a/q05_groupby_users_subreddit/__pycache__/__init__.cpython-36.pyc b/q05_groupby_users_subreddit/__pycache__/__init__.cpython-36.pyc
diff --git a/q05_groupby_users_subreddit/__pycache__/build.cpython-36.pyc b/q05_groupby_users_subreddit/__pycache__/build.cpython-36.pyc
diff --git a/q05_groupby_users_subreddit/build.py b/q05_groupby_users_subreddit/build.py
@@ -1,7 +1,17 @@
+# %load q05_groupby_users_subreddit/build.py
 import pandas as pd
 import numpy as np
 from sklearn.model_selection import train_test_split
 from greyatomlib.recommendor_system_project.q04_weightage.build import q04_weightage
 
-def q05_groupby_users_subreddit():
+def q05_groupby_users_subreddit(path):
+
+    df = q04_weightage(path)
+    df1 = df.groupby(['username','subreddit'])['weights'].sum().reset_index()
+
+    return df1
+
+path = 'data/subreddit-interactions-for-25000-users.zip'
+q05_groupby_users_subreddit(path)
+
 
diff --git a/q05_groupby_users_subreddit/tests/__pycache__/__init__.cpython-36.pyc b/q05_groupby_users_subreddit/tests/__pycache__/__init__.cpython-36.pyc
diff --git a/q05_groupby_users_subreddit/tests/__pycache__/test.cpython-36.pyc b/q05_groupby_users_subreddit/tests/__pycache__/test.cpython-36.pyc
diff --git a/q06_similarity/__pycache__/__init__.cpython-36.pyc b/q06_similarity/__pycache__/__init__.cpython-36.pyc
diff --git a/q06_similarity/__pycache__/build.cpython-36.pyc b/q06_similarity/__pycache__/build.cpython-36.pyc
diff --git a/q06_similarity/build.py b/q06_similarity/build.py
@@ -1,3 +1,4 @@
+# %load q06_similarity/build.py
 
 import pandas as pd
 import numpy as np
@@ -6,7 +7,7 @@
 from greyatomlib.recommendor_system_project.q05_groupby_users_subreddit.build import q05_groupby_users_subreddit
 
 def q06_similarity(path, kind='subreddit', similarity_function=cosine_similarity):
-    "write your solution here"
+    'write your solution here'
     df = q05_groupby_users_subreddit(path)
     df01 = df.iloc[:100,:]
     matrix= df01.pivot_table(values='weights',columns='subreddit',index='username')
@@ -22,3 +23,6 @@ def q06_similarity(path, kind='subreddit', similarity_function=cosine_similarity
 
 a = q06_similarity('data/subreddit-interactions-for-25000-users.zip')
 print(a)
+
+
+
diff --git a/q06_similarity/tests/__pycache__/__init__.cpython-36.pyc b/q06_similarity/tests/__pycache__/__init__.cpython-36.pyc
diff --git a/q06_similarity/tests/__pycache__/test.cpython-36.pyc b/q06_similarity/tests/__pycache__/test.cpython-36.pyc
diff --git a/q06_similarity/tests/test_sol.pkl b/q06_similarity/tests/test_sol.pkl
diff --git a/q06_similarity/tests/user_sol.pkl b/q06_similarity/tests/user_sol.pkl
diff --git a/q07_recommendations/__pycache__/__init__.cpython-36.pyc b/q07_recommendations/__pycache__/__init__.cpython-36.pyc
diff --git a/q07_recommendations/__pycache__/build.cpython-36.pyc b/q07_recommendations/__pycache__/build.cpython-36.pyc
diff --git a/q07_recommendations/build.py b/q07_recommendations/build.py
@@ -1,11 +1,12 @@
+# %load q07_recommendations/build.py
 import pandas as pd
 import numpy as np
 from sklearn.model_selection import train_test_split
 from sklearn.metrics.pairwise import cosine_similarity
 from greyatomlib.recommendor_system_project.q06_similarity.build import q06_similarity
 
 def q07_recommendations(path, user='--ANUSTART-', similarity_function=cosine_similarity, kind='subreddit', number=5):
-    "write your solution here"
+    'write your solution here'
     new_df, matrix = q06_similarity(path, kind='subreddit', similarity_function=cosine_similarity)
     final_dict = dict()
     sorted_sub = matrix.loc[user,:].sort_values(ascending=False).index
@@ -19,3 +20,7 @@ def q07_recommendations(path, user='--ANUSTART-', similarity_function=cosine_sim
     final = [x[0] for x in sorted_dict]
     recommend = [x for x in final if matrix.loc[user,x]==0.0]
     return recommend[0:number]
+
+
+
+
diff --git a/q07_recommendations/tests/__pycache__/__init__.cpython-36.pyc b/q07_recommendations/tests/__pycache__/__init__.cpython-36.pyc
diff --git a/q07_recommendations/tests/__pycache__/test.cpython-36.pyc b/q07_recommendations/tests/__pycache__/test.cpython-36.pyc