# Project: Investigate Arabic Novels

## Table of Contents
<ul>
<li><a href="#intro">Introduction</a></li>
<li><a href="#wrangling">Data Wrangling</a></li>
</ul>

<a id='intro'></a>
## Introduction

> **About the data**: a collection of Arabic stories written in electronic forms between the years of 2003-2015 by online users using anonymized usernames. The data is released for non-commercial research use. The total number of stories collected is 1,267 files, stories. In average, each story contains 73,798 words. These stories where written by 913 unique authors, with a minimum of one story per writer and a maximum of seven stories per author. Authors who authored more than one story usually have stories with multiple series.



In [None]:
# Use this cell to set up import statements for all of the packages that you
#   plan to use.

# Remember to include a 'magic word' so that your visualizations are plotted
#   inline with the notebook. See this page for more:
#   http://ipython.readthedocs.io/en/stable/interactive/magics.html
import pandas as pd
import numpy as np
import glob

<a id='wrangling'></a>
## Data Wrangling

> **Tip**: In this section of the report, you will load in the data, check for cleanliness, and then trim and clean your dataset for analysis. Make sure that you document your steps carefully and justify your cleaning decisions.



## 1- Gathering Data

In [None]:
# Load your data and print out a few lines. Perform operations to inspect data
# types and look for instances of missing or possibly errant data.

In [None]:
# No need to run this everytime
!git clone https://github.com/aseelad/Rewayatech-Saudi-Stories

Cloning into 'Rewayatech-Saudi-Stories'...
remote: Enumerating objects: 1273, done.[K
remote: Total 1273 (delta 0), reused 0 (delta 0), pack-reused 1273[K
Receiving objects: 100% (1273/1273), 311.33 MiB | 16.53 MiB/s, done.
Resolving deltas: 100% (52/52), done.
Checking out files: 100% (1270/1270), done.


In [None]:
# Read Metadata file
df_Metadata = pd.read_excel('/content/Rewayatech-Saudi-Stories/SaudiNovelsMetadata.xlsx', index_col=0)

In [None]:
# Convert to csv
df_Metadata.to_csv('df_Metadata.csv')
df_Metadata.head()

Unnamed: 0_level_0,Author,Year,# of Words,"Parts, if available"
Name,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
الآسيره,صمت الجروح أم مجتبـى,,24964,
إليك يامن زرعت في قلبي أزهار الربيع,أمك تجيبك وأنا أبتلي,2003.0,20835,
مدرسة المشاغبين السبع !,وردة حمراء,2003.0,178800,
اعترافات رجل يكره يحب يعشق يبغض النساء,سهر الليالي,2004.0,39744,
بقراري ضيعت نفسي و أحبابي,الجوري,2004.0,52384,


In [None]:
# List of dictionaries to build file by file and later convert to a DataFrame
import os 
df_list = []
for novel in glob.glob('/content/Rewayatech-Saudi-Stories/TextFiles/*.txt'):
    with open(novel, encoding='utf-8', errors='ignore') as file:
        name, ext = os.path.splitext(os.path.basename(novel))
        # file.readline()[:-1]
        text = file.read()
        # Append to list of dictionaries
        df_list.append({'name': name,
                        'text': text})
df_novel = pd.DataFrame(df_list, columns = ['name', 'text'])

In [None]:
df_novel

Unnamed: 0,name,text
0,أسرار العيون,: راجو سير بسرعة انا واجد تأخير \n\nراجو : مام...
1,جبروني عليها وكرهتها وفجأه حبيتها وعشقتها,كان يتمشى بين ممرات قصرهم الكبير ويفكر بالحكم ...
2,مها,\nساعات تتحقق الاحلام المستحيله بس بعد ماتتحقق...
3,بنات رجه بس بالاناقه رزه انواع الاستهبال والرج...,"\n\n\nبسم الله الرحمن الرحيم\n\n""بيت بو محمد""\..."
4,غرورك صادف عزة النفس فيني,كل شبر بها الوسيعه ملك ربي تعلمين...\nواعلم ان...
...,...,...
1062,ماتت فرحتي يوم شفتك,"الجزء الاول\n\n\nالشخصيات,,,,,,,,\nابو مازن ((..."
1063,بنات في الإنترنت,\nريتـال بـطـلة القـصه 1 ..\nخجــوله مـره حتى ...
1064,خفايا الروح,المقدمه\n(ابو فيصل )..... (ناصر).. رجال كبير ف...
1065,عودتني كل يوم أسمع أنا صوتك,\n\n((وقعت أحداث القصة في مدينة العين ))\n\nعا...


In [None]:
df_novel.describe()

Unnamed: 0,name,text
count,1067,1067
unique,1067,1067
top,من كثر اعجابي فيك يوم اشوفك والتقيك احكي مع ال...,\nنايف +نوره\n\n\nعائلة نايف\n\nيتيم ابوه وامه...
freq,1,1


In [None]:
df_novel.to_csv('df_novel.csv')

In [None]:
df_meta = pd.read_csv('df_Metadata.csv')
# make metadata "Name" column into lower case to match the novel dataframe
df_meta = df_meta.rename(columns={'Name': 'name'})

In [None]:
df_meta

Unnamed: 0,name,Author,Year,# of Words,"Parts, if available"
0,الآسيره,صمت الجروح أم مجتبـى,,24964,
1,إليك يامن زرعت في قلبي أزهار الربيع,أمك تجيبك وأنا أبتلي,2003.0,20835,
2,مدرسة المشاغبين السبع !,وردة حمراء,2003.0,178800,
3,اعترافات رجل يكره يحب يعشق يبغض النساء,سهر الليالي,2004.0,39744,
4,بقراري ضيعت نفسي و أحبابي,الجوري,2004.0,52384,
...,...,...,...,...,...
1261,يعشقني من قلبه هو قال,جنون ورده,,59364,
1262,يمسح الدمعة بشكوى,هدوئي,,161032,
1263,يوم شفتك طاح قلبي بطوله,مجهولة !!,,81053,
1264,يوميات حبي و حبه,تاج الغرور,,152605,


In [None]:
df_novel

Unnamed: 0,name,text
0,أسرار العيون,: راجو سير بسرعة انا واجد تأخير \n\nراجو : مام...
1,جبروني عليها وكرهتها وفجأه حبيتها وعشقتها,كان يتمشى بين ممرات قصرهم الكبير ويفكر بالحكم ...
2,مها,\nساعات تتحقق الاحلام المستحيله بس بعد ماتتحقق...
3,بنات رجه بس بالاناقه رزه انواع الاستهبال والرج...,"\n\n\nبسم الله الرحمن الرحيم\n\n""بيت بو محمد""\..."
4,غرورك صادف عزة النفس فيني,كل شبر بها الوسيعه ملك ربي تعلمين...\nواعلم ان...
...,...,...
1062,ماتت فرحتي يوم شفتك,"الجزء الاول\n\n\nالشخصيات,,,,,,,,\nابو مازن ((..."
1063,بنات في الإنترنت,\nريتـال بـطـلة القـصه 1 ..\nخجــوله مـره حتى ...
1064,خفايا الروح,المقدمه\n(ابو فيصل )..... (ناصر).. رجال كبير ف...
1065,عودتني كل يوم أسمع أنا صوتك,\n\n((وقعت أحداث القصة في مدينة العين ))\n\nعا...


In [None]:
df = pd.merge(df_meta, df_novel, left_on = 'name', right_on = 'name') 
# convert the combined dataframe into a csv file :)
df.to_csv('df_data.csv')

In [None]:
df

Unnamed: 0,name,Author,Year,# of Words,"Parts, if available",text
0,الآسيره,صمت الجروح أم مجتبـى,,24964,,الى عشاق القصةالطوي \n*الجزء الأول*....\nأصرخ ...
1,إليك يامن زرعت في قلبي أزهار الربيع,أمك تجيبك وأنا أبتلي,2003.0,20835,,في المملكه العربيه السعوديه وفي منطقه جيزان جن...
2,مدرسة المشاغبين السبع !,وردة حمراء,2003.0,178800,,\n\nفي اطواف المدرسه كانت جالسه تحت طوف تناظره...
3,اعترافات رجل يكره يحب يعشق يبغض النساء,سهر الليالي,2004.0,39744,,\nالفصل الأول ......\n************ \n \nصباح ي...
4,بقراري ضيعت نفسي و أحبابي,الجوري,2004.0,52384,,\nالبندري 15 سنه يتيمة الأب....\nأختها الكبيرة...
...,...,...,...,...,...,...
1029,يعرف نقطة ضعفي حبي له,حب بابي,,32849,,ضربت الابله الطاولة وبعصبية:ديم\nديم رفعت راسه...
1030,يعشقني من قلبه هو قال,جنون ورده,,59364,,\n\nالبارت الاول \n\n\nالشخصيات الرئيسية :بيت ...
1031,يمسح الدمعة بشكوى,هدوئي,,161032,,\n* الجزء الأول *\n\n\n\n\n\n\n= أمي ؟ جدي انت...
1032,يوم شفتك طاح قلبي بطوله,مجهولة !!,,81053,,ابوووو محمد ::\nابو محمد رجال اعمال يشتغل في ش...
