Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

Extract article from non-english text #72

Open
GoogleCodeExporter opened this issue May 24, 2015 · 1 comment
Open

Extract article from non-english text #72

GoogleCodeExporter opened this issue May 24, 2015 · 1 comment

Comments

@GoogleCodeExporter
Copy link

I am trying to use boilerpipe to extract article from URLS containing 
non-english language. However it generates some ascii text, check 
this(http://boilerpipe-web.appspot.com/extract?url=http%3A%2F%2Fwww.sandesh.com%
2Farticle.aspx%3Fnewsid%3D2905443&extractor=ArticleExtractor&output=htmlFragment
&extractImages=). I saw this 
issue(https://code.google.com/p/boilerpipe/issues/detail?id=16&q=non%20english).

I tried to make some changes in the code.
1) Modified HTMLfetcher.java. Appended following lines before end of method 
fetch
byte[] utf8 = new String(data, cs.displayName()).getBytes("UTF-8"); //new one 
(convertion)
    cs = Charset.forName("UTF-8"); //set the charset to UFT-8

Or/And then 2) Changed code in my class by using UTF-8 charset with inputsource
   URL url = new URL(urls);
        InputSource is = new InputSource();
        is.setEncoding("UTF-8");
        is.setByteStream(url.openStream());
        text = ArticleExtractor.INSTANCE.getText(is);

still I am not able to get desired result.
Test URL :http://www.sandesh.com/article.aspx?newsid=2905443
Test Text(In gujarati language): મુંબઈ, 30 
જાન્યુઆરી સલમાન ખાને 
ગુજરાતમાં આવીને નરેન્દ્ર 
મોદીના વખાણ શુ કર્યા તેની 
મુસીબતોમાં ખૂબ વધારો થઈ ગયો 
છે. સલમાન ખાન ફિલ્મ 'જય હો'ના 
પ્રમોશન માટે ઉત્તરાયણમાં 
અમદાવાદ આવ્યા હોવાથી અને તે 
સમયે તેણે નરેન્દ્ર મોદીના 
વખાણ કર્યા હોવાથી કોંગ્રેસ 
દ્વારા મુસ્લિમોને તેની ફિલ્મ 
'જય હો' ના જોવાની અરજી કરવામાં 
આવી હતી અને હવે મુસ્લિમ 
મૌલવીઓ દ્વારા તેના સામે ફતવો 
જાહેર કરી દેવામાં આવ્યો છે.

Test Result: મ��બ�, 30 
�ાન�ય��ર� 
સલમાન �ાન� 
���રાતમા� 
�વ�ન� નર�ન�દ�ર 
મ�દ�ના વ�ાણ શ� 
�ર�યા ત�ન� 
મ�સ�બત�મા� ��બ 
વધાર� થ� �ય� ��. 
સલમાન �ાન 
ફિલ�મ '�ય હ�'ના 
પ�રમ�શન મા�� 
�ત�તરાયણમા� 
�મદાવાદ �વ�યા 
હ�વાથ� �ન� ત� 
સમય� ત�ણ� 
નર�ન�દ�ર 
મà«�દà«�નàª

Original issue reported on code.google.com by ranjanba...@iblogee.com on 2 Feb 2014 at 12:44

@GoogleCodeExporter
Copy link
Author

Hi,

Save it as HTML page and use below lines to extract text as it is.

Reader r = new InputStreamReader(new FileInputStream("D:/test1.htm"));
String text = CommonExtractors.ARTICLE_EXTRACTOR.getText(r);
System.out.println("Text:"+text);


Regards,

Vanaja Jayaraman

Original comment by vanaja.u...@gmail.com on 22 May 2014 at 12:01

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Projects
None yet
Development

No branches or pull requests

1 participant