In [39]:
import pandas as pd

import os
import time
import requests
from bs4 import BeautifulSoup

import pdb

import re

DPG_MAX = 11858

In [40]:
def run_viepubliquediscours_scraping2(
    start_row=1,
    filter_title_regex=None,  # This saves time, for example, only pulling the interviews.
):
    # Input
    index_fp = "/Users/yukatherin/Downloads/vie-publique-discours/discours_index.tsv"
    df = pd.read_csv(index_fp.format(index_fp), sep='\t', header=None, parse_dates=[1])

    # Output directory
    out_dir = "{}_scraping-2".format(os.path.splitext(index_fp)[0])
    if not os.path.exists(out_dir):
        os.makedirs(out_dir)
    
    # Scrape, indexed by row in input.
    for i in range(start_row, df.shape[0]):
        if i % 50 == 0:
            print(i, df.shape[0], time.time())
        
        # Check filter condition on title
        dtitle = df.iloc[i, 2]
        if filter_title_regex and not re.search(filter_title_regex, dtitle):
            continue
        
        # Scrape
        dhref = df.iloc[i, 0]
        durl = "https://vie-publique.fr{}".format(dhref)
        dpage = requests.get(durl)
        sp = BeautifulSoup(dpage.content, 'html.parser')
        dspan = sp.find(
            "span", 
            attrs={
                'class' : "clearfix text-formatted field field--name-field-texte-integral field--type-text-long field--label-hidden field__item",
            },
        )
        try:
            dtext = dspan.text
        except AttributeError:
            continue
        
        # Write to file
        doutfp = os.path.join(out_dir, "{}.txt".format(i))
        with open(doutfp, 'w') as f:
            f.write("{}".format(dtext))


In [41]:
START = 0
run_viepubliquediscours_scraping2(
    start_row=START,
    filter_title_regex=r'[Ii]nterview|[Ee]ntretien',
)

0 141889 1616145022.937005
50 141889 1616145094.175078
100 141889 1616145154.694058
150 141889 1616145223.705651
200 141889 1616145283.8268852
250 141889 1616145362.401054
300 141889 1616145414.273215
350 141889 1616145492.9091818
400 141889 1616145563.0603971
450 141889 1616145630.958485
500 141889 1616145704.320998
550 141889 1616145761.1457732
600 141889 1616145837.070139
650 141889 1616145900.566634
700 141889 1616145983.305591
750 141889 1616146056.196322
800 141889 1616146110.998116
850 141889 1616146177.014595
900 141889 1616146257.223307
950 141889 1616146325.684801
1000 141889 1616146389.780427
1050 141889 1616146458.2386901
1100 141889 1616146534.507104
1150 141889 1616146602.2740061
1200 141889 1616146662.9291599
1250 141889 1616146732.092078
1300 141889 1616146831.4993842
1350 141889 1616146914.612173
1400 141889 1616147007.059294
1450 141889 1616147125.042211
1500 141889 1616147185.373703
1550 141889 1616147263.858321
1600 141889 1616147338.5944982
1650 141889 1616147404.0

13550 141889 1616158936.2230542
13600 141889 1616158958.2333162
13650 141889 1616158982.756001
13700 141889 1616159017.592277
13750 141889 1616159047.445415
13800 141889 1616159066.489662
13850 141889 1616159113.2452412
13900 141889 1616159145.980321
13950 141889 1616159199.791786
14000 141889 1616159236.83627
14050 141889 1616159259.004568
14100 141889 1616159285.047324
14150 141889 1616159319.578068
14200 141889 1616159351.0666509
14250 141889 1616159366.69382
14300 141889 1616159388.34884
14350 141889 1616159435.790975
14400 141889 1616159457.2898939
14450 141889 1616159496.9852989
14500 141889 1616159531.601863
14550 141889 1616159544.013514
14600 141889 1616159571.9995189
14650 141889 1616159581.649212
14700 141889 1616159601.797992
14750 141889 1616159622.454508
14800 141889 1616159640.157919
14850 141889 1616159667.4548328
14900 141889 1616159689.405615
14950 141889 1616159717.47808
15000 141889 1616159745.4475021
15050 141889 1616159773.154113
15100 141889 1616159804.434577
151

26750 141889 1616167474.7806232
26800 141889 1616167513.7896361
26850 141889 1616167540.803565
26900 141889 1616167560.289738
26950 141889 1616167595.058123
27000 141889 1616167651.1179461
27050 141889 1616167681.939014
27100 141889 1616167711.6292071
27150 141889 1616167748.690984
27200 141889 1616167757.277056
27250 141889 1616167774.054247
27300 141889 1616167821.7322838
27350 141889 1616167867.5195332
27400 141889 1616167907.989205
27450 141889 1616167920.652092
27500 141889 1616167965.3762088
27550 141889 1616168004.581957
27600 141889 1616168064.35988
27650 141889 1616168106.2246232
27700 141889 1616168125.377532
27750 141889 1616168152.3729768
27800 141889 1616168164.6376598
27850 141889 1616168205.775823
27900 141889 1616168233.80974
27950 141889 1616168245.253685
28000 141889 1616168264.931957
28050 141889 1616168292.1071749
28100 141889 1616168304.648684
28150 141889 1616168323.622755
28200 141889 1616168344.693544
28250 141889 1616168373.212959
28300 141889 1616168399.984961

39900 141889 1616177915.6267068
39950 141889 1616177953.543125
40000 141889 1616178006.769392
40050 141889 1616178042.60054
40100 141889 1616178077.23345
40150 141889 1616178120.083874
40200 141889 1616178161.22813
40250 141889 1616178192.261396
40300 141889 1616178231.989747
40350 141889 1616178270.4293902
40400 141889 1616178330.929112
40450 141889 1616178372.243304
40500 141889 1616178417.273312
40550 141889 1616178461.41011
40600 141889 1616178494.868808
40650 141889 1616178531.5992582
40700 141889 1616178582.255139
40750 141889 1616178616.279169
40800 141889 1616178658.088782
40850 141889 1616178708.297154
40900 141889 1616178747.845472
40950 141889 1616178829.97368
41000 141889 1616178879.746548
41050 141889 1616178921.38626
41100 141889 1616178977.773945
41150 141889 1616179035.867525
41200 141889 1616179089.111367
41250 141889 1616179159.6707442
41300 141889 1616179246.643816
41350 141889 1616179315.926527
41400 141889 1616179365.929615
41450 141889 1616179411.809016
41500 1418

53100 141889 1616189497.0122838
53150 141889 1616189527.54965
53200 141889 1616189577.507008
53250 141889 1616189630.956084
53300 141889 1616189677.434699
53350 141889 1616189713.315155
53400 141889 1616189756.905558
53450 141889 1616189803.472048
53500 141889 1616189870.8017259
53550 141889 1616189910.265614
53600 141889 1616189963.179595
53650 141889 1616190012.060225
53700 141889 1616190041.4725828
53750 141889 1616190065.108638
53800 141889 1616190104.540981
53850 141889 1616190126.158566
53900 141889 1616190160.113503
53950 141889 1616190178.0482
54000 141889 1616190194.237828
54050 141889 1616190233.975338
54100 141889 1616190277.1105468
54150 141889 1616190324.910184
54200 141889 1616190370.988765
54250 141889 1616190417.027199
54300 141889 1616190448.860667
54350 141889 1616190490.8091478
54400 141889 1616190533.1809778
54450 141889 1616190556.179287
54500 141889 1616190597.888494
54550 141889 1616190630.3327842
54600 141889 1616190653.671978
54650 141889 1616190695.687138
5470

66250 141889 1616201781.469205
66300 141889 1616201822.808248
66350 141889 1616201877.038207
66400 141889 1616201935.841722
66450 141889 1616201992.716338
66500 141889 1616202030.732415
66550 141889 1616202077.558186
66600 141889 1616202122.381181
66650 141889 1616202159.459168
66700 141889 1616202188.022769
66750 141889 1616202222.631022
66800 141889 1616202254.9725509
66850 141889 1616202276.140342
66900 141889 1616202304.275436
66950 141889 1616202320.146963
67000 141889 1616202349.4520378
67050 141889 1616202374.7716968
67100 141889 1616202399.004812
67150 141889 1616202425.898473
67200 141889 1616202461.408643
67250 141889 1616202511.4874828
67300 141889 1616202551.210582
67350 141889 1616202574.377418
67400 141889 1616202609.050592
67450 141889 1616202639.314378
67500 141889 1616202670.759419
67550 141889 1616202707.124953
67600 141889 1616202735.455704
67650 141889 1616202777.742929
67700 141889 1616202820.766948
67750 141889 1616202858.834116
67800 141889 1616202884.294979
6785

79400 141889 1616214846.196816
79450 141889 1616214906.81703
79500 141889 1616214967.807384
79550 141889 1616215025.972148
79600 141889 1616215061.441165
79650 141889 1616215118.2353432
79700 141889 1616215177.422854
79750 141889 1616215245.3082712
79800 141889 1616215290.7277818
79850 141889 1616215348.631872
79900 141889 1616215394.814092
79950 141889 1616215430.893007
80000 141889 1616215498.13493
80050 141889 1616215550.9401548
80100 141889 1616215587.320409
80150 141889 1616215632.990627
80200 141889 1616215683.477812
80250 141889 1616215743.0698318
80300 141889 1616215789.8990378
80350 141889 1616215854.27398
80400 141889 1616215896.4339788
80450 141889 1616215945.199431
80500 141889 1616215991.896302
80550 141889 1616216041.457083
80600 141889 1616216079.344126
80650 141889 1616216120.507671
80700 141889 1616216157.885204
80750 141889 1616216213.181767
80800 141889 1616216286.190423
80850 141889 1616216321.010658
80900 141889 1616216394.526504
80950 141889 1616216455.6612039
810

92550 141889 1616230608.983427
92600 141889 1616230675.850879
92650 141889 1616230742.449652
92700 141889 1616230816.3443542
92750 141889 1616230864.8788009
92800 141889 1616230948.847871
92850 141889 1616231030.256439
92900 141889 1616231102.116269
92950 141889 1616231169.9621508
93000 141889 1616231227.609281
93050 141889 1616231313.9976242
93100 141889 1616231375.542507
93150 141889 1616231422.1261492
93200 141889 1616231469.137012
93250 141889 1616231528.48992
93300 141889 1616231591.6728058
93350 141889 1616231649.254934
93400 141889 1616231697.9284658
93450 141889 1616231760.655971
93500 141889 1616231822.718739
93550 141889 1616231872.6205351
93600 141889 1616231936.007604
93650 141889 1616232003.896312
93700 141889 1616232072.876639
93750 141889 1616232128.621748
93800 141889 1616232193.481673
93850 141889 1616232276.753982
93900 141889 1616232326.4487119
93950 141889 1616232404.755765
94000 141889 1616232477.702023
94050 141889 1616232539.238734
94100 141889 1616232618.864619


ConnectionError: ('Connection aborted.', TimeoutError(60, 'Operation timed out'))