In [2]:
import pandas
import os

In [3]:
# create a dataframe from all csv files in directory

def create_dataframe_from_csvs(directory):
    all_files = os.listdir(directory)
    csv_files = [f for f in all_files if f.endswith('.csv')]
    
    dataframes = []
    for file in csv_files:
        file_path = os.path.join(directory, file)
        df = pandas.read_csv(file_path)
        dataframes.append(df)
    
    combined_dataframe = pandas.concat(dataframes, ignore_index=True)
    return combined_dataframe

In [4]:
df = create_dataframe_from_csvs('text-data')

In [15]:
df['url'].unique()

array(['https://www.filmweb.pl/film/Zielona+mila-1999-862',
       'https://www.filmweb.pl/film/Skazani+na+Shawshank-1994-1048',
       'https://www.filmweb.pl/film/Forrest+Gump-1994-998', ...,
       'https://www.filmweb.pl/film/Kult+laleczki+Chucky-2017-467290',
       'https://www.filmweb.pl/film/Plan+wycieczki-2023-10043452',
       'https://www.filmweb.pl/film/Fa%C5%82szerz-2014-699082'],
      shape=(9801,), dtype=object)

In [6]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 10000 entries, 0 to 9999
Data columns (total 4 columns):
 #   Column       Non-Null Count  Dtype 
---  ------       --------------  ----- 
 0   url          10000 non-null  object
 1   title        9990 non-null   object
 2   genres       9990 non-null   object
 3   description  9704 non-null   object
dtypes: object(4)
memory usage: 312.6+ KB


In [7]:
df_no_null = df.dropna()

In [8]:
df_no_null.info()

<class 'pandas.core.frame.DataFrame'>
Index: 9704 entries, 0 to 9999
Data columns (total 4 columns):
 #   Column       Non-Null Count  Dtype 
---  ------       --------------  ----- 
 0   url          9704 non-null   object
 1   title        9704 non-null   object
 2   genres       9704 non-null   object
 3   description  9704 non-null   object
dtypes: object(4)
memory usage: 379.1+ KB


In [10]:
df_clean = df_no_null.drop_duplicates()

In [11]:
df_clean

Unnamed: 0,url,title,genres,description
0,https://www.filmweb.pl/film/Zielona+mila-1999-862,Zielona mila,Dramat,Rok 1935. Paul Edgecombe (Tom Hanks) jest jedn...
1,https://www.filmweb.pl/film/Skazani+na+Shawsha...,Skazani na Shawshank,Dramat,Film nakręcony na podstawie książki mistrza ho...
2,https://www.filmweb.pl/film/Forrest+Gump-1994-998,Forrest Gump,Dramat;Komedia,"""Forrest Gump"" to romantyczna historia, w któr..."
3,https://www.filmweb.pl/film/Leon+zawodowiec-19...,Leon zawodowiec,Dramat;Kryminał,Leon (Jean Reno) jest płatnym zabójcą. W niczy...
4,https://www.filmweb.pl/film/Requiem+dla+snu-20...,Requiem dla snu,Dramat,Wstrząsająca opowieść o czwórce bohaterów z Br...
...,...,...,...,...
9984,https://www.filmweb.pl/film/Znikasz-2017-762581,Znikasz,Dramat,Sympatyczny i spokojny dyrektor szkoły zaczyna...
9985,https://www.filmweb.pl/film/Gadjo+dilo-1997-763,The Crazy Stranger,Obyczajowy,"Młody Francuz, Stefan poszukując enigmatycznej..."
9986,https://www.filmweb.pl/film/Fa%C5%82szywy+sena...,Fałszywy senator,Komedia,"Kiedy umiera kongresmen Jeff Johnson, drobny k..."
9988,https://www.filmweb.pl/film/Plan+wycieczki-202...,Plan wycieczki,Komedia;Akcja,Pracujący w salonie samochodowym Dan (Mark Wah...


In [13]:
df_clean.to_csv('cleaned_data.csv', index=False)