# Adura data analysis

The analysis is based on dumps of the awisa/adura database on the 28.11.2023 (21 tables). The structure of the database can be visualized in 'Awisa-Datenbank-struktur.png'.

In [1]:
import pandas as pd
import os

folder_path = '../csv-files'

# Create an empty dictionary to store DataFrames
dfs = {}

# Loop through each file in the folder
for file in os.listdir(folder_path):
    if file.endswith('.csv'):
        # Use the file name (without extension) as the variable name
        variable_name = os.path.splitext(file)[0]

        try:
            # Read the CSV file and assign it to the variable in the dictionary
            dfs[variable_name] = pd.read_csv(os.path.join(folder_path, file), sep='|')
        except pd.errors.EmptyDataError:
            # Handle the case where the file is empty
            print(f"Warning: {file} is empty. Skipping.")



### Data security

ad_meldungen and ad_steckbrief have a boolean column 'is_public' to differenciate both type of data

In [2]:
def public_data(doc):
    return doc[doc['is_public']]

dfs['ad_meldung-20231128'] = public_data(dfs['ad_meldung-20231128'])
dfs['ad_steckbrief-20231128'] = public_data(dfs['ad_steckbrief-20231128'])

### **ad_gefahr-20231128** : 

#### Content:

This table contains the 'Gefahr' with their date of creation. Gefahr are general topics. They regroup Steckbriefe and Meldungen

#### Length:

In [3]:
print('Length of ad_gefahr-20231128:', len(dfs['ad_gefahr-20231128']), 'rows')

Length of ad_gefahr-20231128: 326 rows


#### Data overview:

In [4]:
print(dfs['ad_gefahr-20231128'].head())

   id                        bezeichnung_de  \
0   1             <em>Escherichia coli</em>   
1   2               Hepatitis E Virus (HEV)   
2   3  <em>Yersinia pseudotuberculosis</em>   
3   4         <em>Bacillus cytotoxicus</em>   
4   5       <em>Bacillus thuringiensis</em>   

                         bezeichnung_en                        bezeichnung_fr  \
0             <em>Escherichia coli</em>             <em>Escherichia coli</em>   
1               Hepatitis E Virus (HEV)               Hepatitis E Virus (HEV)   
2  <em>Yersinia pseudotuberculosis</em>  <em>Yersinia pseudotuberculosis</em>   
3         <em>Bacillus cytotoxicus</em>         <em>Bacillus cytotoxicus</em>   
4       <em>Bacillus thuringiensis</em>       <em>Bacillus thuringiensis</em>   

                         bezeichnung_it  deaktiviert             erf_date  \
0             <em>Escherichia coli</em>        False  08.08.2022 20:05:21   
1               Hepatitis E Virus (HEV)        False  08.08.2022 20:05:21   

#### Data types:

In [5]:
print(dfs['ad_gefahr-20231128'].dtypes)

id                 int64
bezeichnung_de    object
bezeichnung_en    object
bezeichnung_fr    object
bezeichnung_it    object
deaktiviert         bool
erf_date          object
erf_user           int64
mut_date          object
mut_user           int64
version            int64
dtype: object


'erf_date' and 'mut_date' to datetime type

##### Data transformation

In [6]:
dfs['ad_gefahr-20231128'].mut_date = pd.to_datetime(dfs['ad_gefahr-20231128'].mut_date, format='%d.%m.%Y %H:%M:%S')
dfs['ad_gefahr-20231128'].erf_date = pd.to_datetime(dfs['ad_gefahr-20231128'].erf_date, format='%d.%m.%Y %H:%M:%S')

print(dfs['ad_gefahr-20231128'].dtypes)

id                         int64
bezeichnung_de            object
bezeichnung_en            object
bezeichnung_fr            object
bezeichnung_it            object
deaktiviert                 bool
erf_date          datetime64[ns]
erf_user                   int64
mut_date          datetime64[ns]
mut_user                   int64
version                    int64
dtype: object


#### Important columns:

To be published:
- bezeichnung_de
- bezeichnung_en
- bezeichnung_fr
- bezeichnung_it
- erf_date
- mut_date

Need to be used:
- id

### **ad_meldung-20231128** : 

#### Content:

This table contains the 'meldungen' with their date of creation, if their are public or not, the level of importance (sterne), if they were published on Seismo info or not and a small summary. Meldungen are any publication of interest that have been made on a food safety topic.

#### Length:

In [7]:
print('Length of ad_meldung-20231128:', len(dfs['ad_meldung-20231128']), 'rows')

Length of ad_meldung-20231128: 926 rows


#### Data overview:

In [8]:
print(dfs['ad_meldung-20231128'].head())

   id        code                                              titel  \
2   4  N-2022-004  Junk food advertising restrictions prevent obe...   
3   5  N-2022-005  <em>Campylobacter</em> prevalence in broiler a...   
4   6  N-2022-006  <strong>Vegetarian women have  greater risk of...   
5   7  N-2022-007                                  Nutritional drink   
6   8  N-2022-008  USA: Report of Pesticide Residue Monitoring Pr...   

                                            kurzinfo kommentar  is_public  \
2  Restrictions for junk food advertising on Tran...       NaN       True   
3  A recent study explores the relationship betwe...       NaN       True   
4  A study from the University of Leeds found tha...       NaN       True   
5  An American company, which <strong>recalled 53...       NaN       True   
6  The report summarizes  the Food and Drug Admin...       NaN       True   

   sterne  seismo_publikation  seismo_info_ausgabe  status  \
2     0.0               False             

#### Data types:

In [9]:
print(dfs['ad_meldung-20231128'].dtypes)

id                       int64
code                    object
titel                   object
kurzinfo                object
kommentar               object
is_public                 bool
sterne                 float64
seismo_publikation        bool
seismo_info_ausgabe     object
status                   int64
erf_date                object
erf_user                 int64
mut_date                object
mut_user                 int64
version                  int64
dtype: object


'sterne' can be changed to int type and 'erf_date' and 'mut_date' to datetime type

##### Data transformation

In [10]:
dfs['ad_meldung-20231128'].mut_date = pd.to_datetime(dfs['ad_meldung-20231128'].mut_date, format='%d.%m.%Y %H:%M:%S')
dfs['ad_meldung-20231128'].erf_date = pd.to_datetime(dfs['ad_meldung-20231128'].erf_date, format='%d.%m.%Y %H:%M:%S')
dfs['ad_meldung-20231128'].sterne = dfs['ad_meldung-20231128'].sterne.round().astype('Int64')

print(dfs['ad_meldung-20231128'].dtypes)

id                              int64
code                           object
titel                          object
kurzinfo                       object
kommentar                      object
is_public                        bool
sterne                          Int64
seismo_publikation               bool
seismo_info_ausgabe            object
status                          int64
erf_date               datetime64[ns]
erf_user                        int64
mut_date               datetime64[ns]
mut_user                        int64
version                         int64
dtype: object


#### Important columns:

To be published:
- titel
- kurzinfo
- sterne
- erf_date
- mut_date

Need to be used:
- id
- is_public
- status

### **ad_steckbrief-20231128** : 

#### Content:

This table contains the 'Steckbrief' with their date of creation, if their are public or not, their safety priority, if they have a signal or not and a small summary. Steckbriefe are groups of Meldungen.

#### Length:

In [11]:
print('Length of ad_steckbrief-20231128:', len(dfs['ad_steckbrief-20231128']), 'rows')

Length of ad_steckbrief-20231128: 188 rows


#### Data overview:

In [12]:
print(dfs['ad_steckbrief-20231128'].head())

   id        code                                              titel  \
0   1  F-2018-006                                 Food-borne viruses   
1   2  F-2018-007  <em>Mycobacterium avium ssp. paratuberculosis ...   
2   3  F-2018-008                   ß-N-methylamino-L-alanine (BMAA)   
3   4  F-2018-020                             Anthraquinone in foods   
4   5  F-2018-021                    Blockchain in the food industry   

                                            kurzinfo  \
0  Food-borne infections caused by various viruse...   
1  <em>Mycobacterium avium subspecies paratubercu...   
2  β-N-methylamino-L-alanine (BMAA) is a non-prot...   
3  The Research Institute of Organic Agriculture ...   
4  Blockchain technology is currently best known ...   

                                             comment  is_public  \
0  Transmission in most cases through faecally co...       True   
1  Old, controversial discussion that also led to...       True   
2  Relatively new topic, only

#### Data types:

In [13]:
print(dfs['ad_steckbrief-20231128'].dtypes)

id                  int64
code               object
titel              object
kurzinfo           object
comment            object
is_public            bool
creation_date      object
next_evaluation    object
priority            int64
signal               bool
status              int64
referenzen         object
bcg_dokumente      object
adura_id           object
erf_date           object
erf_user            int64
mut_date           object
mut_user            int64
version             int64
dtype: object


'erf_date' and 'mut_date' to datetime type

##### Data transformation

In [14]:
dfs['ad_steckbrief-20231128'].mut_date = pd.to_datetime(dfs['ad_steckbrief-20231128'].mut_date, format='%d.%m.%Y %H:%M:%S')
dfs['ad_steckbrief-20231128'].erf_date = pd.to_datetime(dfs['ad_steckbrief-20231128'].erf_date, format='%d.%m.%Y %H:%M:%S')

print(dfs['ad_steckbrief-20231128'].dtypes)

id                          int64
code                       object
titel                      object
kurzinfo                   object
comment                    object
is_public                    bool
creation_date              object
next_evaluation            object
priority                    int64
signal                       bool
status                      int64
referenzen                 object
bcg_dokumente              object
adura_id                   object
erf_date           datetime64[ns]
erf_user                    int64
mut_date           datetime64[ns]
mut_user                    int64
version                     int64
dtype: object


#### Important columns:

To be published:
- titel
- kurzinfo
- priority
- signal
- erf_date
- mut_date

Need to be used:
- id
- is_public
- status

### **ad_bereich-20231128** : 

#### Content:

This table contains the 'bereich' with their date of creation. There is only 5 Bereich and they are five big topics of food safety.

#### Length:

In [15]:
print('Length of ad_bereich-20231128:', len(dfs['ad_bereich-20231128']), 'rows')

Length of ad_bereich-20231128: 5 rows


#### Data overview:

In [16]:
print(dfs['ad_bereich-20231128'].head())

   id      bezeichnung_de     bezeichnung_en      bezeichnung_fr  \
0   1       Mikrobiologie       Microbiology       Microbiologie   
1   2              Chemie          Chemistry              Chimie   
2   3  Betrug / Täuschung  Fraud / Deception  Fraude / Tromperie   
3   4           Ernährung          Nutrition           Nutrition   
4   5            Allergie            Allergy            Allergie   

   bezeichnung_it             erf_date  erf_user             mut_date  \
0   Microbiologia  08.08.2022 20:05:21        -1  08.08.2022 20:05:21   
1         Chimica  08.08.2022 20:05:21        -1  08.08.2022 20:05:21   
2  Froda / Truffa  08.08.2022 20:05:21        -1  08.08.2022 20:05:21   
3      Nutrizione  08.08.2022 20:05:21        -1  08.08.2022 20:05:21   
4        Allergia  08.08.2022 20:05:21        -1  08.08.2022 20:05:21   

   mut_user  version  
0        -1        0  
1        -1        0  
2        -1        0  
3        -1        0  
4        -1        0  


#### Data types:

In [17]:
print(dfs['ad_bereich-20231128'].dtypes)

id                 int64
bezeichnung_de    object
bezeichnung_en    object
bezeichnung_fr    object
bezeichnung_it    object
erf_date          object
erf_user           int64
mut_date          object
mut_user           int64
version            int64
dtype: object


'erf_date' and 'mut_date' to datetime type

##### Data transformation

In [18]:
dfs['ad_bereich-20231128'].mut_date = pd.to_datetime(dfs['ad_bereich-20231128'].mut_date, format='%d.%m.%Y %H:%M:%S')
dfs['ad_bereich-20231128'].erf_date = pd.to_datetime(dfs['ad_bereich-20231128'].erf_date, format='%d.%m.%Y %H:%M:%S')

print(dfs['ad_bereich-20231128'].dtypes)

id                         int64
bezeichnung_de            object
bezeichnung_en            object
bezeichnung_fr            object
bezeichnung_it            object
erf_date          datetime64[ns]
erf_user                   int64
mut_date          datetime64[ns]
mut_user                   int64
version                    int64
dtype: object


#### Important columns:

To be published:
- bezeichnung_de
- bezeichnung_en
- bezeichnung_fr
- bezeichnung_it
- erf_date
- mut_date

Need to be used:
- id

### **ad_aktivitaet-20231128** : 

#### Content:

Activity on the Steckbrief table 

#### Length:

In [19]:
print('Length of ad_aktivitaet-20231128:', len(dfs['ad_aktivitaet-20231128']), 'rows')

Length of ad_aktivitaet-20231128: 142 rows


#### Data overview:

In [20]:
print(dfs['ad_aktivitaet-20231128'].head())

   id      who                 till  \
0   1      NaN                  NaN   
1   2      NaN                  NaN   
2   4      BCG                  NaN   
3   6      NaN  30.07.2019 00:00:00   
4   7  RB, LME  31.12.2019 00:00:00   

                                                text  status  steckbrief_id  \
0                                    Risk assessment      10              1   
1  In 2012, the FSVO analysed 896 tank milk sampl...      20              2   
2  Risk assessment contribution on the topic of a...      20              4   
3  Research project 1.17.03 =&gt; Study conducted...      20              6   
4  Drawing up an overview list of different produ...      20              7   

              erf_date  erf_user             mut_date  mut_user  version  
0  25.09.2018 00:00:00      -100  12.09.2022 11:31:07       860        1  
1  23.05.2018 00:00:00      -100  23.01.2023 16:09:50       932        2  
2  23.05.2018 00:00:00      -100  07.02.2023 10:44:13       932  

#### Data types:

In [21]:
print(dfs['ad_aktivitaet-20231128'].dtypes)

id                int64
who              object
till             object
text             object
status            int64
steckbrief_id     int64
erf_date         object
erf_user          int64
mut_date         object
mut_user          int64
version           int64
dtype: object


'till', 'erf_date' and 'mut_date' to datetime type

##### Data transformation

In [22]:
dfs['ad_aktivitaet-20231128'].till = pd.to_datetime(dfs['ad_aktivitaet-20231128'].till, format='%d.%m.%Y %H:%M:%S')
dfs['ad_aktivitaet-20231128'].mut_date = pd.to_datetime(dfs['ad_aktivitaet-20231128'].mut_date, format='%d.%m.%Y %H:%M:%S')
dfs['ad_aktivitaet-20231128'].erf_date = pd.to_datetime(dfs['ad_aktivitaet-20231128'].erf_date, format='%d.%m.%Y %H:%M:%S')

print(dfs['ad_aktivitaet-20231128'].dtypes)

id                        int64
who                      object
till             datetime64[ns]
text                     object
status                    int64
steckbrief_id             int64
erf_date         datetime64[ns]
erf_user                  int64
mut_date         datetime64[ns]
mut_user                  int64
version                   int64
dtype: object


### **ad_publikation-20231128** : 

#### Content: 
List of Journals where a Meldung was published. 

#### Length:

In [23]:
print('Length of ad_publikation-20231128:', len(dfs['ad_publikation-20231128']), 'rows')

Length of ad_publikation-20231128: 460 rows


#### Data overview:

In [24]:
print(dfs['ad_publikation-20231128'].head())

   id                                              titel  \
0   1                                                NZZ   
1   6                                              Blick   
2   7               The New England Journal of Medicine    
3   8  International Journal of Behavioral Nutrition ...   
4   9      London School of Hygiene & Tropical Medicine    

             abkuerzung  deaktiviert             erf_date  erf_user  \
0                   NZZ        False  08.08.2022 20:05:21        -1   
1                 Blick        False  11.08.2022 07:43:00        84   
2             NEnglJMed        False  11.08.2022 07:44:28        84   
3  IntJBehavNutrPhysAct        False  12.08.2022 07:19:30        84   
4                 LSHTM        False  12.08.2022 07:21:27        84   

              mut_date  mut_user  version  
0  08.08.2022 20:05:21        -1        0  
1  11.08.2022 07:43:00        84        0  
2  01.09.2022 11:26:02        36        3  
3  01.09.2022 11:25:28        36    

#### Data types:

In [25]:
print(dfs['ad_publikation-20231128'].dtypes)

id              int64
titel          object
abkuerzung     object
deaktiviert      bool
erf_date       object
erf_user        int64
mut_date       object
mut_user        int64
version         int64
dtype: object


'erf_date' and 'mut_date' to datetime type

##### Data transformation

In [26]:
dfs['ad_publikation-20231128'].mut_date = pd.to_datetime(dfs['ad_publikation-20231128'].mut_date, format='%d.%m.%Y %H:%M:%S')
dfs['ad_publikation-20231128'].erf_date = pd.to_datetime(dfs['ad_publikation-20231128'].erf_date, format='%d.%m.%Y %H:%M:%S')

print(dfs['ad_publikation-20231128'].dtypes)

id                      int64
titel                  object
abkuerzung             object
deaktiviert              bool
erf_date       datetime64[ns]
erf_user                int64
mut_date       datetime64[ns]
mut_user                int64
version                 int64
dtype: object


#### Important columns:

To be published:
- titel
- erf_date
- mut_date

Need to be used:
- id

### **ad_document-20231128** : 

#### Content:
Names and IDs of documents

#### Length:

In [27]:
print('Length of ad_document-20231128:', len(dfs['ad_document-20231128']), 'rows')

Length of ad_document-20231128: 146 rows


#### Data overview:

In [28]:
print(dfs['ad_document-20231128'].head())

   id                                               name        mime_type  \
0   1  A Zoonotic Henipavirus in Febrile Patients in ...  application/pdf   
1   2  Briefing Letter Anisakis spp - ein Parasit mit...  application/pdf   
2   3  Briefing Letter Anisakis spp - une parasitose ...  application/pdf   
3   4  Briefing Letter Cannabidiol (CBD) in Lebensmit...  application/pdf   
4   6                                Zoonosebericht 2018  application/pdf   

  extension  autorisierung           data  steckbrief_id             erf_date  \
0       pdf             20  System.Byte[]            207  11.08.2022 08:56:37   
1       pdf             10  System.Byte[]            116  17.08.2022 12:50:15   
2       pdf             10  System.Byte[]            116  19.08.2022 10:07:15   
3       pdf             10  System.Byte[]             93  19.08.2022 17:35:10   
4       pdf             20  System.Byte[]             33  20.08.2022 12:06:03   

   erf_user             mut_date  mut_user  versio

#### Data types:

In [29]:
print(dfs['ad_document-20231128'].dtypes)

id                int64
name             object
mime_type        object
extension        object
autorisierung     int64
data             object
steckbrief_id     int64
erf_date         object
erf_user          int64
mut_date         object
mut_user          int64
version           int64
dtype: object


'erf_date' and 'mut_date' to datetime type

##### Data transformation

In [30]:
dfs['ad_document-20231128'].mut_date = pd.to_datetime(dfs['ad_document-20231128'].mut_date, format='%d.%m.%Y %H:%M:%S')
dfs['ad_document-20231128'].erf_date = pd.to_datetime(dfs['ad_document-20231128'].erf_date, format='%d.%m.%Y %H:%M:%S')

print(dfs['ad_document-20231128'].dtypes)

id                        int64
name                     object
mime_type                object
extension                object
autorisierung             int64
data                     object
steckbrief_id             int64
erf_date         datetime64[ns]
erf_user                  int64
mut_date         datetime64[ns]
mut_user                  int64
version                   int64
dtype: object


#### Important columns:

To be published:
- name
- data
- erf_date
- mut_date

Need to be used:
- id
- steckbrief_id
- autorisierung

### **ad_beurteilung-20231128** : 

#### Content:
Evaluation of risks for each Steckbrief

#### Length:

In [31]:
print('Length of ad_beurteilung-20231128:', len(dfs['ad_beurteilung-20231128']), 'rows')

Length of ad_beurteilung-20231128: 386 rows


#### Data overview:

In [32]:
print(dfs['ad_beurteilung-20231128'].head())

   id  type                 date  \
0   1    10  21.10.2019 00:00:00   
1   3    10  09.12.2019 00:00:00   
2   4    10  11.07.2019 00:00:00   
3   5    10  30.01.2020 00:00:00   
4   6    10  12.05.2021 00:00:00   

                                                text  steckbrief_id  \
0  <p>The Nipah virus is endemic in Southeast Asi...             71   
1  <p>Possible risks are conceivable when importi...             90   
2  <p>A significant proportion of young Swiss men...             54   
3  <p>Raw fish is also consumed in Switzerland in...             92   
4  <p>Omega-3 fish oil capsules are also availabl...            137   

              erf_date  erf_user             mut_date  mut_user  version  
0  21.10.2019 00:00:00      -100  15.09.2022 12:20:20       860        1  
1  09.12.2019 00:00:00      -100  19.09.2022 10:00:18       860        1  
2  11.07.2019 00:00:00      -100  15.09.2022 16:51:07       860        1  
3  03.01.2020 00:00:00      -100  15.09.2022 16:08:51   

#### Data types:

In [33]:
print(dfs['ad_beurteilung-20231128'].dtypes)

id                int64
type              int64
date             object
text             object
steckbrief_id     int64
erf_date         object
erf_user          int64
mut_date         object
mut_user          int64
version           int64
dtype: object


'date', 'erf_data' and 'mut_date' can be changed to datetime type 

##### Data transformation

In [34]:
dfs['ad_beurteilung-20231128'].date = pd.to_datetime(dfs['ad_beurteilung-20231128'].date, format='%d.%m.%Y %H:%M:%S')
dfs['ad_beurteilung-20231128'].erf_date = pd.to_datetime(dfs['ad_beurteilung-20231128'].erf_date, format='%d.%m.%Y %H:%M:%S')
dfs['ad_beurteilung-20231128'].mut_date = pd.to_datetime(dfs['ad_beurteilung-20231128'].mut_date, format='%d.%m.%Y %H:%M:%S')


print(dfs['ad_beurteilung-20231128'].dtypes)

id                        int64
type                      int64
date             datetime64[ns]
text                     object
steckbrief_id             int64
erf_date         datetime64[ns]
erf_user                  int64
mut_date         datetime64[ns]
mut_user                  int64
version                   int64
dtype: object


### **ad_treiber-20231128** : 

#### Content:
General Topics linked to the Meldung

#### Length:

In [35]:
print('Length of ad_treiber-20231128:', len(dfs['ad_treiber-20231128']), 'rows')

Length of ad_treiber-20231128: 13 rows


#### Data overview:

In [36]:
print(dfs['ad_treiber-20231128'].head())

   id                                     bezeichnung_de  \
0   1                                        Klimawandel   
1   2  Technologische Innovationen und wissenschaftli...   
2   3            Verstädterung und urbane Landwirtschaft   
3   4                                Kreislaufwirtschaft   
4   5              Mikrobiome und Lebensmittelsicherheit   

                                      bezeichnung_en  \
0                                     Climate change   
1  Technological innovations and scientific advances   
2                 Urbanization and urban agriculture   
3                                   Circular economy   
4                        Microbiomes and food safety   

                                      bezeichnung_fr  \
0                              Changement climatique   
1  Innovations technologiques et progrès scientif...   
2                Urbanisation et agriculture urbaine   
3                                Économie circulaire   
4                Micro

#### Data types:

In [37]:
print(dfs['ad_treiber-20231128'].dtypes)

id                 int64
bezeichnung_de    object
bezeichnung_en    object
bezeichnung_fr    object
bezeichnung_it    object
deaktiviert         bool
erf_date          object
erf_user           int64
mut_date          object
mut_user           int64
version            int64
dtype: object


'erf_data' and 'mut_date' can be changed to datetime type 

##### Data transformation

In [38]:
dfs['ad_treiber-20231128'].mut_date = pd.to_datetime(dfs['ad_treiber-20231128'].mut_date, format='%d.%m.%Y %H:%M:%S')
dfs['ad_treiber-20231128'].erf_date = pd.to_datetime(dfs['ad_treiber-20231128'].erf_date, format='%d.%m.%Y %H:%M:%S')

print(dfs['ad_treiber-20231128'].dtypes)

id                         int64
bezeichnung_de            object
bezeichnung_en            object
bezeichnung_fr            object
bezeichnung_it            object
deaktiviert                 bool
erf_date          datetime64[ns]
erf_user                   int64
mut_date          datetime64[ns]
mut_user                   int64
version                    int64
dtype: object


### **ad_matrix-20231128** : 

#### Content :
Where the problem has been detected, in which food, animal, ...

#### Length:

In [39]:
print('Length of ad_matrix-20231128:', len(dfs['ad_matrix-20231128']), 'rows')

Length of ad_matrix-20231128: 157 rows


#### Data overview:

In [40]:
print(dfs['ad_matrix-20231128'].head())

   id                                     bezeichnung_de  \
0   1                                 Nicht spezifiziert   
1   2  Kartoffeln und andere stärkehaltige Wurzelknollen   
2   3                                             Gemüse   
3   4                         Hülsenfrüchte (getrocknet)   
4   5                           Früchte, Nüsse und Samen   

              bezeichnung_en                                  bezeichnung_fr  \
0               Unclassified                                    Non spécifié   
1  Potatoes And Other Tubers  Pommes de terre et autres tubercules féculents   
2                 Vegetables                                         Légumes   
3                    Legumes                                    Légumes secs   
4     Fruits, Nuts And Seeds            Fruits, fruits oléagineux et graines   

                     bezeichnung_it  parent_id sortierung  \
0                   Non specificato        NaN         00   
1    Patate e altri tuberi amidacei 

#### Data types:

In [41]:
print(dfs['ad_matrix-20231128'].dtypes)

id                  int64
bezeichnung_de     object
bezeichnung_en     object
bezeichnung_fr     object
bezeichnung_it     object
parent_id         float64
sortierung         object
erf_date           object
erf_user            int64
mut_date           object
mut_user            int64
version             int64
dtype: object


'erf_date' and 'mut_date' can be changed to datetime type

##### Data transformation

In [42]:
dfs['ad_matrix-20231128'].mut_date = pd.to_datetime(dfs['ad_matrix-20231128'].mut_date, format='%d.%m.%Y %H:%M:%S')
dfs['ad_matrix-20231128'].erf_date = pd.to_datetime(dfs['ad_matrix-20231128'].erf_date, format='%d.%m.%Y %H:%M:%S')

print(dfs['ad_matrix-20231128'].dtypes)

id                         int64
bezeichnung_de            object
bezeichnung_en            object
bezeichnung_fr            object
bezeichnung_it            object
parent_id                float64
sortierung                object
erf_date          datetime64[ns]
erf_user                   int64
mut_date          datetime64[ns]
mut_user                   int64
version                    int64
dtype: object


#### Important columns:

To be published:
- bezeichnung_de
- bezeichnung_en
- bezeichnung_fr
- bezeichnung_it
- erf_date
- mut_date

Need to be used:
- id

### **ad_log-20231128**:

#### Content: 
List of Changes in Database

#### Length:

In [43]:
print('Length of ad_log-20231128:', len(dfs['ad_log-20231128']), 'rows')

Length of ad_log-20231128: 7162 rows


#### Data overview:

In [44]:
print(dfs['ad_log-20231128'].head())

   id parent_code  label                                            comment  \
0   1  F-2018-006     20  20.12.2018 frf/tlu Freigabe13.07.2022: (tlu) L...   
1   2  F-2018-007     20  20.12.2018 tlu/frf Freigabe28.04.2022 (tlu) Li...   
2   3  F-2018-008     20  20.12.2018 tlu/frf Freigabe8.7.2019: (tlu) Lit...   
3   4  F-2018-020     20  20.12.2018 Freigabe tlu/frf26.8.2019 Literatur...   
4   5  F-2018-021     20  20.12.2018 tlu/frf Freigabe16.09.2020 Literatu...   

             timestamp  person_id  
0  08.08.2022 20:05:24     -100.0  
1  08.08.2022 20:05:24     -100.0  
2  08.08.2022 20:05:24     -100.0  
3  08.08.2022 20:05:24     -100.0  
4  08.08.2022 20:05:24     -100.0  


#### Data types:

In [45]:
print(dfs['ad_log-20231128'].dtypes)

id               int64
parent_code     object
label            int64
comment         object
timestamp       object
person_id      float64
dtype: object


The 'timestamp' column can be converted to Datatime type

##### Data transformation

In [46]:
dfs['ad_log-20231128'].timestamp = pd.to_datetime(dfs['ad_log-20231128'].timestamp, format='%d.%m.%Y %H:%M:%S')
print(dfs['ad_log-20231128'].dtypes)

id                      int64
parent_code            object
label                   int64
comment                object
timestamp      datetime64[ns]
person_id             float64
dtype: object


### **ad_meldung_ad_treiber-20231128** : 

#### Content:
Link between Meldung and treiber

#### Length:

In [47]:
print('Length of ad_meldung_ad_treiber-20231128:', len(dfs['ad_meldung_ad_treiber-20231128']), 'rows')

Length of ad_meldung_ad_treiber-20231128: 517 rows


#### Data overview:

In [48]:
print(dfs['ad_meldung_ad_treiber-20231128'].head())

   meldung_id  treiber_id
0           1           7
1         147           2
2          17           8
3          20           8
4          30           7


#### Data types:

In [49]:
print(dfs['ad_meldung_ad_treiber-20231128'].dtypes)

meldung_id    int64
treiber_id    int64
dtype: object


### **ad_steckbrief_ad_bereich-20231128** : 

#### Content:
Link between Steckbrief and Bereich

#### Length:

In [50]:
print('Length of ad_steckbrief_ad_bereich-20231128:', len(dfs['ad_steckbrief_ad_bereich-20231128']), 'rows')

Length of ad_steckbrief_ad_bereich-20231128: 335 rows


#### Data overview:

In [51]:
print(dfs['ad_steckbrief_ad_bereich-20231128'].head())

   steckbrief_id  bereich_id  primaer
0            161           2     True
1             65           4     True
2             33           1     True
3            177           2     True
4             12           1     True


#### Data types:

In [52]:
print(dfs['ad_steckbrief_ad_bereich-20231128'].dtypes)

steckbrief_id    int64
bereich_id       int64
primaer           bool
dtype: object


#### Important columns:

Need to be used:
- steckbrief_id
- bereich_id

### **ad_steckbrief_ad_matrix-20231128** : 

#### Content:
Link between Steckbrief and Matrix

#### Length:

In [53]:
print('Length of ad_steckbrief_ad_matrix-20231128:', len(dfs['ad_steckbrief_ad_matrix-20231128']), 'rows')

Length of ad_steckbrief_ad_matrix-20231128: 183 rows


#### Data overview:

In [54]:
print(dfs['ad_steckbrief_ad_matrix-20231128'].head())

    id  steckbrief_id  matrix_id           ergaenzung
0  160            205         16  basil, fennel seeds
1  162            166          1           table salt
2  168             81         34               apples
3  173            136          6                  NaN
4  176            109          1                  soy


#### Data types:

In [55]:
print(dfs['ad_steckbrief_ad_matrix-20231128'].dtypes)

id                int64
steckbrief_id     int64
matrix_id         int64
ergaenzung       object
dtype: object


#### Important columns:

Need to be used:
- steckbrief_id
- matrix_id

### **ad_meldung_ad_gefahr-20231128** : 

#### Content:
Link between Meldung and Gefahr

#### Length:

In [56]:
print('Length of ad_meldung_ad_gefahr-20231128:', len(dfs['ad_meldung_ad_gefahr-20231128']), 'rows')

Length of ad_meldung_ad_gefahr-20231128: 808 rows


#### Data overview:

In [57]:
print(dfs['ad_meldung_ad_gefahr-20231128'].head())

   meldung_id  gefahr_id
0         129        150
1          17         93
2         144         10
3          68        125
4         179        188


#### Data types:

In [58]:
print(dfs['ad_meldung_ad_gefahr-20231128'].dtypes)

meldung_id    int64
gefahr_id     int64
dtype: object


#### Important columns:

Need to be used:
- meldung_id
- gefahr_id

### **ad_meldung_ad_bereich-20231128** : 

#### Content:
Link between Meldung and Bereich

#### Length:

In [59]:
print('Length of ad_meldung_ad_bereich-20231128:', len(dfs['ad_meldung_ad_bereich-20231128']), 'rows')

Length of ad_meldung_ad_bereich-20231128: 1156 rows


#### Data overview:

In [60]:
print(dfs['ad_meldung_ad_bereich-20231128'].head())

   meldung_id  bereich_id  primaer
0          66           4     True
1          28           1     True
2         104           3     True
3         148           1     True
4          18           4    False


#### Data types:

In [61]:
print(dfs['ad_meldung_ad_bereich-20231128'].dtypes)

meldung_id    int64
bereich_id    int64
primaer        bool
dtype: object


#### Important columns:

Need to be used:
- meldung_id
- bereich_id

### **ad_steckbrief_ad_gefahr-20231128** : 

#### Content:
Link between Steckbrief and Gefahr

#### Length:

In [62]:
print('Length of ad_steckbrief_ad_gefahr-20231128:', len(dfs['ad_steckbrief_ad_gefahr-20231128']), 'rows')

Length of ad_steckbrief_ad_gefahr-20231128: 238 rows


#### Data overview:

In [63]:
print(dfs['ad_steckbrief_ad_gefahr-20231128'].head())

   steckbrief_id  gefahr_id
0             54        169
1             13          7
2            195         63
3              2        159
4              6        147


#### Data types:

In [64]:
print(dfs['ad_steckbrief_ad_gefahr-20231128'].dtypes)

steckbrief_id    int64
gefahr_id        int64
dtype: object


#### Important columns:

Need to be used:
- steckbrief_id
- gefahr_id

### **ad_meldung_ad_steckbrief-20231128** : 

#### Content:
Link between Meldung and Steckbrief

#### Length:

In [65]:
print('Length of ad_meldung_ad_steckbrief-20231128:', len(dfs['ad_meldung_ad_steckbrief-20231128']), 'rows')

Length of ad_meldung_ad_steckbrief-20231128: 561 rows


#### Data overview:

In [66]:
print(dfs['ad_meldung_ad_steckbrief-20231128'].head())

   meldung_id  steckbrief_id
0           1            205
1          30             95
2          35            178
3          51            205
4          95              1


#### Data types:

In [67]:
print(dfs['ad_meldung_ad_steckbrief-20231128'].dtypes)

meldung_id       int64
steckbrief_id    int64
dtype: object


### **ad_meldung_ad_matrix-20231128** : 

#### Content:
Link between Meldung and Matrix

#### Length:

In [68]:
print('Length of ad_meldung_ad_matrix-20231128:', len(dfs['ad_meldung_ad_matrix-20231128']), 'rows')

Length of ad_meldung_ad_matrix-20231128: 590 rows


#### Data overview:

In [69]:
print(dfs['ad_meldung_ad_matrix-20231128'].head())

    id  meldung_id  matrix_id             ergaenzung
0   11           4          1   Ultraprocessed foods
1   52          16         45      vanilla ice cream
2   89          35         23           leafy greens
3  178          42          1  food-contact surfaces
4  183           1         20                    NaN


#### Data types:

In [70]:
print(dfs['ad_meldung_ad_matrix-20231128'].dtypes)

id             int64
meldung_id     int64
matrix_id      int64
ergaenzung    object
dtype: object


#### Important columns:

Need to be used:
- meldung_id
- matrix_id

### **ad_publikation_detail-20231128** : 

#### Content:
Details of publication (date, page count, link, ...) and link between Meldung and publikation

#### Length:

In [71]:
print('Length of ad_publikation_detail-20231128:', len(dfs['ad_publikation_detail-20231128']), 'rows')

Length of ad_publikation_detail-20231128: 1503 rows


#### Data overview:

In [72]:
print(dfs['ad_publikation_detail-20231128'].head())

   id  type        date  page_count  \
0   1    10        2022         3.0   
1   2    20         NaN         NaN   
2   3    30         NaN         NaN   
3   5    10  10.08.2022         2.0   
4   6    20         NaN         NaN   

                                                link  info  meldung_id  \
0                                                www   NaN           1   
1                                                www   NaN           1   
2                                                www  info           1   
3  https://www.blick.ch/ausland/covid-aehnlicher-...   NaN           3   
4  https://www.nejm.org/doi/full/10.1056/NEJMc220...   NaN           3   

   publikation_id             erf_date  erf_user             mut_date  \
0             1.0  09.08.2022 16:30:29        33  09.08.2022 16:30:29   
1             1.0  09.08.2022 16:30:29        33  09.08.2022 16:30:29   
2             NaN  09.08.2022 16:30:29        33  09.08.2022 16:30:29   
3             6.0  11.08.202

#### Data types:

In [73]:
print(dfs['ad_publikation_detail-20231128'].dtypes)

id                  int64
type                int64
date               object
page_count        float64
link               object
info               object
meldung_id          int64
publikation_id    float64
erf_date           object
erf_user            int64
mut_date           object
mut_user            int64
version             int64
dtype: object


'erf_date' and 'mut_date' to datetime type. 'date' can't be changed to datetime as it has different format (date, only year, ...)

##### Data transformation

In [74]:
dfs['ad_publikation_detail-20231128'].mut_date = pd.to_datetime(dfs['ad_publikation_detail-20231128'].mut_date, format='%d.%m.%Y %H:%M:%S')
dfs['ad_publikation_detail-20231128'].erf_date = pd.to_datetime(dfs['ad_publikation_detail-20231128'].erf_date, format='%d.%m.%Y %H:%M:%S')

print(dfs['ad_publikation_detail-20231128'].dtypes)

id                         int64
type                       int64
date                      object
page_count               float64
link                      object
info                      object
meldung_id                 int64
publikation_id           float64
erf_date          datetime64[ns]
erf_user                   int64
mut_date          datetime64[ns]
mut_user                   int64
version                    int64
dtype: object


#### Important columns:

To be published:
- date
- page_count
- link
- info
- erf_date
- mut_date

Need to be used:
- id
- meldung_id
- publikation_id

### HTML parser

Multiple text columns have html tags in their text. This can make the text less legible or 'uglier'. Therefore all the dataframes must be cleaned.

In [75]:
from bs4 import BeautifulSoup

for variable_name, df in dfs.items():
    dfs[variable_name] = dfs[variable_name].applymap(lambda x: BeautifulSoup(x, 'html.parser').text if isinstance(x, str) else x)

  dfs[variable_name] = dfs[variable_name].applymap(lambda x: BeautifulSoup(x, 'html.parser').text if isinstance(x, str) else x)
  dfs[variable_name] = dfs[variable_name].applymap(lambda x: BeautifulSoup(x, 'html.parser').text if isinstance(x, str) else x)
  dfs[variable_name] = dfs[variable_name].applymap(lambda x: BeautifulSoup(x, 'html.parser').text if isinstance(x, str) else x)
  dfs[variable_name] = dfs[variable_name].applymap(lambda x: BeautifulSoup(x, 'html.parser').text if isinstance(x, str) else x)
  dfs[variable_name] = dfs[variable_name].applymap(lambda x: BeautifulSoup(x, 'html.parser').text if isinstance(x, str) else x)
  dfs[variable_name] = dfs[variable_name].applymap(lambda x: BeautifulSoup(x, 'html.parser').text if isinstance(x, str) else x)
  dfs[variable_name] = dfs[variable_name].applymap(lambda x: BeautifulSoup(x, 'html.parser').text if isinstance(x, str) else x)
  dfs[variable_name] = dfs[variable_name].applymap(lambda x: BeautifulSoup(x, 'html.parser').text if isi

## Summary:

### Tables that need be transformed:

- ad_gefahr-20231128
- ad_meldung-20231128
- ad_steckbrief-20231128
- ad_bereich-20231128
- ad_aktivitaet-20231128
- ad_publikation-20231128
- ad_document-20231128
- ad_beurteilung-20231128
- ad_treiber-20231128
- ad_matrix-20231128
- ad_log-20231128
- ad_publikation_detail-20231128

### Tables that need to be (used) in the Dashboard:

- ad_gefahr
- ad_meldung
- ad_steckbrief
- ad_bereich
- ad_publikation
- ad_matrix
- ad_treiber
- ad_publikation_detail
- ad_document ?
- ad_meldung_ad_bereich
- ad_meldung_ad_gefahr
- ad_meldung_ad_steckbrief
- ad_steckbrief_ad_bereich
- ad_steckbrief_ad_gefahr
- ad_meldung_ad_matrix
- ad_steckbrief_ad_matrix
- ad_meldung_ad_treiber

![image](graph.png)