## **PORTFOLIO 1** 

This project was executed with real data and same table names as those in this portfolio. 
To keep the original data private, changes were made to the original source file, but the code is
the same as was used in the original project.

### **The Problem**
Jane (not the real name) runs a book publishing firm and needs to periodically prepare materials about newly published books to their retailers. Jane has been doing this for many years by manually copying and pasting relevant data from an excel sheet. This process takes a lot of time, it is very slow, and usually has lots of mistakes that still needs more time to edit. 

### The task
The task is to write a Python script to automate this repetitive task. The script should output a docx file that is formatted according Jane's requirement.

### The steps I used
I broke the project into three main parts. 
1. I read the file using Pandas.
2. Next, I checked the contents of the file, and familiarize myself with the data.
3. Then I checked for missing values.
4. Next, I corrected some errors which I found after confirming from Jane, what should be there.
5. I converted the data types to string.
6. Next, I checked the data again to make sure the errors have been correctly fixed. 
7. Then I printed out the extracted data for checking.
8. Finally, I created the doc file and the formating, according the Jane's specification.

Please see the script for details.

In [10]:
import pandas as pd
from docx import Document

# reading the file
file = "kevät2024_demo.xlsx"
df = pd.read_excel(file)
#display(df.head(3))

# checking the data for errors
df.shape
df.columns

if df.isnull().values.any() == False:
    print("There are no null values in the dataframe.\n")
else:
    print("There are null values in the raw data.\n")
    display(df.isnull().sum())

# Correcting the errors, after first checking with the customer
df["Painos"] = df["Painos"].fillna("1. painos") 
df["Sivumäärä"] = df["Sivumäärä"].fillna(" ") 
df["Sidosasu"] = df["Sidosasu"].fillna(" ") 
df["Painosvuosi"] = df["Painosvuosi"].fillna(2024)
df["Painosvuosi"] = df["Painosvuosi"].apply(int)


#Convert all dataframe values to strings, as this is what is needed for this project
new_df = df.astype(str)

#checking data again for null values after error correction
if new_df.isnull().values.any() == False:
    print("There are no more null values in the data.\n\n")
else:
    print("There are still empty values in the data.\n")
    display(new_df.isnull().sum())


#Printing out the required data for checking
for lines, row in new_df.iterrows(): 
    print(row['Nimi'])
    print(row["Tekijat"], "\n")
    print(row["Esittely"], "\n")
    print(row["Julkaisumuoto"], "\n")
    #print(row["Esittely"], "\n")
    print("Ilmestyy", row["Suun_pvm"]) # CHECK THIS WIH JANE
    print(row["Painos"], row["Painosvuosi"], ",", row["Sidosasu"], ",", row["Sivumäärä"], ",", "KL", row["KL"])
    print("ISBN", row["ISBN-nro"])
    print("Kustantajan suositushinta", row["Sh"], "€", "\n")
    print(row["Tuotesarja"])

    print("-----------------------------------------------")


# Creating docx file
for lines, row in new_df.iterrows():

    myyjat = Document()

    for lines, row in new_df.iterrows():
        nimi = row['Nimi']
        tekijat = row["Tekijat"]
        esittely = row["Esittely"]
        julk_muoto = row["Julkaisumuoto"]
        p_vuosi = row["Painosvuosi"]
        pvm = row["Suun_pvm"]
        painos = row["Painos"]
        sidosasu = row["Sidosasu"]
        sivu = row["Sivumäärä"]
        #myyjat.add_paragraph(line1)
        kl = row["KL"]
        isbn = row["ISBN-nro"]
        sh = row["Sh"]

        myyjat.add_paragraph(nimi)
        myyjat.add_paragraph(tekijat)
        myyjat.add_paragraph()
        myyjat.add_paragraph(esittely)
        myyjat.add_paragraph()
        p1 = myyjat.add_paragraph("Ilmestyy ")
        p1.add_run(pvm)

        p2 = myyjat.add_paragraph(painos)
        p2.add_run(", ")
        p2.add_run(p_vuosi)
        p2.add_run(", ")
        p2.add_run(sidosasu)
        p2.add_run(", ")
        p2.add_run(sivu)
        p2.add_run(" s., ")
        p2.add_run("KL")
        p2.add_run(" ")
        p2.add_run(kl)

        p4 = myyjat.add_paragraph("ISBN ")
        p4.add_run(isbn)

        p3 = myyjat.add_paragraph("Kustatantajan suositushinta ")
        p3.add_run(sh)
        p3.add_run("€")

        p4 = myyjat.add_paragraph("Yleiset tietokirjat")

        p4 = myyjat.add_paragraph("")
        p4 = myyjat.add_paragraph("")

        myyjat.add_page_break()
        myyjat.save('Jalleenmyyjat_demo.docx')




There are null values in the raw data.



T-nro            0
Nimi             0
Tekijat          0
Julkaisumuoto    0
Painos           2
Painosvuosi      2
Suun_pvm         0
Sivumäärä        2
Sidosasu         2
KL               0
ISBN-nro         0
Sh               0
D-jäsen          0
Tuotesarja       0
Esittely         0
dtype: int64

There are no more null values in the data.


Testikirja 21
Kimmo Kukaan, Natti Suvala, (toim.) 

Opetushallitus on antanut suosituksen mallikirjaimiksi, -numeroiksi ja muiksi merkeiksi. Ne otettiin käyttöön 1.8.2016 alkaen uusien opetussuunnitelmien käyttöönoton yhteydessä. Mallikirjaimistot julkaistiin suomalais-ruotsalaisten kirjainten lisäksi myös pohjoissaamen, inarinsaamen, koltansaamen ja romanikielen kirjaimista. 

kirja 

Ilmestyy 02.01.2024
1. painos 2024 , nid. , n. 500 , KL 59.21
ISBN 123456789256
Kustantajan suositushinta 72,00 € 

Oppaat
-----------------------------------------------
Testikirja 22
Ulla Johanna, Katona Maija-Liisa, Heikki Tontti, Gala Savula, Minttu Kokkola (toim.) 

Mallikirjaimia on nykyaikaistettu selkeyttämällä kirjainten muotoja ja helpottamalla niiden sujuvaa piirtämistä. Kirjaimet joustavat jokaisen kädenjäljen mukana, kun jokaisen omaan käsialaan yhdistyy vähitellen omia kirjoittamisen tapoja. Kirjoittamisen perussääntöjä on kuitenkin noudatettava 