# Tesisquare Dataset Analysis

## A data science project by Porsche GTRR

We are the Porsche GTRR a team formed by Grosso Luca, Torterolo Francesco, Risso Beatrice e Robresco Simone

# Tesisquare Dataset Analysis Project

### Roles:


- __Graphics Designer:__ Luca Grosso
- __Coders:__ Simone Robresco, Francesco Torterolo, Beatrice Risso
- __Notebook Redactor:__ Beatrice Risso, Luca Grosso

## Project Structure

1. __Introduction:__ Overview of the project goals and team roles.
2. __Dataset Description:__ Summary of the dataset provided by Tesisquare and its key features.
3. __Exploratory Data Analysis (EDA):__ High-level exploration of trends and patterns.
4. __Conclusions:__ Insights derived from the analysis.

## Introduction

In this project, our team analyzed a dataset provided by the company Tesisquare related to logistics to analyze the data and the relationships between the different features of the dataset. Specifically, we examined the connections between: 


- __SERVICETYPE:__  type of service or vehicle used for the delivery
- __VEHICLETYPE:__ type of vehicle
- __DEPARTURE_COUNTRY:__ country of departure
- __DEPARTURE_ZIPCODE:__ zipocde (CAP) of departure
- __ARRIVAL_COUNTRY:__ country of arrival
- __ARRIVAL_ZIPCODE:__ zipcode (CAP) of arrival

Simone Robresco, Francesco Torterolo, and Beatrice Risso developed the code for data analysis and visualization. Simone Robresco and Luca Grosso designed the types of charts used and the website. Beatrice Risso and Luca Grosso organized the notebook and customized the project presentation.

# Dataset Description

The dataset provides logistics data from a company that handles intercontinental shipments, including:

- Logistics details (e.g., mode of transport used, services utilized, shipping day and date). 
- Travel-related information (e.g., departure and arrival countries, departure and arrival zip codes, distance in km).
- Information related to the transported products (e.g., net and gross weight, volume). 

Understanding the data's structure and cleaning it is crucial before diving into the analysis.

# Exploratory Data Analysis (EDA)

## __Goals of the Analysis__

The main objective of this analysis is to understand the relationships between the characteristics of the shipments and the delivery times. Key areas of interest include:

- The difference in vehicles and services.
- The departure and arrival countries
- The shipping date.


### Importation of libraries and upload of the dataset

In [None]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt

In [None]:
# Carica il dataset
file_path = './delivery_data.csv'  # Sostituisci con il percorso del TUO file
data = pd.read_csv(file_path)

### Basic analysis of the features and values of the dataset

In [None]:
# Mostra le prime righe del dataset
print("Prime righe del dataset:")
print(data.head())

In [None]:
# Statistiche descrittive
print("\nStatistiche descrittive:")
data.describe()


In [None]:
# Controlla i valori nulli
print("\nValori nulli nel dataset:")
print(data.isnull().sum())

### Count of shippings arrival and departure

In [None]:
# Conta le spedizioni dagli Stati Uniti (US)
us_shipments_count = data[data['DEPARTURE_COUNTRY'] == 'US'].shape[0]
print(f"\nNumero di spedizioni da US: {us_shipments_count}")


# Conteggio delle spedizioni per paese di arrivo, solo per quelle partite da US
arrival_counts_us = data[data['DEPARTURE_COUNTRY'] == 'US']['ARRIVAL_COUNTRY'].value_counts()
print("\nConteggio delle spedizioni per paese di arrivo (solo partite da US):")
print(arrival_counts_us)


# Totale delle spedizioni da US a IT
us_to_it_count = data[(data['DEPARTURE_COUNTRY'] == 'US') & (data['ARRIVAL_COUNTRY'] == 'IT')].shape[0]
print(f"Numero di spedizioni da US a IT: {us_to_it_count}")


# Totale delle spedizioni da US a US
us_to_us_count = data[(data['DEPARTURE_COUNTRY'] == 'US') & (data['ARRIVAL_COUNTRY'] == 'US')].shape[0]
print(f"Numero di spedizioni da US a US: {us_to_us_count}")


# Conta le spedizioni dall'Italia (IT)
it_shipments_count = data[data['DEPARTURE_COUNTRY'] == 'IT'].shape[0]
print(f"\nNumero di spedizioni da IT: {it_shipments_count}")


# Conteggio delle spedizioni per paese di arrivo, solo per quelle partite da IT
arrival_counts_it = data[data['DEPARTURE_COUNTRY'] == 'IT']['ARRIVAL_COUNTRY'].value_counts()
print("\nConteggio delle spedizioni per paese di arrivo (solo partite da IT):")
print(arrival_counts_it)


# Totale delle spedizioni da IT to US 
it_to_us_count = data[(data['DEPARTURE_COUNTRY'] == 'IT') & (data['ARRIVAL_COUNTRY'] == 'US')].shape[0]
print(f"Numero di spedizioni da IT a US: {it_to_us_count}")


# Totale delle spedizioni da IT to IT
it_to_it_count = data[(data['DEPARTURE_COUNTRY'] == 'IT') & (data['ARRIVAL_COUNTRY'] == 'IT')].shape[0]
print(f"Numero di spedizioni da IT to IT: {it_to_it_count}")

In [None]:
print("Dimensioni del dataset:", data.shape)  # Dimensioni del dataset
data.info()  # Informazioni generali su tipi di dati e conteggio dei valori NON nulli

# Calcoliamo il numero di valori mancanti per ogni colonna
missing_values = data.isnull().sum()

# Stampa dei dati mancanti nelle diverse colonne 
print("Colonne con dati mancanti")
missing_values[missing_values > 0]  # Mostriamo solo le colonne con valori mancanti


# Visualizziamo il conteggio di ciascuna categoria per tutte le colonne.
# Questo ci aiuta a capire meglio la distribuzione dei dati.
for column in data.columns:
    print(f"Conteggio valori per la colonna '{column}':")
    print(data[column].value_counts())
    print("\n")
    

In [None]:
# Creiamo istogrammi per ogni variabile numerica per visualizzare la distribuzione dei dati
numerical_columns = data.select_dtypes(include=[np.number]).columns  # Trova le colonne numeriche
data[numerical_columns].hist(bins=20, figsize=(15, 10))  # Istogrammi con 15 bin per ogni variabile numerica
plt.suptitle("Distribuzione delle variabili numeriche")  # Titolo generale per tutti gli istogrammi
plt.show()

In [34]:
# Filtra le righe senza valori nulli
data_no_nulls = data.dropna()

# Salva il nuovo DataFrame in un file CSV
output_file_path = './delivery_clean.csv'  # Sostituisci con il percorso desiderato
data_no_nulls.to_csv(output_file_path, index=False)

print(f"Nuovo CSV creato con righe senza valori nulli: {output_file_path}")

Nuovo CSV creato con righe senza valori nulli: ./delivery_clean.csv
