#### Bootstrap crypto viz

#### Analyse csv file with pandas

In [8]:
import pandas as pd
from tabulate import tabulate
import io

In [12]:
# read the file
df = pd.read_csv('Liquor_sales.csv')

def print_section_title(title):
    print("\n" + "="*len(title))
    print(title)
    print("="*len(title) + "\n")

print_section_title("First 5 Rows")
print(tabulate(df.head(), headers='keys', tablefmt='pretty'))

print_section_title("Shape of the DataFrame")
print(f"Le DataFrame contient {df.shape[0]} lignes et {df.shape[1]} colonnes")

# print_section_title("Columns of the DataFrame")
# print(tabulate(pd.DataFrame(df.columns, columns=['Column Name']), headers='keys', tablefmt='pretty'))

# print_section_title("Data Types of the Columns")
# print(tabulate(pd.DataFrame(df.dtypes, columns=['Data Type']), headers='keys', tablefmt='pretty'))

print_section_title("Info of the DataFrame")
info_buf = io.StringIO()
df.info(buf=info_buf)
info_buf.seek(0)
print(info_buf.read())

# print_section_title("Last 5 Rows")
# print(df.tail())
# print_section_title("Summary Statistics of the DataFrame")
# print(df.describe())
# print_section_title("Number of Missing Values in the DataFrame")
# print(df.isnull().sum())
# print_section_title("Number of Unique Values in the DataFrame")
# print(df.nunique())

  df = pd.read_csv('Liquor_sales.csv')



First 5 Rows

+---+---------------------+------------+--------------+--------------------------------------+--------------------------+--------------+----------+------------------------------+---------------+--------+-----------+------------------------------------+---------------+---------------------------+-------------+---------------------------------+------+--------------------+-------------------+---------------------+--------------+----------------+----------------------+-----------------------+
|   | Invoice/Item Number |    Date    | Store Number |              Store Name              |         Address          |     City     | Zip Code |        Store Location        | County Number | County | Category  |           Category Name            | Vendor Number |        Vendor Name        | Item Number |        Item Description         | Pack | Bottle Volume (ml) | State Bottle Cost | State Bottle Retail | Bottles Sold | Sale (Dollars) | Volume Sold (Liters) | Volume Sold (Gallons)

##### Use chunk size

Avantages de chunksize : Efficacité mémoire (Utile pour les très grands fichiers qui ne peuvent pas être chargés en mémoire en une seule fois) + Traitement par lots (Permet de traiter les données par lots)

Inconvénients de chunksize : Surcharge de concaténation (Si vous devez concaténer tous les morceaux en un seul DataFrame, cela peut introduire une surcharge et ralentir le processus) + Complexité du code (Le traitement par morceaux peut rendre le code plus complexe par rapport à la lecture du fichier en une seule fois).

En résumé, chunksize est un outil puissant pour gérer de grands fichiers CSV de manière efficace, mais il doit être utilisé judicieusement en fonction des besoins spécifiques de votre application et des ressources disponibles.


1ère méthode

In [None]:
chunk_size = 1000
chunks = []

for chunk in pd.read_csv('Liquor_sales.csv', chunksize=chunk_size):
    chunks.append(chunk)

# Concatenate all chunks into a single DataFrame
df = pd.concat(chunks, axis=0)

def print_section_title(title):
    print("\n" + "="*len(title))
    print(title)
    print("="*len(title) + "\n")

print_section_title("First 5 Rows")
print(df.head())

# print_section_title("Last 5 Rows")
# print(df.tail())

print_section_title("Shape of the DataFrame")
print(df.shape)

# le dataframe contient 19666763 lignes et 24 colonnes

print_section_title("Columns of the DataFrame")
print(df.columns)

# Print the data types of the columns
print_section_title("Data Types of the Columns")
print(df.dtypes)

# Print the info of the dataframe
print_section_title("Info of the DataFrame")
print(df.info())

# Print the summary statistics of the dataframe
print_section_title("Summary Statistics of the DataFrame")
print(df.describe())

# Print the number of missing values in the dataframe
print_section_title("Number of Missing Values in the DataFrame")
print(df.isnull().sum())

# Print the number of unique values in the dataframe
print_section_title("Number of Unique Values in the DataFrame")
print(df.nunique())

2ème méthode

In [11]:
chunk_size = 1000

# Lire le premier morceau pour obtenir un aperçu des données
first_chunk = pd.read_csv('Liquor_sales.csv', chunksize=chunk_size).__next__()

# Afficher les informations du premier morceau
print("First 5 Rows")
print(first_chunk.head())

print("\nShape of the First Chunk")
print(first_chunk.shape)

print("\nColumns of the First Chunk")
print(first_chunk.columns)

print("\nData Types of the First Chunk")
print(first_chunk.dtypes)

print("\nSummary Statistics of the First Chunk")
print(first_chunk.describe())

# Traiter chaque morceau individuellement
for chunk in pd.read_csv('Liquor_sales.csv', chunksize=chunk_size):
    # Effectuer des opérations sur chaque morceau ici
    pass  # Remplacez par vos opérations spécifiques

#### Duck DB

In [13]:
import duckdb as ddb

DuckDB est un système de gestion de base de données relationnelle en mémoire, et lors de la connexion, si le fichier spécifié n'existe pas, DuckDB le créera pour vous.

In [None]:
con = ddb.connect("liquor-database.db")
con.execute("""CREATE TABLE liquor AS 
               (SELECT * FROM read_csv('Liquor_Sales.csv', types={'Item Number': 'VARCHAR'}))""")
# ou con.sql

# Explore the data using DuckDB
query_result = con.execute("SELECT * FROM liquor") # ou con.sql
df = query_result.fetchdf()

# Use pandas to further explore and manipulate the data
pandas_df = df.df()

# Export data to a Parquet file
pandas_df.to_parquet('liquor_data.parquet')

# Close the connection to DuckDB
con.close()