# Partie 1 : Analyser les données à l'aide d'outils de visualisation

- Tracés d'histogramme
- Nuages de points
- Centiles
- Boîtes à moustaches
- Violon
- Cartes thermiques
- Barplots
- Parcelles factorielles
- Parcelles de densité
- Parcelles de distribution conjointes

In [None]:
import pandas as pd
import numpy as np

pd.set_option('display.max_rows', 7000)
pd.set_option('display.max_columns', 7000)

file_name = "https://raw.githubusercontent.com/rajeevratan84/datascienceforbusiness/master/winequalityN.csv"
df = pd.read_csv(file_name)
df.head()

In [None]:
# afficher le tableau descriptif (Count, mean, std, ...) Dans une seule instruction en utilisant la librairie Pandas
df.describe()

In [None]:
# afficher les informations fondamentales de notre base de données (Column, Dtype ...) Dans une seule instruction en utilisant la librairie Pandas 

df.info()

In [None]:
# Determiner la moyenne de la colonne 'alcohol'

df['alcohol'].mean()

# Commençons à tracer en utilisant un histogramme

In [None]:
# Tracer l'histogramme de la colonne 'alcohol'

df['alcohol'].hist()

In [None]:
# Tracez l'histogramme de la colonne 'alcohol' en respectant les exigences ci-dessous :
#10 bacs
#Sans grid
#taille de figure : (10,6)
#Couleur : vert

df.hist(column = "alcohol", grid  =False, xlabelsize = 10, ylabelsize = 6, bins = 11, color = "#00561b")


# Celles-ci ont l'air bien, mais en utilisant la bibliothèque Seaborn, nous pouvons rapidement produire des parcelles encore plus belles

In [None]:
import seaborn as sns
# Tracer l'histogramme de la colonne 'alcohol', sans kde

sns.histplot(df['alcohol'], kde = False)

In [None]:
# Tracer l'histogramme de la colonne 'alcohol', avec kde et de couleur rouge

sns.histplot(df['alcohol'], kde = True, color = "red")

In [None]:
# Comptez les valeurs de la colonne 'alcohol' et affichez ces 5 premières lignes dans une seule instruction

df["alcohol"].value_counts().head()

# Style et étiquettes d'axe
https://seaborn.pydata.org/tutorial/aesthetics.html?highlight=style

In [None]:
import matplotlib.pyplot as plt

# Construire l'histogramme avec la bibliothèque Seaborn

sns.histplot(df['alcohol'])

# Ajouter l'étiquette 'Alcohol Percentage' sur l'axe des abscisses avec la bibliothèque matplotlib.pyplot

plt.xlabel("Alcohol Percentage")

# Ajouter l'étiquette 'Alcohol Percentage' sur l'axe des ordonnées avec la bibliothèque matplotlib.pyplot

plt.ylabel("Quantity")

# Ajouter Le titre 'Alcohol Content' avec la bibliothèque matplotlib.pyplot

plt.title("Alcohol Content")

# Afficher l'image avec la bibliothèque matplotlib.pyplot

plt.show()

In [None]:
# Modifier le type de l'histogramme en 'dark' avec la bibliothèque Seaborn
sns.set_theme('notebook', style='dark')
sns.histplot(df['alcohol'])

# Nuages de points

In [None]:
# Créez un diagramme de dispersion de la «fixed acidity» en fonction de l'«alcohol» avec la bibliothèque Seaborn
sns.lmplot(data = df, x='fixed acidity', y='alcohol')

In [None]:
# Créez un diagramme de dispersion de la «fixed acidity» en fonction de l'«alcohol» avec la bibliothèque Seaborn sans la ligne de régression

sns.lmplot(data = df, x='fixed acidity', y='alcohol', fit_reg = False)

In [None]:
# Créez un diagramme de dispersion de la «fixed acidity» en fonction de l'«alcohol» et de la «quality» avec la bibliothèque Seaborn sans la ligne de régression
plt.figure(figsize = (12, 8))
sns.lmplot(data = df, x='fixed acidity', y='alcohol', hue = "quality", fit_reg = False)

# Boîtes à moustaches et recherche de valeurs aberrantes

https://seaborn.pydata.org/generated/seaborn.boxplot.html

![alt text](https://pro.arcgis.com/en/pro-app/help/analysis/geoprocessing/charts/GUID-0E2C3730-C535-40CD-8152-80D794A996A7-web.png)

“maximum”: Q3 + 1.5*IQR

“minimum”: Q1 -1.5*IQR

In [None]:
# Afficher l'intervalle de quantité entre 0,25 et 0,75 de la colonne 'alcohol'

print(df['alcohol'].quantile([0.25, 0.75]))

# Tracez la Boîtes à moustaches de la colonne 'alcohol' avec la bibliothèque Seaborn

sns.boxplot(data = df['alcohol'])

In [None]:
# Tracez les Boîtes à moustaches de tout la base de données, rajouter palette = "Set3"

sns.boxplot(data = df, palette = "Set3")

In [None]:
from matplotlib import pyplot as plt

# Créer une figure de taille 12x8 avec la bibliothèque 'matplotlib'

plt.figure(figsize = (12, 8))

# Créer une variable appelée 'summary' qui contient notre base de données sans les colonnes ci-dessous
# ['free sulfur dioxide', 'total sulfur dioxide', 'quality','residual sugar', 'fixed acidity', 'alcohol']

summary = df.drop(['free sulfur dioxide', 'total sulfur dioxide', 'quality','residual sugar', 'fixed acidity', 'alcohol'], axis=1)

# Tracez les Boîtes à moustaches de la nouvelle base de données 'summary', rajouter palette = "Set3"

sns.boxplot(data = summary, palette = "Set3")

# Parcelles de violon

In [None]:
# Créer une Parcelles de violon de la colonne 'alcohol' avec la bib Seaborn

sns.violinplot(x = df['alcohol'])

In [None]:
# Bar Plot :
# Créer une figure de taille 12x8 avec la bibliothèque 'matplotlib'
plt.figure(figsize = (12, 8))

# Créer un complot de la colonne 'quality' différencié par la colonne 'type' avec la bib Seaborn

sns.countplot(data = df, x = 'quality', hue = 'type')

In [None]:
# Traçer la courbe de densité de la colonne 'alcohol' avec la bib Seaborn

sns.displot(df['alcohol'], kind = 'kde', multiple="stack")

In [None]:
# Joindre le diagramme de distribution avec la bib Seaborn

sns.displot(df['alcohol'], kde = True)

# Diagrammes factoriels et diagrammes d'essaims d'abeilles

Les diagrammes factoriels nous permettent de créer des diagrammes séparés par classes catégorielles.

In [None]:
# Traçer un diagramme factoriel de 'alcohol' en fonction de 'free sulfur dioxide' séparés par la 'quality' et par le type 'point' avec la bib Seaborn
# Faire pivoter les étiquettes de l'axe des x de -45°

sns.catplot(x = 'alcohol', y = 'free sulfur dioxide', data = df, hue = 'quality', kind = 'point').set_xticklabels(rotation=45)

# Partie 2 : Échantillonnage

In [None]:
import pandas as pd
import numpy as np
import seaborn as sns
import matplotlib.pyplot as plt

file_name = "https://raw.githubusercontent.com/rajeevratan84/datascienceforbusiness/master/winequalityN.csv"
df = pd.read_csv(file_name)
df.head()

In [None]:
# Afficher la forme de la base de données

df.shape

In [None]:
import pandas as pd

# declarer une variable de type liste nomée "sample_means"

sample_means = []

# déclarer une variable qui reçoit la moyenne de la colonne 'alcohol' nommée "population_mean"

population_mean = df['alcohol'].mean()

# declarer une variable qui reçoit la valeur 100 nommée "sample_size"

sample_size = 100


# Créer une boucle "for" balayant la plage de 'sample_size'

for i in range(sample_size):
    
    # declarer une variable appelée 'sample' qui reçoit l'échantillon de la colonne 'alcohol' (mettre sample_size et i comme paramètres de fonction)
    
    sample = df['alcohol'].sample(n = sample_size, random_state = i)
    
    # Ajouter la moyenne de 'sample' à 'sample_means'

    sample_means.append(sample.mean())

# Tracer le diagramme de dispersion de la plage de sample_size en fonction de sample_means

sns.scatterplot(data = df['alcohol'], x = range(sample_size), y = sample_means)

# Traçer une ligne moyenne de l'alcohol' pour toute la population avec la bib matplotlib.pyplot

plt.axhline(df['alcohol'].mean(), color='red', linestyle='dashed', linewidth=2)

# Crée une variable appelée 'sample_size_mean' qui reçoit la moyenne de l'array' de 'sample_means' 

sample_size_mean = sum(sample_means)/len(sample_means)

# Traçer une ligne moyenne 'sample_size_mean' avec la bib matplotlib.pyplot

plt.axhline(sample_size_mean, color='blue', linestyle='dashed', linewidth=2)

print("Actual Mean: %2f" % (population_mean))
print("Sample Mean: %2f" % (sample_size_mean))
print("Sample Error: %2f" % (population_mean-sample_size_mean))

# Échantillonnage stratifié

Prendre la teneur moyenne en alcool des vins sur la base de notre échantillon peut être trompeur car notre ensemble de données contient à la fois des vins rouges et blancs, et en regardant la proportion, il contient beaucoup plus de vins blancs.

In [None]:
# Compter les valeurs de la colonne 'type'

df['type'].value_counts()


In [None]:
# Créer une variable nommée 'stratum_white' reçoit df si le 'type' est 'white'

stratum_white = df.loc[df['type'] == 'white']

# Créer une variable nommée 'stratum_red' reçoit df si le 'type' est 'red'

stratum_red = df.loc[df['type'] == 'red']

In [None]:
# Afficher la longeur de la variable 'stratum_white'

print(len(stratum_white))

In [None]:
# Créer une variable de type dictionnaire nommée 'alcohol_per_wine_type'

alcohol_per_wine_type = {}

# Créer une boucle 'For' de 'stratum' et 'wine_type' en (stratum_white, 'white') et (stratum_red, 'red')

for stratum, wine_type in ((stratum_white, 'white'), (stratum_red, 'red')):

    # la variable sample reçoit l'échantillon de la stratum[alcohol], mettre 250 et random_state = 0 comme parametres
    
    sample = stratum['alcohol'].sample(n = 250, random_state = 0)
    
    # le 'wine_type' de 'alcohol_per_wine_type' reçoit la moyenne de sample
    
    alcohol_per_wine_type[wine_type] = round(sample.mean(), 1)

# Afficher 'alcohol_per_wine_type'

print(alcohol_per_wine_type)


# Statistiques en Python

1. Analyser les distributions de fréquence
2. Moyenne
3. Mode
4. Médiane
5. MST
6. Corrélation
7. Par paires
8. Scores Z

In [None]:
import pandas as pd
import numpy as np
import seaborn as sns
import matplotlib.pyplot as plt

file_name = "https://raw.githubusercontent.com/rajeevratan84/datascienceforbusiness/master/winequalityN.csv"
df = pd.read_csv(file_name)
df.head()

## Comprendre les fonctions lambda (Feature engineering)

lambda: arguements : expression



In [None]:
# Construire une fonction lambda qui multiplie nos arguments d'entrée par 2 nommée 'our_lambda_function'

our_lambda_function = lambda a: a * 2

In [None]:
# Utilisez une fonction lambda pour ajouter une colonne nommée 'rating' qui prend la chaîne 'good' si la 'quality' est supérieur ou égal à 6 sinon elle prend 'bad'

our_lambda_function = lambda x: 'good' if x['quality'] >= 6  else 'bad'

df['rating'] = df.apply(our_lambda_function, axis = 1)

print(df)

# Recherche de la moyenne, du mode et de la médiane

In [None]:
# Let's load our Titantic dataset

import pandas as pd

file_name = "https://raw.githubusercontent.com/rajeevratan84/datascienceforbusiness/master/titanic.csv"
df = pd.read_csv(file_name)

df.head()

In [None]:
# afficher le tableau descriptif (Count, mean, std, ...) Dans une seule instruction en utilisant la librairie Pandas

df.describe()

In [None]:
# Ecrire une fonction qui prend en paramétre une 'dataset' et une 'feature' et retourne le mode: def getMode(dataset, feature):

def getMode(dataset, feature):
    return(dataset[feature].mode())



In [None]:
# afficher le mode de l'age'

getMode(df,  'age')

In [None]:
# afficher le mode, la moyenne et la médiane de l'age'

print(f"Le mode est:\n {df['age'].mode()}\n\nLa moyenne est: {df['age'].mean()}\n\nLa médiane est: {df['age'].median()}")


# Écart-type

In [None]:
import pandas as pd
import numpy as np
import seaborn as sns
import matplotlib.pyplot as plt

file_name = "https://raw.githubusercontent.com/rajeevratan84/datascienceforbusiness/master/winequalityN.csv"
df = pd.read_csv(file_name)
df.head()

In [None]:
# Traçer l'histogramme de l'Écart-type de la colonne 'alcohol'

df['alcohol'].hist()

plt.axvline(df['alcohol'].std(), color='red', linestyle='dashed', linewidth=2)

# Matrice de corrélation

In [None]:
# Traçer la Matrice de corrélation
plt.figure(figsize = (10, 10))

heatmap = sns.heatmap(df.corr(), vmin=-1, vmax=1, annot=True)