## Prétraitement des données
- Collectes des données
- Nettoyages des données
- Transformation des données
- Réduction de la dimensionnalité
- Normalisation et mise à échelle
- Séparation des données : 
      - Données Entrainement
      - Données Validation
      - Données Test

## Installation de Pandas

In [None]:
# pip install pandas

### Importation des bibliothèques

In [None]:
import pandas as pd
import numpy as np

### Création d'une série Pandas avec un index par défaut

In [None]:
produits = ['A', 'B', 'C', 'D']

In [None]:
type(produits)

In [None]:
series_produits = pd.Series(produits)

In [None]:
type(series_produits)

In [None]:
series_produits

In [None]:
nums = [1, 2, 3, 4, 5]
s_nums = pd.Series(nums)

In [None]:
print(s_nums)

### Création d'une série Pandas avec un index personnalisé

In [None]:
nums = [1, 2, 3, 4, 5]
index = [1, 2, 3, 4, 5]
s_nums = pd.Series(nums, index=index)

In [None]:
print(s_nums)

In [None]:
fruits = ['Orange', 'Banane', 'Mangue']
fruits = pd.Series(fruits, index=[1, 2, 3])

In [None]:
print(fruits)

### Création d'une série Pandas à partir d'un dictionnaire

In [None]:
personne = {
    'nom': 'Effi',
    'prenom': 'Jean Mermoz',
    'pays': 'Côte d\'ivoire',
    'ville': 'Abidjan'
}

In [None]:
print(personne['ville']), personne['prenom']

In [None]:
series_personne = pd.Series(personne)

In [None]:
print(series_personne)

In [None]:
color=["pink", "white", "black", "blue"]
S1=pd.Series([20, 15, 6, 43], index=color)
S2=pd.Series([3, 22, 9, 10], index=color)

In [None]:
print(S1-S2)

## DataFrame

### Création de DataFrames à partir d'une liste de listes

In [None]:
# individu1 = ['David', 'UK', 'London']
# individu2 = ['Sangare', 'CI', 'Abidjan']
# individu3 = ['Moussa', 'Mali', 'Bamako']

In [None]:
data = [
    ['David', 'UK', 'London'],
    ['Sangare', 'CI', 'Abidjan'],
    ['Moussa', 'Mali', 'Bamako']
]

In [None]:
data

In [None]:
df_test2 = pd.DataFrame(data)

In [None]:
df_test2

### Création d'un DataFrame à l'aide d'un dictionnaire

In [None]:
data = {
    'Name': ['Asabeneh', 'David', 'John'], 
    'Country':['Finland', 'UK', 'Sweden'], 
    'City': ['Helsiki', 'London', 'Stockholm'],
    'Distance': [3098, 45, 175 ]
}

In [None]:
df = pd.DataFrame(data)

In [None]:
print(df)

### Création de DataFrames à partir d'une liste de dictionnaires

In [None]:
data = [
    {
        'Name': 'Asabeneh', 
        'Country': 'Finland', 
        'City': 'Helsinki'
    },
    {
        'Name': 'David', 
        'Country': 'UK', 
        'City': 'London'
    },
    {
        'Name': 'John', 
        'Country': 'Sweden', 
        'City': 'Stockholm'
        #'Genre': 'M'
    },
]

In [None]:
df = pd.DataFrame(data, index=['A', 'B', 'C'])

In [None]:
print(df)

## Lecture d'un fichier CSV à l'aide de Pandas

In [None]:
## Télécharger le fichier CSV
# !curl -O https://raw.githubusercontent.com/Asabeneh/30-Days-Of-Python/master/data/weight-height.csv

In [None]:
# pd.read_csv?

In [None]:
df = pd.read_csv('weight-height.csv')

In [None]:
df

### Exploration des données

In [None]:
type(df)

In [None]:
df

In [None]:
df.shape ## Taille, Forme Dimentionnelle

#### Lisons uniquement les 5 premières lignes en utilisant head()

In [None]:
df.head()

In [None]:
df.head(10)

#### Explorons également les derniers enregistrements de la dataframe en utilisant les méthodes tail().

In [None]:
df.tail()

In [None]:
df.tail(10)

Obtenons toutes les colonnes en utilisant des colonnes.

In [None]:
print(df.columns)

Maintenant, obtenons une colonne spécifique en utilisant la clé de colonne

In [None]:
df['Gender']

In [None]:
heights = df['Height']
heights

In [None]:
weights = df['Weight']
weights

In [None]:
len(heights)

In [None]:
print(len(heights) == len(weights))

La méthode describe() fournit des valeurs statistiques descriptives d’un ensemble de données.

In [None]:
type(heights)

In [None]:
heights.describe()

In [None]:
weights.describe()

In [None]:
df.describe()

In [None]:
df.info()

### 

In [None]:
data = [
    {
        'Name': 'Asabeneh', 
        'Country': 'Finland', 
        'City': 'Helsinki'
    },
    {
        'Name': 'David', 
        'Country': 'UK', 
        'City': 'London'
    },
    {
        'Name': 'John', 
        'Country': 'Sweden', 
        'City': 'Stockholm'
    },
]

In [None]:
df = pd.DataFrame(data)

In [None]:
df.head()

### Ajout d'une nouvelle colonne
- Ajoutons une colonne de poids dans le DataFrame
- Ajoutons une colonne de ages dans le DataFrame

In [None]:
# Ajoutons une colonne de poids dans le DataFrame
weigths = [74, 78, 69]
df['Weights'] = weigths

In [None]:
df.head()

In [None]:
heights = [173, 175, 169]
df['Heights'] = heights

df.head()

In [None]:
ages = [25, 37, 45]
df['Ages'] = ages

In [None]:
df.head()

### Autres techniques

In [None]:
## .assign()
fonctions = ['Data Scientist', 'Data Engineer', 'Data Manager Quality']
df = df.assign(Fonction=fonctions)

In [None]:
df.head()

In [None]:
## Avec la méthode .insert()
df.insert(2, 'Salaire', [4000, 5500, 6500])

In [None]:
df.head()

In [None]:
## .loc
df.loc[:, 'Genre'] = ['M', 'F', 'M']

In [None]:
df.head()

### Modification des valeurs des colonnes

In [None]:
df['Heights'] = df['Heights'] * 0.01
df.head()

In [None]:
data_test = {
    "Nom": ['Alice', 'Bob', 'Sangare'],
    "Age": [25, 30, 35]
}

df_test = pd.DataFrame(data_test)
df_test.head()

In [None]:
df_test.loc[:, ['poids', 'taille']] = 45

In [None]:
df_test.head()

In [None]:
df_test.loc[0, ['Nom', 'Age']] = ['Fanta', 55]

In [None]:
df_test.head()

In [None]:
df_test.iloc[0, [0, 1]] = ['Alice', 25]

In [None]:
df_test.head()

In [None]:
df_test.loc[0:1, ['Nom', 'Age']] = [['Fanta', 55], ['Franck', 65]]

In [None]:
df_test.head()

In [None]:
df_test.iloc[0:2, [0, 1]] = [['Alicia', 26], ['Robert', 31]]

In [None]:
df_test.head()

In [None]:
df.head()

In [None]:
def calul_imc():
    weights = df['Weights']
    heights = df['Heights']
    imc_list = []
    
    for w, h in zip(weights, heights):
        imc = w/(h*h)
        imc_list.append(imc)

    return imc_list

In [None]:
imc_result = calul_imc()

In [None]:
imc_result

In [None]:
df['IMC'] = imc_result
df.head()

### Formatage des colonnes DataFrame

In [None]:
## IMC deux chiffres
df['IMC'] = round(df['IMC'], 2)
df.head()

In [None]:
## Fonction en Majuscule
## Upper()

df['Fonction'] = df['Fonction'].str.upper()

In [None]:
df.head()

In [None]:
df.info()

In [None]:
text =  'Bonjour'
text.upper()

### Vérification des types de données des valeurs de colonne

In [None]:
print(df.Genre.dtype)

In [None]:
print(df['Salaire'].dtype)

In [None]:
df.info()

In [None]:
birth_year = ['1998', '1985', '1990']
current_year = pd.Series(2024, index=[0, 1, 2])

df['Date Naissance'] = birth_year
df['Annee Actuelle'] = current_year

df.head()

In [None]:
df.info()

In [None]:
df['Date Naissance'] = df['Date Naissance'].astype('int')
print(df['Date Naissance'].dtype)

In [None]:
df.info()

In [None]:
df['Name'] = df['Name'].astype(str)
print(df['Name'].dtype)

In [None]:
df['Name'].str.upper()

In [None]:
from datetime import datetime

In [None]:
today = datetime.today()
today = today.strftime('%d-%m-%Y')


current_day = current_year = pd.Series(today, index=[0, 1, 2]) 
df['Date'] = current_day

In [None]:
df.head()

In [None]:
df.info()

In [None]:
for col in df.select_dtypes(include='object').columns:
    df[col] = df[col].str.upper()

df.head()

In [None]:
df['Ages'] = df['Annee Actuelle'] - df['Date Naissance']
df.head()

### Indexation Booléenne

In [None]:
df[df['Salaire'] > 5000]

In [None]:
df[df['Genre'] == 'M'] 

In [None]:
df[df['Genre'] == 'm']

In [None]:
## python lamgage de typege

### Technique loc vs iloc

Les méthodes loc et iloc de Pandas sont utilisées pour sélectionner des données dans un DataFrame en fonction des étiquettes et des positions respectivement.

### .loc

In [None]:
df.head()

In [None]:
# [l , c]

In [None]:
# Sélectionner une seule ligne
df.loc[0]

In [None]:
# Sélectionner une seule colonne
df.loc[:, 'Fonction']

In [None]:
df.loc[0:1, ['Name', 'Salaire', 'Fonction']]

### Filtrage conditionnel

In [None]:
df.info()

In [None]:
# & = and , | = or

In [None]:
df.loc[((df['IMC'] > 23) | (df['Genre'] == 'M')) & (df['Salaire'] > 5000)]

In [None]:
df.loc[(df['IMC'] > 23) | (df['Genre'] == 'M') & (df['Salaire'] > 5000)]

### .iloc

In [None]:
# Sélectionner une seule ligne
df.iloc[0]

In [None]:
# Sélectionner une seule colonne
df.iloc[:, 0]

In [None]:
df.iloc[0:2, 3:8]

In [None]:
df.columns

In [None]:
columns = ['Salaire', 'City', 'Weights', 'Heights', 'Ages',
       'Fonction', 'Genre', 'IMC', 'Date Naissance']

In [None]:
df_lei = df.iloc[:, 1:8]
df_lei.head()