# Pandas

[Read_CSV : pd.read_csv()](#read_csv)

[Delete row](#delete_row)

[Split a dataframe into columns](#split_df)

[Itterows](#itterows)

[df.at()](#df_at)
````
[Read_CSV : pd.read_csv()](#itterows)
[Read_CSV : pd.read_csv()](#read_csv)
[Read_CSV : pd.read_csv()](#read_csv)

````

In [1]:
import pandas as pd


````python
# Colonnes
df.columns

# Toutes les valeurs
df.values

# Les index
df.index

# Nombre de valeurs nulles par colonnes
df.isna().sum()

# Dictionnaires du nombres de valeurs différentes par colonnes
def count_unique_values(df):
    unique_counts = {}
    for column in df.columns:
        unique_counts[column] = df[column].nunique()
    return unique_counts

count_unique_values(df)


# La première ligne devient le header des colonnes

header = ['TIME','Couple','Angle','Vitesse']
df.columns = header
````

<a id="read_csv"></a>
## Read_CSV : pd.read_csv()

```python
df = pd.read_csv(
    filepath_or_buffer='chemin/vers/le/fichier.csv',  # Chemin complet du fichier CSV
    sep=',',               # Délimiteur de champ, ',' pour CSV standard
    header='infer',        # Détecte automatiquement l'en-tête
    index_col=None,        # Colonne à utiliser comme index du DataFrame
    usecols=None,          # Spécifie les colonnes à lire
    dtype=None,            # Types de données pour les colonnes
    skiprows=None,         # Lignes à ignorer au début
    nrows=None,            # Nombre de lignes à lire
    parse_dates=False,     # Analyse les colonnes comme dates
    infer_datetime_format=False, # Infère le format des dates pour accélérer leur parsing
    na_values=None,        # Séquence de valeurs à considérer comme NA/NaN
    keep_default_na=True,  # Utilise les valeurs NaN par défaut en plus de `na_values`
    na_filter=True,        # Détecte les marqueurs de valeurs manquantes
    skip_blank_lines=True, # Saute les lignes vides
    compression='infer',   # Détecte automatiquement la compression
    thousands=None,        # Séparateur de milliers pour les nombres
    decimal='.',           # Caractère décimal pour les nombres flottants
    quotechar='"',         # Caractère utilisé pour citer les champs
    quoting=0,             # Contrôle le quoting; 0 pour QUOTE_MINIMAL
    encoding=None,         # Encodage des caractères du fichier
    comment=None,          # Indique les lignes qui ne doivent pas être parsées
    delim_whitespace=False, # Utilise des espaces blancs comme délimiteur
    low_memory=True,       # Internement, traite le fichier en morceaux pour réduire la consommation de mémoire
    chunksize=None,        # Si spécifié, retourne un itérateur sur les blocs de taille spécifiée
    iterator=False         # Retourne un itérateur pour parcourir le fichier par morceaux
)
```

#### Example : 

```python 
df = pd.read_csv(
    filepath_or_buffer='chemin/vers/le/fichier.csv',  # Chemin du fichier
    sep=',',                     # Séparateur de champs
    header=0,                    # Utilise la première ligne comme en-tête
    index_col=False,             # Ne pas utiliser de colonne comme index
    usecols=['Colonne1', 'Colonne2', 'Colonne3'],  # Sélection de colonnes spécifiques
    dtype={'Colonne1': int, 'Colonne2': float, 'Colonne3': 'category'},  # Types de données spécifiques
    parse_dates=['Date'],        # Analyse une colonne comme des dates
    skiprows=[0],                # Saute des lignes spécifiques, ici la première après l'en-tête
    na_values=['NA', '?'],       # Traite 'NA' et '?' comme des valeurs manquantes
    nrows=100,                   # Limite la lecture aux 100 premières lignes
    comment='#',                 # Ignore les lignes commençant par '#'
    compression='infer',         # Détecte automatiquement la compression (gzip, bz2, zip, etc.)
    skip_blank_lines=True,       # Saute les lignes vides
    low_memory=False,            # Traite le fichier en une seule fois, utile pour les fichiers complexes
    encoding='utf-8',            # Spécifie l'encodage du fichier
    infer_datetime_format=True,  # Infère le format de date pour accélérer le parsing
    thousands=',',               # Gère les nombres avec des séparateurs de milliers
)
```

<a id="delete_row"></a>
## Delete rows or columns 

#### Delete first row

```python 
# Delete rows
df = df.iloc[7 :, :]

# Delete columns
df = df.iloc[ :, 3 : 9]

# Delete Both
df = df.iloc[7 : 18, 1 : 9]

```



<a id="split_df"></a>
## Split a dataframe into columns

La méthode `str.split()` dans Pandas est utilisée sur des séries ou des colonnes de DataFrame pour diviser chaque chaîne dans la série/colonne en une liste de chaînes, en se basant sur un séparateur spécifié. L'option `expand=True` transforme ces listes en colonnes séparées dans un DataFrame. Voici comment cela fonctionne en détail :

#### Syntaxe de base

```python
Series.str.split(pat=None, n=-1, expand=False)
```

- **pat**: Chaîne ou expression régulière à utiliser comme séparateur. Si non spécifié, le séparateur par défaut est tout espace blanc.
- **n**: Entier, par défaut à `-1` (ce qui signifie "tous"), détermine le nombre de séparations à effectuer, c'est-à-dire combien de sous-chaînes seront retournées. Si `n` est spécifié, seules les `n` premières séparations seront effectuées.
- **expand**: Booléen, par défaut à `False`. Si `True`, retourne un DataFrame avec les sous-chaînes dans différentes colonnes. Si `False`, retourne une série ou une liste de sous-chaînes.

#### Exemple


In [8]:
import pandas as pd
# Création d'un DataFrame exemple
df = pd.DataFrame({
    'A': ['John,Smith', 'Jane,Doe', 'Mary,Jane']
})

# Utilisation de str.split() avec expand=True
df1 = df['A'].str.split(',', expand=True)

df2 = df['A'].str.split(',', expand=False)

print(df1, "\n")
print(df2)

      0      1
0  John  Smith
1  Jane    Doe
2  Mary   Jane 

0    [John, Smith]
1      [Jane, Doe]
2     [Mary, Jane]
Name: A, dtype: object


<a id="itterows"></a>
## Using `data.iterrows()`

- The `data.iterrows()` function in pandas is utilized for iterating over DataFrame rows as (index, Series) pairs. 
- This iterator yields `the index` of the row and the `data` in each row as a pandas Series. 
- It's particularly useful for scenarios where you need to perform operations on each row individually.

#### How it works:

When you call `data.iterrows()`, it returns an iterator yielding pairs (index, Series) for each row in the DataFrame. The index is the row index in the DataFrame, and the Series contains the row data.

#### Example Usage:

```python
# Sample DataFrame
data = pd.DataFrame({
    'A': [1, 2, 3],
    'B': ['a', 'b', 'c']
})

# Iterating over rows
for i, row in data.iterrows():
    print(f"Index: {i}")
    print(f"Row:\n{row}\n")
```

```
Index: 0
Row:
A    1
B    a
Name: 0, dtype: object

Index: 1
Row:
A    2
B    b
Name: 1, dtype: object

Index: 2
Row:
A    3
B    c
Name: 2, dtype: object
```

```python
# Sample DataFrame with city names
data = pd.DataFrame({
    'city1': ['New York', 'Los Angeles', 'Chicago'],
    'city2': ['Boston', 'San Francisco', 'Houston']
})

# Iterating over rows using iterrows()
for i, row in data.iterrows():
    city1 = row['city1']
    print(f"Row {i} - City1: {city1}")
```

```
Row 0 - City1: New York
Row 1 - City1: Los Angeles
Row 2 - City1: Chicago
```

#### Performance:

- `iterrows()` can be slower on large datasets due to its row-wise operation and returning each row as a Series. For operations that can be performed on the entire dataset at once, **vectorized solutions** or methods like `apply()` are recommended for efficiency.

#### Data Types:

- Each row is returned as a **Series** by `iterrows()`, which means if your DataFrame contains data of different types, each data type is preserved in the iteration. This can be useful when you need to maintain data type integrity for each column in the row.

#### Best Use:

- `iterrows()` is best utilized for more complex operations that **cannot be easily vectorized**, especially when the readability of iterating over rows is preferred over performance. It offers a straightforward way to loop through rows for custom operations, making it a valuable tool for specific scenarios where row-wise manipulation is necessary.



<a id="df_at"></a>
## df.at

Le `DataFrame.at` de Pandas est un accesseur utilisé pour accéder à une valeur unique pour une paire donnée de lignes/colonnes par leurs labels. Il est similaire à DataFrame.loc mais est optimisé pour accéder à des valeurs scalaires : c'est-à-dire qu'il est plus rapide pour accéder à une seule valeur et doit être utilisé dans ce contexte.

```python
DataFrame.at[row_label, col_label]
```

#### Avantages

- **Rapidité** : `df.at` est optimisé pour accéder rapidement à des éléments uniques. Il est donc plus rapide que `df.loc` pour accéder à des valeurs scalaires.
- **Simplicité** : Il fournit un moyen direct et facile à lire pour accéder ou modifier une valeur spécifique dans un DataFrame, en utilisant les labels des lignes et des colonnes.

#### Limitations

- **Accès unique** : Contrairement à `df.loc` ou `df.iloc`, `df.at` ne peut accéder qu'à une valeur unique à la fois. Si vous avez besoin d'accéder à plusieurs éléments ou de réaliser des opérations sur des sous-ensembles du DataFrame, `df.loc` ou `df.iloc` seraient plus appropriés.
- **Nécessite des labels** : Vous devez connaître les labels exacts des lignes et des colonnes pour utiliser `df.at`.

#### Exemple

1. Utilisation de base
2. Modification d'une valeur
3. Utilisation dans une boucle


In [15]:
import pandas as pd

data = {'Name': ['John', 'Anna', 'Peter', 'Linda'],
        'Age': [28, 34, 29, 32]}
df = pd.DataFrame(data, index=['a', 'b', 'c', 'd'])

print(df)

# Utilisation de base
age_anna = df.at['b', 'Age']
print(age_anna)

# Modifier une valeur
df.at['b', 'Age'] = 35

age_anna = df.at['b', 'Age']
print(age_anna)


# Utilisation de df.at dans une boucle pour mettre à jour l'âge
for label in df.index:
    df.at[label, 'Age'] += 1
print(df)

    Name  Age
a   John   28
b   Anna   34
c  Peter   29
d  Linda   32
34
35
    Name  Age
a   John   29
b   Anna   36
c  Peter   30
d  Linda   33
