# Pandas overview

## Introduction to Pandas

In [3]:


# Création d'une série avec pandas
counts = pd.Series([632, 1638, 569, 115], index=['Firmicutes', 'Proteobacteria', 'Actinobacteria', 'Bacteroidetes'])
print(counts)  # Affichage de la série

# Filtrage par nom d'index qui se termine par 'bacteria'
filtered_bacteria = counts[[name.endswith('bacteria') for name in counts.index]]
print(filtered_bacteria)

# Filtrage des valeurs supérieures à 1000
high_counts = counts[counts > 1000]
print(high_counts)

# Lecture avec condition sous forme de série booléenne
condition = counts > 500
print(counts[condition])

# Création d'une série à partir d'un dictionnaire
data_dict = {'Firmicutes': 632, 'Proteobacteria': 1638}
series_from_dict = pd.Series(data_dict)
print(series_from_dict)

# Identification des valeurs manquantes
is_null = series_from_dict.isnull()
print(is_null)

# Alignement de deux séries par addition
series1 = pd.Series([1, 2, 3], index=['a', 'b', 'c'])
series2 = pd.Series([4, 5, 6], index=['a', 'b', 'c'])
aligned_series = series1 + series2
print(aligned_series)


Firmicutes         632
Proteobacteria    1638
Actinobacteria     569
Bacteroidetes      115
dtype: int64
Proteobacteria    1638
Actinobacteria     569
dtype: int64
Proteobacteria    1638
dtype: int64
Firmicutes         632
Proteobacteria    1638
Actinobacteria     569
dtype: int64
Firmicutes         632
Proteobacteria    1638
dtype: int64
Firmicutes        False
Proteobacteria    False
dtype: bool
a    5
b    7
c    9
dtype: int64


In [2]:
import pandas as pd

data = pd.DataFrame({'value':[632, 1638, 569, 115, 433, 1130, 754, 555],
                     'patient':[1, 1, 1, 1, 2, 2, 2, 2],
                     'phylum':['Firmicutes', 'Proteobacteria', 'Actinobacteria', 
    'Bacteroidetes', 'Firmicutes', 'Proteobacteria', 'Actinobacteria', 'Bacteroidetes']})
print(data)

data[['phylum','value','patient']] # ordre des colonnes
data.index # index des lignes
data['patient'] # colonne patient
data.patient # colonne patient
data.loc[3] # acceder à la ligne 3
data.shape[0] # dimension de la colonne 0
vals = data.value # valeurs de la colonne value qui est une serie pandas
vals[5] = 0 # changer la valeur de la 5eme ligne
# Attention: cela modifie le DataFrame original
data_copy = data.value.copy()
data.value[[3,4,6]] = [14, 21, 5] # changer les valeurs des lignes 3, 4 et 6 de la colonne value
data['year'] = 2013 # ajouter une colonne year
data.treatment = 1 # n'ajoute pas de colonne treatment

#La méthode .apply de Pandas est utilisée pour appliquer une fonction à chaque élément d'une série ou d'un DataFrame.
print(data[data['phylum'].apply(lambda x: x.endswith('bacteria')) & data['value'].apply(lambda x: x > 1000)])

data_nomonth = data.drop('treatment', axis=1) # supprimer la colonne "treatment"
data2 = data.drop([0,1]) # supprimer les lignes 0 et 1

   value  patient          phylum  year
1   1638        1  Proteobacteria  2013


A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  vals[5] = 0 # changer la valeur de la 5eme ligne
A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  data.value[[3,4,6]] = [14, 21, 5] # changer les valeurs des lignes 3, 4 et 6 de la colonne value


NumPy's math functions and other operations can be applied to Series without losing the data structure.
np.log(bacteria)
bacteria.apply(np.log)

## Importation data

### CSV

In [None]:
!head Data/microbiome.csv # afficher les 10 premières lignes du fichier microbiome.csv
mb = pd.read_csv("Data/microbiome.csv", sep=',') # lire le fichier microbiome.csv parfois sep='\s+'
mb.head() # afficher les 5 premières lignes du DataFrame mb
#We can override default behavior by customizing some the arguments, like `header`, `names` or `index_col`.
pd.read_csv("Data/microbiome.csv", skiprows=[3,4,6]) # Enleve les lignes 3, 4 et 6
pd.read_csv("Data/microbiome.csv", nrows=4) # Ne prend que les 4 premières lignes
#Parfois des valeurs manquent dans les données. Panda les remplace par NaN.
pd.isnull(pd.read_csv("Data/microbiome_missing.csv")) # Affiche true si la valeur est manquante
valeurs_marquante = pd.read_csv("Data/microbiome_missing.csv", na_values=['?', -99999]) # Remplace les valeurs manquantes par NaN



### Excel

In [5]:
mb = pd.read_excel('Data/microbiome_MID2.xls', sheet_name='Sheet 1', header=None)
mb.head()


FileNotFoundError: [Errno 2] No such file or directory: 'Data/microbiome_MID2.xls'

### indexing and selection

In [9]:
baseball = pd.read_csv("Data/baseball.csv", index_col='id')
baseball.index.is_unique # Vérifie si l'index est unique
baseball.index = baseball.player # Change l'index en player
baseball['womacto01CHN2006':'gonzalu01ARI2006'] # Affiche les lignes de womacto01CHN2006 à gonzalu01ARI2006
min_ab = 500
baseball.query("ab > @min_ab") # Affiche les lignes où ab > 500 (il faut mettre une chaine de caractère)
#iloc permet de sélectionner des lignes et des colonnes par position
baseball.iloc[:5, 5:8] # Affiche les lignes de 0 à 5 et les colonnes de 5 à 8
baseball_h = baseball.set_index(['year', 'team', 'player']) #indxexation hiérarchique à partir de plusieurs colonnes
baseball_h.loc[(2007, 'ATL', 'francju01')] # Accès à une ligne dun DataFrame hiérarchique


FileNotFoundError: [Errno 2] No such file or directory: 'Data/baseball.csv'