# Création d'un `dataframe`.

## Import des bibliothèques.

In [3]:
import pandas as pd

## Création de la structure.
Pour l'exemple on créer une structure que l'on convertie ensuite en tant que `DataFrame`.

In [10]:
data = {
    'Nom': ['Alice', 'Bob', 'Charlie'],
    'Âge': [25, 30, 35],
    'Ville': ['Paris', 'Lyon', 'Marseille']
}

df = pd.DataFrame(data)
print(df)

       Nom  Âge      Ville
0    Alice   25      Paris
1      Bob   30       Lyon
2  Charlie   35  Marseille


## Chargement des données depuis un fichier.

In [11]:
df_c = pd.read_csv("csv_test.csv")
# Fonctionne aussi pour les excels.
# df_e = pd.read_excel("fichier.xlsx")

## Explorations des données.

In [12]:
print(df_c.head()) # affiche les 5 premières lignes
print(df_c.info()) # affiche des informations sur les colonnes

   temps  température
0      0            6
1      1           18
2      2           12
3      3           22
4      4           37
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 99 entries, 0 to 98
Data columns (total 2 columns):
 #   Column       Non-Null Count  Dtype
---  ------       --------------  -----
 0   temps        99 non-null     int64
 1   température  99 non-null     int64
dtypes: int64(2)
memory usage: 1.7 KB
None


In [13]:
print(df_c.describe()) # résumé statistique
print(df_c.shape) # dimensions (lignes, colonnes)
print(df_c.columns) # liste des colonnes

           temps  température
count  99.000000    99.000000
mean   49.000000    20.020202
std    28.722813    11.453526
min     0.000000     1.000000
25%    24.500000    11.000000
50%    49.000000    19.000000
75%    73.500000    30.500000
max    98.000000    40.000000
(99, 2)
Index(['temps', 'température'], dtype='object')


## Séléction des données.

In [15]:
print(df_c['temps']) # Affichage d'une seule colonne
print(df_c[['temps', 'température']]) # Affichage de plusieurs colonnes

0      0
1      1
2      2
3      3
4      4
      ..
94    94
95    95
96    96
97    97
98    98
Name: temps, Length: 99, dtype: int64
    temps  température
0       0            6
1       1           18
2       2           12
3       3           22
4       4           37
..    ...          ...
94     94           31
95     95            7
96     96           23
97     97           24
98     98           30

[99 rows x 2 columns]


In [17]:
print(df_c.iloc[0]) # Affichage première lignes
print(df_c.iloc[0:2]) # Affichage deux premières lignes

temps          0
température    6
Name: 0, dtype: int64
   temps  température
0      0            6
1      1           18


## Filtrage des données.

In [18]:
print(df_c[df_c['température'] > 20]) # Affichage seulement des lignes ou la température est supérieur à 20

    temps  température
3       3           22
4       4           37
5       5           27
8       8           21
9       9           27
10     10           25
11     11           32
12     12           26
13     13           31
16     16           29
18     18           36
20     20           40
22     22           25
25     25           23
27     27           38
28     28           30
29     29           39
32     32           31
33     33           26
36     36           25
38     38           30
41     41           40
42     42           22
44     44           21
45     45           36
47     47           33
51     51           28
52     52           31
53     53           34
54     54           32
56     56           36
60     60           34
61     61           34
62     62           29
63     63           22
67     67           39
68     68           34
76     76           30
81     81           32
88     88           37
89     89           31
92     92           31
93     93  

In [22]:
print(df_c[ df_c['temps'] > 90 ])

    temps  température
91     91           20
92     92           31
93     93           37
94     94           31
95     95            7
96     96           23
97     97           24
98     98           30


In [24]:
print(df_c[ (df_c['temps'] > 60) & (df_c['température'] < 20) ])

    temps  température
64     64            7
65     65           19
66     66            8
69     69            9
70     70           15
71     71           18
72     72            1
73     73           13
74     74            6
75     75           15
77     77            7
78     78            3
79     79           12
80     80            7
82     82            8
83     83            1
84     84            2
85     85           14
86     86           11
87     87           17
90     90           16
95     95            7


## Modification des données.

In [28]:
print("debut\n", df_c.head())

import random
vent = []
for x in range(1, 100) :
    vent.append(random.randint(1,80))
df_c['vent'] = vent

print("milieu\n", df_c.head())

df_c.drop('vent', axis=1, inplace=True)


print("fin\n", df_c.head())


debut
    temps  température
0      0            6
1      1           18
2      2           12
3      3           22
4      4           37
milieu
    temps  température  vent
0      0            6    55
1      1           18    34
2      2           12    69
3      3           22    15
4      4           37    31
fin
    temps  température
0      0            6
1      1           18
2      2           12
3      3           22
4      4           37
