In [45]:
import os
import s3fs

# Create filesystem object
S3_ENDPOINT_URL = "https://" + os.environ["AWS_S3_ENDPOINT"]
fs = s3fs.S3FileSystem(client_kwargs={'endpoint_url': S3_ENDPOINT_URL})


In [46]:
fs.ls("mthomassin")

['mthomassin/France_metrop',
 'mthomassin/bordeaux.gpkg',
 'mthomassin/http.log',
 'mthomassin/tweets20220324-155940.jsonl.gz']

In [47]:
import pandas as pd
import s3fs

BUCKET = "mthomassin"
FILE_KEY_S3 = "http.log"
FILE_PATH_S3 = BUCKET + "/" + FILE_KEY_S3

column_names = [
    "timestamp", "uid", "src_ip", "src_port", "dst_ip", "dst_port","trans_depth", "http_method",
    "host", "uri", "referrer", "user_agent", "request_body_len", "response_body_len",
    "status_code", "status_msg", "info_code", "info_msg", "filename", "tags", "username",
    "password", "proxied", "orig_fuids", "orig_mime_types", "resp_fuids", "resp_mime_types"
]

# or in local mode:
# FILE_PATH_S3 = "http.log"
with fs.open(FILE_PATH_S3, mode="rb") as file_in:
    df = pd.read_csv(file_in, sep="\t", header=None, on_bad_lines='skip', names=column_names)



  df = pd.read_csv(file_in, sep="\t", header=None, on_bad_lines='skip', names=column_names)


In [48]:
# Afficher les types de données et quelques valeurs de chaque colonne
print(df.dtypes)
print(df.head())
df.shape


timestamp            float64
uid                   object
src_ip                object
src_port               int64
dst_ip                object
dst_port               int64
trans_depth            int64
http_method           object
host                  object
uri                   object
referrer              object
user_agent            object
request_body_len       int64
response_body_len      int64
status_code           object
status_msg            object
info_code             object
info_msg              object
filename              object
tags                  object
username              object
password              object
proxied               object
orig_fuids            object
orig_mime_types       object
resp_fuids            object
resp_mime_types       object
dtype: object
      timestamp                 uid          src_ip  src_port  \
0  1.331901e+09  CHEt7z3AzG4gyCNgci  192.168.202.79     50465   
1  1.331901e+09  CKnDAp2ohlvN6rpiXl  192.168.202.79     50467   
2  1.331

(2047460, 27)

In [49]:

# Convertir la colonne 'timestamp' en datetime
df['timestamp'] = pd.to_datetime(df['timestamp'], unit='s', errors='coerce')


# Vérifier les premières lignes pour s'assurer de la conversion
print(df.head())

                      timestamp                 uid          src_ip  src_port  \
0 2012-03-16 12:30:00.000000000  CHEt7z3AzG4gyCNgci  192.168.202.79     50465   
1 2012-03-16 12:30:00.009999990  CKnDAp2ohlvN6rpiXl  192.168.202.79     50467   
2 2012-03-16 12:30:00.029999971  CNTrjn42F3LB58MZH6  192.168.202.79     50469   
3 2012-03-16 12:30:00.039999962  C1D7mK1PlzKEnEyG03  192.168.202.79     50471   
4 2012-03-16 12:30:00.049999952   CGF1bVMyl9ALKI32l  192.168.202.79     50473   

            dst_ip  dst_port  trans_depth http_method             host  \
0  192.168.229.251        80            1        HEAD  192.168.229.251   
1  192.168.229.251        80            1        HEAD  192.168.229.251   
2  192.168.229.251        80            1        HEAD  192.168.229.251   
3  192.168.229.251        80            1        HEAD  192.168.229.251   
4  192.168.229.251        80            1        HEAD  192.168.229.251   

              uri  ... info_msg filename     tags  username password

Pour identifier les requêtes potentiellement malveillantes dans un fichier de log, il est utile de chercher des motifs spécifiques qui pourraient indiquer une activité suspecte, tels que :

1. **Taux de requêtes anormalement élevé** : Un grand nombre de requêtes en provenance d'une même adresse IP dans un court laps de temps peut indiquer une attaque par déni de service (DoS).
2. **Patterns dans les URI** : Les attaques de type injection SQL ou XSS sont souvent réalisées par l'inclusion de certains caractères ou motifs dans les URI.
3. **Statuts de réponse** : Un grand nombre de codes d'erreur (comme 404, 403, 500) peut révéler des tentatives d'accès à des ressources non autorisées ou des erreurs serveur provoquées.

Pour commencer, je vais lire un échantillon de votre fichier de log pour voir comment les données sont structurées. Ensuite, nous pourrons chercher des motifs qui pourraient indiquer des comportements malveillants. Allons-y.

Le fichier de log semble être structuré avec plusieurs colonnes séparées par des tabulations. Voici quelques champs que nous pouvons identifier :

- **Timestamp** (Horodatage)
- **ID unique de la requête**
- **Adresse IP source**
- **Port source**
- **Adresse IP destination**
- **Port destination**
- **Méthode HTTP** (ex : GET, POST, HEAD)
- **URI de la requête**
- **User-Agent** (identifie le client utilisant la requête)
- **Statut de la réponse HTTP** (ex : 200, 404)
- **Message de statut** (ex : OK, Not Found)

À partir de cet échantillon, on remarque plusieurs requêtes avec des codes de statut 404 (Not Found), toutes provenant de la même adresse IP et utilisant l'agent utilisateur du moteur de script Nmap. Ceci peut être indicatif d'une analyse de vulnérabilité ou d'une tentative de détection des services par un scanner.

Pour identifier les requêtes qui sont potentiellement des attaques, nous pouvons chercher des motifs comme :
1. **Des requêtes fréquentes vers des ressources non trouvées** (404)
2. **Des requêtes utilisant des méthodes suspectes** ou des patterns anormaux dans les URI
3. **Des pics d'activité** depuis une seule source

Voulez-vous que je continue avec une analyse plus détaillée pour détecter des motifs suspects spécifiques, ou y a-t-il un autre type de traitement que vous souhaitez appliquer à ce log ?

Pour une analyse plus approfondie, nous pouvons réaliser les étapes suivantes :

1. **Analyse des codes de réponse** : Identifier le nombre et le type de codes de réponse pour déterminer les requêtes suspectes.
2. **Analyse des fréquences des requêtes par IP** : Rechercher des adresses IP qui font un nombre anormalement élevé de requêtes dans un court laps de temps.
3. **Analyse des User-Agents** : Certains User-Agents peuvent être caractéristiques de scanners ou d'outils automatisés utilisés dans des attaques.
4. **Analyse des méthodes HTTP et des URI** : Rechercher des motifs suspects dans les méthodes et les URI des requêtes, tels que des tentatives d'injection SQL ou des appels à des ressources sensibles.

Commençons par charger le fichier de log en entier pour analyser les codes de réponse et les fréquences des requêtes par adresse IP. Cela nous aidera à identifier les comportements potentiellement malveillants. Je vais charger et analyser les données.

Le fichier de log a été chargé avec succès, mais il semble y avoir quelques erreurs de format dans les colonnes. Cependant, nous avons suffisamment de données pour continuer l'analyse.

### Étape 1: Analyse des Codes de Réponse
Nous allons d'abord examiner la distribution des codes de réponse HTTP pour identifier les codes fréquemment retournés qui pourraient indiquer des tentatives d'accès non autorisé ou d'erreur.

### Étape 2: Analyse de Fréquence des Requêtes par IP
Ensuite, nous analyserons les adresses IP avec des requêtes anormalement fréquentes, ce qui pourrait signaler des comportements de type attaque par déni de service (DoS) ou scan agressif.

Commençons par ces deux analyses.



In [50]:
# Calcule et affiche la fréquence de chaque code de réponse HTTP
status_code_counts = df['status_code'].value_counts()
print("Distribution des codes de réponse HTTP :")
print(status_code_counts)

# Calcule et affiche les adresses IP avec le plus grand nombre de requêtes (affiche les 5 premières)
ip_request_counts = df['src_ip'].value_counts()
print("\nAdresses IP avec le plus de requêtes :")
print(ip_request_counts.head())


Distribution des codes de réponse HTTP :
status_code
404    1370563
404     357160
200     213422
-        37016
400      29951
303      11291
403       8565
302       4738
304       3827
200       2953
401       2346
503       1567
206       1409
301        639
405        542
500        388
501        340
403        212
414        189
201        113
400         62
417         47
413         32
304         24
401         18
411         12
302          9
207          5
505          5
301          4
406          3
405          3
502          1
414          1
303          1
501          1
204          1
Name: count, dtype: int64

Adresses IP avec le plus de requêtes :
src_ip
192.168.203.63     1289497
192.168.202.79      232259
192.168.202.102     212230
192.168.202.110     168427
192.168.202.138      47347
Name: count, dtype: int64


### Résultats de l'analyse :

#### Analyse des Codes de Réponse
Voici la distribution des codes de réponse HTTP les plus fréquents dans le fichier de log :
- **404 (Not Found)** : 72,192 occurrences, ce qui peut indiquer de nombreuses requêtes vers des ressources qui n'existent pas. Cela pourrait être le signe de scans à la recherche de vulnérabilités.
- **200 (OK)** : 13,008 occurrences, représentant des requêtes réussies.
- **400 (Bad Request)** : 4,695 occurrences, souvent associées à des requêtes mal formées qui pourraient indiquer des tentatives d'exploitation.
- **403 (Forbidden)** : 1,543 occurrences, indiquant des tentatives d'accès à des ressources non autorisées.
- **503 (Service Unavailable)** : 1,408 occurrences, ce qui pourrait indiquer une surcharge du serveur due à une attaque de déni de service.

#### Analyse de Fréquence des Requêtes par IP
Les adresses IP avec le plus grand nombre de requêtes semblent avoir environ 100 à 138 requêtes chacune. Cela pourrait indiquer une activité suspecte, surtout si ces requêtes ont des caractéristiques communes ou des patterns suspects.

### Prochaines Étapes
Nous pouvons effectuer une analyse plus détaillée sur les adresses IP ayant un grand nombre de requêtes pour vérifier la nature de ces requêtes. De plus, il serait utile d'examiner les User-Agents associés à ces requêtes, car les outils automatisés utilisés pour les scans ou les attaques ont souvent des User-Agents distinctifs.

Voulez-vous que je continue avec cette analyse plus détaillée ou y a-t-il d'autres aspects spécifiques que vous souhaitez explorer ?

In [58]:
import pandas as pd


# Ensure 'timestamp' is converted to datetime if not already done
df['timestamp'] = pd.to_datetime(df['timestamp'], unit='s', errors='coerce')

# Set 'timestamp' as the index of the DataFrame
df.set_index('timestamp', inplace=True)
# Modification de la fonction d'agrégation pour gérer les séries vides
def safe_mode(x):
    if len(x) == 0:
        return None  # ou vous pourriez choisir une valeur par défaut, comme np.nan ou une chaîne de caractères indiquant 'No Data'
    return x.value_counts().index[0]

hourly_stats = df.resample('h').agg({
    'status_code': safe_mode,  # Utilisez la fonction safe_mode pour éviter l'erreur
    'src_ip': 'count'
})


print(hourly_stats)



                    status_code   src_ip
timestamp                               
2012-03-16 12:00:00         404     6376
2012-03-16 13:00:00         404    80501
2012-03-16 14:00:00         404    39808
2012-03-16 15:00:00         200    20159
2012-03-16 16:00:00         200   144623
2012-03-16 17:00:00         404   268815
2012-03-16 18:00:00         404  1038875
2012-03-16 19:00:00         404   228083
2012-03-16 20:00:00         404   124881
2012-03-16 21:00:00         200     2671
2012-03-16 22:00:00         200     1013
2012-03-16 23:00:00        None        0
2012-03-17 00:00:00        None        0
2012-03-17 01:00:00        None        0
2012-03-17 02:00:00        None        0
2012-03-17 03:00:00        None        0
2012-03-17 04:00:00        None        0
2012-03-17 05:00:00        None        0
2012-03-17 06:00:00        None        0
2012-03-17 07:00:00        None        0
2012-03-17 08:00:00        None        0
2012-03-17 09:00:00        None        0
2012-03-17 10:00

L'analyse des données de votre fichier de log montre plusieurs éléments notables concernant les réponses HTTP et la fréquence des requêtes sur une base horaire. Voici une analyse détaillée de vos résultats :

### Points Clés

1. **Codes de Statut Prédominants** : Les codes de statut 404 (Not Found) et 200 (OK) sont les plus fréquents. Les occurrences élevées de 404 peuvent indiquer des tentatives d'accès à des ressources qui n'existent pas, ce qui pourrait être le résultat de scans automatisés ou d'erreurs dans les liens ou références.

2. **Pics de Trafic** :
   - **18:00 le 16 mars** : Avec 1,038,875 requêtes et un statut majoritaire de 404, ce pic est particulièrement remarquable. Ce pourrait être un indicateur d'une activité suspecte, comme une attaque par déni de service (DoS) ou un scan intensif du serveur.
   - **16:00 et 17:00 le 16 mars** : Ces heures montrent également des niveaux élevés de trafic avec des statuts majoritairement 200, indiquant une activité régulière mais avec un volume anormalement élevé.

3. **Heures Creuses** :
   - **Entre 23:00 le 16 mars et 11:00 le 17 mars** : Il n'y a aucune requête enregistrée, ce qui pourrait indiquer une période de faible activité ou des problèmes techniques empêchant la collecte de données.

4. **Variation des Réponses au Fil du Temps** :
   - Les jours et heures suivants montrent une variation entre les codes 404 et 200, avec parfois des retours à des heures sans données (None), ce qui pourrait refléter les heures d'ouverture ou les périodes d'activité ciblée sur le serveur.

### Implications pour la Sécurité

- **Surveillance des Codes 404** : Un nombre élevé de requêtes générant un 404 pourrait nécessiter une enquête pour identifier des URLs mal configurées ou des tentatives de pénétration du système.
- **Analyse des Périodes de Pic** : Les pics de trafic, surtout avec un statut 404, devraient être analysés pour détecter d'éventuelles attaques ou activités non autorisées.

### Suggestions pour des Actions Suivantes

1. **Analyser les Logs des Adresses IP Spécifiques** lors des pics de requêtes pour comprendre leur origine et leur intention.
2. **Vérifier la Configuration du Serveur** pour s'assurer que toutes les ressources sont correctement liées et qu'il n'y a pas de liens rompus ou de références à des ressources qui n'existent plus.
3. **Mettre en Place des Alertes** pour les codes de réponse anormaux ou les volumes de trafic élevés afin de pouvoir réagir rapidement à des activités suspectes.

En résumé, cette analyse horaire des codes de statut et des fréquences de requêtes peut fournir des insights précieux sur la santé et la sécurité de votre serveur web. Il serait judicieux de continuer à surveiller ces métriques et de prendre des mesures préventives basées sur les tendances observées.

In [59]:

# Analyse des User-Agents
user_agents = df['user_agent'].value_counts()
print("Les User-Agents les plus fréquents :")
print(user_agents.head())

# Vérification des IP avec des codes 403 ou 404 fréquents
suspicious_ips = df[df['status_code'].isin([403, 404])]['src_ip'].value_counts()
print("IPs avec des erreurs fréquentes 403 ou 404 :")
print(suspicious_ips.head())

Les User-Agents les plus fréquents :
user_agent
DirBuster-0.12 (http://www.owasp.org/index.php/Category:OWASP_DirBuster_Project)    1289243
Mozilla/4.0 (compatible; MSIE 8.0; Windows NT 5.1; Trident/4.0)                      235984
Mozilla/5.0 SF/2.03b                                                                 203846
Mozilla/4.0 (compatible; MSIE 8.0; Windows NT 6.0)                                    90826
Mozilla/4.0 (compatible; MSIE 9.0; Windows NT 6.1)                                    89004
Name: count, dtype: int64
IPs avec des erreurs fréquentes 403 ou 404 :
src_ip
192.168.203.63     255638
192.168.202.79      97796
192.168.202.110      3584
192.168.202.118       272
192.168.202.102        58
Name: count, dtype: int64


Votre analyse a révélé des informations intéressantes à partir des données des User-Agents et des adresses IP produisant fréquemment des erreurs 403 ou 404. Voici une évaluation détaillée et ce que cela pourrait signifier en termes de sécurité et de gestion du trafic.

### Analyse des User-Agents
Les User-Agents les plus fréquents dans vos données sont:

1. **DirBuster-0.12** - Utilisé pour les tests de force brute sur les répertoires et fichiers des serveurs web. Son utilisation massive (1,289,243 occurrences) suggère des tentatives d'attaque ou de scan automatisé visant à découvrir des ressources cachées sur le serveur.
2. **Mozilla/4.0 (compatible; MSIE 8.0; Windows NT 5.1; Trident/4.0)** - Bien que cela puisse sembler être un navigateur légitime, son volume élevé pourrait aussi indiquer un usage automatisé ou un faux User-Agent utilisé pour dissimuler des activités malveillantes.
3. **Mozilla/5.0 SF/2.03b** - Peut indiquer un navigateur spécifique ou un outil, dont l'utilisation élevée pourrait nécessiter une investigation plus approfondie.
4. **Autres versions de Mozilla/4.0 pour différentes versions de Windows** - Ceux-ci peuvent aussi être des navigateurs légitimes ou utilisés pour masquer des activités suspectes.

### Adresses IP avec Erreurs Fréquentes 403 ou 404
Les adresses IP générant le plus grand nombre d'erreurs 403 ou 404 sont principalement internes (basées sur le schéma d'adressage IP), ce qui peut indiquer plusieurs scénarios :

1. **192.168.203.63 & 192.168.202.79** - Ces adresses ont généré un nombre exceptionnellement élevé d'erreurs, ce qui pourrait suggérer une configuration erronée, des équipements compromis, ou un comportement d'exploration agressif depuis ces appareils.
2. **Autres adresses IP** - Moins fréquentes mais toujours concernantes, surtout s'il s'agit de comportements récurrents qui pourraient indiquer des problèmes de configuration, des tentatives d'accès à des ressources non autorisées ou des tests de pénétration internes.

### Implications et Actions Suggérées
1. **Analyser les Journaux de Trafic Détaillés** - Pour ces adresses IP et User-Agents pour déterminer la nature exacte des requêtes. Cela aidera à identifier si les actions sont malveillantes ou non.
2. **Révision des Politiques de Sécurité** - Assurer que les politiques de sécurité sont suffisamment robustes pour détecter et répondre à de telles activités. Considérer la mise en place de règles plus strictes pour les outils comme DirBuster.
3. **Amélioration de la Surveillance et des Alertes** - Mettre en place ou améliorer les systèmes de surveillance pour détecter des pics anormaux d'activité ou l'utilisation de certaines applications ou protocoles.
4. **Éducation et Formation des Utilisateurs** - S'il s'avère que les activités proviennent de l'intérieur, il peut être nécessaire de renforcer la formation en sécurité pour les utilisateurs internes pour éviter des tests non autorisés ou des erreurs de configuration.

Ces mesures aideront à renforcer la sécurité de votre infrastructure et à mieux comprendre les activités sur vos serveurs pour prévenir les accès non autorisés et les abus.