Impossible de télécharger les fichiers à partir d'Amazon : #10

AndreiArion · 2015-01-27T21:24:32Z

2015-01-27 21:30 GMT+01:00 Christian:

Impossible de télécharger les fichiers à partir d4amazon :

ubuntu@ip-10-0-10-248:~$ aws s3 cp s3n://bigdata-paristech/projet2014/data/data_10GB.csv data_10GB.csv

usage: aws s3 cp or or
Error: Invalid argument type

Et lorsque je change s3n:// par s3:// j'obtiens une erreur 403

AndreiArion · 2015-01-27T21:32:31Z

Est-ce que vous pouvez verifier votre adresse IP publique et nous la transmettre?

Comme indique dans le mail des données:

"Ces jeux de données sont accessibles uniquement depuis AWS et uniquement depuis la région us-east-1 . N'oubliez pas cet aspect quand vous créerez votre cluster (mettez les nœuds dans la région us-east-1)."

Uniquement des IPs de la region us-east-1 sont autorises. La liste complete de IP autorisees est dans le fichier: https://github.com/AndreiArion/bigdata-project-2014/blob/master/aws/s3/bucket_policy.json

christianBGD · 2015-01-28T05:36:45Z

Oui je suis sur Amazon :
us-east-1d
54.152.47.119

J'ai l'impression que c'est le s3n:// qui ne passe pas.

Christian

AndreiArion · 2015-01-28T06:26:50Z

Sur le noeud AWS est-ce que vous avez exporte vos credentials AWS?

export AWS_ACCESS_KEY_ID=....
export AWS_SECRET_ACCESS_KEY=...

christianBGD · 2015-01-28T06:42:10Z

En fait j'ai terminé les instances : Rien que pour des tests, j'en ai eu pour $31 !

Quelle configuration recommandez-vous ?

Merci de votre aide.

AndreiArion · 2015-01-29T09:27:50Z

Pour les testes c'est bien de démarrer avec une seule instance (m3.large par exemple.)
Il faut surtout utiliser l'instance 1-2 heures pour récupérer le max d'info possibles, par exemple:
*charger les données 1-10GB, et analyser les perf pour dimensionner le cluster de "prod".
...puis la liberer

Si vous avez toujours de problemes d'acces donnez-moi votre ip + aws user name (IAM user) + date de votre test et je vais regarder dans les logs d'acces S3.

christianBGD · 2015-01-29T10:47:53Z

OK bien compris.

J'ai toutefois une question importante :
Pour des tests sur Cassandra, j'ai chargé 2.000.000 lignes, qui représentent 1/9 du fichier de 1 GB.
Or, ces 2 millions de lignes prennent 100MB sur disque.
Ca veut dire que - grosso modo - pour le fichier de 100 GB on aura 100_9_100 = 90GB, sans compter les commitlogs.

Comment conciler le volume de stockage et le respect du budget ?

Pour les logs d'accès je vous enverrai mon ip et mon IAM ce soir (je suis à l'école aujourd'hui)

Merci de votre aide.

rfokou · 2015-02-03T10:24:17Z

Bonjour,
Après exportation des credentials AWS, je rencontre le même souci:
[ec2-user@ip-172-31-20-160 ~]$ aws s3 cp s3://bigdata-paristech/projet2014/data/data/data_10GB.csv data_10GB.csv
A client error (403) occurred when calling the HeadObject operation: Forbidden

Je suis sur la région us-east-1a avec une adresse IP publique: 54.152.223.121 (le 03/02/2015 à 11:15"

Cordialement, Raoul

AndreiArion · 2015-02-03T10:48:52Z

L'ip 54.152.223.121 est bien autorisé, c'est peut être un pb au niveau de la configuration de l'utilisateur?
Est-ce que vous avez rajouté a votre utilisateur aws une policy(user policy ou group policy) qui autorise l’accès a S3?
Vous pouvez vérifier via cet URL:
https://console.aws.amazon.com/iam/home?region=us-east-1#users/XXXXX
(remplacer XXXXX par votre nom d'utilisateur)

rfokou · 2015-02-03T14:03:30Z

J'ai rajouté cette user policy vers 13h mais après avoir relancé mon EC2, j'ai toujours le même message d'erreur ... operation: Forbidden.

gitthabet · 2015-02-07T11:05:06Z

hello,

Je rencontre un soucis dans l'importation des 10GB.
J'avais suivi ces étapes pour le 1GB :

commander une machine MongoDB 2.4 with 4000 IOPS
http://docs.mongodb.org/ecosystem/platforms/amazon-ec2/
temps (1mn)
2)se connecter à La machine aws
chmod 400 ahmed.pem
ssh -i ahmed.pem ec2-user@52.0.172.1
temps (1mn)
importer les 1GB :
wget http://s3.amazonaws.com/bigdata-paristech/projet2014/data/data_1GB.csv
--> et ça bien tourné.
Maintenant c'est impossible de télécharger les 10GB , car ça dépasse la capacité de la machine (6GB) meme si je prends l'instance la plus costo.

Merci pour votre aide

christianBGD · 2015-02-07T13:19:35Z

Salut Thabet,

essaye d'utiliser un curl au lieu du wget

curl -C s3n://toto/fichier -o fichier_local

Cordialement,

Christian Penon
MS-BGD
+33 6 77 09 21 41

----- Mail original -----

De: "CHELLIGUE Thabet" notifications@github.com
À: "AndreiArion/bigdata-project-2014" bigdata-project-2014@noreply.github.com
Cc: "christianBGD" christian.penon@telecom-paristech.fr
Envoyé: Samedi 7 Février 2015 12:05:06
Objet: Re: [bigdata-project-2014] Impossible de télécharger les fichiers à partir d'Amazon : (#10)

hello,

Je rencontre un soucis dans l'importation des 10GB.
J'avais suivi ces étapes pour le 1GB :

commander une machine MongoDB 2.4 with 4000 IOPS
http://docs.mongodb.org/ecosystem/platforms/amazon-ec2/
temps (1mn)
2)se connecter à La machine aws
chmod 400 ahmed.pem

ssh -i ahmed.pem ec2-user@52.0.172.1

temps (1mn)
3) importer les 1GB :
wget http://s3.amazonaws.com/bigdata-paristech/projet2014/data/data_1GB.csv
--> et ça bien tourné.
Maintenant c'est impossible de télécharger les 10GB , car ça dépasse la capacité de la machine (6GB) meme si je prends l'instance la plus costo.

Merci pour votre aide

—
Reply to this email directly or view it on GitHub .

gitthabet · 2015-02-07T15:28:48Z

pareil , la commande :

curl -s http://s3.amazonaws.com/bigdata-paristech/projet2014/data/data_10GB.csv > data.csv

est limitée à 6 GB :(

PhilippeCayeux · 2015-02-07T16:44:51Z

Bonjour,
Pouvez-vous nous donner les autorisations pour les adresses 52.0.203.176, 52.0.209.29, 52.0.208.97, 52.0.205.136, 52.0.206.86 et 52.0.45.23 ?

AndreiArion · 2015-02-07T17:04:12Z

Bonjour PhilippeCayeux depuis mercredi j'ai désactivé tout contrôle sur l'adresse IP donc il n'y a pas besoin d’autorisation.

AndreiArion · 2015-02-07T17:07:01Z

gitthabet tu peux faire un pwd et un df? par exemple:

[andrei@desktop ~]$ pwd
/home/andrei
[andrei@desktop ~]$ df -h
Filesystem Size Used Avail Use% Mounted on
/dev/mapper/fedora_pc12-root 50G 20G 27G 43% /
devtmpfs 7.7G 0 7.7G 0% /dev
tmpfs 7.7G 67M 7.7G 1% /dev/shm
tmpfs 7.7G 1012K 7.7G 1% /run
tmpfs 7.7G 0 7.7G 0% /sys/fs/cgroup
tmpfs 7.7G 336K 7.7G 1% /tmp
/dev/sda2 477M 131M 318M 30% /boot
/dev/sda1 200M 9.3M 191M 5% /boot/efi
/dev/mapper/fedora_pc12-home 97G 77G 16G 84% /home
/dev/sdc1 147G 119G 21G 86% /mnt/store

gitthabet · 2015-02-07T17:17:32Z

ça donne ça :
[ec2-user@ip-172-31-46-54 ~]$ pwd
/home/ec2-user
[ec2-user@ip-172-31-46-54 ~]$ df -h
Sys. de fichiers Taille Utilisé Dispo Uti% Monté sur
/dev/xvda1 7,8G 1,5G 6,3G 19% /
devtmpfs 3,7G 24K 3,7G 1% /dev
tmpfs 3,7G 0 3,7G 0% /dev/shm
/dev/xvdf 394G 569M 374G 1% /data
/dev/xvdg 25G 45M 24G 1% /journal
/dev/xvdh 20G 45M 19G 1% /log

PhilippeCayeux · 2015-02-07T17:17:58Z

Alors pourquoi ne parviens-je pas à récupérer les données ?
Lorsque je lance la commande (pour voir le contenu du répertoire) :
aws s3 ls s3://bigdata-paristech/projet2014/data
J'obitens le message d'erreur suivant :
A client error (AccessDenied) occurred when calling the ListObjects operation: Access Denied
Je crois avoir défini les autorisations nécessaires, mais comme je ne connais pas le fonctionnement d'AWS, et qu'il est d'une grande complexité, il est possible que quelque chose m'ait échappé ?

PhilippeCayeux · 2015-02-07T17:23:00Z

Apparemment, si la commande aws s3 ls ne marche pas, la commande aws s3 cp fonctionne (j'ai pu récupérer le fichier de 1 Go). Je ne peux pas récupérer le fichier de 100 Go en une seule fois (trop gros), mais il paraît que vous avez mis à disposition un jeu de 20 fichiers de 5 Go. Pouvez-vous m'en donner les noms ?

AndreiArion · 2015-02-07T18:01:57Z

gitthabet t'est sur une partition qui a seulement 6GB ( ton home -> /home/ec2-user est sur la partition /)
Tu as 374GB dispo sur la partition /data donc tu peux telecharger le fichier sur cette partition:
cd /data
curl..../ aws s3 cp ...

gitthabet · 2015-02-07T18:06:04Z

That's OK, merci

AndreiArion · 2015-02-07T18:11:05Z

gitthabet et PhilippeCayeux : c'est une mauvaise idée d'utiliser s3 comme un système de fichiers habituel. Faire des copies via curl /aws s3 cp c'est utile pour tester les droit AWS/S3 mais
S3 c'est un système de fichiers distribué et l'un des gros avantages c'est la possibilité de faire beaucoup de lectures en parallèle sur plusieurs noeuds en même temps. S3 est optimisé pour la lecture parallèle et vous pouvez attendre des très gros débit de transfert a la condition d'exploiter ce parallélisme...

AndreiArion self-assigned this Jan 27, 2015

AndreiArion added a commit that referenced this issue Jan 27, 2015

Rajout du bucket policy le jeu de donnes. #10

3967ad6

AndreiArion closed this as completed Jun 30, 2015

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Impossible de télécharger les fichiers à partir d'Amazon : #10

Impossible de télécharger les fichiers à partir d'Amazon : #10

AndreiArion commented Jan 27, 2015

AndreiArion commented Jan 27, 2015

christianBGD commented Jan 28, 2015

AndreiArion commented Jan 28, 2015

christianBGD commented Jan 28, 2015

AndreiArion commented Jan 29, 2015

christianBGD commented Jan 29, 2015

rfokou commented Feb 3, 2015

AndreiArion commented Feb 3, 2015

rfokou commented Feb 3, 2015

gitthabet commented Feb 7, 2015

christianBGD commented Feb 7, 2015

gitthabet commented Feb 7, 2015

PhilippeCayeux commented Feb 7, 2015

AndreiArion commented Feb 7, 2015

AndreiArion commented Feb 7, 2015

gitthabet commented Feb 7, 2015

PhilippeCayeux commented Feb 7, 2015

PhilippeCayeux commented Feb 7, 2015

AndreiArion commented Feb 7, 2015

gitthabet commented Feb 7, 2015

AndreiArion commented Feb 7, 2015

Impossible de télécharger les fichiers à partir d'Amazon : #10

Impossible de télécharger les fichiers à partir d'Amazon : #10

Comments

AndreiArion commented Jan 27, 2015

AndreiArion commented Jan 27, 2015

christianBGD commented Jan 28, 2015

AndreiArion commented Jan 28, 2015

christianBGD commented Jan 28, 2015

AndreiArion commented Jan 29, 2015

christianBGD commented Jan 29, 2015

rfokou commented Feb 3, 2015

AndreiArion commented Feb 3, 2015

rfokou commented Feb 3, 2015

gitthabet commented Feb 7, 2015

christianBGD commented Feb 7, 2015

gitthabet commented Feb 7, 2015

PhilippeCayeux commented Feb 7, 2015

AndreiArion commented Feb 7, 2015

AndreiArion commented Feb 7, 2015

gitthabet commented Feb 7, 2015

PhilippeCayeux commented Feb 7, 2015

PhilippeCayeux commented Feb 7, 2015

AndreiArion commented Feb 7, 2015

gitthabet commented Feb 7, 2015

AndreiArion commented Feb 7, 2015