Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

Impossible de télécharger les fichiers à partir d'Amazon : #10

Closed
AndreiArion opened this issue Jan 27, 2015 · 21 comments
Closed

Impossible de télécharger les fichiers à partir d'Amazon : #10

AndreiArion opened this issue Jan 27, 2015 · 21 comments
Assignees

Comments

@AndreiArion
Copy link
Contributor

2015-01-27 21:30 GMT+01:00 Christian:

Impossible de télécharger les fichiers à partir d4amazon :

ubuntu@ip-10-0-10-248:~$ aws s3 cp s3n://bigdata-paristech/projet2014/data/data_10GB.csv data_10GB.csv

usage: aws s3 cp or or
Error: Invalid argument type

Et lorsque je change s3n:// par s3:// j'obtiens une erreur 403

@AndreiArion
Copy link
Contributor Author

Est-ce que vous pouvez verifier votre adresse IP publique et nous la transmettre?

Comme indique dans le mail des données:

"Ces jeux de données sont accessibles uniquement depuis AWS et uniquement depuis la région us-east-1 . N'oubliez pas cet aspect quand vous créerez votre cluster (mettez les nœuds dans la région us-east-1)."

Uniquement des IPs de la region us-east-1 sont autorises. La liste complete de IP autorisees est dans le fichier: https://github.com/AndreiArion/bigdata-project-2014/blob/master/aws/s3/bucket_policy.json

@christianBGD
Copy link

Oui je suis sur Amazon :
us-east-1d
54.152.47.119

J'ai l'impression que c'est le s3n:// qui ne passe pas.

Christian

@AndreiArion
Copy link
Contributor Author

Sur le noeud AWS est-ce que vous avez exporte vos credentials AWS?

export AWS_ACCESS_KEY_ID=....
export AWS_SECRET_ACCESS_KEY=...

@christianBGD
Copy link

En fait j'ai terminé les instances : Rien que pour des tests, j'en ai eu pour $31 !

Quelle configuration recommandez-vous ?

Merci de votre aide.

@AndreiArion
Copy link
Contributor Author

Pour les testes c'est bien de démarrer avec une seule instance (m3.large par exemple.)
Il faut surtout utiliser l'instance 1-2 heures pour récupérer le max d'info possibles, par exemple:
*charger les données 1-10GB, et analyser les perf pour dimensionner le cluster de "prod".
...puis la liberer

Si vous avez toujours de problemes d'acces donnez-moi votre ip + aws user name (IAM user) + date de votre test et je vais regarder dans les logs d'acces S3.

@christianBGD
Copy link

OK bien compris.

J'ai toutefois une question importante :
Pour des tests sur Cassandra, j'ai chargé 2.000.000 lignes, qui représentent 1/9 du fichier de 1 GB.
Or, ces 2 millions de lignes prennent 100MB sur disque.
Ca veut dire que - grosso modo - pour le fichier de 100 GB on aura 100_9_100 = 90GB, sans compter les commitlogs.

Comment conciler le volume de stockage et le respect du budget ?

Pour les logs d'accès je vous enverrai mon ip et mon IAM ce soir (je suis à l'école aujourd'hui)

Merci de votre aide.

@rfokou
Copy link

rfokou commented Feb 3, 2015

Bonjour,
Après exportation des credentials AWS, je rencontre le même souci:
[ec2-user@ip-172-31-20-160 ~]$ aws s3 cp s3://bigdata-paristech/projet2014/data/data/data_10GB.csv data_10GB.csv
A client error (403) occurred when calling the HeadObject operation: Forbidden

Je suis sur la région us-east-1a avec une adresse IP publique: 54.152.223.121 (le 03/02/2015 à 11:15"

Cordialement, Raoul

@AndreiArion
Copy link
Contributor Author

L'ip 54.152.223.121 est bien autorisé, c'est peut être un pb au niveau de la configuration de l'utilisateur?
Est-ce que vous avez rajouté a votre utilisateur aws une policy(user policy ou group policy) qui autorise l’accès a S3?
Vous pouvez vérifier via cet URL:
https://console.aws.amazon.com/iam/home?region=us-east-1#users/XXXXX
(remplacer XXXXX par votre nom d'utilisateur)

@rfokou
Copy link

rfokou commented Feb 3, 2015

J'ai rajouté cette user policy vers 13h mais après avoir relancé mon EC2, j'ai toujours le même message d'erreur ... operation: Forbidden.

@gitthabet
Copy link

hello,

Je rencontre un soucis dans l'importation des 10GB.
J'avais suivi ces étapes pour le 1GB :

  1. commander une machine MongoDB 2.4 with 4000 IOPS
    http://docs.mongodb.org/ecosystem/platforms/amazon-ec2/
    temps (1mn)
    2)se connecter à La machine aws
    chmod 400 ahmed.pem
    ssh -i ahmed.pem ec2-user@52.0.172.1
    temps (1mn)
  2. importer les 1GB :
    wget http://s3.amazonaws.com/bigdata-paristech/projet2014/data/data_1GB.csv
    --> et ça bien tourné.
    Maintenant c'est impossible de télécharger les 10GB , car ça dépasse la capacité de la machine (6GB) meme si je prends l'instance la plus costo.

Merci pour votre aide

@christianBGD
Copy link

Salut Thabet,

essaye d'utiliser un curl au lieu du wget

curl -C s3n://toto/fichier -o fichier_local

Cordialement,

Christian Penon
MS-BGD
+33 6 77 09 21 41

----- Mail original -----

De: "CHELLIGUE Thabet" notifications@github.com
À: "AndreiArion/bigdata-project-2014" bigdata-project-2014@noreply.github.com
Cc: "christianBGD" christian.penon@telecom-paristech.fr
Envoyé: Samedi 7 Février 2015 12:05:06
Objet: Re: [bigdata-project-2014] Impossible de télécharger les fichiers à partir d'Amazon : (#10)

hello,

Je rencontre un soucis dans l'importation des 10GB.
J'avais suivi ces étapes pour le 1GB :

  1. commander une machine MongoDB 2.4 with 4000 IOPS
    http://docs.mongodb.org/ecosystem/platforms/amazon-ec2/
    temps (1mn)
    2)se connecter à La machine aws
    chmod 400 ahmed.pem

ssh -i ahmed.pem ec2-user@52.0.172.1

temps (1mn)
3) importer les 1GB :
wget http://s3.amazonaws.com/bigdata-paristech/projet2014/data/data_1GB.csv
--> et ça bien tourné.
Maintenant c'est impossible de télécharger les 10GB , car ça dépasse la capacité de la machine (6GB) meme si je prends l'instance la plus costo.

Merci pour votre aide


Reply to this email directly or view it on GitHub .

@gitthabet
Copy link

pareil , la commande :

curl -s http://s3.amazonaws.com/bigdata-paristech/projet2014/data/data_10GB.csv > data.csv

est limitée à 6 GB :(

@PhilippeCayeux
Copy link

Bonjour,
Pouvez-vous nous donner les autorisations pour les adresses 52.0.203.176, 52.0.209.29, 52.0.208.97, 52.0.205.136, 52.0.206.86 et 52.0.45.23 ?

@AndreiArion
Copy link
Contributor Author

Bonjour PhilippeCayeux depuis mercredi j'ai désactivé tout contrôle sur l'adresse IP donc il n'y a pas besoin d’autorisation.

@AndreiArion
Copy link
Contributor Author

gitthabet tu peux faire un pwd et un df? par exemple:

[andrei@desktop ~]$ pwd
/home/andrei
[andrei@desktop ~]$ df -h
Filesystem Size Used Avail Use% Mounted on
/dev/mapper/fedora_pc12-root 50G 20G 27G 43% /
devtmpfs 7.7G 0 7.7G 0% /dev
tmpfs 7.7G 67M 7.7G 1% /dev/shm
tmpfs 7.7G 1012K 7.7G 1% /run
tmpfs 7.7G 0 7.7G 0% /sys/fs/cgroup
tmpfs 7.7G 336K 7.7G 1% /tmp
/dev/sda2 477M 131M 318M 30% /boot
/dev/sda1 200M 9.3M 191M 5% /boot/efi
/dev/mapper/fedora_pc12-home 97G 77G 16G 84% /home
/dev/sdc1 147G 119G 21G 86% /mnt/store

@gitthabet
Copy link

ça donne ça :
[ec2-user@ip-172-31-46-54 ~]$ pwd
/home/ec2-user
[ec2-user@ip-172-31-46-54 ~]$ df -h
Sys. de fichiers Taille Utilisé Dispo Uti% Monté sur
/dev/xvda1 7,8G 1,5G 6,3G 19% /
devtmpfs 3,7G 24K 3,7G 1% /dev
tmpfs 3,7G 0 3,7G 0% /dev/shm
/dev/xvdf 394G 569M 374G 1% /data
/dev/xvdg 25G 45M 24G 1% /journal
/dev/xvdh 20G 45M 19G 1% /log

@PhilippeCayeux
Copy link

Alors pourquoi ne parviens-je pas à récupérer les données ?
Lorsque je lance la commande (pour voir le contenu du répertoire) :
aws s3 ls s3://bigdata-paristech/projet2014/data
J'obitens le message d'erreur suivant :
A client error (AccessDenied) occurred when calling the ListObjects operation: Access Denied
Je crois avoir défini les autorisations nécessaires, mais comme je ne connais pas le fonctionnement d'AWS, et qu'il est d'une grande complexité, il est possible que quelque chose m'ait échappé ?

@PhilippeCayeux
Copy link

Apparemment, si la commande aws s3 ls ne marche pas, la commande aws s3 cp fonctionne (j'ai pu récupérer le fichier de 1 Go). Je ne peux pas récupérer le fichier de 100 Go en une seule fois (trop gros), mais il paraît que vous avez mis à disposition un jeu de 20 fichiers de 5 Go. Pouvez-vous m'en donner les noms ?

@AndreiArion
Copy link
Contributor Author

gitthabet t'est sur une partition qui a seulement 6GB ( ton home -> /home/ec2-user est sur la partition /)
Tu as 374GB dispo sur la partition /data donc tu peux telecharger le fichier sur cette partition:
cd /data
curl..../ aws s3 cp ...

@gitthabet
Copy link

That's OK, merci

@AndreiArion
Copy link
Contributor Author

gitthabet et PhilippeCayeux : c'est une mauvaise idée d'utiliser s3 comme un système de fichiers habituel. Faire des copies via curl /aws s3 cp c'est utile pour tester les droit AWS/S3 mais
S3 c'est un système de fichiers distribué et l'un des gros avantages c'est la possibilité de faire beaucoup de lectures en parallèle sur plusieurs noeuds en même temps. S3 est optimisé pour la lecture parallèle et vous pouvez attendre des très gros débit de transfert a la condition d'exploiter ce parallélisme...

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
None yet
Projects
None yet
Development

No branches or pull requests

5 participants