# Analyse des performences des application mobiles Google PlayStore et AppStore

**Descripion du projet**

Une entreprise de conception d'applications mobiles exclusivement gratuites souhaites augmenter ses profits. Elle tire ses profits des publicités qu'elle présente aux utilisateurs via l'interface des applications.

**Objectif du projet**

Nous, en tant qu'équipe de Data Analysts, avons pour mission d'analyser des données afin d'aider les responsables et l'équipe des developpeurs de l'entreprise à comprendre quels types d'applications sont susceptibles d'attirer plus d'utilisateurs.

### Résumé du résultat de l'analyse

Après avoir analysé les données, nous sommes parvenu à une conclusion. 
Nous avons proposé l'équipe de developpeurs de créer une application qui donne accès un livre populaire (récent  et y ajouter des fonctionalités qui attirerait les adeptes d'autres profils de contenue comme :
 * Dictionnaire : possibilité de pouvoir, sans quitter l'app, trouver la definition des mots difficiles
 * Chat ou Forum : possibilité de discuter sur une thématique autour du livre en question
 * Multilingue
 * Version audio (pour élargir la champs d'utilisateurs cible)
 * Etc .

In [2]:
from csv import reader

### 1- Chargement des datasets

In [3]:
with open("datasets/AppleStore.csv", encoding="utf8") as file:
    data = reader(file)
    app_ios = list(data)
    
with open("datasets/googleplaystore.csv", encoding="utf8") as file:
    data = reader(file)
    app_android = list(data)

In [4]:
def explore_data(dataset, start, end, rows_and_columns=False):
    dataset_slice = dataset[start:end]    
    for row in dataset_slice:
        print(row)
        print('\n') # adds a new (empty) line after each row

    if rows_and_columns:
        print('Number of rows:', len(dataset))
        print('Number of columns:', len(dataset[0]))

In [5]:
ios = explore_data(app_ios, 1, 4, True)

['284882215', 'Facebook', '389879808', 'USD', '0.0', '2974676', '212', '3.5', '3.5', '95.0', '4+', 'Social Networking', '37', '1', '29', '1']


['389801252', 'Instagram', '113954816', 'USD', '0.0', '2161558', '1289', '4.5', '4.0', '10.23', '12+', 'Photo & Video', '37', '0', '29', '1']


['529479190', 'Clash of Clans', '116476928', 'USD', '0.0', '2130805', '579', '4.5', '4.5', '9.24.12', '9+', 'Games', '38', '5', '18', '1']


Number of rows: 7198
Number of columns: 16


In [6]:
android = explore_data(app_android, 1, 5, True)

['Photo Editor & Candy Camera & Grid & ScrapBook', 'ART_AND_DESIGN', '4.1', '159', '19M', '10,000+', 'Free', '0', 'Everyone', 'Art & Design', 'January 7, 2018', '1.0.0', '4.0.3 and up']


['Coloring book moana', 'ART_AND_DESIGN', '3.9', '967', '14M', '500,000+', 'Free', '0', 'Everyone', 'Art & Design;Pretend Play', 'January 15, 2018', '2.0.0', '4.0.3 and up']


['U Launcher Lite – FREE Live Cool Themes, Hide Apps', 'ART_AND_DESIGN', '4.7', '87510', '8.7M', '5,000,000+', 'Free', '0', 'Everyone', 'Art & Design', 'August 1, 2018', '1.2.4', '4.0.3 and up']


['Sketch - Draw & Paint', 'ART_AND_DESIGN', '4.5', '215644', '25M', '50,000,000+', 'Free', '0', 'Teen', 'Art & Design', 'June 8, 2018', 'Varies with device', '4.2 and up']


Number of rows: 10842
Number of columns: 13


In [7]:
print(app_android[0])
print("\n")
print(app_ios[0])

['App', 'Category', 'Rating', 'Reviews', 'Size', 'Installs', 'Type', 'Price', 'Content Rating', 'Genres', 'Last Updated', 'Current Ver', 'Android Ver']


['id', 'track_name', 'size_bytes', 'currency', 'price', 'rating_count_tot', 'rating_count_ver', 'user_rating', 'user_rating_ver', 'ver', 'cont_rating', 'prime_genre', 'sup_devices.num', 'ipadSc_urls.num', 'lang.num', 'vpp_lic']


### 2- Nettoyage des données

Dans cette étape nous allons principalement : 
* Suppression et/ou correction des données erronées 
* Suppression des données en double
* Modification des données pour les adapter à notre objectif d'analyse.

En consultant les discussions liées au dataset sur [Kaggle](https://www.kaggle.com/datasets/lava18/google-play-store-apps/discussion/66015), nous avons pu constater que l'une des lignes du dataset des application android a une données(colonne) manquante. Nous la supprimons donc.

* **Suppression et/ou correction des données erronées**

In [8]:
app_android[10473]

['Life Made WI-Fi Touchscreen Photo Frame',
 '1.9',
 '19',
 '3.0M',
 '1,000+',
 'Free',
 '0',
 'Everyone',
 '',
 'February 11, 2018',
 '1.0.19',
 '4.0 and up']

In [9]:
# Supprimons cette ligne
del app_android[10473]

* **Suppression des données en double**

Verifions ensemble si le dataset des applications Google Store contient des doublons

In [10]:
duplicates_apps = []
uniques_apps = []

for app in app_android[1:]:
    name = app[0]
    if name in uniques_apps:
        duplicates_apps.append(name)
    else:
        uniques_apps.append(name)

In [11]:
duplicates_apps[:20]

['Quick PDF Scanner + OCR FREE',
 'Box',
 'Google My Business',
 'ZOOM Cloud Meetings',
 'join.me - Simple Meetings',
 'Box',
 'Zenefits',
 'Google Ads',
 'Google My Business',
 'Slack',
 'FreshBooks Classic',
 'Insightly CRM',
 'QuickBooks Accounting: Invoicing & Expenses',
 'HipChat - Chat Built for Teams',
 'Xero Accounting Software',
 'MailChimp - Email, Marketing Automation',
 'Crew - Free Messaging and Scheduling',
 'Asana: organize team projects',
 'Google Analytics',
 'AdWords Express']

Comme nous pouvons le voir dans la cellule ci-dessus, le dataset de Google Store a plusieurs app en doublons.

In [12]:
f"Il y'a {len(duplicates_apps)} en plus que nous ne devons pas considerer dans le dataset final que nous utiliserons pour l'analyse."

"Il y'a 1181 en plus que nous ne devons pas considerer dans le dataset final que nous utiliserons pour l'analyse."

* **Modification des données pour les adapter à notre objectif d'analyse**

La suppression des doublons ne se fait pas par hasard, nous devons le faire suivant un critère afin de ne pas perdre des informations precieuses.

Pour trouver un critère, prenons le temps de bien consulter les informations des application en doublons (essayons sur les 10 premières).

In [13]:
# dup = []
for d_app in duplicates_apps[:10]:
    for app in app_android[1:]:
        name = app[0]
        if name == d_app:
            print(app)
#             dup.append(app)

['Quick PDF Scanner + OCR FREE', 'BUSINESS', '4.2', '80805', 'Varies with device', '5,000,000+', 'Free', '0', 'Everyone', 'Business', 'February 26, 2018', 'Varies with device', '4.0.3 and up']
['Quick PDF Scanner + OCR FREE', 'BUSINESS', '4.2', '80805', 'Varies with device', '5,000,000+', 'Free', '0', 'Everyone', 'Business', 'February 26, 2018', 'Varies with device', '4.0.3 and up']
['Quick PDF Scanner + OCR FREE', 'BUSINESS', '4.2', '80804', 'Varies with device', '5,000,000+', 'Free', '0', 'Everyone', 'Business', 'February 26, 2018', 'Varies with device', '4.0.3 and up']
['Box', 'BUSINESS', '4.2', '159872', 'Varies with device', '10,000,000+', 'Free', '0', 'Everyone', 'Business', 'July 31, 2018', 'Varies with device', 'Varies with device']
['Box', 'BUSINESS', '4.2', '159872', 'Varies with device', '10,000,000+', 'Free', '0', 'Everyone', 'Business', 'July 31, 2018', 'Varies with device', 'Varies with device']
['Box', 'BUSINESS', '4.2', '159872', 'Varies with device', '10,000,000+', 'Fr

Après consultation, nous pouvons remarquer que pour chaque doublon d'application, nous avons le nombre de commentaires (reviews) augmente.
Etant donné que l'objectif de notre analyse est de détecter le type d'applications suceptible d'attirer le plus de visiteurs, ce parametre de notre dataset est très important.

**_Nous allons donc, pour cette étape de suppression des doublons, garder, pour chaque application, les lignes de données ayants le plus grand nombre de reviews._**

In [14]:
# Créons un dictionnaire ayant le nom d'application unique comme clé et le plus grand nombre de reviews comme valeur
reviews_max = {}
for app in app_android[1:]:
    name = app[0]
    n_reviews = float(app[3]) # Nous recuperons le nombre de reviews en le convertissant de string à float
    if name in reviews_max and reviews_max[name] < n_reviews:
        reviews_max[name] = n_reviews
    elif name not in reviews_max:
        reviews_max[name] = n_reviews

In [15]:
len(reviews_max)

9659

In [16]:
android_clean = []
already_added = []

for app in app_android[1:]:
    name = app[0]
    n_reviews =  float(app[3])
    if n_reviews == reviews_max[name] and name not in already_added:
        android_clean.append(app)
        already_added.append(name)
        

In [17]:
len(android_clean)

9659

In [18]:
len(already_added)

9659

* **Supprimons les lignes des applications ne correspondants pas aux applications destinées au publique anglophone**

Etant donné que notre cible (les utiliateurs de nos applications) est typiquement anglophone, nous allons concentrer nos analyses sur les application destinées aux utilisateurs anglophone.

In [19]:
def search_ascii_char(string):
    nb_not_ascii_char = 0
    for s in string:
        if ord(s) > 127:
            nb_not_ascii_char += 1
    if nb_not_ascii_char > 3:
        return False
    return True

In [20]:
# Testons la fonction
print(search_ascii_char("Instagram"))
print(search_ascii_char('爱奇艺PPS -《欢乐颂2》电视剧热播'))
print(search_ascii_char('Docs To Go™ Free Office Suite'))
search_ascii_char('Instachat 😜')

True
False
True


True

Notre fonction est assez efficace pour repondre à nos critères. 

Nottoyons maintenant nos datasets.

In [21]:
def cleaning_english_app(dataset, name_index):
    data_clean_final = []
    for app in dataset:
        name = app[name_index]
        if search_ascii_char(name):
            data_clean_final.append(app)
    return data_clean_final

In [22]:
# Google Store dataset
android_clean_final_data = cleaning_english_app(android_clean, 0)
len(android_clean_final_data)

9614

In [23]:
# Apple Store dataset
apple_clean_final_data = cleaning_english_app(app_ios[1:], 1)
len(apple_clean_final_data)

6183

* **Suppression des applications non gratuites**

Comme signifié au debut de ce projet, nous concevons que des applications gratuites à télécharger et installer. Et donc, pour que nos analyses soient plus excellentes et nous aident à prendre de bonnes décisions, nous nous devons de concentrer notre analyse sur, spécifiquement, les applications gratuites.

In [24]:
def cleaning_free_apps(dataset, price_index):
    data_clean_final = []
    for app in dataset:
        price = app[price_index]
        if price == "0" or price == "0.0":
            data_clean_final.append(app)
    return data_clean_final

In [25]:
Apple_apps = cleaning_free_apps(apple_clean_final_data, 4)
len(Apple_apps)

3222

In [26]:
android_apps = cleaning_free_apps(android_clean_final_data, 7)
len(android_apps)

8864

### 3- Etape de l'analyse des données nettoyées

Comme mentionné au debut du projet, notre objectif est de déterminer les types d’applications susceptibles d’attirer plus d’utilisateurs, car le nombre de personnes utilisant nos applications affecte nos revenus.

Pour minimiser les risques et les frais généraux, notre stratégie de validation d’une idée d’application comporte trois étapes :
1. Créez une version Android minimale de l’application et ajoutez-la à Google Play.
2. Si l’application a une bonne réponse des utilisateurs, nous la développons davantage.
3. Si l’application est rentable après six mois, nous construisons une version iOS de l’application et l’ajoutons à l’App Store.

Étant donné que notre objectif final est d’ajouter l’application à la fois sur Google Play et sur l’App Store, nous devons trouver des profils d’applications qui réussissent sur les deux marchés.

Nous Commençons l’analyse en déterminant les genres les plus courants pour chaque marché. Pour cela, nous devrons créer des tables de fréquence pour quelques colonnes de nos jeux de données.

#### Applications les plus courantes par genre

* Commençons l'analyse en ayant une idée des genres les plus courants pour chaque marché. Pour cela, nous allons créer un tableau de fréquence pour la colonne `prime_genre` de l'ensemble de données App Store et les colonnes `Genres` et `Category` de l'ensemble de données Google Play.

Nous allons construire deux fonctions que nous pouvons utiliser pour analyser les tables de fréquences :

* Une fonction pour générer des tableaux de fréquence qui montrent des pourcentages
* Une autre fonction que nous pouvons utiliser pour afficher les pourcentages dans un ordre décroissant

In [27]:
def freq_table(dataset, index):
    table = {}
    total = 0
    
    for app in dataset:
        total += 1
        genre = app[index]
        if genre in table:
            table[genre] += 1
        else:
            table[genre] = 1
    
    table_pourcentages = {}
    for key in table:
        pourcentage = (table[key]/total) * 100
        table_pourcentages[key] = pourcentage
    
    return table_pourcentages

def display_table(dataset, index):
    table = freq_table(dataset, index)
    table_display = []
    for key in table:
        key_val_tuple = (table[key], key)
        table_display.append(key_val_tuple)
    
    table_sorted = sorted(table_display, reverse = True)
    for elt in table_sorted:
        print(elt[1], ':', elt[0])

Nous commençons par examiner le tableau de fréquence pour la colonne Prime_genre de l'ensemble de données App Store.

In [28]:
display_table(Apple_apps, -5)

Games : 58.16263190564867
Entertainment : 7.883302296710118
Photo & Video : 4.9658597144630665
Education : 3.662321539416512
Social Networking : 3.2898820608317814
Shopping : 2.60707635009311
Utilities : 2.5139664804469275
Sports : 2.1415270018621975
Music : 2.0484171322160147
Health & Fitness : 2.0173805090006205
Productivity : 1.7380509000620732
Lifestyle : 1.5828677839851024
News : 1.3345747982619491
Travel : 1.2414649286157666
Finance : 1.1173184357541899
Weather : 0.8690254500310366
Food & Drink : 0.8069522036002483
Reference : 0.5586592178770949
Business : 0.5276225946617008
Book : 0.4345127250155183
Navigation : 0.186219739292365
Medical : 0.186219739292365
Catalogs : 0.12414649286157665


On peut voir que parmi les applications anglaises gratuites, plus de la moitié (58,16%) sont des jeux. Les applications de divertissement représentent près de 8 %, suivies des applications photo et vidéo, qui représentent près de 5 %. Seulement 3,66 % des applications sont conçues pour l'éducation, suivies des applications de réseaux sociaux qui représentent 3,29 % des applications de notre ensemble de données.

L'impression générale est que l'App Store (du moins la partie contenant des applications anglaises gratuites) est dominé par des applications conçues pour le plaisir (jeux, divertissement, photo et vidéo, réseaux sociaux, sports, musique, etc.), tandis que les applications avec des fonctionnalités pratiques fins (éducation, achats, services publics, productivité, style de vie, etc.) sont plus rares. Cependant, le fait que les applications amusantes soient les plus nombreuses n'implique pas également qu'elles aient aussi le plus grand nombre d'utilisateurs — la demande peut ne pas être la même que l'offre.

Continuons en examinant les colonnes `Genres` et `Category` de l'ensemble de données Google Play (deux colonnes qui semblent liées).

In [29]:
display_table(android_apps, 1)

FAMILY : 18.907942238267147
GAME : 9.724729241877256
TOOLS : 8.461191335740072
BUSINESS : 4.591606498194946
LIFESTYLE : 3.9034296028880866
PRODUCTIVITY : 3.892148014440433
FINANCE : 3.7003610108303246
MEDICAL : 3.531137184115524
SPORTS : 3.395758122743682
PERSONALIZATION : 3.3167870036101084
COMMUNICATION : 3.2378158844765346
HEALTH_AND_FITNESS : 3.0798736462093865
PHOTOGRAPHY : 2.944494584837545
NEWS_AND_MAGAZINES : 2.7978339350180503
SOCIAL : 2.6624548736462095
TRAVEL_AND_LOCAL : 2.33528880866426
SHOPPING : 2.2450361010830324
BOOKS_AND_REFERENCE : 2.1435018050541514
DATING : 1.861462093862816
VIDEO_PLAYERS : 1.7937725631768955
MAPS_AND_NAVIGATION : 1.3989169675090252
FOOD_AND_DRINK : 1.2409747292418771
EDUCATION : 1.1620036101083033
ENTERTAINMENT : 0.9589350180505415
LIBRARIES_AND_DEMO : 0.9363718411552346
AUTO_AND_VEHICLES : 0.9250902527075812
HOUSE_AND_HOME : 0.8235559566787004
WEATHER : 0.8009927797833934
EVENTS : 0.7107400722021661
PARENTING : 0.6543321299638989
ART_AND_DESIGN : 

Le paysage semble sensiblement différent sur Google Play : il n'y a pas beaucoup d'applications conçues pour le plaisir, et il semble que bon nombre d'applications soient conçues à des fins pratiques (famille, outils, entreprise, style de vie, productivité, etc.). Cependant, si nous approfondissons cette question, nous pouvons voir que la catégorie familiale (qui représente près de 19 % des applications) signifie principalement des jeux pour enfants.

  Même ainsi, les applications pratiques semblent avoir une meilleure représentation sur Google Play par rapport à l'App Store. Cette image est également confirmée par le tableau des fréquences que nous voyons pour la colonne Genres:

In [30]:
display_table(android_apps, -4)

Tools : 8.449909747292418
Entertainment : 6.069494584837545
Education : 5.347472924187725
Business : 4.591606498194946
Productivity : 3.892148014440433
Lifestyle : 3.892148014440433
Finance : 3.7003610108303246
Medical : 3.531137184115524
Sports : 3.463447653429603
Personalization : 3.3167870036101084
Communication : 3.2378158844765346
Action : 3.1024368231046933
Health & Fitness : 3.0798736462093865
Photography : 2.944494584837545
News & Magazines : 2.7978339350180503
Social : 2.6624548736462095
Travel & Local : 2.3240072202166067
Shopping : 2.2450361010830324
Books & Reference : 2.1435018050541514
Simulation : 2.0419675090252705
Dating : 1.861462093862816
Arcade : 1.8501805054151623
Video Players & Editors : 1.7712093862815883
Casual : 1.7599277978339352
Maps & Navigation : 1.3989169675090252
Food & Drink : 1.2409747292418771
Puzzle : 1.128158844765343
Racing : 0.9927797833935018
Role Playing : 0.9363718411552346
Libraries & Demo : 0.9363718411552346
Auto & Vehicles : 0.9250902527075

La différence entre les colonnes Genres et Catégorie n'est pas claire comme du cristal, mais une chose que nous pouvons remarquer est que la colonne Genres est beaucoup plus granulaire (elle a plus de catégories). Nous recherchons uniquement une vue d'ensemble pour le moment, nous ne travaillerons donc qu'avec la colonne Catégorie à l'avenir.

Jusqu'à présent, nous avons constaté que l'App Store est dominé par des applications conçues pour le plaisir, tandis que Google Play présente un paysage plus équilibré d'applications pratiques et amusantes. Nous aimerions maintenant avoir une idée du type d'applications qui ont le plus d'utilisateurs.

### _Applications les plus populaires par genre sur l'App Store_

Une façon de savoir quels genres sont les plus populaires (qui comptent le plus d'utilisateurs) consiste à calculer le nombre moyen d'installations pour chaque genre d'application. Pour l'ensemble de données Google Play, nous pouvons trouver ces informations dans la colonne Installations, mais pour l'ensemble de données App Store, ces informations sont manquantes. Comme solution de contournement, nous prendrons le nombre total d'évaluations d'utilisateurs, que nous pouvons trouver dans l'application rating_count_tot.

Ci-dessous, nous calculons le nombre moyen de notes d'utilisateurs par genre d'application sur l'App Store :

In [31]:
uniques_genre_apps_store = freq_table(Apple_apps, -5)
avg_rating_by_genre_apps_store = []
for genre in uniques_genre_apps_store:
    total = 0
    len_genre = 0
    for app in Apple_apps:
            genre_apps = app[-5]
            if genre_apps == genre:
                n_rating = float(app[5])
                total += n_rating
                len_genre += 1
    avg_n_ratings = total/len_genre
#     key_val_tuple = (avg_n_ratings, genre)
    avg_rating_by_genre_apps_store.append((avg_n_ratings, genre))
    
avg_ratings_apps_store_sort = [(app[1], app[0]) for app in sorted(avg_rating_by_genre_apps_store, reverse=True)]

In [32]:
avg_ratings_apps_store_sort

[('Navigation', 86090.33333333333),
 ('Reference', 74942.11111111111),
 ('Social Networking', 71548.34905660378),
 ('Music', 57326.530303030304),
 ('Weather', 52279.892857142855),
 ('Book', 39758.5),
 ('Food & Drink', 33333.92307692308),
 ('Finance', 31467.944444444445),
 ('Photo & Video', 28441.54375),
 ('Travel', 28243.8),
 ('Shopping', 26919.690476190477),
 ('Health & Fitness', 23298.015384615384),
 ('Sports', 23008.898550724636),
 ('Games', 22788.6696905016),
 ('News', 21248.023255813954),
 ('Productivity', 21028.410714285714),
 ('Utilities', 18684.456790123455),
 ('Lifestyle', 16485.764705882353),
 ('Entertainment', 14029.830708661417),
 ('Business', 7491.117647058823),
 ('Education', 7003.983050847458),
 ('Catalogs', 4004.0),
 ('Medical', 612.0)]

De cette analyse, nous pouvons constater que les applications de types **Navigation** sont les plus utilisées sur le marché de l'Apple Store.

Toutefois, nous pouvons creuser un peu plus en essayant de voir quelle est la tendance dans ce genre.

In [34]:
# Parcourons le genre "Navigation" pour en apprendre plus.
for app in Apple_apps:
    if app[-5] == "Navigation":
        print(app[1], " : ", app[5])

Waze - GPS Navigation, Maps & Real-time Traffic  :  345046
Google Maps - Navigation & Transit  :  154911
Geocaching®  :  12811
CoPilot GPS – Car Navigation & Offline Maps  :  3582
ImmobilienScout24: Real Estate Search in Germany  :  187
Railway Route Search  :  5


Nous constatons que ce genre, bien qu'il semble le meilleur, il est dominé par deux (02) applications majeur; ce qui fausse un peu notre estimation.

Essayons de creuser alors le **Top 3**

In [36]:
# Parcourons le genre "Reference" pour en apprendre plus.
for app in Apple_apps:
    if app[-5] == "Reference":
        print(app[1], " : ", app[5])

Bible  :  985920
Dictionary.com Dictionary & Thesaurus  :  200047
Dictionary.com Dictionary & Thesaurus for iPad  :  54175
Google Translate  :  26786
Muslim Pro: Ramadan 2017 Prayer Times, Azan, Quran  :  18418
New Furniture Mods - Pocket Wiki & Game Tools for Minecraft PC Edition  :  17588
Merriam-Webster Dictionary  :  16849
Night Sky  :  12122
City Maps for Minecraft PE - The Best Maps for Minecraft Pocket Edition (MCPE)  :  8535
LUCKY BLOCK MOD ™ for Minecraft PC Edition - The Best Pocket Wiki & Mods Installer Tools  :  4693
GUNS MODS for Minecraft PC Edition - Mods Tools  :  1497
Guides for Pokémon GO - Pokemon GO News and Cheats  :  826
WWDC  :  762
Horror Maps for Minecraft PE - Download The Scariest Maps for Minecraft Pocket Edition (MCPE) Free  :  718
VPN Express  :  14
Real Bike Traffic Rider Virtual Reality Glasses  :  8
教えて!goo  :  0
Jishokun-Japanese English Dictionary & Translator  :  0


In [37]:
# Parcourons le genre "Reseaux sociaux" pour en apprendre plus.
for app in Apple_apps:
    if app[-5] == "Social Networking":
        print(app[1], " : ", app[5])

Facebook  :  2974676
Pinterest  :  1061624
Skype for iPhone  :  373519
Messenger  :  351466
Tumblr  :  334293
WhatsApp Messenger  :  287589
Kik  :  260965
ooVoo – Free Video Call, Text and Voice  :  177501
TextNow - Unlimited Text + Calls  :  164963
Viber Messenger – Text & Call  :  164249
Followers - Social Analytics For Instagram  :  112778
MeetMe - Chat and Meet New People  :  97072
We Heart It - Fashion, wallpapers, quotes, tattoos  :  90414
InsTrack for Instagram - Analytics Plus More  :  85535
Tango - Free Video Call, Voice and Chat  :  75412
LinkedIn  :  71856
Match™ - #1 Dating App.  :  60659
Skype for iPad  :  60163
POF - Best Dating App for Conversations  :  52642
Timehop  :  49510
Find My Family, Friends & iPhone - Life360 Locator  :  43877
Whisper - Share, Express, Meet  :  39819
Hangouts  :  36404
LINE PLAY - Your Avatar World  :  34677
WeChat  :  34584
Badoo - Meet New People, Chat, Socialize.  :  34428
Followers + for Instagram - Follower Analytics  :  28633
GroupMe  :  

Le constat est fort; chacun des genres du top 3 est dominné par deux ou trois applications qui faussent la moyenne. 

De plus, à voir de plus près : 
- le marché de applications de type "Social Networking" semble saturé 
- celui de type "Navigation" semble promettre mais est déja dominé par deux géants et s'y aventurer serai peine perdu.

La solution, pour le marché de Apples Apps, serait de s'intéressé au genre "Reference" et plus précisement les livres.

Nous proposons donc à l'équipe de developpeurs de créer une application qui donne accès un livre populaire et y ajouter des fonctionalités qui attirerait les adeptes d'autres types de contenue comme :
* Dictionnaire : possibilité de pouvoir, sans quitter l'app, trouver la definition des mots difficiles
* Chat : possibilité de discuter sur une thématique autour du livre en question
* Multilingue
* Etc .

### _Applications les plus populaires par genre sur Google Play_

Dans notre Dataset des application sur Google PlayStore, nous avons une colone "Installs" qui nous donne le notre d'installations de chaque application. Nous allons donc l'utiliser pour avoir une image claire de la popularité du genre.

In [38]:
display_table(android_apps, 5)

1,000,000+ : 15.726534296028879
100,000+ : 11.552346570397113
10,000,000+ : 10.548285198555957
10,000+ : 10.198555956678701
1,000+ : 8.393501805054152
100+ : 6.915613718411552
5,000,000+ : 6.825361010830325
500,000+ : 5.561823104693141
50,000+ : 4.7721119133574
5,000+ : 4.512635379061372
10+ : 3.5424187725631766
500+ : 3.2490974729241873
50,000,000+ : 2.3014440433213
100,000,000+ : 2.1322202166064983
50+ : 1.917870036101083
5+ : 0.78971119133574
1+ : 0.5076714801444043
500,000,000+ : 0.2707581227436823
1,000,000,000+ : 0.22563176895306858
0+ : 0.04512635379061372
0 : 0.01128158844765343


In [51]:
# Les catégories uniques d'application
android_categories = freq_table(android_apps, 1)
android_categories = [category for category in android_categories]
print(f"Nous avons {len(android_categories)} catégories d'application")
android_categories

Nous avons 33 catégories d'application


['ART_AND_DESIGN',
 'AUTO_AND_VEHICLES',
 'BEAUTY',
 'BOOKS_AND_REFERENCE',
 'BUSINESS',
 'COMICS',
 'COMMUNICATION',
 'DATING',
 'EDUCATION',
 'ENTERTAINMENT',
 'EVENTS',
 'FINANCE',
 'FOOD_AND_DRINK',
 'HEALTH_AND_FITNESS',
 'HOUSE_AND_HOME',
 'LIBRARIES_AND_DEMO',
 'LIFESTYLE',
 'GAME',
 'FAMILY',
 'MEDICAL',
 'SOCIAL',
 'SHOPPING',
 'PHOTOGRAPHY',
 'SPORTS',
 'TRAVEL_AND_LOCAL',
 'TOOLS',
 'PERSONALIZATION',
 'PRODUCTIVITY',
 'PARENTING',
 'WEATHER',
 'VIDEO_PLAYERS',
 'NEWS_AND_MAGAZINES',
 'MAPS_AND_NAVIGATION']

In [60]:
avg_n_installs = []
for category in android_categories:
    total = 0
    len_category = 0
    for app in android_apps:
            category_app = app[1]
            if category_app == category:
                n_installs = app[5]
                n_installs = n_installs.replace(",", "")
                n_installs = n_installs.replace("+", "")
                n_installs = float(n_installs)
                total += n_installs
                len_category += 1
    avg_n_install = total/len_category
    avg_n_installs.append((avg_n_install, category))
    
avg_n_installs = [(app[1], app[0]) for app in sorted(avg_n_installs, reverse=True)]

In [61]:
avg_n_installs

[('COMMUNICATION', 38456119.167247385),
 ('VIDEO_PLAYERS', 24727872.452830188),
 ('SOCIAL', 23253652.127118643),
 ('PHOTOGRAPHY', 17840110.40229885),
 ('PRODUCTIVITY', 16787331.344927534),
 ('GAME', 15588015.603248259),
 ('TRAVEL_AND_LOCAL', 13984077.710144928),
 ('ENTERTAINMENT', 11640705.88235294),
 ('TOOLS', 10801391.298666667),
 ('NEWS_AND_MAGAZINES', 9549178.467741935),
 ('BOOKS_AND_REFERENCE', 8767811.894736841),
 ('SHOPPING', 7036877.311557789),
 ('PERSONALIZATION', 5201482.6122448975),
 ('WEATHER', 5074486.197183099),
 ('HEALTH_AND_FITNESS', 4188821.9853479853),
 ('MAPS_AND_NAVIGATION', 4056941.7741935486),
 ('FAMILY', 3695641.8198090694),
 ('SPORTS', 3638640.1428571427),
 ('ART_AND_DESIGN', 1986335.0877192982),
 ('FOOD_AND_DRINK', 1924897.7363636363),
 ('EDUCATION', 1833495.145631068),
 ('BUSINESS', 1712290.1474201474),
 ('LIFESTYLE', 1437816.2687861272),
 ('FINANCE', 1387692.475609756),
 ('HOUSE_AND_HOME', 1331540.5616438356),
 ('DATING', 854028.8303030303),
 ('COMICS', 81765

Nous pouvons, sans suprise, constater que les applications de type "Communication" sont les plus télécharger. Mais, étant donnée que ce profil d'applis est constitué de plusieurs applis, essayons d'en apprendre plus en examiner ce profil.

In [63]:
# Parcourons le profil "Communication" pour en apprendre plus.
for app in android_apps:
    if app[1] == "COMMUNICATION":
        print(app[0], " : ", app[5])

WhatsApp Messenger  :  1,000,000,000+
Messenger for SMS  :  10,000,000+
My Tele2  :  5,000,000+
imo beta free calls and text  :  100,000,000+
Contacts  :  50,000,000+
Call Free – Free Call  :  5,000,000+
Web Browser & Explorer  :  5,000,000+
Browser 4G  :  10,000,000+
MegaFon Dashboard  :  10,000,000+
ZenUI Dialer & Contacts  :  10,000,000+
Cricket Visual Voicemail  :  10,000,000+
TracFone My Account  :  1,000,000+
Xperia Link™  :  10,000,000+
TouchPal Keyboard - Fun Emoji & Android Keyboard  :  10,000,000+
Skype Lite - Free Video Call & Chat  :  5,000,000+
My magenta  :  1,000,000+
Android Messages  :  100,000,000+
Google Duo - High Quality Video Calls  :  500,000,000+
Seznam.cz  :  1,000,000+
Antillean Gold Telegram (original version)  :  100,000+
AT&T Visual Voicemail  :  10,000,000+
GMX Mail  :  10,000,000+
Omlet Chat  :  10,000,000+
My Vodacom SA  :  5,000,000+
Microsoft Edge  :  5,000,000+
Messenger – Text and Video Chat for Free  :  1,000,000,000+
imo free video calls and chat  

Il y'a un trop grand nombre d'applis, essayer de consulter ce resultat serait un autre calvaire.

Mais un peu plus haut, nous avons pu remarquer que les applis avec 100.000.000 et plus te téléchargement ont un faible pourcentage, essayons de les isoler afin d'obtenir un resultat moins biaisé.

**Pour faciliter les choses, écrivons une fonction pour nettoyer le nombre de téléchargement.**

In [67]:
def replace_nb_install_app(nb_install):
    nb_install = nb_install.replace(",", "")
    nb_install = nb_install.replace("+", "")
    nb_install = float(nb_install)
    return nb_install

In [68]:
# isolons les applis de profil "Communication" ayant plus de 100.000.000 de telechargement.
for app in android_apps:
    n_installs = app[5]
    n_installs = replace_nb_install_app(n_installs)
    if app[1] == "COMMUNICATION" and n_installs >= 100000000:
        print(app[0], " : ", app[5])

WhatsApp Messenger  :  1,000,000,000+
imo beta free calls and text  :  100,000,000+
Android Messages  :  100,000,000+
Google Duo - High Quality Video Calls  :  500,000,000+
Messenger – Text and Video Chat for Free  :  1,000,000,000+
imo free video calls and chat  :  500,000,000+
Skype - free IM & video calls  :  1,000,000,000+
Who  :  100,000,000+
GO SMS Pro - Messenger, Free Themes, Emoji  :  100,000,000+
LINE: Free Calls & Messages  :  500,000,000+
Google Chrome: Fast & Secure  :  1,000,000,000+
Firefox Browser fast & private  :  100,000,000+
UC Browser - Fast Download Private & Secure  :  500,000,000+
Gmail  :  1,000,000,000+
Hangouts  :  1,000,000,000+
Messenger Lite: Free Calls & Messages  :  100,000,000+
Kik  :  100,000,000+
KakaoTalk: Free Calls & Text  :  100,000,000+
Opera Mini - fast web browser  :  100,000,000+
Opera Browser: Fast and Secure  :  100,000,000+
Telegram  :  100,000,000+
Truecaller: Caller ID, SMS spam blocking & Dialer  :  100,000,000+
UC Browser Mini -Tiny Fas

Calculons maintenant la moyenne sans ces applis et sans celles dont le nombre de téléchargement est en dessous de 500.000.

In [76]:
avg_under_100_M = []
for category in android_categories:
    total = 0
    len_category = 0
    for app in android_apps:
            category_app = app[1]
            if category_app == category:
                n_installs = app[5]
                n_installs = replace_nb_install_app(n_installs)
                if n_installs >= 500000 and n_installs <= 100000000:
                    total += n_installs
                    len_category += 1
    avg_n_install = total/len_category
    avg_under_100_M.append((avg_n_install, category))
    
avg_under_100_M = [(app[1], app[0]) for app in sorted(avg_under_100_M, reverse=True)]

In [77]:
avg_under_100_M

[('PHOTOGRAPHY', 19967213.1147541),
 ('COMMUNICATION', 18500000.0),
 ('PRODUCTIVITY', 17983870.967741936),
 ('GAME', 17760647.359454855),
 ('VIDEO_PLAYERS', 16627906.976744186),
 ('TOOLS', 15605442.176870748),
 ('SOCIAL', 13623853.211009175),
 ('ENTERTAINMENT', 13358108.108108109),
 ('PERSONALIZATION', 12111111.111111112),
 ('SHOPPING', 11274193.548387097),
 ('BOOKS_AND_REFERENCE', 9750000.0),
 ('BUSINESS', 9000000.0),
 ('TRAVEL_AND_LOCAL', 8925000.0),
 ('MAPS_AND_NAVIGATION', 8798245.614035089),
 ('SPORTS', 8261363.636363637),
 ('FAMILY', 7825757.575757576),
 ('WEATHER', 7479166.666666667),
 ('ART_AND_DESIGN', 6937500.0),
 ('LIFESTYLE', 4920000.0),
 ('HEALTH_AND_FITNESS', 4604316.54676259),
 ('NEWS_AND_MAGAZINES', 4189655.172413793),
 ('FINANCE', 4128440.366972477),
 ('FOOD_AND_DRINK', 3741071.4285714286),
 ('DATING', 2705882.3529411764),
 ('LIBRARIES_AND_DEMO', 2684210.5263157897),
 ('EDUCATION', 2590277.777777778),
 ('HOUSE_AND_HOME', 2448717.9487179485),
 ('AUTO_AND_VEHICLES', 2195

En essayant cette manipulation, nous pouvons remarquer que, contrairement aux autres profils du top 10, le profil "BOOKS_AND_REFERENCE" maintient une position assez stable pour gagner notre confiance.

Essayons de connaitre la tendence au sein de ce profil d'applications.

In [81]:
for app in android_apps:
    n_installs = app[5]
    n_installs = replace_nb_install_app(n_installs)
    if app[1] == "BOOKS_AND_REFERENCE" and (n_installs >= 1000000 and n_installs <= 100000000):
        print(app[0], " : ", app[5])

Wikipedia  :  10,000,000+
Cool Reader  :  10,000,000+
Book store  :  1,000,000+
FBReader: Favorite Book Reader  :  10,000,000+
Free Books - Spirit Fanfiction and Stories  :  1,000,000+
AlReader -any text book reader  :  5,000,000+
FamilySearch Tree  :  1,000,000+
Cloud of Books  :  1,000,000+
ReadEra – free ebook reader  :  1,000,000+
Ebook Reader  :  5,000,000+
Read books online  :  5,000,000+
eBoox: book reader fb2 epub zip  :  1,000,000+
All Maths Formulas  :  1,000,000+
Ancestry  :  5,000,000+
HTC Help  :  10,000,000+
Moon+ Reader  :  10,000,000+
English-Myanmar Dictionary  :  1,000,000+
Golden Dictionary (EN-AR)  :  1,000,000+
All Language Translator Free  :  1,000,000+
Bible  :  100,000,000+
Amazon Kindle  :  100,000,000+
Aldiko Book Reader  :  10,000,000+
Wattpad 📖 Free Books  :  100,000,000+
Dictionary - WordWeb  :  5,000,000+
50000 Free eBooks & Free AudioBooks  :  5,000,000+
Al-Quran (Free)  :  10,000,000+
Al Quran Indonesia  :  10,000,000+
Al'Quran Bahasa Indonesia  :  10,00

Les livres occupent une grande partie de ce profil, ce qui nous pousse à dire que le utilisateurs sont plus branché sur la lecture. Mais vu toute cette panoplie de livres, proposer un livre avec des fonctionalités standards pourrait ne pas produire le resultat escompté.

### Conclusion

Dans ce projet, nous avons analysé des données sur les applications mobiles App Store et Google Play dans le but de recommander un profil d'application pouvant être rentable pour les deux marchés.

Nous proposons donc à l'équipe de developpeurs de créer une application qui donne accès un livre populaire et y ajouter des fonctionalités qui attirerait les adeptes d'autres profils de contenue comme :
* Dictionnaire : possibilité de pouvoir, sans quitter l'app, trouver la definition des mots difficiles
* Chat ou Forum : possibilité de discuter sur une thématique autour du livre en question
* Multilingue
* Version audio (pour élargir la champs d'utilisateurs cible)
* Etc .