# Lendo os dados e gravando em múltiplos formatos

Arquivo de dados:

https://drive.google.com/file/d/1U0e-ssOerAZwEL9-6wBduj

In [23]:
import csv, io, json, requests, sqlite3
import pandas as pd

# O arquivo foi baixado para ../data/bkp/AppleStore.csv
df = pd.read_csv('../data/bkp/AppleStore.csv', index_col=0)

# Execução 1: tag "news" com maior quantidade de avaliações

Identifique a Aplicação da categoria News, que tiver a maior quantidade de avaliações rating_count_tot.

In [32]:
df_news = df[df['prime_genre'] == 'News'].filter(['track_name', 'rating_count_tot'])

# Verificando se pode haver mais de 1 ocorrência de track_name (versões diferentes)
df_news.groupby('track_name').count().sort_values(by='rating_count_tot', ascending=False)

Unnamed: 0_level_0,rating_count_tot
track_name,Unnamed: 1_level_1
20 Minutes.fr - l'actualité en continu,1
franceinfo - l'actualité & les élections en direct,1
WSVN Hurricane Tracker,1
WIRED Magazine,1
ViRATES[バイレーツ]-面白ネタまとめの決定版！,1
Verbrechen - echte Polizeifälle aus Deiner Umgebung,1
USA TODAY,1
US Presidential Election 2016 - Polls,1
Twitter,1
"TopBuzz: Best Viral Videos, GIFs, TV & News",1


In [42]:
# Obtendo a aplicação com maior número de ratings em sua história
df_news.sort_values(by='rating_count_tot', ascending=False).head(1)

Unnamed: 0,track_name,rating_count_tot
251,Twitter,354058


## Resultado: Twitter, com 354058 avaliações

# Execução 2: 10 mais avaliados entre as tags "music" e "book"

Identificar quais são as 10 Aplicações do gênero Music e Book que possuem a maior quantidade de avaliações no arquivo csv apple_store.

In [46]:
df_music_book = df[df['prime_genre'].isin(['Music', 'Book'])]

df_topten = df_music_book.sort_values(by='rating_count_tot', ascending=False).head(10)
df_topten

Unnamed: 0,id,track_name,size_bytes,currency,price,rating_count_tot,rating_count_ver,user_rating,user_rating_ver,ver,cont_rating,prime_genre,sup_devices.num,ipadSc_urls.num,lang.num,vpp_lic
8,284035177,Pandora - Music & Radio,130242560,USD,0.0,1126879,3594,4.0,4.5,8.4.1,12+,Music,37,4,1,1
202,324684580,Spotify Music,132510720,USD,0.0,878563,8253,4.5,4.5,8.4.3,12+,Music,37,5,18,1
20,284993459,"Shazam - Discover music, artists, videos & lyrics",147093504,USD,0.0,402925,136,4.0,4.5,11.0.3,12+,Music,37,3,16,1
40,290638154,iHeartRadio – Free Music & Radio Stations,116443136,USD,0.0,293228,110,4.0,3.0,8.0.0,12+,Music,37,5,2,1
93,302584613,"Kindle – Read eBooks, Magazines & Textbooks",169747456,USD,0.0,252076,80,3.5,4.5,5.11,4+,Book,37,5,9,1
270,336353151,SoundCloud - Music & Audio,105009152,USD,0.0,135744,594,4.0,4.5,5.6.0,4+,Music,37,4,7,1
816,421254504,Magic Piano by Smule,55030784,USD,0.0,131695,1102,4.5,4.0,8.3.1,4+,Music,37,5,12,1
1431,509993510,Smule Sing!,109940736,USD,0.0,119316,33,4.5,4.0,5.2.3,9+,Music,37,5,12,1
803,418987775,TuneIn Radio - MLB NBA Audiobooks Podcasts Music,101735424,USD,0.0,110420,370,4.5,4.5,11.9,12+,Music,37,4,14,1
1438,510855668,Amazon Music,77778944,USD,0.0,106235,4605,4.5,5.0,6.5.0,4+,Music,37,5,6,1


# Execução 3: 10 mais citados entre as tags "music" e "book"

Após encontrar a aplicação do tipo News utilize a sua API, para identificar quais das 10 aplicações do tipo Music e Book, possuem o maior número de citações nessa API.

Consultar o número de citações de cada track do item anterior na API aplicação mais avaliada (twitter).

Não há indicativo de usuário no dataframe original. Uma alternativa seria buscar por parte do nome em # ou @ em um conjunto de tweets. No entanto, isso provocaria um efeito colateral, com aumento no número real em casos como Shazam (que adicionaria as menções e citações ao herói).

Em função disso, busquei manualmente os usuários no contexto dos aplicativos e então fiz uma busca pelas citações (@usuario), adicionando os resultados ao dataframe.

In [48]:
dict_users = {
    "id": [284035177, 324684580, 284993459, 290638154, 302584613, 336353151, 421254504, 509993510, 418987775, 510855668],
    "twitter_user": ["pandoramusic", "Spotify", "Shazam", "iHeartRadio", "AmazonKindle", "SoundCloud", "MagicPianoApp", "smule", "tunein", "amazonmusic"] 
}
df_mention = pd.DataFrame.from_dict(dict_users)

# Pesquisa pelos mentions na API do Twitter: n_citacoes

# Faz o merge com o top10
df_topten = df_topten.merge(df_mention)
df_topten

Unnamed: 0,id,twitter_user
0,284035177,pandoramusic
1,324684580,Spotify
2,284993459,Shazam
3,290638154,iHeartRadio
4,302584613,AmazonKindle
5,336353151,SoundCloud
6,421254504,MagicPianoApp
7,509993510,smule
8,418987775,tunein
9,510855668,amazonmusic


In [27]:
df

Unnamed: 0,id,track_name,size_bytes,currency,price,rating_count_tot,rating_count_ver,user_rating,user_rating_ver,ver,cont_rating,prime_genre,sup_devices.num,ipadSc_urls.num,lang.num,vpp_lic
1,281656475,PAC-MAN Premium,100788224,USD,3.99,21292,26,4.0,4.5,6.3.5,4+,Games,38,5,10,1
2,281796108,Evernote - stay organized,158578688,USD,0.00,161065,26,4.0,3.5,8.2.2,4+,Productivity,37,5,23,1
3,281940292,"WeatherBug - Local Weather, Radar, Maps, Alerts",100524032,USD,0.00,188583,2822,3.5,4.5,5.0.0,4+,Weather,37,5,3,1
4,282614216,"eBay: Best App to Buy, Sell, Save! Online Shop...",128512000,USD,0.00,262241,649,4.0,4.5,5.10.0,12+,Shopping,37,5,9,1
5,282935706,Bible,92774400,USD,0.00,985920,5320,4.5,5.0,7.5.1,4+,Reference,37,5,45,1
6,283619399,Shanghai Mahjong,10485713,USD,0.99,8253,5516,4.0,4.0,1.8,4+,Games,47,5,1,1
7,283646709,PayPal - Send and request money safely,227795968,USD,0.00,119487,879,4.0,4.5,6.12.0,4+,Finance,37,0,19,1
8,284035177,Pandora - Music & Radio,130242560,USD,0.00,1126879,3594,4.0,4.5,8.4.1,12+,Music,37,4,1,1
9,284666222,PCalc - The Best Calculator,49250304,USD,9.99,1117,4,4.5,5.0,3.6.6,4+,Utilities,37,5,1,1
10,284736660,Ms. PAC-MAN,70023168,USD,3.99,7885,40,4.0,4.0,4.0.4,4+,Games,38,0,10,1


# Entregável: Gravando em múltiplos formatos

O output esperado é a criação de um CSV, um JSON e uma base de dados local com as respectivas colunas: id, track_name, n_citacoes, size_bytes, price, prime_genre. Os dados relativos às Aplicações estão disponíveis no arquivo abaixo.


In [None]:
# Filtro do dataframe para gravar em diversos formatos com um número limitado de colunas
df_table = df.filter(['id', 'track_name', 'n_citacoes', 'size_bytes', 'price', 'prime_genre'])
df_table.set_index('id')

# [ENTREGÁVEL] Criação de uma tabela no SQLite em memória
conn = sqlite3.connect(":memory:")
df_table.to_sql('summary_store', conn, if_exists='replace', index=False)
# pd.read_sql('select * from summary_store', conn)
conn.commit()
conn.close()

# [ENTREGÁVEL] Criação de uma tabela no SQLite em arquivo
conn = sqlite3.connect("../data/db.sqlite")
df_table.to_sql('summary_store', conn, if_exists='replace', index=False)
# pd.read_sql('select * from summary_store', conn)
conn.commit()
conn.close()

# [ENTREGÁVEL] Gravando o dataframe em CSV
df_table.to_csv("../data/summary_store.csv", quoting=csv.QUOTE_NONNUMERIC)

# [ENTREGÁVEL] Gravando o dataframe em JSON
df_table.to_json('../data/summary_store.json', orient="records")