## 2- Top 5 países produtores de conteúdos considerando todos os dados e comparando as duas plataformas

In [9]:
# importamos a biblioteca pandas
import pandas as pd

## Todos os dados

In [10]:
# carregamos dados do Netflix e Amazon
netflix = pd.read_csv('netflix_titles.csv')
amazon_prime = pd.read_csv('amazon_prime_titles.csv')
# concatenamos os dados
all_data = pd.concat([netflix, amazon_prime], ignore_index=True)
all_data.head(2)

Unnamed: 0,show_id,type,title,director,cast,country,date_added,release_year,rating,duration,listed_in,description
0,s1,Movie,Dick Johnson Is Dead,Kirsten Johnson,,United States,"September 25, 2021",2020,PG-13,90 min,Documentaries,"As her father nears the end of his life, filmm..."
1,s2,TV Show,Blood & Water,,"Ama Qamata, Khosi Ngema, Gail Mabalane, Thaban...",South Africa,"September 24, 2021",2021,TV-MA,2 Seasons,"International TV Shows, TV Dramas, TV Mysteries","After crossing paths at a party, a Cape Town t..."


In [11]:
# acessamos à coluna COUNTRY e filtramos os valores vazios (NAN)
cond = all_data['country'].notnull()
country = all_data['country'][cond]
# resetamos os indices
country.reset_index(inplace=True, drop=True)
country.head(4)

0                                        United States
1                                         South Africa
2                                                India
3    United States, Ghana, Burkina Faso, United Kin...
Name: country, dtype: object

In [12]:
# transformamos a coluna COUNTRY numa matriz (DataFrame) cujos valores são os paises
country_df = country.str.split(',', expand=True)
country_df.head(2)

Unnamed: 0,0,1,2,3,4,5,6,7,8,9,10,11
0,United States,,,,,,,,,,,
1,South Africa,,,,,,,,,,,


In [48]:
# OBJETIVO: criar uma única coluna contendo os nomes dos paises para fazer a contagem

# capturamos a primiera coluna
col = country_df[0]

# percorremos cada coluna da matriz
for i in range(1, 12):
    # concatenamos una vez só a primeira coluna com a segunda
    if i == 1:
        result = pd.concat([col, country_df[i]], ignore_index=True)
    # concatenamos a coluna resultante com as restantes e sobre-escrevemos nela mesma  
    else:
        result = pd.concat([result, country_df[i]], ignore_index=True)

# filtramos valores vazios (None)
cond = result.notnull()
result = result[cond]
# removemos espaços em branco
result = result.str.strip()
# listamos os 5 nomes de paises que mais se repetem
result = result.value_counts().head(5)
result

United States     4024
India             1292
United Kingdom     873
Canada             480
France             413
dtype: int64

## Dados do Netflix

In [24]:
# carregamos dados do Netflix
netflix = pd.read_csv('netflix_titles.csv')
# acessamos à coluna COUNTRY e filtramos valores nulos
netflix_country = netflix['country'][netflix['country'].notnull()]
# resetamos os indices
netflix_country.reset_index(inplace=True, drop=True)
netflix_country.head(4)

0                                        United States
1                                         South Africa
2                                                India
3    United States, Ghana, Burkina Faso, United Kin...
Name: country, dtype: object

In [22]:
# transformamos a coluna NETFLIX_COUNTRY numa matriz (DataFrame) cujos valores são os paises
country_netflix_df = netflix_country.str.split(',', expand=True)
country_netflix_df.head(2)

Unnamed: 0,0,1,2,3,4,5,6,7,8,9,10,11
0,United States,,,,,,,,,,,
1,South Africa,,,,,,,,,,,


In [42]:
# OBJETIVO: criar uma única coluna contendo os nomes dos paises para fazer a contagem

# capturamos a primiera coluna
col_net = country_netflix_df[0]

# percorremos cada coluna da matriz
for i in range(1, 12):
    # concatenamos una vez só a primeira coluna com a segunda
    if i == 1:
        result_net = pd.concat([col_net, country_netflix_df[i]], ignore_index=True)
    # concatenamos a coluna resultante com as restantes e sobre-escrevemos nela mesma  
    else:
        result_net = pd.concat([result_net, country_netflix_df[i]], ignore_index=True)

# filtramos valores vazios (None)
result_net = result_net[result_net.notnull()]
# removemos espaços em branco
result_net = result_net.str.strip()
# listamos os 5 nomes de paises que mais se repetem
result_net = result_net.value_counts().head(5)
result_net

United States     3690
India             1046
United Kingdom     806
Canada             445
France             393
dtype: int64

## Dados da Amazon

In [36]:
# carregamos dados do Amazon
amazon = pd.read_csv('amazon_prime_titles.csv')
# acessamos à coluna COUNTRY e filtramos valores nulos
amazon_country = amazon['country'][amazon['country'].notnull()]
# resetamos os indices
amazon_country.reset_index(inplace=True, drop=True)
amazon_country.head(3)

0           Canada
1            India
2    United States
Name: country, dtype: object

In [37]:
# transformamos a coluna AMAZON_COUNTRY numa matriz (DataFrame) cujos valores são os paises
amazon_country_df = amazon_country.str.split(',', expand=True)
amazon_country_df.head(2)

Unnamed: 0,0,1,2,3,4
0,Canada,,,,
1,India,,,,


In [45]:
# OBJETIVO: criar uma única coluna contendo os nomes dos paises para fazer a contagem

# capturamos a primiera coluna
col_ama = amazon_country_df[0]

# percorremos cada coluna da matriz
for i in range(1, 5):
    # concatenamos una vez só a primeira coluna com a segunda
    if i == 1:
        result_ama = pd.concat([col_ama, amazon_country_df[i]], ignore_index=True)
    # concatenamos a coluna resultante com as restantes e sobre-escrevemos nela mesma  
    else:
        result_ama = pd.concat([result_ama, amazon_country_df[i]], ignore_index=True)

# filtramos valores vazios (None)
result_ama = result_ama[result_ama.notnull()]
# removemos espaços em branco
result_ama = result_ama.str.strip()
# listamos os 5 nomes de paises que mais se repetem
result_ama = result_ama.value_counts().head(5)
result_ama

United States     334
India             246
United Kingdom     67
Canada             35
France             20
dtype: int64

## Comparando resultados do Total, Netflix e Amazon

In [49]:
# resultado do total
result

United States     4024
India             1292
United Kingdom     873
Canada             480
France             413
dtype: int64

In [43]:
# resultado do Netflix
result_net

United States     3690
India             1046
United Kingdom     806
Canada             445
France             393
dtype: int64

In [46]:
# resultado da Amazon
result_ama

United States     334
India             246
United Kingdom     67
Canada             35
France             20
dtype: int64

## Análise

### Pode-se observar que se mantém a hierarquia de paises em ambas plataformas. Por exemplo, em primeiro lugar tem-se US, em segundo India e assim por diante. Além disso, existe uma maior proporção de registros associados à plataforma Netflix. Para US tem-se no Netflix: (3690 / 4024) = 92 % e na Amazon: (334 / 4024) = 8 %.