In [1]:
#bibliotecas e configurações
import pandas as pd
import numpy as np
pd.set_option('max_columns', None)

In [2]:
#leitura do arquivo
movies = pd.read_csv('IMDb_movies.csv')

#eliminando as colunas que não serão usadas nas análises
movies = movies[['imdb_title_id', 'title', 'genre', 'duration', 'country', 'director','actors','avg_vote','votes']]

#trocando o index do dataframe movies
movies = movies.set_index('imdb_title_id')

#reduzindo o dataframe apenas para filmes que tenham mais de 1000 votos para considerar apenas filmes arbitrariamente relevantes
movies = movies[movies['votes'] > 1000]

#tratando nulos
movies['country'] = movies['country'].fillna("")

In [3]:
#leitura do arquivo
names = pd.read_csv('IMDb_names.csv')

#eliminando as colunas que não serão usadas nas análises
names = names[['name', 'death_year', 'place_of_birth']]

In [4]:
#leitura do arquivo
ratings = pd.read_csv('IMDb_ratings.csv')

#eliminando as colunas que não serão usadas nas análises
ratings = ratings[['imdb_title_id','weighted_average_vote','total_votes','votes_10','votes_1', 'allgenders_0age_avg_vote', 'allgenders_18age_avg_vote', 'allgenders_30age_avg_vote', 'allgenders_45age_avg_vote', 'males_allages_avg_vote', 'males_0age_avg_vote', 'males_18age_avg_vote', 'males_30age_avg_vote', 'males_45age_avg_vote', 'females_allages_avg_vote', 'females_0age_avg_vote', 'females_18age_avg_vote', 'females_30age_avg_vote', 'females_45age_avg_vote', 'us_voters_rating', 'non_us_voters_rating']]

#trocando o index do dataframe ratings
ratings = ratings.set_index('imdb_title_id')

#reduzindo o dataframe apenas para filmes que tenham mais de 1000 votos para considerar apenas filmes arbitrariamente relevantes
ratings = ratings[ratings['total_votes'] > 1000]

In [45]:
#cliando a tabela completa com informações dos filmes e dos votos
complete_table = movies.join(ratings, how = 'inner')

In [6]:
#lista de generos de filmes
generos = movies.genre.unique()

lista_generos = list()
for genero in generos:
    nome_genero = genero.split(', ')
    for nome in nome_genero:
        if nome not in lista_generos:
            lista_generos.append(nome)

In [19]:
#lista de paises de filmes
paises = movies.country.unique()
paises = np.delete(paises, np.where(paises == ""))

lista_paises = list()

for pais in paises:
    nome_pais = pais.split(', ')
    for nome in nome_pais:
        if nome not in lista_paises:
            lista_paises.append(nome)

In [24]:
#paises com mais filmes com nota baixa
movies_analise1 = movies.sort_values('avg_vote')
movies_analise1 = movies_analise1[movies_analise1.avg_vote <= 3.0]

paises_quantidade = list()
for pais in lista_paises:
    paises_quantidade.append(movies_analise1[movies_analise1.country.str.contains(pais)].count()[0])
    
df_pais_quantidade = pd.DataFrame(list(zip(paises_quantidade, lista_paises)), columns = ['contagem', 'pais'])
df_pais_quantidade = df_pais_quantidade.sort_values('contagem', ascending = False) 

print(df_pais_quantidade.head(10))

    contagem     pais
3        227      USA
44        31   Turkey
17        27    India
2         25  Germany
21        24   Canada
0         20    Italy
8         20       UK
1          9   France
79         6   Russia
15         5   Mexico


In [27]:
#paises com mais filmes com nota alta
movies_analise1 = movies.sort_values('avg_vote')
movies_analise1 = movies_analise1[movies_analise1.avg_vote >= 8.0]

paises_quantidade = list()
for pais in lista_paises:
    paises_quantidade.append(movies_analise1[movies_analise1.country.str.contains(pais)].count()[0])
    
df_pais_quantidade = pd.DataFrame(list(zip(paises_quantidade, lista_paises)), columns = ['contagem', 'pais'])
df_pais_quantidade = df_pais_quantidade.sort_values('contagem', ascending = False) 

print(df_pais_quantidade.head(10))

    contagem          pais
17       371         India
3        328           USA
1        100        France
8         87            UK
9         82         Japan
0         62         Italy
2         58       Germany
44        58        Turkey
7         51  Soviet Union
29        30    Yugoslavia


In [71]:
#filmes de cada genero

movies_analise2 = movies.sort_values('avg_vote')

generos_quantidade = list()
for genero in lista_generos:
    generos_quantidade.append(movies_analise2[movies_analise2.genre.str.contains(genero)].count()[0])
    
df_genero_quantidade = pd.DataFrame(list(zip(generos_quantidade, lista_generos)), columns = ['contagem_total', 'genero_total'])
df_genero_quantidade = df_genero_quantidade.sort_values('contagem_total', ascending = False) 

print(df_genero_quantidade.head(10))

    contagem_total genero_total
1            16040        Drama
6            10289       Comedy
10            5347       Action
8             5331      Romance
3             4679        Crime
15            4384     Thriller
4             3709       Horror
0             3271    Adventure
13            2149      Mystery
2             1656      Fantasy


In [76]:
#generos de filmes preferidos em geral

movies_analise2 = movies.sort_values('avg_vote')
movies_analise2 = movies_analise2[movies_analise2.avg_vote >= 8.0]

generos_quantidade = list()
for genero in lista_generos:
    generos_quantidade.append(movies_analise2[movies_analise2.genre.str.contains(genero)].count()[0])
    
df_genero_quantidade_melhores = pd.DataFrame(list(zip(generos_quantidade, lista_generos)), columns = ['contagem', 'genero'])
df_genero_quantidade_melhores = df_genero_quantidade_melhores.sort_values('contagem', ascending = False) 

#df_genero_quantidade_melhores = df_genero_quantidade_melhores.head(10)
print(df_genero_quantidade_melhores)

#mesma análise, mas proporcional à quantidade de filmes produzidos por cada gênero

df_genero_quantidade_melhores = df_genero_quantidade_melhores.join(df_genero_quantidade, how = "inner")
df_genero_quantidade_melhores['proporcional'] = df_genero_quantidade_melhores.contagem / df_genero_quantidade.contagem_total
df_genero_quantidade_melhores.sort_values('proporcional', ascending = False)

    contagem     genero
1        968      Drama
6        352     Comedy
3        204      Crime
8        204    Romance
10       188     Action
15       149   Thriller
0        125  Adventure
13        84    Mystery
7         81        War
9         81  Biography
19        70      Music
5         68    History
12        68     Family
17        61  Animation
2         54    Fantasy
18        46    Musical
11        41     Sci-Fi
4         26     Horror
16        18      Sport
20        18  Film-Noir
14        14    Western
21         0      Adult
22         0  Game-Show


Unnamed: 0,contagem,genero,contagem_total,genero_total,proporcional
7,81,War,802,War,0.100998
18,46,Musical,582,Musical,0.079038
5,68,History,978,History,0.06953
17,61,Animation,949,Animation,0.064278
9,81,Biography,1316,Biography,0.06155
20,18,Film-Noir,296,Film-Noir,0.060811
1,968,Drama,16040,Drama,0.060349
12,68,Family,1202,Family,0.056572
19,70,Music,1285,Music,0.054475
3,204,Crime,4679,Crime,0.043599


In [77]:
#generos de filmes menos preferidos em geral

movies_analise2 = movies.sort_values('avg_vote')
movies_analise2 = movies_analise2[movies_analise2.avg_vote <= 3.0]

generos_quantidade = list()
for genero in lista_generos:
    generos_quantidade.append(movies_analise2[movies_analise2.genre.str.contains(genero)].count()[0])
    
df_genero_quantidade_piores = pd.DataFrame(list(zip(generos_quantidade, lista_generos)), columns = ['contagem', 'genero'])
df_genero_quantidade_piores = df_genero_quantidade_piores.sort_values('contagem', ascending = False) 

#df_genero_quantidade_piores= df_genero_quantidade_piores.head(10)
print(df_genero_quantidade_piores)

#mesma análise, mas proporcional à quantidade filmes produzidos por cada gênero
df_genero_quantidade_piores = df_genero_quantidade_piores.join(df_genero_quantidade, how = "inner")
df_genero_quantidade_piores['proporcional'] = df_genero_quantidade_piores.contagem / df_genero_quantidade.contagem_total
df_genero_quantidade_piores.sort_values('proporcional')

    contagem     genero
6        142     Comedy
10       114     Action
4        101     Horror
0         76  Adventure
11        66     Sci-Fi
1         65      Drama
15        47   Thriller
2         41    Fantasy
3         31      Crime
12        28     Family
8         27    Romance
19        14      Music
16        10      Sport
13         8    Mystery
17         8  Animation
18         5    Musical
5          4    History
9          3  Biography
14         2    Western
7          1        War
20         0  Film-Noir
21         0      Adult
22         0  Game-Show


Unnamed: 0,contagem,genero,contagem_total,genero_total,proporcional
22,0,Game-Show,1,Game-Show,0.0
20,0,Film-Noir,296,Film-Noir,0.0
21,0,Adult,2,Adult,0.0
7,1,War,802,War,0.001247
9,3,Biography,1316,Biography,0.00228
13,8,Mystery,2149,Mystery,0.003723
1,65,Drama,16040,Drama,0.004052
5,4,History,978,History,0.00409
14,2,Western,446,Western,0.004484
8,27,Romance,5331,Romance,0.005065


In [47]:
#generos de filmes preferidos das mulheres (maiores medias de notas pelas mulheres)

movies_analise3 = complete_table.sort_values('females_allages_avg_vote')
movies_analise3 = movies_analise3[movies_analise3.females_allages_avg_vote >= 8.0]

generos_quantidade = list()
for genero in lista_generos:
    generos_quantidade.append(movies_analise3[movies_analise3.genre.str.contains(genero)].count()[0])
    
df_genero_quantidade_melhores = pd.DataFrame(list(zip(generos_quantidade, lista_generos)), columns = ['contagem', 'genero'])
df_genero_quantidade_melhores = df_genero_quantidade_melhores.sort_values('contagem', ascending = False) 

df_genero_quantidade_melhores = df_genero_quantidade_melhores.head(10)
print(df_genero_quantidade_melhores)

    contagem     genero
1       1030      Drama
6        392     Comedy
8        249    Romance
3        181      Crime
0        151  Adventure
10       137     Action
15       120   Thriller
7         96        War
9         90  Biography
12        90     Family


In [48]:
#generos de filmes preferidos dos homens (maiores medias de notas pelos homens)

movies_analise3 = complete_table.sort_values('males_allages_avg_vote')
movies_analise3 = movies_analise3[movies_analise3.males_allages_avg_vote >= 8.0]

generos_quantidade = list()
for genero in lista_generos:
    generos_quantidade.append(movies_analise3[movies_analise3.genre.str.contains(genero)].count()[0])
    
df_genero_quantidade_melhores = pd.DataFrame(list(zip(generos_quantidade, lista_generos)), columns = ['contagem', 'genero'])
df_genero_quantidade_melhores = df_genero_quantidade_melhores.sort_values('contagem', ascending = False) 

df_genero_quantidade_melhores = df_genero_quantidade_melhores.head(10)
print(df_genero_quantidade_melhores)

    contagem     genero
1        876      Drama
6        324     Comedy
3        188      Crime
8        183    Romance
10       165     Action
15       139   Thriller
0        118  Adventure
7         75        War
13        75    Mystery
9         72  Biography


In [49]:
#generos de filmes preferidos pela idade 0 a 18 anos

movies_analise3 = complete_table.sort_values('allgenders_0age_avg_vote')
movies_analise3 = movies_analise3[movies_analise3.allgenders_0age_avg_vote >= 8.0]

generos_quantidade = list()
for genero in lista_generos:
    generos_quantidade.append(movies_analise3[movies_analise3.genre.str.contains(genero)].count()[0])
    
df_genero_quantidade_melhores = pd.DataFrame(list(zip(generos_quantidade, lista_generos)), columns = ['contagem', 'genero'])
df_genero_quantidade_melhores = df_genero_quantidade_melhores.sort_values('contagem', ascending = False) 

df_genero_quantidade_melhores = df_genero_quantidade_melhores.head(10)
print(df_genero_quantidade_melhores)

    contagem     genero
1       3133      Drama
6       1653     Comedy
8       1005    Romance
10       866     Action
3        821      Crime
15       642   Thriller
0        451  Adventure
4        354     Horror
13       343    Mystery
19       294      Music


In [50]:
#generos de filmes preferidos pela idade 18 a 30 anos

movies_analise3 = complete_table.sort_values('allgenders_18age_avg_vote')
movies_analise3 = movies_analise3[movies_analise3.allgenders_18age_avg_vote >= 8.0]

generos_quantidade = list()
for genero in lista_generos:
    generos_quantidade.append(movies_analise3[movies_analise3.genre.str.contains(genero)].count()[0])
    
df_genero_quantidade_melhores = pd.DataFrame(list(zip(generos_quantidade, lista_generos)), columns = ['contagem', 'genero'])
df_genero_quantidade_melhores = df_genero_quantidade_melhores.sort_values('contagem', ascending = False) 

df_genero_quantidade_melhores = df_genero_quantidade_melhores.head(10)
print(df_genero_quantidade_melhores)

    contagem     genero
1       1326      Drama
6        452     Comedy
8        298    Romance
3        258      Crime
10       244     Action
15       197   Thriller
0        158  Adventure
13       114    Mystery
9        105  Biography
7        100        War


In [51]:
#generos de filmes preferidos pela idade 30 a 45 anos

movies_analise3 = complete_table.sort_values('allgenders_30age_avg_vote')
movies_analise3 = movies_analise3[movies_analise3.allgenders_30age_avg_vote >= 8.0]

generos_quantidade = list()
for genero in lista_generos:
    generos_quantidade.append(movies_analise3[movies_analise3.genre.str.contains(genero)].count()[0])
    
df_genero_quantidade_melhores = pd.DataFrame(list(zip(generos_quantidade, lista_generos)), columns = ['contagem', 'genero'])
df_genero_quantidade_melhores = df_genero_quantidade_melhores.sort_values('contagem', ascending = False) 

df_genero_quantidade_melhores = df_genero_quantidade_melhores.head(10)
print(df_genero_quantidade_melhores)

    contagem     genero
1        790      Drama
6        285     Comedy
8        177    Romance
3        162      Crime
10       116     Action
0        104  Adventure
15        97   Thriller
7         73        War
9         64  Biography
19        62      Music


In [53]:
#generos de filmes preferidos pela idade acima de 45 anos

movies_analise3 = complete_table.sort_values('allgenders_45age_avg_vote')
movies_analise3 = movies_analise3[movies_analise3.allgenders_45age_avg_vote >= 8.0]

generos_quantidade = list()
for genero in lista_generos:
    generos_quantidade.append(movies_analise3[movies_analise3.genre.str.contains(genero)].count()[0])
    
df_genero_quantidade_melhores = pd.DataFrame(list(zip(generos_quantidade, lista_generos)), columns = ['contagem', 'genero'])
df_genero_quantidade_melhores = df_genero_quantidade_melhores.sort_values('contagem', ascending = False) 

df_genero_quantidade_melhores = df_genero_quantidade_melhores.head(10)
print(df_genero_quantidade_melhores)

    contagem     genero
1        397      Drama
6        119     Comedy
8         86    Romance
3         84      Crime
0         74  Adventure
15        51   Thriller
7         51        War
5         43    History
9         42  Biography
10        40     Action


In [60]:
#duracao dos filmes preferidos

movies_analise4 = movies.sort_values('avg_vote')
movies_analise4 = movies_analise4[movies_analise4.avg_vote >= 8.0]

movies_analise4.duration.describe()

movies_analise4['duracao-range'] = pd.cut(movies_analise4['duration'], bins = 50)
movies_analise4['duracao-range'].describe()

count               1271
unique                31
top       (117.9, 126.0]
freq                 133
Name: duracao-range, dtype: object