In [6]:
import numpy as np
import pandas as pd
import os

In [27]:
df = pd.read_csv("netflix_titles.csv", index_col = "show_id")

In [28]:
df.head()

Unnamed: 0_level_0,type,title,director,cast,country,date_added,release_year,rating,duration,listed_in,description
show_id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1
s1,Movie,Dick Johnson Is Dead,Kirsten Johnson,,United States,"September 25, 2021",2020,PG-13,90 min,Documentaries,"As her father nears the end of his life, filmm..."
s2,TV Show,Blood & Water,,"Ama Qamata, Khosi Ngema, Gail Mabalane, Thaban...",South Africa,"September 24, 2021",2021,TV-MA,2 Seasons,"International TV Shows, TV Dramas, TV Mysteries","After crossing paths at a party, a Cape Town t..."
s3,TV Show,Ganglands,Julien Leclercq,"Sami Bouajila, Tracy Gotoas, Samuel Jouy, Nabi...",,"September 24, 2021",2021,TV-MA,1 Season,"Crime TV Shows, International TV Shows, TV Act...",To protect his family from a powerful drug lor...
s4,TV Show,Jailbirds New Orleans,,,,"September 24, 2021",2021,TV-MA,1 Season,"Docuseries, Reality TV","Feuds, flirtations and toilet talk go down amo..."
s5,TV Show,Kota Factory,,"Mayur More, Jitendra Kumar, Ranjan Raj, Alam K...",India,"September 24, 2021",2021,TV-MA,2 Seasons,"International TV Shows, Romantic TV Shows, TV ...",In a city of coaching centers known to train I...


In [18]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 8807 entries, 0 to 8806
Data columns (total 12 columns):
 #   Column        Non-Null Count  Dtype 
---  ------        --------------  ----- 
 0   show_id       8807 non-null   object
 1   type          8807 non-null   object
 2   title         8807 non-null   object
 3   director      6173 non-null   object
 4   cast          7982 non-null   object
 5   country       7976 non-null   object
 6   date_added    8797 non-null   object
 7   release_year  8807 non-null   int64 
 8   rating        8803 non-null   object
 9   duration      8804 non-null   object
 10  listed_in     8807 non-null   object
 11  description   8807 non-null   object
dtypes: int64(1), object(11)
memory usage: 825.8+ KB


In [31]:
df.shape

(8807, 11)

In [29]:
df.columns

Index(['type', 'title', 'director', 'cast', 'country', 'date_added',
       'release_year', 'rating', 'duration', 'listed_in', 'description'],
      dtype='object')

### Tratando os dados para análise

In [36]:
# Removendo coluna de sinopse

df.drop(columns="description",inplace = True)

KeyError: "['description'] not found in axis"

In [37]:
# Transformando o formato para data

df["date_added"] = pd.to_datetime(df["date_added"])

In [43]:
# Identificando valores ausentes

df.isna().sum()

type               0
title              0
director        2634
cast             825
country          831
date_added        10
release_year       0
rating             4
duration           3
listed_in          0
dtype: int64

In [47]:
# Separando os dados entre Filmes e Séries:

movies = df[df["type"] == "Movie"].copy()
series = df[df["type"] == "TV Show"].copy()

In [50]:
movies.isna().sum()

type              0
title             0
director        188
cast            475
country         440
date_added        0
release_year      0
rating            2
duration          3
listed_in         0
dtype: int64

In [52]:
movies.shape

(6131, 10)

In [51]:
series.isna().sum()

type               0
title              0
director        2446
cast             350
country          391
date_added        10
release_year       0
rating             2
duration           0
listed_in          0
dtype: int64

In [54]:
series.shape

(2676, 10)

### Analisando os Filmes

In [55]:
movies.head()

Unnamed: 0_level_0,type,title,director,cast,country,date_added,release_year,rating,duration,listed_in
show_id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1
s1,Movie,Dick Johnson Is Dead,Kirsten Johnson,,United States,2021-09-25,2020,PG-13,90 min,Documentaries
s7,Movie,My Little Pony: A New Generation,"Robert Cullen, José Luis Ucha","Vanessa Hudgens, Kimiko Glenn, James Marsden, ...",,2021-09-24,2021,PG,91 min,Children & Family Movies
s8,Movie,Sankofa,Haile Gerima,"Kofi Ghanaba, Oyafunmike Ogunlano, Alexandra D...","United States, Ghana, Burkina Faso, United Kin...",2021-09-24,1993,TV-MA,125 min,"Dramas, Independent Movies, International Movies"
s10,Movie,The Starling,Theodore Melfi,"Melissa McCarthy, Chris O'Dowd, Kevin Kline, T...",United States,2021-09-24,2021,PG-13,104 min,"Comedies, Dramas"
s13,Movie,Je Suis Karl,Christian Schwochow,"Luna Wedler, Jannis Niewöhner, Milan Peschel, ...","Germany, Czech Republic",2021-09-23,2021,TV-MA,127 min,"Dramas, International Movies"


In [86]:
categories = list()

In [89]:
for x,y in enumerate(movies["listed_in"]):
    categories.append(y.split(sep = ",")) 

In [102]:
x = list()
for item in categories:
    x.append(len(item))
max(x)

3

### Obs: O máximo de categorias na qual um filme pode pertencer são 3.

In [143]:
# Ajustando países com nome inválido

movies["country"] = np.where(movies["country"].isna(),
                            "Unknown",
                            movies["country"])

# EDA

##### **Perguntas a serem respondidas:**
1. Quais são os diretores que possuem a maior quantidade de filmes em catálogo ?

2. Quais são os países que possuem a maior quantidade de filmes em catálogo ?

3. Qual a distribuição das indicações dos filmes ? (Perfil indicativo)
    
    3.1. Qual é o perfil indicativo dos filmes para os países com mais filmes ?
    
    3.2. Quais são os diretores que possuem maior quantidade de filmes para cada Perfil Indicativo ?

4. Qual são as faixas de ano de lançamento dos filmes ?

5. Após a criação da Netflix, qual o tempo médio para a inclusão do filme em catálogo ?

6. Qual a distribuição de duração dos filmes ?
    
    6.1.Qual a distribuição de duração dos filmes por perfil indicativo ?
    
    6.2. Quais são os países que possuem filmes mais longos ?

7. Quais são os atores que estão mais presentes ?

8. Quais são as categorias de filmes mais presentes ?

9. Quais são os filmes onde existem diretores e atores ? **


In [160]:
movies.head()

Unnamed: 0_level_0,type,title,director,cast,country,date_added,release_year,rating,duration,listed_in,categories
show_id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1
s1,Movie,Dick Johnson Is Dead,Kirsten Johnson,,United States,2021-09-25,2020,PG-13,90 min,Documentaries,
s7,Movie,My Little Pony: A New Generation,"Robert Cullen, José Luis Ucha","Vanessa Hudgens, Kimiko Glenn, James Marsden, ...",Unknown,2021-09-24,2021,PG,91 min,Children & Family Movies,
s8,Movie,Sankofa,Haile Gerima,"Kofi Ghanaba, Oyafunmike Ogunlano, Alexandra D...","United States, Ghana, Burkina Faso, United Kin...",2021-09-24,1993,TV-MA,125 min,"Dramas, Independent Movies, International Movies",
s10,Movie,The Starling,Theodore Melfi,"Melissa McCarthy, Chris O'Dowd, Kevin Kline, T...",United States,2021-09-24,2021,PG-13,104 min,"Comedies, Dramas",
s13,Movie,Je Suis Karl,Christian Schwochow,"Luna Wedler, Jannis Niewöhner, Milan Peschel, ...","Germany, Czech Republic",2021-09-23,2021,TV-MA,127 min,"Dramas, International Movies",


### 1. Quais são os diretores que possuem maior quantidade de filmes em Catálogo ?

In [144]:
directors = pd.DataFrame(movies.value_counts(subset="director"),columns=["Quantity"])


In [145]:
directors

Unnamed: 0_level_0,Quantity
director,Unnamed: 1_level_1
Rajiv Chilaka,19
"Raúl Campos, Jan Suter",18
Suhas Kadav,16
Marcus Raboy,15
Jay Karas,14
...,...
Jose Gomez,1
Jose Javier Reyes,1
Bilal Lashari,1
"Joseduardo Giordano, Sergio Goyri Jr.",1


## 2. Quais são os países que possuem maior quantidade de filmes em catálogo ?

#### Ainda é necessário tratar os dados onde existe mais de um país indicado para o filme

In [146]:
movies.value_counts(subset=["country","director"])

country        director                  
Unknown        Rajiv Chilaka                 16
               Suhas Kadav                   15
United States  Marcus Raboy                  14
               Jay Karas                     14
Philippines    Cathy Garcia-Molina           13
                                             ..
Mexico         Eric D. Cabello Díaz           1
               Eugenio Derbez                 1
               Everardo González              1
               Fernando Frías De La Parra     1
Zimbabwe       Tomas Brickhill                1
Length: 4790, dtype: int64

In [147]:
movies.isna().value_counts("director")

director
False    5943
True      188
dtype: int64

### 3. Qual a distribuição das indicações dos filmes? 

In [170]:
# Existem dados errados, onde nas indicações dos filmes estão sendo postos a duração do filme

ratings = pd.DataFrame(movies["rating"].value_counts(normalize = True))
ratings["rating"] = ratings["rating"]*100 

In [173]:
ratings[0:14]

Unnamed: 0,rating
TV-MA,33.643335
TV-14,23.282754
R,13.003753
TV-PG,8.810573
PG-13,7.994779
PG,4.682656
TV-Y7,2.267907
TV-Y,2.13738
TV-G,2.0558
NR,1.223691


### 3.1 Qual é o perfil indicativo dos filmes para os países com mais filmes ?

### 3.2 Quais são os diretores que possuem maior quantidade de filmes para cada Perfil Indicativo ?

### 4. Qual são as faixas de ano de lançamento dos filmes ?

### 5. Após a criação da Netflix, qual o tempo médio para a inclusão do filme em catálogo ?

### 6. Qual a distribuição de duração dos filmes ?

### 6.1. Qual a distribuição de duração dos filmes por perfil indicativo ?

### 6.2. Quais são os países que possuem filmes mais longos ?

### 7. Quais são os atores que estão mais presentes ? 

### 8. Quais são as categorias de filmes mais presentes ?

###  9. Quais são os filmes onde existem diretores e atores ?

In [178]:
df['listed_in'].apply(lambda x :  x.replace(' ,',',').replace(', ',',').split(',')) 

show_id
s1                                         [Documentaries]
s2       [International TV Shows, TV Dramas, TV Mysteries]
s3       [Crime TV Shows, International TV Shows, TV Ac...
s4                                [Docuseries, Reality TV]
s5       [International TV Shows, Romantic TV Shows, TV...
                               ...                        
s8803                     [Cult Movies, Dramas, Thrillers]
s8804             [Kids' TV, Korean TV Shows, TV Comedies]
s8805                            [Comedies, Horror Movies]
s8806                 [Children & Family Movies, Comedies]
s8807     [Dramas, International Movies, Music & Musicals]
Name: listed_in, Length: 8807, dtype: object