## Estudo de Caso base de dados Netflix
- https://www.kaggle.com/shivamb/netflix-shows?select=netflix_titles.csv

### 1) Importando pandas

In [None]:
import pandas as pd

### 2) Leitura dos dados

In [None]:
df = pd.read_csv('files/netflix_titles.csv')

#### Para imprimir todas as linhas da base de dados:
- pd.set_option('display.max_rows', None)

In [None]:
pd.set_option('display.max_rows', None)
data_frame = pd.read_csv('files/netflix_titles.csv')

#### Descrição das colunas:

- show_id: unique ID for each movie
- type: 'Movie' or 'TV Show' - in this case we're only using the movies
- title: official movie title
- director: name of director
- cast: list of actors' names in movie
- country: country where the movie was produced
- date_added: date that the movie was added to Netflix
- release_year: year that the movie was originally released
- rating: age rating of movie
- duration: duration of the movie in minutes
- listed_in: relevant genres of the movie
- description: short description of the movie plot

In [None]:
# Gerando um resumo conciso do data frame, é muito útil ao fazer análises exploratórias dos dados, é utilizado para obter uma
    # visão geral rápida do conjunto de dados)
data_frame.info()

### 3) Aplicando filtros nos dados
- Selecionar o tipo "Movie"

In [None]:
# Exibindo o data frame
data_frame

In [None]:
nf_movies = data_frame[data_frame['type'] == 'Movie']
# Utilizado para controlar o número de linhas do data frame que serão exibidas
nf_movies.head(10)

In [None]:
data_frame[data_frame['country'] == 'Brazil']['type']

In [None]:
data_frame[(data_frame['country'] == 'Brazil') & (data_frame['type'] == 'Movie')]

#### Informações sobre valores exclusivos (Método unique())

In [None]:
data_frame['director'].unique()

#### Quantidade de valores exclusivos

In [None]:
#Classifica pelos 10 primeiros
data_frame['country'].value_counts().head(10)

In [None]:
data_frame['release_year'].value_counts().head(30)

#### Seleção de linhas e colunas (mpetodos loc() e iloc()

In [None]:
data_frame.columns

In [None]:
len(data_frame.columns)

In [None]:
data_frame.iloc[[0, 1], [0, 1]]

#### Ordenando um DataFrame por coluna (sort_values)

In [None]:
data_frame.sort_values(by='country')

#### Encontrando valores nulos (NaN)

In [None]:
data_frame['country'].isnull().value_counts()

#### Selcionando registros diferente de NaN, coluna 'country'.

In [None]:
saida = data_frame[data_frame['country'].isnull() == False]

In [None]:
type(saida)

In [None]:
len(saida)

### 4) Operação Groupby 

O método groupby permite agrupar linhas de dados em conjunto e chamar funções agregadas

In [None]:
nfCountries = data_frame.groupby('country')

In [None]:
for name in nfCountries:
    print(name)

In [None]:
data_frame.columns

In [None]:
group = data_frame.groupby(['type','country'])

In [None]:
group.size()

In [None]:
serie = pd.Series(data=['A', 'B', 'C'])

serie.to_string()

In [None]:
lista = []
for t, c in group:
    lista.append(t)
    lista.append(c)

In [None]:
len(lista)

In [None]:
type(lista[0])

In [None]:
lista[1]