# Dynamic Programming Task 1 - Netflix Case

Por: Emanuelle Soares | rm 97973 | 2ESPG

## Description:
Esta atividade tem como objetivo analisar um conjunto de dados sobre títulos disponíveis na Netflix. Utilizando Python e a biblioteca pandas, exploramos diversas informações, como os tipos mais comuns de conteúdo (filmes ou séries), as classificações mais frequentes, a distribuição dos tamanhos das descrições e até mesmo a ocorrência de caracteres em posições específicas das descrições. Vamos descobrir quais são os tipos mais populares de conteúdo na Netflix, as classificações mais comuns e outras tendências interessantes!

Existem dois programas neste notebook, sendo o primeiro (abaixo) o que lê propriamante todos os dados, incluindo os erros constados no arquivo .csv, e o segundo que possui uma função que exclui da leitura todas as partes do arquivo que possui o erro identificado.

In [1]:
import pandas as pd
from collections import Counter

# Carregar o arquivo CSV
df = pd.read_csv('netflix_titles.csv')

# 2.1.1 Gere uma lista com os tipos ('types') dos trabalhos ali presentes.
types_counter = Counter(df['type'])
most_common_type = types_counter.most_common(1)[0]  
least_common_type = types_counter.most_common()[-1]

# 2.1.2 Execute a mesma solução para o campo ‘rating’
ratings_counter = Counter(df['rating'].dropna())  # Remova valores nulos antes de contar
most_common_rating = ratings_counter.most_common(1)[0]
least_common_rating = ratings_counter.most_common()[-1]

# 2.1.3 Sobre o campo ‘description’, organize duas pilhas
fourth_char_stack = [desc[3] for desc in df['description'] if len(desc) > 3]
thirteenth_char_stack = [desc[12] for desc in df['description'] if len(desc) > 12]
most_common_fourth_char = Counter(fourth_char_stack).most_common(1)[0]
least_common_fourth_char = Counter(fourth_char_stack).most_common()[-1]
most_common_thirteenth_char = Counter(thirteenth_char_stack).most_common(1)[0]
least_common_thirteenth_char = Counter(thirteenth_char_stack).most_common()[-1]

# 2.1.4 Faça uma função para contar quantos caracteres há nesse campo ‘description’
description_lengths = df['description'].apply(len)
description_length_distribution = Counter(description_lengths)

# Apresentação dos resultados
print(f"Tipo mais comum: {most_common_type[0]} com {most_common_type[1]} ocorrências")
print(f"Tipo menos comum: {least_common_type[0]} com {least_common_type[1]} ocorrências")
print(f"Rating mais comum: {most_common_rating[0]} com {most_common_rating[1]} ocorrências")
print("Note de que a classifcação abaixo identifica o tempo, e não a classificação em si. (este é um erro do arquivo .csv)")
print(f"Rating menos comum: {least_common_rating[0]} com {least_common_rating[1]} ocorrências")
print(f"Caractere mais frequente na quarta posição: {most_common_fourth_char[0]} com {most_common_fourth_char[1]} ocorrências")
print(f"Caractere menos frequente na quarta posição: {least_common_fourth_char[0]} com {least_common_fourth_char[1]} ocorrências")
print(f"Caractere mais frequente na décima terceira posição: {most_common_thirteenth_char[0]} com {most_common_thirteenth_char[1]} ocorrências")
print(f"Caractere menos frequente na décima terceira posição: {least_common_thirteenth_char[0]} com {least_common_thirteenth_char[1]} ocorrências")
print(f"Distribuição dos tamanhos das descrições: {description_length_distribution}")


Tipo mais comum: Movie com 6131 ocorrências
Tipo menos comum: TV Show com 2676 ocorrências
Rating mais comum: TV-MA com 3207 ocorrências
Note de que a classifcação abaixo identifica o tempo, e não a classificação em si. (este é um erro do arquivo .csv)
Rating menos comum: 66 min com 1 ocorrências
Caractere mais frequente na quarta posição: e com 1481 ocorrências
Caractere menos frequente na quarta posição: " com 1 ocorrências
Caractere mais frequente na décima terceira posição:   com 1273 ocorrências
Caractere menos frequente na décima terceira posição: Z com 1 ocorrências
Distribuição dos tamanhos das descrições: Counter({150: 926, 149: 828, 148: 779, 147: 663, 146: 576, 145: 465, 144: 425, 151: 409, 143: 356, 142: 317, 152: 294, 141: 258, 140: 226, 139: 216, 138: 187, 135: 149, 136: 146, 137: 145, 134: 125, 131: 117, 132: 108, 133: 107, 130: 90, 153: 84, 129: 80, 127: 74, 128: 70, 126: 63, 125: 57, 122: 40, 121: 38, 124: 38, 123: 36, 120: 30, 119: 22, 118: 21, 114: 19, 116: 17, 117: 

Abaixo temos o código que exclui o 66min do rating, para obter o resultado preciso, identificando qual é o Rating menos comúm

In [15]:
import pandas as pd
from collections import Counter

# Carregar o arquivo CSV
df = pd.read_csv('netflix_titles.csv')

# 2.1.1 Gere uma lista com os tipos ('types') dos trabalhos ali presentes.
types_counter = Counter(df['type'])
most_common_type = types_counter.most_common(1)[0]  
least_common_type = types_counter.most_common()[-1]

# 2.1.2 Execute a mesma solução para o campo ‘rating’
# Remova valores nulos e aqueles que contêm "min" antes de contar
ratings_counter = Counter(df['rating'].astype(str)[~df['rating'].astype(str).str.contains("min", na=False)].dropna())
most_common_rating = ratings_counter.most_common(1)[0]
least_common_rating = ratings_counter.most_common()[-1]

# 2.1.3 Sobre o campo ‘description’, organize duas pilhas
fourth_char_stack = [desc[3] for desc in df['description'] if len(desc) > 3]
thirteenth_char_stack = [desc[12] for desc in df['description'] if len(desc) > 12]
most_common_fourth_char = Counter(fourth_char_stack).most_common(1)[0]
least_common_fourth_char = Counter(fourth_char_stack).most_common()[-1]
most_common_thirteenth_char = Counter(thirteenth_char_stack).most_common(1)[0]
least_common_thirteenth_char = Counter(thirteenth_char_stack).most_common()[-1]

# 2.1.4 Faça uma função para contar quantos caracteres há nesse campo ‘description’
description_lengths = df['description'].apply(len)
description_length_distribution = Counter(description_lengths)

# Apresentação dos resultados
print(f"Tipo mais comum: {most_common_type[0]} com {most_common_type[1]} ocorrências")
print(f"Tipo menos comum: {least_common_type[0]} com {least_common_type[1]} ocorrências")
print(f"Rating mais comum: {most_common_rating[0]} com {most_common_rating[1]} ocorrências")
print(f"Rating menos comum: {least_common_rating[0]} com {least_common_rating[1]} ocorrências")
print(f"Caractere mais frequente na quarta posição: {most_common_fourth_char[0]} com {most_common_fourth_char[1]} ocorrências")
print(f"Caractere menos frequente na quarta posição: {least_common_fourth_char[0]} com {least_common_fourth_char[1]} ocorrências")
print(f"Caractere mais frequente na décima terceira posição: {most_common_thirteenth_char[0]} com {most_common_thirteenth_char[1]} ocorrências")
print(f"Caractere menos frequente na décima terceira posição: {least_common_thirteenth_char[0]} com {least_common_thirteenth_char[1]} ocorrências")
print(f"Distribuição dos tamanhos das descrições: {description_length_distribution}")



Tipo mais comum: Movie com 6131 ocorrências
Tipo menos comum: TV Show com 2676 ocorrências
Rating mais comum: TV-MA com 3207 ocorrências
Rating menos comum: UR com 3 ocorrências
Caractere mais frequente na quarta posição: e com 1481 ocorrências
Caractere menos frequente na quarta posição: " com 1 ocorrências
Caractere mais frequente na décima terceira posição:   com 1273 ocorrências
Caractere menos frequente na décima terceira posição: Z com 1 ocorrências
Distribuição dos tamanhos das descrições: Counter({150: 926, 149: 828, 148: 779, 147: 663, 146: 576, 145: 465, 144: 425, 151: 409, 143: 356, 142: 317, 152: 294, 141: 258, 140: 226, 139: 216, 138: 187, 135: 149, 136: 146, 137: 145, 134: 125, 131: 117, 132: 108, 133: 107, 130: 90, 153: 84, 129: 80, 127: 74, 128: 70, 126: 63, 125: 57, 122: 40, 121: 38, 124: 38, 123: 36, 120: 30, 119: 22, 118: 21, 114: 19, 116: 17, 117: 17, 112: 15, 115: 13, 154: 12, 110: 12, 111: 9, 106: 8, 155: 7, 108: 6, 113: 6, 107: 5, 103: 5, 105: 5, 102: 5, 104: 5, 