### **Caro leitor(ra) seja muito bem vindo(a), vamos explorar essa base comigo !?**
### `Importando Bibliotecas e Carregando o Dataset`
---
Seguiremos de forma bem detalhada uma análise de dados exploratória (**EDA**), buscaremos por insights nessa jornada!

No código abaixo importa-se as bibliotecas, carrega-se o dataset e exibe-se as primeiras 5 linhas :

Com o Data frame já carregado e exibido, consegue-se vizualisar previamente os dados a serem tratados e manipulados, na sequência há um passo muito importante, discernir melhor as colunas!

In [2]:
# Importar bibliotecas e definir aliases:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

# Carregar o dataset na variável 'df':
df = pd.read_csv("netflix_data.csv", header=0)

# Visualizar 5 primeiras linhas :
df.head(5)

Unnamed: 0,show_id,type,title,director,cast,country,date_added,release_year,duration,description,genre
0,s2,Movie,7:19,Jorge Michel Grau,"Demián Bichir, Héctor Bonilla, Oscar Serrano, ...",Mexico,"December 23, 2016",2016,93,After a devastating earthquake hits Mexico Cit...,Dramas
1,s3,Movie,23:59,Gilbert Chan,"Tedd Chan, Stella Chung, Henley Hii, Lawrence ...",Singapore,"December 20, 2018",2011,78,"When an army recruit is found dead, his fellow...",Horror Movies
2,s4,Movie,9,Shane Acker,"Elijah Wood, John C. Reilly, Jennifer Connelly...",United States,"November 16, 2017",2009,80,"In a postapocalyptic world, rag-doll robots hi...",Action
3,s5,Movie,21,Robert Luketic,"Jim Sturgess, Kevin Spacey, Kate Bosworth, Aar...",United States,"January 1, 2020",2008,123,A brilliant group of students become card-coun...,Dramas
4,s6,TV Show,46,Serdar Akar,"Erdal Beşikçioğlu, Yasemin Allen, Melis Birkan...",Turkey,"July 1, 2017",2016,1,A genetics professor experiments with a treatm...,International TV


###  `Entendimento Inicial dos Dados`
---

Compreender a estrutura e o conteúdo do *DataFrame* é uma etapa essencial para uma análise exploratória eficaz. Ter uma boa visão de negócio é uma habilidade fundamental para Engenheiros, Cientistas e Analistas de dados mas, é de suma importância lembrar que **viés cognitivo** pode influenciar interpretações. 

Por isso, é crucial deixar que os próprios dados guiem as decisões analíticas. Toda EDA deve ser construída com base em evidências extraídas diretamente do dataset, evitando suposições não fundamentadas.
A partir deste ponto, será feita uma investigação detalhada sobre colunas, tipos de dados, valores nulos, estatísticas básicas e de possíveis padrões/tendências em nichos de mercado da NETFLIX.



### `Dimensão do Data Frame`
__________________________________________________________________________________________________________________________________________________


In [3]:
# Dimensão do Data Frame
df.shape

(4812, 11)

contém 4812 linhas e 11 colunas.
### `Conteúdo das Colunas do Data Frame`

__________________________________________________________________________________________________________________________________________________

In [4]:
# Vizualizar nomes das colunas:
df.columns

Index(['show_id', 'type', 'title', 'director', 'cast', 'country', 'date_added',
       'release_year', 'duration', 'description', 'genre'],
      dtype='object')

Traduzindo :

```
show_id:      Um identificador único para cada filme ou série.
type:         Indica se é um filme ou série. 
title:        O título do filme ou série. 
director:     O diretor do filme ou série. 
cast:         Os atores ou atrizes que participaram. 
country:      O país onde o filme ou série foi produzido.
date_added:   Quando o filme ou série foi adicionado à plataforma. 
release_year: O ano de lançamento do filme ou série. 
duration:     A duração do filme ou o número de temporadas de uma série. (Observação: o valor desta coluna depende do valor da coluna type)
description:  Uma breve descrição ou sinopse do filme ou série. 
genre:        O gênero do filme ou série (ex: ação, comédia, drama).
```

### `Tipos de Dados do Dataset`
---

Verificando tipos de dados, informações gerais e se o Data Frame contém valores nulos:

In [5]:
# Verificar tipos de dados e informações gerais do Data Frame
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 4812 entries, 0 to 4811
Data columns (total 11 columns):
 #   Column        Non-Null Count  Dtype 
---  ------        --------------  ----- 
 0   show_id       4812 non-null   object
 1   type          4812 non-null   object
 2   title         4812 non-null   object
 3   director      4812 non-null   object
 4   cast          4812 non-null   object
 5   country       4812 non-null   object
 6   date_added    4812 non-null   object
 7   release_year  4812 non-null   int64 
 8   duration      4812 non-null   int64 
 9   description   4812 non-null   object
 10  genre         4812 non-null   object
dtypes: int64(2), object(9)
memory usage: 413.7+ KB


- Conforme a saída, duas colunas são do tipo inteiro ```int64``` e 9 colunas são do tipo ```object```, o Data frame não contém valores nulos, Isso simplifica a parte de limpeza dos dados.

- As colunas ```release_year (Ano de Lançamento)``` e ```duration (Duração)``` já estão como ```int64 (números inteiros)```, o que é apropriado.

- A coluna ```data_added``` está como ```object``` o que para o **pandas** significa "texto"```(string)```. Para fazer análises temporais(como por exemplo: "quantos filmes foram adicionados por ano?"), precisamos converter essa coluna para um formato de data ```(datatime)```.


### `Convertendo tipos de dados, Tratando e limpado (Data Cleaning)`
---

Realizando a primeira tarefa de pré-processamento de dados, converte-se no código abaixo a coluna ```data_added``` para ```datatime``` e é checado se o código funcionou utilizando a mesma função anterior ```.info()```


Mas em primeira instância o código :

---

```df['date_added'] = pd.to_datetime(df['date_added'])```

Retornou: ***```_________________ValueError_______________```***

---

***E o motivo: havia "sujeira" nos dados na coluna ```date_added``` foi encontrado um " " (espaço em branco) antes da data ```" August 4, 2017"```
O Pandas olhou as primeiras datas do arquivo deduziu que o formato era "Nome do Mês, Dia, Ano" e tentou aplicar essa regra a todas as outras. Quando ele chegou na linha 161 a regra quebrou por causa do espaço extra no começo por isso a saída ValueError.***

---
Próxima tarefa remover os **espaços** extras no início e fim das datas da coluna, para posteriormente fazer a conversão:


In [6]:
# Removendo espaços antes e depois da coluna
df['date_added'] = df['date_added'].str.strip()

# Converter a coluna data_added para datatime
df['date_added'] = pd.to_datetime(df['date_added'])

# Ver o tipo de dado da coluna
print(df['date_added'].dtype)

datetime64[ns]


Conversão concluída com Sucesso! Isso significa que a fase de Limpeza de Dados está praticamente concluída!

Próximo passo verificar se ainda há valores **Nulos** no Data Frame:

In [7]:
# Verificando a situação dos valores nulos após a limpeza da coluna 'date_added'
df.isnull().sum()

show_id         0
type            0
title           0
director        0
cast            0
country         0
date_added      0
release_year    0
duration        0
description     0
genre           0
dtype: int64

Ótimo o Data frame não contém mais valores **Nulos**.

### Clusterizando os Dados

_______________________________________________________________________________________________________________________________________________________________________________________________________________________________________
Quantos filmes e quantas séries contem nesse conjunto ?






In [None]:
# Separando filmes de Séries 
movies = df[df['type'] == 'Movie'].copy()
series = df[df['type'] == 'TV Show'].copy()
print(f"Número de Filmes: {len(movies)}") 
print(f"Número de Séries: {len(series)}")

Número de Filmes: 4677
Número de Séries: 135


Quais são os gêneros mais populares ?

In [12]:
# 1. Separa os gêneros que estão juntos (ex: "Action, Comedy" vira duas linhas)
# IMPORTANTE: Substitua 'listed_in' pelo nome que aparecer no passo 1, se for diferente.
generos_separados = movies['listed_in'].str.split(', ').explode()



KeyError: 'listed_in'

In [11]:
# Vizualizando os gêneros mais 
generos_movies = movies["listed_in"].value_counts()
print(f'esses são os generos'{generos_movies})

SyntaxError: invalid syntax. Perhaps you forgot a comma? (1336759844.py, line 3)