## **Imports**

In [7]:
import pandas as pd

## **Criando Dataframe**

In [8]:
df_netflix = pd.read_csv('netflix.csv')
df_netflix

Unnamed: 0,id_usuario,tipo_plano,receita_mensal,dt_assinatura,dt_ultimo_pagamento,pais_usuario,idade_usuario,genero_usuario,device_usuario,duracao_plano
0,1,Basic,10,2022-01-15,2023-06-10,United States,28,Male,Smartphone,1
1,2,Premium,15,2021-09-05,2023-06-22,Canada,35,Female,Tablet,1
2,3,Standard,12,2023-02-28,2023-06-27,United Kingdom,42,Male,Smart TV,1
3,4,Standard,12,2022-07-10,2023-06-26,Australia,51,Female,Laptop,1
4,5,Basic,10,2023-05-01,2023-06-28,Germany,33,Male,Smartphone,1
...,...,...,...,...,...,...,...,...,...,...
2495,2496,Premium,14,2022-07-25,2023-07-12,Spain,28,Female,Smart TV,1
2496,2497,Basic,15,2022-08-04,2023-07-14,Spain,33,Female,Smart TV,1
2497,2498,Standard,12,2022-08-09,2023-07-15,United States,38,Male,Laptop,1
2498,2499,Standard,13,2022-08-12,2023-07-12,Canada,48,Female,Tablet,1


## **Análise Exploratória**

A análise exploratória de dados (ou EDA, do inglês Exploratory Data Analysis) é uma etapa fundamental no processo de análise de dados. Seu objetivo é investigar os dados de forma preliminar para entender melhor suas características, padrões, e estrutura. Ela serve para:

- Compreender a estrutura dos dados: Avaliar as variáveis presentes, tipos de dados, dimensões e as características gerais do conjunto de dados.

- Identificar padrões, tendências e distribuições: A EDA permite detectar padrões nos dados, como a distribuição de valores em variáveis numéricas e a frequência em variáveis categóricas.

- Descobrir outliers e inconsistências: Facilita a identificação de valores discrepantes ou erros nos dados, que podem distorcer análises posteriores.

- Validar suposições iniciais: A EDA ajuda a verificar se os dados estão de acordo com suposições ou hipóteses iniciais, possibilitando ajustar expectativas.

- Visualizar relações entre variáveis: Por meio de gráficos, como histogramas, boxplots, scatter plots, a EDA facilita o entendimento de como variáveis interagem entre si e suas correlações.

- Preparar os dados para modelagem: A EDA também pode ajudar a definir o pré-processamento necessário (limpeza, normalização, transformação) para que os dados estejam adequados para modelagem ou análises mais avançadas.

In [9]:
#Retorna os tipos dos dados.
df_netflix.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 2500 entries, 0 to 2499
Data columns (total 10 columns):
 #   Column               Non-Null Count  Dtype 
---  ------               --------------  ----- 
 0   id_usuario           2500 non-null   int64 
 1   tipo_plano           2500 non-null   object
 2   receita_mensal       2500 non-null   int64 
 3   dt_assinatura        2500 non-null   object
 4   dt_ultimo_pagamento  2500 non-null   object
 5   pais_usuario         2500 non-null   object
 6   idade_usuario        2500 non-null   int64 
 7   genero_usuario       2500 non-null   object
 8   device_usuario       2500 non-null   object
 9   duracao_plano        2500 non-null   int64 
dtypes: int64(4), object(6)
memory usage: 195.4+ KB


In [10]:
#Para visualizar se há valores nulos na tabela
df_netflix.isnull().sum()

id_usuario             0
tipo_plano             0
receita_mensal         0
dt_assinatura          0
dt_ultimo_pagamento    0
pais_usuario           0
idade_usuario          0
genero_usuario         0
device_usuario         0
duracao_plano          0
dtype: int64

In [11]:
#O método df.describe() no Pandas gera estatísticas descritivas para as colunas numéricas de um DataFrame.
df_netflix.describe()

Unnamed: 0,id_usuario,receita_mensal,idade_usuario,duracao_plano
count,2500.0,2500.0,2500.0,2500.0
mean,1250.5,12.5084,38.7956,1.0
std,721.83216,1.686851,7.171778,0.0
min,1.0,10.0,26.0,1.0
25%,625.75,11.0,32.0,1.0
50%,1250.5,12.0,39.0,1.0
75%,1875.25,14.0,45.0,1.0
max,2500.0,15.0,51.0,1.0


In [12]:
#Converte o tipo de um dado, nesse caso, convertemos as colunas de assinatura e último pagamento, de object para datetime
df_netflix['dt_assinatura'] = pd.to_datetime(df_netflix['dt_assinatura'])
df_netflix['dt_ultimo_pagamento'] = pd.to_datetime(df_netflix['dt_ultimo_pagamento'])

df_netflix.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 2500 entries, 0 to 2499
Data columns (total 10 columns):
 #   Column               Non-Null Count  Dtype         
---  ------               --------------  -----         
 0   id_usuario           2500 non-null   int64         
 1   tipo_plano           2500 non-null   object        
 2   receita_mensal       2500 non-null   int64         
 3   dt_assinatura        2500 non-null   datetime64[ns]
 4   dt_ultimo_pagamento  2500 non-null   datetime64[ns]
 5   pais_usuario         2500 non-null   object        
 6   idade_usuario        2500 non-null   int64         
 7   genero_usuario       2500 non-null   object        
 8   device_usuario       2500 non-null   object        
 9   duracao_plano        2500 non-null   int64         
dtypes: datetime64[ns](2), int64(4), object(4)
memory usage: 195.4+ KB


In [13]:
df_netflix

Unnamed: 0,id_usuario,tipo_plano,receita_mensal,dt_assinatura,dt_ultimo_pagamento,pais_usuario,idade_usuario,genero_usuario,device_usuario,duracao_plano
0,1,Basic,10,2022-01-15,2023-06-10,United States,28,Male,Smartphone,1
1,2,Premium,15,2021-09-05,2023-06-22,Canada,35,Female,Tablet,1
2,3,Standard,12,2023-02-28,2023-06-27,United Kingdom,42,Male,Smart TV,1
3,4,Standard,12,2022-07-10,2023-06-26,Australia,51,Female,Laptop,1
4,5,Basic,10,2023-05-01,2023-06-28,Germany,33,Male,Smartphone,1
...,...,...,...,...,...,...,...,...,...,...
2495,2496,Premium,14,2022-07-25,2023-07-12,Spain,28,Female,Smart TV,1
2496,2497,Basic,15,2022-08-04,2023-07-14,Spain,33,Female,Smart TV,1
2497,2498,Standard,12,2022-08-09,2023-07-15,United States,38,Male,Laptop,1
2498,2499,Standard,13,2022-08-12,2023-07-12,Canada,48,Female,Tablet,1


## **Respondendo perguntas**
**Análise Descritiva**

In [14]:
#A quanto tempo as pessoas estão inscritas na Netflix ? 
#Criou-se um novo campo indicando a resposta da pergunta

df_netflix['duracao_assinatura'] = df_netflix['dt_ultimo_pagamento'] - df_netflix['dt_assinatura']
df_netflix['duracao_assinatura'] = df_netflix['duracao_assinatura'].dt.days.astype('int')

df_netflix

Unnamed: 0,id_usuario,tipo_plano,receita_mensal,dt_assinatura,dt_ultimo_pagamento,pais_usuario,idade_usuario,genero_usuario,device_usuario,duracao_plano,duracao_assinatura
0,1,Basic,10,2022-01-15,2023-06-10,United States,28,Male,Smartphone,1,511
1,2,Premium,15,2021-09-05,2023-06-22,Canada,35,Female,Tablet,1,655
2,3,Standard,12,2023-02-28,2023-06-27,United Kingdom,42,Male,Smart TV,1,119
3,4,Standard,12,2022-07-10,2023-06-26,Australia,51,Female,Laptop,1,351
4,5,Basic,10,2023-05-01,2023-06-28,Germany,33,Male,Smartphone,1,58
...,...,...,...,...,...,...,...,...,...,...,...
2495,2496,Premium,14,2022-07-25,2023-07-12,Spain,28,Female,Smart TV,1,352
2496,2497,Basic,15,2022-08-04,2023-07-14,Spain,33,Female,Smart TV,1,344
2497,2498,Standard,12,2022-08-09,2023-07-15,United States,38,Male,Laptop,1,340
2498,2499,Standard,13,2022-08-12,2023-07-12,Canada,48,Female,Tablet,1,334


In [15]:
df_netflix.describe()

Unnamed: 0,id_usuario,receita_mensal,dt_assinatura,dt_ultimo_pagamento,idade_usuario,duracao_plano,duracao_assinatura
count,2500.0,2500.0,2500,2500,2500.0,2500.0,2500.0
mean,1250.5,12.5084,2022-08-28 18:02:52.800000,2023-07-01 07:51:10.080000,38.7956,1.0,306.5752
min,1.0,10.0,2021-09-05 00:00:00,2021-06-23 00:00:00,26.0,1.0,-544.0
25%,625.75,11.0,2022-07-15 00:00:00,2023-06-29 00:00:00,32.0,1.0,260.75
50%,1250.5,12.0,2022-08-31 00:00:00,2023-07-03 00:00:00,39.0,1.0,306.0
75%,1875.25,14.0,2022-10-17 00:00:00,2023-07-08 00:00:00,45.0,1.0,356.0
max,2500.0,15.0,2023-06-14 00:00:00,2023-07-15 00:00:00,51.0,1.0,655.0
std,721.83216,1.686851,,,7.171778,0.0,74.506558


In [16]:
#Filtro os dados que estão negativos
df_netflix[(df_netflix['duracao_assinatura'] < 0)]

Unnamed: 0,id_usuario,tipo_plano,receita_mensal,dt_assinatura,dt_ultimo_pagamento,pais_usuario,idade_usuario,genero_usuario,device_usuario,duracao_plano,duracao_assinatura
28,29,Premium,15,2022-12-19,2021-06-23,Spain,36,Female,Laptop,1,-544
56,57,Basic,10,2022-10-01,2021-06-25,Brazil,46,Female,Laptop,1,-463
960,961,Premium,15,2022-07-23,2021-07-01,France,48,Male,Laptop,1,-387
1037,1038,Standard,12,2022-09-02,2021-07-03,Mexico,30,Male,Smartphone,1,-426
2043,2044,Premium,12,2022-11-05,2021-07-10,Spain,31,Male,Smart TV,1,-483
2142,2143,Standard,12,2022-07-14,2021-07-08,United Kingdom,46,Female,Smartphone,1,-371
2263,2264,Basic,12,2022-09-02,2021-07-12,Australia,41,Male,Smartphone,1,-417


In [17]:
#Apagando os dados negativos da tabela
df_netflix = df_netflix.drop(df_netflix[df_netflix['duracao_assinatura'] < 0]. index)
df_netflix

Unnamed: 0,id_usuario,tipo_plano,receita_mensal,dt_assinatura,dt_ultimo_pagamento,pais_usuario,idade_usuario,genero_usuario,device_usuario,duracao_plano,duracao_assinatura
0,1,Basic,10,2022-01-15,2023-06-10,United States,28,Male,Smartphone,1,511
1,2,Premium,15,2021-09-05,2023-06-22,Canada,35,Female,Tablet,1,655
2,3,Standard,12,2023-02-28,2023-06-27,United Kingdom,42,Male,Smart TV,1,119
3,4,Standard,12,2022-07-10,2023-06-26,Australia,51,Female,Laptop,1,351
4,5,Basic,10,2023-05-01,2023-06-28,Germany,33,Male,Smartphone,1,58
...,...,...,...,...,...,...,...,...,...,...,...
2495,2496,Premium,14,2022-07-25,2023-07-12,Spain,28,Female,Smart TV,1,352
2496,2497,Basic,15,2022-08-04,2023-07-14,Spain,33,Female,Smart TV,1,344
2497,2498,Standard,12,2022-08-09,2023-07-15,United States,38,Male,Laptop,1,340
2498,2499,Standard,13,2022-08-12,2023-07-12,Canada,48,Female,Tablet,1,334


In [18]:
#Normalizando a tabela
df_netflix.describe()

Unnamed: 0,id_usuario,receita_mensal,dt_assinatura,dt_ultimo_pagamento,idade_usuario,duracao_plano,duracao_assinatura
count,2493.0,2493.0,2493,2493,2493.0,2493.0,2493.0
mean,1250.587244,12.508223,2022-08-28 16:42:09.963899136,2023-07-03 08:55:27.075812352,38.79302,1.0,308.675892
min,1.0,10.0,2021-09-05 00:00:00,2023-06-10 00:00:00,26.0,1.0,8.0
25%,626.0,11.0,2022-07-15 00:00:00,2023-06-29 00:00:00,32.0,1.0,261.0
50%,1251.0,12.0,2022-08-31 00:00:00,2023-07-03 00:00:00,39.0,1.0,307.0
75%,1874.0,14.0,2022-10-17 00:00:00,2023-07-08 00:00:00,45.0,1.0,356.0
max,2500.0,15.0,2023-06-14 00:00:00,2023-07-15 00:00:00,51.0,1.0,655.0
std,721.317307,1.686872,,,7.172356,0.0,63.099389


In [19]:
#Resetando a numeração dos registros, chamamos de índice. 
df_netflix = df_netflix.reset_index(drop=True)
df_netflix

Unnamed: 0,id_usuario,tipo_plano,receita_mensal,dt_assinatura,dt_ultimo_pagamento,pais_usuario,idade_usuario,genero_usuario,device_usuario,duracao_plano,duracao_assinatura
0,1,Basic,10,2022-01-15,2023-06-10,United States,28,Male,Smartphone,1,511
1,2,Premium,15,2021-09-05,2023-06-22,Canada,35,Female,Tablet,1,655
2,3,Standard,12,2023-02-28,2023-06-27,United Kingdom,42,Male,Smart TV,1,119
3,4,Standard,12,2022-07-10,2023-06-26,Australia,51,Female,Laptop,1,351
4,5,Basic,10,2023-05-01,2023-06-28,Germany,33,Male,Smartphone,1,58
...,...,...,...,...,...,...,...,...,...,...,...
2488,2496,Premium,14,2022-07-25,2023-07-12,Spain,28,Female,Smart TV,1,352
2489,2497,Basic,15,2022-08-04,2023-07-14,Spain,33,Female,Smart TV,1,344
2490,2498,Standard,12,2022-08-09,2023-07-15,United States,38,Male,Laptop,1,340
2491,2499,Standard,13,2022-08-12,2023-07-12,Canada,48,Female,Tablet,1,334


In [22]:
#Meses que tenho mais assinatura

df_netflix['dt_mes'] = df_netflix['dt_assinatura'].dt.month
df_mes = df_netflix['dt_mes'].value_counts()
df_mes


dt_mes
10    523
7     479
8     382
9     368
6     298
11    298
5      45
12     25
4      24
1      20
3      19
2      12
Name: count, dtype: int64