## **Imports**

In [1]:
import pandas as pd

## **Criando Dataframe**

In [2]:
df_netflix = pd.read_csv('netflix.csv')
df_netflix

Unnamed: 0,id_usuario,tipo_plano,receita_mensal,dt_assinatura,dt_ultimo_pagamento,pais_usuario,idade_usuario,genero_usuario,device_usuario,duracao_plano
0,1,Basic,10,2022-01-15,2023-06-10,United States,28,Male,Smartphone,1
1,2,Premium,15,2021-09-05,2023-06-22,Canada,35,Female,Tablet,1
2,3,Standard,12,2023-02-28,2023-06-27,United Kingdom,42,Male,Smart TV,1
3,4,Standard,12,2022-07-10,2023-06-26,Australia,51,Female,Laptop,1
4,5,Basic,10,2023-05-01,2023-06-28,Germany,33,Male,Smartphone,1
...,...,...,...,...,...,...,...,...,...,...
2495,2496,Premium,14,2022-07-25,2023-07-12,Spain,28,Female,Smart TV,1
2496,2497,Basic,15,2022-08-04,2023-07-14,Spain,33,Female,Smart TV,1
2497,2498,Standard,12,2022-08-09,2023-07-15,United States,38,Male,Laptop,1
2498,2499,Standard,13,2022-08-12,2023-07-12,Canada,48,Female,Tablet,1


## **Análise Exploratória**

A análise exploratória de dados (ou EDA, do inglês Exploratory Data Analysis) é uma etapa fundamental no processo de análise de dados. Seu objetivo é investigar os dados de forma preliminar para entender melhor suas características, padrões, e estrutura. Ela serve para:

- Compreender a estrutura dos dados: Avaliar as variáveis presentes, tipos de dados, dimensões e as características gerais do conjunto de dados.

- Identificar padrões, tendências e distribuições: A EDA permite detectar padrões nos dados, como a distribuição de valores em variáveis numéricas e a frequência em variáveis categóricas.

- Descobrir outliers e inconsistências: Facilita a identificação de valores discrepantes ou erros nos dados, que podem distorcer análises posteriores.

- Validar suposições iniciais: A EDA ajuda a verificar se os dados estão de acordo com suposições ou hipóteses iniciais, possibilitando ajustar expectativas.

- Visualizar relações entre variáveis: Por meio de gráficos, como histogramas, boxplots, scatter plots, a EDA facilita o entendimento de como variáveis interagem entre si e suas correlações.

- Preparar os dados para modelagem: A EDA também pode ajudar a definir o pré-processamento necessário (limpeza, normalização, transformação) para que os dados estejam adequados para modelagem ou análises mais avançadas.

In [5]:
#Retorna os tipos dos dados.
df_netflix.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 2500 entries, 0 to 2499
Data columns (total 10 columns):
 #   Column               Non-Null Count  Dtype 
---  ------               --------------  ----- 
 0   id_usuario           2500 non-null   int64 
 1   tipo_plano           2500 non-null   object
 2   receita_mensal       2500 non-null   int64 
 3   dt_assinatura        2500 non-null   object
 4   dt_ultimo_pagamento  2500 non-null   object
 5   pais_usuario         2500 non-null   object
 6   idade_usuario        2500 non-null   int64 
 7   genero_usuario       2500 non-null   object
 8   device_usuario       2500 non-null   object
 9   duracao_plano        2500 non-null   int64 
dtypes: int64(4), object(6)
memory usage: 195.4+ KB


In [6]:
#Para visualizar se há valores nulos na tabela
df_netflix.isnull().sum()

id_usuario             0
tipo_plano             0
receita_mensal         0
dt_assinatura          0
dt_ultimo_pagamento    0
pais_usuario           0
idade_usuario          0
genero_usuario         0
device_usuario         0
duracao_plano          0
dtype: int64

In [7]:
#O método df.describe() no Pandas gera estatísticas descritivas para as colunas numéricas de um DataFrame.
df_netflix.describe()

Unnamed: 0,id_usuario,receita_mensal,idade_usuario,duracao_plano
count,2500.0,2500.0,2500.0,2500.0
mean,1250.5,12.5084,38.7956,1.0
std,721.83216,1.686851,7.171778,0.0
min,1.0,10.0,26.0,1.0
25%,625.75,11.0,32.0,1.0
50%,1250.5,12.0,39.0,1.0
75%,1875.25,14.0,45.0,1.0
max,2500.0,15.0,51.0,1.0


In [8]:
#Converte o tipo de um dado, nesse caso, convertemos as colunas de assinatura e último pagamento, de object para datetime
df_netflix['dt_assinatura'] = pd.to_datetime(df_netflix['dt_assinatura'])
df_netflix['dt_ultimo_pagamento'] = pd.to_datetime(df_netflix['dt_ultimo_pagamento'])

df_netflix.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 2500 entries, 0 to 2499
Data columns (total 10 columns):
 #   Column               Non-Null Count  Dtype         
---  ------               --------------  -----         
 0   id_usuario           2500 non-null   int64         
 1   tipo_plano           2500 non-null   object        
 2   receita_mensal       2500 non-null   int64         
 3   dt_assinatura        2500 non-null   datetime64[ns]
 4   dt_ultimo_pagamento  2500 non-null   datetime64[ns]
 5   pais_usuario         2500 non-null   object        
 6   idade_usuario        2500 non-null   int64         
 7   genero_usuario       2500 non-null   object        
 8   device_usuario       2500 non-null   object        
 9   duracao_plano        2500 non-null   int64         
dtypes: datetime64[ns](2), int64(4), object(4)
memory usage: 195.4+ KB


In [9]:
df_netflix

Unnamed: 0,id_usuario,tipo_plano,receita_mensal,dt_assinatura,dt_ultimo_pagamento,pais_usuario,idade_usuario,genero_usuario,device_usuario,duracao_plano
0,1,Basic,10,2022-01-15,2023-06-10,United States,28,Male,Smartphone,1
1,2,Premium,15,2021-09-05,2023-06-22,Canada,35,Female,Tablet,1
2,3,Standard,12,2023-02-28,2023-06-27,United Kingdom,42,Male,Smart TV,1
3,4,Standard,12,2022-07-10,2023-06-26,Australia,51,Female,Laptop,1
4,5,Basic,10,2023-05-01,2023-06-28,Germany,33,Male,Smartphone,1
...,...,...,...,...,...,...,...,...,...,...
2495,2496,Premium,14,2022-07-25,2023-07-12,Spain,28,Female,Smart TV,1
2496,2497,Basic,15,2022-08-04,2023-07-14,Spain,33,Female,Smart TV,1
2497,2498,Standard,12,2022-08-09,2023-07-15,United States,38,Male,Laptop,1
2498,2499,Standard,13,2022-08-12,2023-07-12,Canada,48,Female,Tablet,1
