# Análise Uso da Netflix
## Por: Michel Souza Santana
### 22/08/2023

### Conjunto de dados escolhido
* https://www.kaggle.com/datasets/arnavsmayan/netflix-userbase-dataset

### Importando bibliotecas utilizadas no projeto

In [152]:
import pandas as pd

### Carregando o conjunto de dados

In [153]:
data = pd.read_csv('/home/michel/Documentos/Projetos_Github/netflix_analise/data/Netflix Userbase.csv')
data.head()

Unnamed: 0,User ID,Subscription Type,Monthly Revenue,Join Date,Last Payment Date,Country,Age,Gender,Device,Plan Duration
0,1,Basic,10,15-01-22,10-06-23,United States,28,Male,Smartphone,1 Month
1,2,Premium,15,05-09-21,22-06-23,Canada,35,Female,Tablet,1 Month
2,3,Standard,12,28-02-23,27-06-23,United Kingdom,42,Male,Smart TV,1 Month
3,4,Standard,12,10-07-22,26-06-23,Australia,51,Female,Laptop,1 Month
4,5,Basic,10,01-05-23,28-06-23,Germany,33,Male,Smartphone,1 Month


### Perguntas e objetivos da análise

#### Tendências de Receita:
* Como a receita mensal varia de acordo com o tipo de assinatura?
* Qual é a média de receita mensal por país?
* Existe alguma sazonalidade na receita mensal ao longo do ano?

#### Comportamento do Usuário:
* Qual é a idade média dos usuários por gênero?
* Quais são os dispositivos mais utilizados pelos usuários?
* xiste uma relação entre a idade dos usuários e a duração do plano de assinatura escolhido?

#### Retenção de Usuários:
* Qual é a taxa de retenção de usuários de um ano para o outro?
* Com que frequência os usuários fazem o último pagamento antes de parar de assinar?
* Os usuários mais jovens têm maior probabilidade de cancelar suas assinaturas?

#### Distribuição Geográfica:
* Quais são os países com maior número de assinantes?
* Existe uma diferença na receita mensal média entre os diferentes países?
* Há variações na idade média dos usuários entre os países?

#### Efeito da Duração do Plano:
* Os usuários com planos de longa duração tendem a permanecer assinantes por mais tempo?
* Qual é a distribuição das durações de plano escolhidas pelos usuários?
* Há alguma correlação entre a duração do plano e a idade do usuário?

#### Análise Temporal:
* Há alguma tendência de crescimento ou declínio na adesão ao longo dos anos?
* Existe alguma diferença nas taxas de pagamento entre os diferentes meses?

#### Segmentação do Gênero:
* Qual é a proporção de assinantes masculinos e femininos?
* Os usuários de diferentes gêneros têm preferências distintas em termos de planos de assinatura?

### Limpeza dos dados

In [154]:
data.dropna(inplace=True)

In [155]:
data.drop_duplicates('User ID', inplace=True)

In [156]:
data.head()

Unnamed: 0,User ID,Subscription Type,Monthly Revenue,Join Date,Last Payment Date,Country,Age,Gender,Device,Plan Duration
0,1,Basic,10,15-01-22,10-06-23,United States,28,Male,Smartphone,1 Month
1,2,Premium,15,05-09-21,22-06-23,Canada,35,Female,Tablet,1 Month
2,3,Standard,12,28-02-23,27-06-23,United Kingdom,42,Male,Smart TV,1 Month
3,4,Standard,12,10-07-22,26-06-23,Australia,51,Female,Laptop,1 Month
4,5,Basic,10,01-05-23,28-06-23,Germany,33,Male,Smartphone,1 Month


### Preparação dos dados

In [157]:
data.dtypes

User ID               int64
Subscription Type    object
Monthly Revenue       int64
Join Date            object
Last Payment Date    object
Country              object
Age                   int64
Gender               object
Device               object
Plan Duration        object
dtype: object

In [158]:
data['Join Date'] = pd.to_datetime(data['Join Date'])
data['Last Payment Date'] = pd.to_datetime(data['Last Payment Date'])

  data['Join Date'] = pd.to_datetime(data['Join Date'])
  data['Last Payment Date'] = pd.to_datetime(data['Last Payment Date'])


In [159]:
data.dtypes

User ID                       int64
Subscription Type            object
Monthly Revenue               int64
Join Date            datetime64[ns]
Last Payment Date    datetime64[ns]
Country                      object
Age                           int64
Gender                       object
Device                       object
Plan Duration                object
dtype: object

In [160]:
data['Join Date'] = pd.to_datetime(data['Join Date'], format='%Y/%m/%d')

In [161]:
data['Last Payment Date'] = pd.to_datetime(data['Last Payment Date'], format='%Y/%m/%d')

In [162]:
data['Start Year'] = pd.to_datetime(data['Join Date']).dt.year
data['Start Month'] = pd.to_datetime(data['Join Date']).dt.month

data['Last Year'] = pd.to_datetime(data['Last Payment Date']).dt.year
data['Last Month'] = pd.to_datetime(data['Last Payment Date']).dt.month

In [163]:
data.head()

Unnamed: 0,User ID,Subscription Type,Monthly Revenue,Join Date,Last Payment Date,Country,Age,Gender,Device,Plan Duration,Start Year,Start Month,Last Year,Last Month
0,1,Basic,10,2022-01-15,2023-10-06,United States,28,Male,Smartphone,1 Month,2022,1,2023,10
1,2,Premium,15,2021-05-09,2023-06-22,Canada,35,Female,Tablet,1 Month,2021,5,2023,6
2,3,Standard,12,2023-02-28,2023-06-27,United Kingdom,42,Male,Smart TV,1 Month,2023,2,2023,6
3,4,Standard,12,2022-10-07,2023-06-26,Australia,51,Female,Laptop,1 Month,2022,10,2023,6
4,5,Basic,10,2023-01-05,2023-06-28,Germany,33,Male,Smartphone,1 Month,2023,1,2023,6


### análises exploratórias

In [164]:
data.dtypes

User ID                       int64
Subscription Type            object
Monthly Revenue               int64
Join Date            datetime64[ns]
Last Payment Date    datetime64[ns]
Country                      object
Age                           int64
Gender                       object
Device                       object
Plan Duration                object
Start Year                    int32
Start Month                   int32
Last Year                     int32
Last Month                    int32
dtype: object

In [165]:
data.shape

(2500, 14)

In [166]:
data['Subscription Type'].unique()

array(['Basic', 'Premium', 'Standard'], dtype=object)

In [167]:
data['Monthly Revenue'].unique()

array([10, 15, 12, 13, 11, 14])

In [168]:
data['Age'].max()

51

In [169]:
data['Age'].min()

26

In [170]:
data['Age'].median()

39.0

In [171]:
data_female = data[data['Gender'] == 'Female']
data_female['Age'].count()

1257

In [172]:
data_male = data[data['Gender'] == 'Male']
data_male['Age'].count()

1243

In [173]:
data.groupby(['Country'])['Country'].count().sort_values(ascending=False)

Country
Spain             451
United States     451
Canada            317
Australia         183
Brazil            183
France            183
Germany           183
Italy             183
Mexico            183
United Kingdom    183
Name: Country, dtype: int64

In [174]:
data.groupby(['Start Year'])['Start Year'].count().sort_values(ascending=False)

Start Year
2022    2448
2023      38
2021      14
Name: Start Year, dtype: int64

### Visualização

### Relatório