"**Toda pergunta é um grito para entender o mundo. Não existe isso de pergunta idiota.**" 

Carl Sagan

#  Contextualização: Semana 14
Nas aulas anteriores, vocês aprenderam sobre banco de dados, como funcionam, e tiveram uma breve apresentação sobre pensamento analítico e o uso da biblioteca Pandas para manipular dados. Nesta aula, iremos aprofundar nossos conhecimentos em dados. Porém, antes de tudo é importante entender um conceito importante sobre dados: o que difere um dado do banco de dados para um dado em um gráfico? O processamento dessa informação. Vamos entender melhor?


Existem 3 conceitos que precisamos entender, o conceito de dados, informação e conhecimento.

    - Dados: são a unidade base da informação. São registros soltos sem contexto ou análise prévia.
        - Exemplo: Ontem Maria tinha batatas.
        
    - Informação: É a estruturação e organização dos dados. É a matéria base para o conhecimento.
        - Exemplo: Ontem Maria tinha batatas, hoje Maria tem 40 batatas.
        
    - Conhecimento: É a informação processada, que nos permite tirar ideias.
        - Exemplo: Como Maria tinha 40 batatas ontem e hoje ela tem apenas 20, em um dia ela perdeu 50% das suas batatas.


Agora que entendemos esses conceitos entre um dado e o conhecimento. Por que dados são tão importantes? E por que especialmente no século 21, dados viraram protagonistas?

![image](noticias_dados.png)

"Os dados são o novo petróleo. É valioso, mas se não for refinado não pode realmente ser usado (...) então os dados devem ser decompostos, analisados para que tenham valor." - Clive Humby (Tradução livre)

Essa frase foi criada por Clive Humby, um matemático londrino especializado em ciência de dados. Basicamente, ele defende que, assim como o petróleo precisa ser refinado, dados precisam ser analisados. A maior riqueza se encontra não nos dados em si, mas sim na capacidade de usá-los de forma analítica. A inteligência por trás deles é quem determina seu maior valor pois, a partir dela, serão extraídas as descobertas que irão influenciar na tomada de decisões, sejam elas grandes ou pequenas, das empresas.

E com esse fenômeno, as empresas estão cada vez mais com uma cultura data-driven. Mas o que é a cultura data-driven?

Empresas data driven são aquelas que planejam, executam e gerenciam estratégias com base em **dados**, com o objetivo de se manterem relevantes no mercado utilizando a análise de dados em suas tomadas de decisão. Empresas que seguem essa cultura, quando bem aplicadas, possuem vários benefícios, como:

- **Assertividade nas previsões**: Empresas de sucesso não vivem apenas o momento presente. Elas pautam suas decisões em previsões de mercado e se preparam para possíveis mudanças. Nesse momento, nada melhor do que contar com dados e informações seguras e confiáveis. A cultura data driven promove maior assertividade para o futuro das empresas por permitir que elas se preparem para os anos seguintes com base em noções sólidas do que está por vir em suas áreas.

- **Decisões mais ágeis**: A velocidade de tomada de decisões em uma empresa também diz muito sobre sua resiliência em meio às dificuldades do mercado. Com o auxílio de dados consistentes e business intelligence, as resoluções de problemas e a montagem de novas estratégias se tornam mais ágeis e pontuais.

- **Serviços e produtos superiores**: É inegável que produtos e serviços direcionados, por exemplo, para personas com características embasadas em dados advindos de pesquisas de mercado e online são muito mais propensos a gerar bons resultados e autoridade do que os divulgados arbitrariamente.

E no Brasil, quais empresas possuem essa cultura data-driven?
- Itaú
- Nubank
- iFood
- PicPay
- Stone


## Introdução à Análise de Dados

A análise de dados é o processo de buscar informações relevantes a partir de dados quantitativos e qualitativos de um determinado tema. Através da análise de dados, é possível confirmar e refutar hipóteses, identificar soluções para um problema e ser mais assertivo na tomada de decisões.

### Quais os tipos de análise de dados?
#### Análise preditiva
Neste tipo de análise, os dados são utilizados para fazer projeções e identificar tendências futuras a partir de determinados padrões previamente definidos.


#### Análise prescritiva
A análise prescritiva busca avaliar as consequências que certas decisões podem trazer, esse tipo de análise é geralmente utilizado para definir qual o melhor caminho para alcançar um objetivo definido.

Se a análise preditiva atua na previsão de comportamentos futuros, a análise prescritiva auxilia nas tomadas de decisão com o objetivo de melhorar o alcance de resultados e reduzir cenários negativos.

#### Análise descritiva
A análise descritiva é feita em cima de dados reais e passados, é descrever certos eventos que já ocorreram. Esse tipo de análise é normalmente é utilizada como um passo anterior às análises mais robustas, a etapa de descrição é o pontapé inicial para um estudo mais aprofundado.


#### Análise diagnóstica
Esse tipo de análise busca investigar as causas e efeitos dos eventos e objetos analisados.

Então, em resumo:

![img](tipos-de-analise.png)


E quais são as etapas da análise de dados?

1. Definição do problema;
2. Coleta dos dados;
3. Limpeza dos dados;
4. Análise dos dados;
5. Interpretação e visualização dos dados.


**Etapa 1 – Definição do problema**

Nesse primeiro momento, você precisa definir qual será o problema que você irá resolver. Estabeleça quais perguntas deverão ser respondidas.

Para que tenham o efeito desejado, os objetivos devem ser claros e mensuráveis, assim, as decisões serão tomadas com maior embasamento, você evitará desperdícios e as ações serão mais eficazes.


**Etapa 2 – Coleta dos dados**

Entenda de onde você precisará buscar informação para responder suas perguntas. Alguns lugares para buscar esses dados:
- Web scraping para coletar dados online;
- APIs;
- Dados públicos;
- Kaggle;

**Etapa 3 - Limpeza dos dados**

A limpeza de dados é um processo de eliminar inconsistências, ou seja, registros de baixa integridade, informações duplicadas, informações nulas, erradas ou de baixa relevância.

**Etapa 4 - Análise dos dados**

Nessa etapa, com as tabelas prontas, começamos a manipular os dados, agrupando, ordenando, buscando por padrões e o mais importante, buscando responder as perguntas que nós fizemos no início.

**Etapa 5 - Interpretação e visualização dos dados.**

Nessa etapa, os questionamentos iniciais devem ser respondidos e as conclusões precisam ser tomadas. Para melhorar a forma de comunicar os resultados, desenvolvemos gráficos, tabelas agregadas que possam melhorar o entendimento dos resultados obtidos.

Para explorarmos todas as etapas da análise de dados, iremos trabalhar em cima de uma base de dados da netflix.


## Dinâmica: Explorando os dados da Netflix

Em grupo, vocês irão abrir os dados da Netflix e definir um problema para responder com os dados. Entenda o tipo de dado que estamos trabalhando, qual o tipo de dados de cada coluna (inteiros, decimais, booleanos, strings), temos dados nulos? Quais colunas precisaremos manipular?


# Analisando dados da Netflix

Para começar, precisamos baixar o arquivo na plataforma da Kaggle:

 (https://www.kaggle.com/datasets/arnavsmayan/netflix-userbase-dataset), mas usando esse link:

 https://drive.google.com/drive/folders/1RuibSOdMp-cR6niAdbH8bRIj3PO4EOlh?usp=sharing

In [3]:
# importando os pacotes que iremos utilizar
import pandas as pd

# Coleta dos Dados

A primeira etapa, de coleta, envolve baixar e importar os dados da Netflix para o nosso ambiente.

Feito isso, utilizamos a função read_csv para importar o arquivo.

Nosso arquivo possui 10 colunas, e todas trazem informações sobre os usuários que utilizam a plataforma.

In [4]:
# importando os dados da Netflix
df_netflix = pd.read_csv('dados/netflix.csv')
df_netflix

Unnamed: 0,User ID,Subscription Type,Monthly Revenue,Join Date,Last Payment Date,Country,Age,Gender,Device,Plan Duration
0,1,Basic,10,15-01-22,10-06-23,United States,28,Male,Smartphone,1 Month
1,2,Premium,15,05-09-21,22-06-23,Canada,35,Female,Tablet,1 Month
2,3,Standard,12,28-02-23,27-06-23,United Kingdom,42,Male,Smart TV,1 Month
3,4,Standard,12,10-07-22,26-06-23,Australia,51,Female,Laptop,1 Month
4,5,Basic,10,01-05-23,28-06-23,Germany,33,Male,Smartphone,1 Month
...,...,...,...,...,...,...,...,...,...,...
2495,2496,Premium,14,25-07-22,12-07-23,Spain,28,Female,Smart TV,1 Month
2496,2497,Basic,15,04-08-22,14-07-23,Spain,33,Female,Smart TV,1 Month
2497,2498,Standard,12,09-08-22,15-07-23,United States,38,Male,Laptop,1 Month
2498,2499,Standard,13,12-08-22,12-07-23,Canada,48,Female,Tablet,1 Month


# Limpeza dos dados

Vamos começar a entender como nossos dados estão. Iremos explorar os tipos de dados que temos em cada coluna, e iremos checar dados nulos.

In [5]:
df_netflix.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 2500 entries, 0 to 2499
Data columns (total 10 columns):
 #   Column             Non-Null Count  Dtype 
---  ------             --------------  ----- 
 0   User ID            2500 non-null   int64 
 1   Subscription Type  2500 non-null   object
 2   Monthly Revenue    2500 non-null   int64 
 3   Join Date          2500 non-null   object
 4   Last Payment Date  2500 non-null   object
 5   Country            2500 non-null   object
 6   Age                2500 non-null   int64 
 7   Gender             2500 non-null   object
 8   Device             2500 non-null   object
 9   Plan Duration      2500 non-null   object
dtypes: int64(3), object(7)
memory usage: 195.4+ KB


Com a função info() observamos que não temos dados nulos, vamos confirmar? 

In [6]:
df_netflix.isnull().sum()

User ID              0
Subscription Type    0
Monthly Revenue      0
Join Date            0
Last Payment Date    0
Country              0
Age                  0
Gender               0
Device               0
Plan Duration        0
dtype: int64

Agora, com os dados transformados, vamos analisá-los!

# Analisando os dados

Iniciando nossa análise exploratória, é importante entendermos os nossos dados de forma geral. Para isso, podemos rodar o comando describe() para trazer as estatísticas descritivas das colunas numéricas da nossa tabela.

**id_usuario**: essa coluna é uma coluna de identificador, então as estatísticas aqui mostradas não possuem valor para nós, vamos ignorá-las.

**receita_mensal:** a partir das estatísticas extraídas dessa coluna, podemos notar que, a média da receita mensal por usuário é cerca de $12.5.

**idade_usuario:** a idade média dos usuários que adquiriram a assinatura da netflix é de 38 anos, com a idade mínima de 26 anos e máxima de 51.

**país:** o país que teve mais assinatura foi os Estados Unidos, com 451 pessoas assinantes.



In [7]:
df_netflix.describe(include='all').T

Unnamed: 0,count,unique,top,freq,mean,std,min,25%,50%,75%,max
User ID,2500.0,,,,1250.5,721.83216,1.0,625.75,1250.5,1875.25,2500.0
Subscription Type,2500.0,3.0,Basic,999.0,,,,,,,
Monthly Revenue,2500.0,,,,12.5084,1.686851,10.0,11.0,12.0,14.0,15.0
Join Date,2500.0,300.0,05-11-22,33.0,,,,,,,
Last Payment Date,2500.0,26.0,28-06-23,164.0,,,,,,,
Country,2500.0,10.0,United States,451.0,,,,,,,
Age,2500.0,,,,38.7956,7.171778,26.0,32.0,39.0,45.0,51.0
Gender,2500.0,2.0,Female,1257.0,,,,,,,
Device,2500.0,4.0,Laptop,636.0,,,,,,,
Plan Duration,2500.0,1.0,1 Month,2500.0,,,,,,,


In [8]:
# convertendo o tipo de dados para data
df_netflix['Last Payment Date'] = pd.to_datetime(df_netflix['Last Payment Date'])
df_netflix['Join Date'] = pd.to_datetime(df_netflix['Join Date'])

  df_netflix['Last Payment Date'] = pd.to_datetime(df_netflix['Last Payment Date'])
  df_netflix['Join Date'] = pd.to_datetime(df_netflix['Join Date'])


In [9]:
df_netflix.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 2500 entries, 0 to 2499
Data columns (total 10 columns):
 #   Column             Non-Null Count  Dtype         
---  ------             --------------  -----         
 0   User ID            2500 non-null   int64         
 1   Subscription Type  2500 non-null   object        
 2   Monthly Revenue    2500 non-null   int64         
 3   Join Date          2500 non-null   datetime64[ns]
 4   Last Payment Date  2500 non-null   datetime64[ns]
 5   Country            2500 non-null   object        
 6   Age                2500 non-null   int64         
 7   Gender             2500 non-null   object        
 8   Device             2500 non-null   object        
 9   Plan Duration      2500 non-null   object        
dtypes: datetime64[ns](2), int64(3), object(5)
memory usage: 195.4+ KB


In [None]:
# há quanto tempo as pessoas estão inscritas na Netflix?
df_netflix['duracao_assinatura'] = df_netflix['Last Payment Date'] - df_netflix['Join Date']
df_netflix['duracao_assinatura'] = df_netflix['duracao_assinatura'].dt.days
df_netflix

In [None]:
# Com base na função describe() percebemos que a média de tempo que as pessoas se inscrevem é de cerca de 326 dias, quase um ano.
# Mas, pera aí, o que são esse números negativos no minimo?
df_netflix.describe().T

In [None]:
# vamos validar esses numeros?
df_netflix[(df_netflix['duracao_assinatura'] < 0)]

In [None]:
# Encontramos valores inconsistentes, onde o dado não faz sentido. Como não possuímos contexto suficiente sobre essa tabela para entender
# o motivo de termos dt_ultimo_pagamento maior que dt_assinatura, iremos retirar essas linhas para não enviezar nossos resultados.
df_netflix = df_netflix.drop(df_netflix[df_netflix['duracao_assinatura'] < 0].index)
df_netflix

In [None]:
# Agora sim, tirando os dados negativos, nossa média de duração de assinatura subiu um pouco, e agora podemos visualizar que o tempo mínimo
# que as pessoas assinam a netflix é de 8 dias, e o máximo da base é 776 dias.
df_netflix.describe().T

In [None]:
# Antes de continuarmos nossa análise, existe mais um passo que devemos fazer: resetar o index. Como retiramos algumas linhas da nossa tabela, o
# índice, ou seja, coluna mais à esquerda, porem ela ainda está com o intervalo de 1-2499.
df_netflix = df_netflix.reset_index(drop=True)
df_netflix

# agora sim! nossa coluna de index está coerente. Vamos continuar!

In [None]:
# outra análise interessante de se fazer, será que existe um mês com um maior número de vendas?
df_netflix['dt_mes'] = df_netflix['Join Date'].dt.month
df_netflix['dt_mes'].value_counts()

In [None]:
# Utilizando a função value_counts() conseguimos ter uma ideia de qual é a assinatura mais comum, porém, em números absolutos
# é dificil entender a proporção entre os 3 planos.
df_netflix["Subscription Type"].value_counts()

In [None]:
# Para isso, colocamos um parâmetro dentro da nossa função, e ele nos devolve os valores em porcentagem sobre o total.
df_netflix["Subscription Type"].value_counts(normalize=True)

# daqui, percebemos que o pacote mais recorrente é o Basic.

In [None]:
# Vamos entender também, quais sao os países com o maior número de assinaturas: em valor absoluto
df_netflix["Country"].value_counts()

In [None]:
# Vamos entender também, quais sao os países com o maior número de assinaturas: em percentual
df_netflix["Country"].value_counts(normalize=True)

In [None]:
# Vamos criar intervalos de idade para entender melhor nossos usuários?
# Iremos criar categorias de idades com o intervalo de 4 em 4 anos.
# ou seja, 20-24, 25-29, 30-34, 35-39, 40-44, 45-49, 50-54, 55-59, +60

df_netflix.loc[df_netflix['Age'] < 25, 'grupo_idade'] = '20-24'
df_netflix.loc[(df_netflix['Age'] >= 25) & (df_netflix['Age'] < 30), 'grupo_idade'] = '25-29'
df_netflix.loc[(df_netflix['Age'] >= 30) & (df_netflix['Age'] < 35), 'grupo_idade'] = '30-34'
df_netflix.loc[(df_netflix['Age'] >= 35) & (df_netflix['Age'] < 40), 'grupo_idade'] = '35-39'
df_netflix.loc[(df_netflix['Age'] >= 40) & (df_netflix['Age'] < 45), 'grupo_idade'] = '40-44'
df_netflix.loc[(df_netflix['Age'] >= 45) & (df_netflix['Age'] < 50), 'grupo_idade'] = '45-49'
df_netflix.loc[(df_netflix['Age'] >= 50) & (df_netflix['Age'] < 55), 'grupo_idade'] = '50-54'
df_netflix.loc[(df_netflix['Age'] >= 55) & (df_netflix['Age'] < 60), 'grupo_idade'] = '55-59'
df_netflix.loc[df_netflix['Age'] >= 60, 'grupo_idade'] = '60+'
df_netflix

In [None]:
# com o grupo de idades feito, qual será a faixa etária mais recorrente?
df_netflix["grupo_idade"].value_counts()

# Visualização dos dados

In [None]:
# !pip install python-matplotlib
# !pip install seaborn

In [None]:
# importando os pacotes que iremos utilizar
import matplotlib.pyplot as plt
import seaborn as sns

In [None]:
# definir tamanho da figura
plt.figure(figsize=(8, 6))

# instanciar o tipo de plotagem, no caso, um countplot usando x como as faixas etárias
sns.countplot(data = df_netflix,
              x = 'grupo_idade')

# definir texto do título e eixos x e y
plt.title('Contagem de faixas etárias')
plt.xlabel('Faixa etária')
plt.ylabel('Contagem')
plt.show()

In [None]:
# definir tamanho da figura
plt.figure(figsize=(8, 6))

# instanciar o tipo de plotagem, no caso, um countplot usando x como os tipos de plano
sns.countplot(data = df_netflix,
              x = 'Subscription Type')

# definir texto do título e eixos x e y
plt.title('Contagem dos tipos de plano de assinatura')
plt.xlabel('Plano de assinatura')
plt.ylabel('Contagem')

plt.show()

In [None]:
# definir tamanho da figura
plt.figure(figsize=(10, 6))

# instanciar o tipo de plotagem, no caso, um countplot usando x como os tipos
# de plano com tonalidades das barras definidas pela faixa etária

sns.countplot(data = df_netflix,
              x = 'Subscription Type',
              hue = 'grupo_idade')

# definir texto do título e eixos x e y

plt.title('Planos de assinatura por faixa etária')
plt.xlabel('Faixa etária')
plt.ylabel('Contagem')

# plotar e definir texto da legenda
plt.legend(title = 'Faixa etária')

plt.show()

In [None]:
# definir tamanho da figura
plt.figure(figsize=(12, 6))

# instanciar o tipo de plotagem, no caso, um countplot usando x como os países
# com tonalidades das barras definidas pela faixa etária

sns.countplot(data = df_netflix,
              x = 'Country',
              hue = 'grupo_idade')

# definir texto do título e eixos x e y

plt.title('Países por faixa etária')
plt.xlabel('País')
plt.ylabel('Contagem')

# como o texto do eixo x é longo, podemos rotacioná-lo para melhorar a visualização
plt.xticks(rotation=330)

# plotar e definir texto da legenda
plt.legend(title = 'Faixa etária')
plt.show()

In [None]:
# definir tamanho da figura

plt.figure(figsize=(12, 6))

# instanciar o tipo de plotagem, no caso, um countplot usando x como os países
# com tonalidades das barras definidas pelo tipo de plano

sns.countplot(data = df_netflix,
              x = 'Country',
              hue = 'Subscription Type')

# definir texto do título e eixos x e y
plt.title('Países por tipo de plano')
plt.xlabel('País')
plt.ylabel('Contagem')

# como o texto do eixo x é longo, podemos rotacioná-lo para melhorar a visualização
plt.xticks(rotation=330)

# plotar e definir texto da legenda
plt.legend(title = 'Tipo de plano')

plt.show()

# Hora de praticar

Agora é sua vez de colocar a mão na massa! Em grupos, respondam as seguintes perguntas sobre os dados:

1. Quantos usuários utilizam a Netflix pelo Tablet?
2. Qual é a representatividade (em %) do sistema operacional mais utilizado para assistir Netflix?
3. Crie visualizações que responda as seguintes perguntas:
    1. Qual é o sistema operacional mais usado para cada faixa etária? Existe algum padrão? O tipo de aparelho muda de acordo com o grupo de idade?
    2. No Brasil, qual é o sistema operacional mais utilizado?

In [None]:
# 1 - Quantos usuários utilizam a Netflix pelo Tablet?


In [None]:
# 2 - Qual é a representatividade (em %) do sistema operacional (device) mais utilizado para assistir Netflix?


In [None]:
# 3 Crie visualizações que responda as seguintes perguntas:
   # 1. Qual é o sistema operacional mais usado para cada faixa etária? Existe algum padrão? O tipo de aparelho muda de acordo com o grupo de idade?
   # 2. No Brasil, qual é o sistema operacional mais utilizado?