"**Toda pergunta é um grito para entender o mundo. Não existe isso de pergunta idiota.**" 

Carl Sagan

#  Contextualização: Semana 14
Nas aulas anteriores, vocês aprenderam sobre banco de dados, como funcionam, e tiveram uma breve apresentação sobre pensamento analítico e o uso da biblioteca Pandas para manipular dados. Nesta aula, iremos aprofundar nossos conhecimentos em dados. Porém, antes de tudo é importante entender um conceito importante sobre dados: o que difere um dado do banco de dados para um dado em um gráfico? O processamento dessa informação. Vamos entender melhor?


Existem 3 conceitos que precisamos entender, o conceito de dados, informação e conhecimento.

    - Dados: são a unidade base da informação. São registros brutos, sem contexto ou análise prévia.
        - Exemplo: Você tem um dispositivo wearable (como um smartwatch) que coleta dados brutos sobre a sua frequência cardíaca ao longo do dia. Estes dados são simplesmente números: 72, 80, 65, 90... batimentos por minuto em diferentes momentos.
        
    - Informação: É a estruturação e organização dos dados. É a matéria base para o conhecimento.
        - Exemplo: Agora, você organiza os dados de frequência cardíaca em um gráfico ao longo do tempo. Ao ver o gráfico, você percebe que sua frequência cardíaca normalmente varia entre 60 e 80 batimentos por minuto, mas subiu para 90 durante a tarde. O gráfico proporciona contexto, mostrando quando e como a frequência cardíaca mudou, transformando dados brutos em informação.
        
    - Conhecimento: É a interpretação e análise das informações. É a compreensão dos padrões e tendências que surgem.
        - Exemplo: Com base na informação de que sua frequência cardíaca subiu para 90 batimentos por minuto à tarde, você se lembra que estava fazendo exercício físico naquele horário. Agora, você entende que o aumento na frequência cardíaca está relacionado à atividade física, e que esse padrão é normal e saudável. Este entendimento é o conhecimento.
    
    - Sabedoria: Capacidade de aplicar o conhecimento de forma prática e ética, fazendo julgamentos ou decisões informadas.
        - Exemplo: Com o conhecimento de que sua frequência cardíaca aumenta durante o exercício, você decide ajustar seu plano de exercícios para maximizar os benefícios cardiovasculares sem sobrecarregar seu coração. Além disso, se você notar aumentos incomuns na frequência cardíaca fora dos horários de exercício, você sabe que deve consultar um médico. Esta decisão e a ação baseada no conhecimento adquirido demonstram sabedoria.

<br>

<center>
<img src="DIKW-pyramid.png" text="https://edisciplinas.usp.br/mod/book/view.php?id=4828452&chapterid=25988" width=750px>


Pirâmide DIKW (Data , Information, Knowledge, Wisdom, em inglês, ou Dados, Informação, Conhecimento, Inteligência)
</center>

<br>
Atualmente, os dados são gerados e transformados em informação, que, por sua vez, são transformados em conhecimento e inteligência.


Agora que entendemos esses conceitos entre um dado e o conhecimento. Por que dados são tão importantes? E por que especialmente no século 21, dados viraram protagonistas?

<img src=noticias_dados.png width=600>

"Os dados são o novo petróleo. É valioso, mas se não for refinado não pode realmente ser usado (...) então os dados devem ser decompostos, analisados para que tenham valor." - Clive Humby (Tradução livre)

Essa frase foi criada por Clive Humby, um matemático londrino especializado em ciência de dados. Basicamente, ele defende que, **assim como o petróleo precisa ser refinado, dados precisam ser analisados**. A maior riqueza se encontra não nos dados em si, mas sim na capacidade de usá-los de forma analítica. A inteligência por trás deles é quem determina seu maior valor pois, a partir dela, serão extraídas as descobertas que irão influenciar na tomada de decisões, sejam elas grandes ou pequenas, das empresas.

## Data-driven

E com esse fenômeno, as empresas estão cada vez mais com uma cultura data-driven. Mas o que é a cultura data-driven?

Empresas data driven são aquelas que planejam, executam e gerenciam estratégias com base em **dados**, com o objetivo de se manterem relevantes no mercado utilizando a análise de dados em suas tomadas de decisão. Empresas que seguem essa cultura, quando bem aplicadas, possuem vários benefícios, como:

- **Assertividade nas previsões**: Empresas de sucesso não vivem apenas o momento presente. Elas pautam suas decisões em previsões de mercado e se preparam para possíveis mudanças. Nesse momento, nada melhor do que contar com dados e informações seguras e confiáveis. A cultura data driven promove maior assertividade para o futuro das empresas por permitir que elas se preparem para os anos seguintes com base em noções sólidas do que está por vir em suas áreas.

- **Decisões mais ágeis**: A velocidade de tomada de decisões em uma empresa também diz muito sobre sua resiliência em meio às dificuldades do mercado. Com o auxílio de dados consistentes e business intelligence, as resoluções de problemas e a montagem de novas estratégias se tornam mais ágeis e pontuais.

- **Serviços e produtos superiores**: É inegável que produtos e serviços direcionados, por exemplo, para personas com características embasadas em dados advindos de pesquisas de mercado e online são muito mais propensos a gerar bons resultados e autoridade do que os divulgados arbitrariamente.

<center>
<img src="4 pillars of data-driven content culture.png" text="https://www.airswift.com/blog/how-to-build-a-solid-data-culture" width=500px>
</center>

E no Brasil, quais empresas possuem essa cultura data-driven?
- Itaú
- Nubank
- iFood
- PicPay
- Stone


## Introdução à Análise de Dados

A análise de dados é o processo de buscar informações relevantes a partir de dados quantitativos e qualitativos de um determinado tema. Através da análise de dados, é possível confirmar e refutar hipóteses, identificar soluções para um problema e ser mais assertivo na tomada de decisões.

<center>
<img src="hipotese.png" text="https://pt.slideshare.net/vitor_vasconcelos/mtodos-e-tcnicas-de-anlise-da-informao-para-planejamento#4" width=500px>
</center>

### Quais os tipos de análise de dados?

#### Análise descritiva
A análise descritiva é feita em cima de dados reais e passados, é descrever certos eventos que já ocorreram. Esse tipo de análise é normalmente é utilizada como um passo anterior às análises mais robustas, a etapa de descrição é o pontapé inicial para um estudo mais aprofundado.

#### Análise diagnóstica
Esse tipo de análise busca investigar as causas e efeitos dos eventos e objetos analisados.

#### Análise preditiva
Neste tipo de análise, os dados são utilizados para fazer projeções e identificar tendências futuras a partir de determinados padrões previamente definidos.

#### Análise prescritiva
A análise prescritiva busca avaliar as consequências que certas decisões podem trazer, esse tipo de análise é geralmente utilizado para definir qual o melhor caminho para alcançar um objetivo definido.

Se a análise preditiva atua na previsão de comportamentos futuros, a análise prescritiva auxilia nas tomadas de decisão com o objetivo de melhorar o alcance de resultados e reduzir cenários negativos.

Então, em resumo:

<center>
<img src="tipos_analises_dados_exemplo.png" text="https://www.tqmi.com/blogs/what-you-need-to-know-about-these-types-of-analytics/" width=700px>
</center>


### Etapas da análise de dados
E quais são as etapas da análise de dados?

1. Definição do problema;
2. Coleta dos dados;
3. Limpeza dos dados;
4. Análise dos dados;
5. Interpretação e visualização dos dados.


<center>
<img src="the-data-analysis-process.jpg" text="https://careerfoundry.com/en/blog/data-analytics/the-data-analysis-process-step-by-step/" width=600>
</center>

**Etapa 1 – Definição do problema**

Nesse primeiro momento, você precisa definir qual será o problema que você irá resolver. Estabeleça quais perguntas deverão ser respondidas.

Para que tenham o efeito desejado, os objetivos devem ser claros e mensuráveis, assim, as decisões serão tomadas com maior embasamento, você evitará desperdícios e as ações serão mais eficazes.


**Etapa 2 – Coleta dos dados**

Entenda de onde você precisará buscar informação para responder suas perguntas. Alguns lugares para buscar esses dados:
- Web scraping para coletar dados online;
- APIs;
- Dados públicos;
- Kaggle;

**Etapa 3 - Limpeza dos dados**

A limpeza de dados é um processo de:

- eliminar inconsistências, ou seja, registros de baixa integridade
- remover informações duplicadas
- tratar informações nulas, erradas ou de baixa relevância
- padronizar nomes de colunas
- validar integridade dos dados (verificação de que os dados atendem a regras específicas como ID único, relacionamentos entre tabelas, intervalos numéricos plausíveis)
- tratar tipos de dados incorretos (por exemplo, converter números armazenados como strings para inteiros ou floats, converter datas para o formato específico).
- remoção de dados irrelevantes através da exclusão de colunas ou registros que não são necessários para a análise.
- transformação de dados para atender a um formato necessário para análise ou modelagem (como agregação de dados, binning, ou criação de variáveis derivadas).
- identificação de valores que estão fora do padrão esperado e podem ser erros de entrada ou dados que necessitam de tratamento específico.

**Etapa 4 - Análise dos dados**

Nessa etapa, com as tabelas prontas, começamos a manipular os dados, agrupando, ordenando, buscando por padrões e o mais importante, buscando responder as perguntas que nós fizemos no início.

**Etapa 5 - Interpretação e visualização dos dados.**

Nessa etapa, os questionamentos iniciais devem ser respondidos e as conclusões precisam ser tomadas. Para melhorar a forma de comunicar os resultados, desenvolvemos gráficos, tabelas agregadas que possam melhorar o entendimento dos resultados obtidos.

Para explorarmos todas as etapas da análise de dados, iremos trabalhar em cima de uma base de dados da netflix.


# Explorando os dados da Netflix

### Dinâmica

Em grupo, vocês irão abrir os dados da Netflix e definir um problema para responder com os dados. Entenda o tipo de dado que estamos trabalhando, qual o tipo de dados de cada coluna (inteiros, decimais, booleanos, strings), temos dados nulos? Quais colunas precisaremos manipular?

E defina três perguntas que podem ser respondidas com esse dado

- https://www.kaggle.com/datasets/arnavsmayan/netflix-userbase-dataset

- https://drive.google.com/drive/folders/1RuibSOdMp-cR6niAdbH8bRIj3PO4EOlh?usp=sharing


## Coleta dos Dados

A etapa de coleta envolve baixar e importar os dados da Netflix para o nosso ambiente.

Feito isso, utilizamos a função read_csv para importar o arquivo.

Nosso arquivo possui 10 colunas, e todas trazem informações sobre os usuários que utilizam a plataforma.

In [None]:
# importando os pacotes que iremos utilizar
import pandas as pd

In [None]:
# importando os dados da Netflix
df_netflix = pd.read_csv('dados/netflix.csv')
df_netflix

**id_usuario**: essa coluna é uma coluna de identificador, então as estatísticas aqui mostradas não possuem valor para nós, vamos ignorá-las.

**receita_mensal:** a partir das estatísticas extraídas dessa coluna, podemos notar que, a média da receita mensal por usuário é cerca de $12.5.

**idade_usuario:** a idade média dos usuários que adquiriram a assinatura da netflix é de 38 anos, com a idade mínima de 26 anos e máxima de 51.

**país:** o país que teve mais assinatura foi os Estados Unidos, com 451 pessoas assinantes.

## Limpeza dos dados

<center>
<img src="data_cleaning.jpg" text="https://www.kdnuggets.com/mastering-the-art-of-data-cleaning-in-python" width=400>

Vamos começar a entender como nossos dados estão. Iremos explorar os tipos de dados que temos em cada coluna, e iremos checar dados nulos.

Com o método `info()` observamos que não temos dados nulos, vamos confirmar? 

E dados duplicados? Temos algum?

Com o método `info()` vemos que o python já conseguiu entender bem o tipo de dado de cada uma das colunas, mas as colunas de data precisam ser convertidas pois aparecem como tipo `object`.

In [None]:
# convertendo o tipo de dados para data


In [None]:
df_netflix.info()

Iniciando nossa análise exploratória, é importante entendermos os nossos dados de forma geral. Para isso, podemos rodar o método `describe()` para trazer as estatísticas descritivas das colunas numéricas da nossa tabela.


O método `describe()` só traz as análises para as colunas numéricas. Se também queremos analisar as colunas de objetos podemos utilizar o parâmetro `include='all'`:

Há quanto tempo as pessoas estão inscritas na Netflix (tenure)? Vamos criar uma nova coluna chamada 'duracao_assinatura' baseada na diferença entre 'Last Payment Date' e 'Join Date'.


Vamos ver como está a distribuição dos dados dessa nova coluna usando o `describe()`:

Com base no método `describe()` percebemos que a média de tempo que as pessoas se inscrevem é de cerca de 326 dias, quase um ano.

Mas, pera aí, o que são esse números negativos no minimo?

Encontramos valores inconsistentes, onde o dado não faz sentido. Como não possuímos contexto suficiente sobre essa tabela para entender o motivo de termos dt_ultimo_pagamento maior que dt_assinatura, iremos retirar essas linhas para não enviezar nossos resultados.


Vamos ver o `describe` como ficou?

Agora sim, tirando os dados negativos nossa média de duração de assinatura subiu um pouco.

Podemos visualizar que o tempo mínimo que as pessoas assinam a netflix é de 8 dias e o máximo é de 776 dias.

## Analisando os dados

Finalizada essa primeira limpeza dos dados (nada impede de termos que voltar a fazer isso depois de algumas análises) vamos seguir analisando alguns desses dados.

#### Será que existe um mês com um maior número de entrada de usuários?

Para saber isso vamos criar uma coluna com o valor do mês partindo de 'Join Date'

#### Qual a assinatura mais comum?

Vamos utilizar o método `value_counts()` para descobrir.

Utilizando esse método `value_counts()` conseguimos ter uma ideia de qual é a assinatura mais comum, porém, em números absolutos é dificil entender a proporção entre os 3 planos.

Para isso, colocamos o parâmetro `normalize=True` dentro do nosso método, e ele nos devolve os valores em porcentagem sobre o total.


daqui, percebemos que o pacote mais recorrente é o Basic.

**Atividade:**

Descubra quais são os países com o maior número de assinaturas em valor absoluto e proporcional.

#### Qual o perfil de idades dos usuários?

Vamos criar intervalos de idade para entender melhor nossos usuários?

Para isso iremos criar categorias de idades com o intervalo de 4 em 4 anos, ou seja, 20-24, 25-29, 30-34, 35-39, 40-44, 45-49, 50-54, 55-59, +60.

In [None]:
df_netflix.loc[df_netflix['Age'] < 25, 'grupo_idade'] = '20-24'
df_netflix.loc[(df_netflix['Age'] >= 25) & (df_netflix['Age'] < 30), 'grupo_idade'] = '25-29'
df_netflix.loc[(df_netflix['Age'] >= 30) & (df_netflix['Age'] < 35), 'grupo_idade'] = '30-34'
df_netflix.loc[(df_netflix['Age'] >= 35) & (df_netflix['Age'] < 40), 'grupo_idade'] = '35-39'
df_netflix.loc[(df_netflix['Age'] >= 40) & (df_netflix['Age'] < 45), 'grupo_idade'] = '40-44'
df_netflix.loc[(df_netflix['Age'] >= 45) & (df_netflix['Age'] < 50), 'grupo_idade'] = '45-49'
df_netflix.loc[(df_netflix['Age'] >= 50) & (df_netflix['Age'] < 55), 'grupo_idade'] = '50-54'
df_netflix.loc[(df_netflix['Age'] >= 55) & (df_netflix['Age'] < 60), 'grupo_idade'] = '55-59'
df_netflix.loc[df_netflix['Age'] >= 60, 'grupo_idade'] = '60+'
df_netflix

Com o grupo de idades feito, qual será a faixa etária mais recorrente?


Vamos ver graficamente essa distribuição de usuários por faixa etária?

# Visualização dos dados

In [None]:
# !pip install python-matplotlib
# !pip install seaborn

In [None]:
# importando os pacotes que iremos utilizar


#### Countplot
O countplot do Seaborn é uma função usada para criar gráficos de barras que representam a contagem/frequência de observações em cada categoria de uma variável categórica.

Ele é ideal para visualizar a **distribuição de variáveis categóricas**, identificar desequilíbrios nos dados, ou simplesmente entender a frequência de ocorrências de diferentes categorias.

**Atividade**:
Façam agora uma visualização para verificarmos a distribuição dos tipos de planos de assinaturas.

E agora se quisermos visualizar qual o tipo de plano de assinatura preferido dos diferentes grupos etários em um mesmo gráfico?

Podemos também olhar esse mesmo gráfico de uma outra forma:

#### Qual é a distribuição da quantidade de usuários de cada país separado pelos grupos de idade? Existe algum país com uma quantidade maior de pessoas mais novas? E mais velhas?

#### Qual é a distribuição dos planos de assinatura por país?

# Hora de praticar

Agora é sua vez de colocar a mão na massa! Em grupos, respondam as seguintes perguntas sobre os dados:

1. Quantos usuários utilizam a Netflix pelo Tablet?
2. Qual é a representatividade (em %) do sistema operacional mais utilizado para assistir Netflix?
3. Crie visualizações que responda as seguintes perguntas:
    1. Qual é o sistema operacional mais usado para cada faixa etária? Existe algum padrão? O tipo de aparelho muda de acordo com o grupo de idade?
    2. No Brasil, qual é o sistema operacional mais utilizado?

In [None]:
# 1 - Quantos usuários utilizam a Netflix pelo Tablet?


In [None]:
# 2 - Qual é a representatividade (em %) do sistema operacional (device) mais utilizado para assistir Netflix?


In [None]:
# 3 Crie visualizações que responda as seguintes perguntas:
   # 1. Qual é o sistema operacional mais usado para cada faixa etária? Existe algum padrão? O tipo de aparelho muda de acordo com o grupo de idade?
   # 2. No Brasil, qual é o sistema operacional mais utilizado?