<a href="https://colab.research.google.com/github/ViniciusGGR/Data-Science-Introduction/blob/main/Data_Science_Introduction.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# **Data Science**

**Data Science** - É uma *combinação de múltiplas disciplinas* que usa **estatística, análise de dados e aprendizado de máquina** para **analisar dados e extrair conhecimento e insights deles**.

Um **Cientista de Dados** ajuda as empresas com *decisões baseadas em dados*, para melhorar seus negócios.

* Um **Cientista de Dados** requer *experiência em diversas áreas*:
  * Aprendizado de máquina.
  * Estatistica.
  * Programação (**Python ou R**).
  * Matemática.
  * Bancos de dados.

Um **Cientista de Dados** deve **encontrar padrões nos dados**. *Antes de encontrar os padrões*, ele **deve organizar os dados em um formato padrão**.

1. **Faça as perguntas certas** - Para *entender o problema do negócio*.
2. **Explore e colete dados** - De Banco de dados (BD), logs da web, feedback de clientes, etc.
3. **Extraia os dados** - *Transformar os dados em um formato padronizado*.
4. **Limpe os dados** - *Remover valores errados dos dados*.
5. **Encontre e substitua valores ausentes** - *Verifique se há valores ausentes e substitua-os por um valor adequado* (por exemplo, um valor médio).
6. **Normalizar dados** - **Dimensione os valores em uma faixa prática** (por exemplo, *140 cm é menor que 1,8 m*. No entanto, o **número 140 é maior que 1,8**. - portanto, o dimensionamento é importante).
7. **Análise dados, encontre padrões e faça previsões futuras**.
8. **Representar o resultado** - Apresentar o resultado com insights úteis de uma forma que a "empresa/cliente" possa entender.



**Data Science** trata de *encontrar padrões em dados, por meio de análises, e fazer previsões futuras*.

* Ao usar **Data Science**, as empresas são capazes de fazer:
  * Melhores decisões (**A ou B**?)
  * Análise preditiva (**O que acontecerá a seguir**?)
  * Descoberta de padrões (**Encontrar padrões e/ou informações ocultas nos dados**.)

* Exemplos de onde **Data Science** é necessária:
  * Para *planejamento de rotas*: Para **descobrir as melhores rotas para enviar**.
  * Para *prever atrasos em voos, navios, trem*, etc. (Através de **análise preditiva**).
  * Para *criar ofertas promocionais*.
  * Para **encontrar o momento adequado para entregar mercadorias**.
  * Para *prever a receita do próximo ano para uma empresa*.
  * Para **analisar os benefícios do treinamento para a saúde**.
  * Para "**prever quem vencerá as eleições**".

* **Data Science** pode ser aplicada em quase todos os setores de uma empresa onde os dados estão disponíveis:
  * Bens de consumo.
  * Mercado de ações.
  * Indústria.
  * Política.
  * Empresas de logística.
  * Comércio eletrônico.

## O que são Dados?

**Dados** são uma **coleção de informações**.

* Um dos "objetivos" da **Ciência de Dados** é *estruturar os dados*, tornando-os **interpretáveis e fáceis de trabalhar**.

Os **Dados** podem ser *categorizados* em dois grupos:
* **Dados Estruturados**.
* **Dados Não Estruturados**.

## Dados - Não Estruturados

**Dados Não Estruturados** *não são organizados*. Deve-se **organizar os dados para fins de análise**.

### Como "Estruturar Dados"?

É possível usar um **array** ou uma **tabela de banco de dados** para *estruturar ou apresentar dados*.

```
[80, 85, 90, 95, 100, 105, 110, 115, 120, 125]
```

---

## Dados - Estruturados

**Dados Estruturados** *são organizados* e **mais fáceis de trabalhar**.

---

> É comum trabalhar com *conjuntos de dados* muito grandes em **Data Science**.

In [None]:
# Criando um 'array' em Python

numbers = [80, 85, 90, 95, 100, 105, 110, 115, 120, 125]
print(numbers)

[80, 85, 90, 95, 100, 105, 110, 115, 120, 125]


## Tabela - Banco de Dados

Uma _tabela de **Banco de Dados**_ é uma "*tabela*" com **dados estruturados**.

* Uma _tabela de **Banco de Dados**_ consiste em **linhas** e **colunas**:
  * Uma **linha** é uma representação *horizontal de dados*.
  * Uma **coluna** é uma representação *vertical de dados*.

---

## Variáveis

Uma **variável** é definida como *algo que* pode ser **medido** ou **contado**.

* Os exemplos podem ser **caracteres**, **números** ou **hora**.

> Cada *coluna* em uma **tabela** representa uma **variável**. A *primeira linha de uma coluna* é o "**rótulo**", o que significa que é o **nome da variável**.

## Data Science & Python

### Python

* **Python** é uma *linguagem de programação* amplamente utilizada por **Cientistas de Dados**.

* **Python** possui **bibliotecas** e *funções matemáticas integradas*, tornando mais fácil **calcular problemas matemáticos** e r**ealizar "análises de dados"**.

### Python Libraries

**Python** possui **bibliotecas** com *grandes coleções de funções matemáticas e ferramentas analíticas*.

Exemplos:
* **Pandas** - É usada para **operações estruturadas de dados**, como *importação de arquivos CSV*, *criação de dataframes* e **preparação de dados**.
* **Numpy** - Possui um poderoso **objeto de matriz N-dimensional**, **álgebra linear**, **transformada de Fourier**, etc.
* **Matplotlib** - É usada para **visualização de dados**.
* **SciPy** - Possui **módulos** de *álgebra linear*.

## Python DataFrame

### Criando um DataFrame com Pandas

Um **DataFrame** é uma *representação estruturada de dados*.

* Definindo um **DataFrame** com `3` **colunas** e `5` **linhas** com *números fictícios*:

In [1]:
import pandas as pd

d = {'col1': [1, 2, 3, 4, 7], 'col2': [4, 5, 6, 9, 5], 'col3': [7, 8, 12, 1, 11]}

df = pd.DataFrame(data=d)

print(df)

   col1  col2  col3
0     1     4     7
1     2     5     8
2     3     6    12
3     4     9     1
4     7     5    11


## Explicando o Código

* **`import pandas as pd`** - Importa a *biblioteca* **Pandas** com o "apelido" `pd`.
* **`d = {'col1': [1, 2, 3, 4, 7], 'col2': [4, 5, 6, 9, 5], 'col3': [7, 8, 12, 1, 11]}`** - Define os **dados** com *colunas* e *linhas* em uma **váriaval** chamada `d`.
* **`df = pd.DataFrame(data=d)`** - Cria um **DataFrame** usando a **função** `pd.DataFrame()`.
  * O **DataFrame** contém `3` *colunas* e `5` *linhas*.
* **`print(df)`** - Imprime a saída do **DataFrame** com a **função** `print()`.

> O `pd.` na frente de `DataFrame()` serve para informar ao **Python** que é para **ativar a função** `DataFrame()` da *biblioteca* **Pandas**.

Em **Python**, a *numeração das linhas* começa com `0`.

In [3]:
# Utilizando o 'df.shape[1]' para encontrar o número de colunas

count_column = df.shape[1]

print("Number of columns:")
print(count_column)

Number of columns:
3


In [4]:
# Utilizando o 'df.shape[0]' para encontrar o número de linhas

count_row = df.shape[0]

print("Number of rows:")
print(count_row)

Number of rows:
5


Ao trabalhar com *conjuntos de dados* maiores, com muitas **linhas** e **colunas**, será confuso contá-los sozinho. Por isso o uso de *funções integradas* do **Python**, elas *garantem que a contagem está correta*.