# **Data Acquisition I**

## **Objetivo**

* Rastrear a origem dos dados e seu uso.
* Ler dados com Pandas.
## **Introdução à aquisição de dados**

### **Compreensão do problema**

#### **Entendimento do caso de negócio**

Antes de buscar dados, é muito importante entender o problema de negócio e ter uma noção de como resolvê-lo.

#### **Ponto de partida**

* Qual problema quero solucionar?
* Quais tipos de dados são necessários para fazer a análise?
* Onde posso encontrar esses dados?
* Como acesso esses dados?
* Esses dados existem?

### **Aquisição de dados**
#### **O que é a aquisição de dados?**
* No processo de coleta de dados, será decidido quais dados serão adquiridos, como e por que, para, em seguida, poder explorá-los.
* Não há uma forma padrão, já que existem muitos tipos de fontes e projetos.
* Pode ser adquirido ou herdado da mesma organização, buscado de forma externa ou comprado.

### Em termos gerais, o que faz um(a) cientista de dados?**
![1722514212_0910_01082024_973x490.png](attachment:2f22a95e-15ab-411e-b2d8-d9e013d231c4.png)

### **Organização de Dados da Companhia**

A aquisição de dados dependerá do nível de maturidade da companhia em relação à governança e gerenciamento interno de dados.

## **Data Management Maturity Model**

Na indústria, a administração de dados passa por 5 níveis que definem sua maturidade.

### **Nível 1**
* Pouca ou nenhuma governança.
* Funções definidas dentro dos repositórios (data silos).
* Problemas não abordados sobre a qualidade de dados.

### **Nível 2**
* Gestão inicial.
* Instrução consistente de ferramentas.
* Algumas funções e processos definidos.
* Crescente noção dos impactos dos problemas de qualidade de dados.

### **Nível 3**
* Data vista como um habilitador organizacional.
* Processos e ferramentas escaláveis.
* Metas estabelecidas considerando a qualidade dos dados.
* Automatização de processos.

### **Nível 4**
* Gestão centralizada e planejada.
* Gestão de Riscos associados aos dados.
* Métricas de Performance de Iniciativas de dados.
* Métricas de melhoria de Qualidade dos dados.

### **Nível 5**
* Processos com Alta Previsão.
* Risco Reduzido.
* Métricas bem estabelecidas e implementadas para medir a qualidade dos dados.

## **Revisão dos tipos de dados**
### **Tipos de dados**

**<code style="color : green">Estrutura</code>**

São arquivos que normalmente mostram os dados em linhas e colunas com títulos. São dados que podem ser facilmente ordenados e processados por todas as ferramentas de mineração de dados.

**<code style="color : yellowgreen">Semiestrutura</code>**

Têm algumas características consistentes e definidas, não se limitam a uma estrutura rígida como aquela necessária para os bancos de dados relacionais.

**<code style="color : #8E25BE">Semiestrutura</code>**

Não têm estrutura identificada.

## **Leitura de fontes de dados com pandas**

**Para lembrar: _leitura de dados com pandas_**

Pandas é uma biblioteca com grande potencial para leitura de dados. Algumas facilidades apresentadas por suas funções de leitura:

* Lidar com codificações estranhas
* Cabeçalhos de tabelas
* Colunas
* Converter colunas de datas
* Estabelecer os tipos de dados
* Encontrar e localizar dados inválidos
* Adicionar dados a um arquivo  existente

## **Leitura de tabelas em arquivos simples**

**Leitura e escrita de arquivos simples com pandas**

* Um arquivo **CSV (valores separados por vírgulas)** é um arquivo de texto que tem um formato específico e permite armazenar dados em formato de tabela estruturada.
* **read_csv** é uma função do Pandas para ler esse tipo de arquivo.
* Pode ler arquivos em formato tabela com outros delimitadores.

### **Exemplo:**

In [3]:
import pandas as pd

In [3]:
df = pd.read_csv('https://raw.githubusercontent.com/jherfson/curso-coderhouse/main/aula11/dates.txt', sep=',')
df

Unnamed: 0,date,product,price
0,1/1/2019,A,10
1,2/1/2020,B,20
2,3/1/1998,C,30


### **Leitura de arquivos simples com Pandas**
**Fonte dos dados:** [Kaggle](https://www.kaggle.com/datasets/camnugent/california-housing-prices)

In [4]:
df = pd.read_csv('https://raw.githubusercontent.com/jherfson/curso-coderhouse/main/aula11/housing.csv', sep=';')
df.head()

Unnamed: 0,"longitude,latitude,housing_median_age,total_rooms,total_bedrooms,population,households,median_income,median_house_value,ocean_proximity"
0,"-122.23,37.88,41.0,880.0,129.0,322.0,126.0,8.3..."
1,"-122.22,37.86,21.0,7099.0,1106.0,2401.0,1138.0..."
2,"-122.24,37.85,52.0,1467.0,190.0,496.0,177.0,7...."
3,"-122.25,37.85,52.0,1274.0,235.0,558.0,219.0,5...."
4,"-122.25,37.85,52.0,1627.0,280.0,565.0,259.0,3...."


In [5]:
df = pd.read_csv('https://raw.githubusercontent.com/jherfson/curso-coderhouse/main/aula11/housing.csv', sep=',')
df.head()

Unnamed: 0,longitude,latitude,housing_median_age,total_rooms,total_bedrooms,population,households,median_income,median_house_value,ocean_proximity
0,-122.23,37.88,41.0,880.0,129.0,322.0,126.0,8.3252,452600.0,NEAR BAY
1,-122.22,37.86,21.0,7099.0,1106.0,2401.0,1138.0,8.3014,358500.0,NEAR BAY
2,-122.24,37.85,52.0,1467.0,190.0,496.0,177.0,7.2574,352100.0,NEAR BAY
3,-122.25,37.85,52.0,1274.0,235.0,558.0,219.0,5.6431,341300.0,NEAR BAY
4,-122.25,37.85,52.0,1627.0,280.0,565.0,259.0,3.8462,342200.0,NEAR BAY


```pd.read_table('test.txt', sep=' ')```
|   | a | b | c | d | message |
|---|---|---|---|---|---------|
| 0 | 1 | 2 | 3 | 4 | hello   |
| 1 | 5 | 6 | 7 | 8 | world   |
| 2 | 9 | 10 | 11 | 12 | foo   |


```pd.read_csv('test.txt', sep=' ')```
|   | a | b | c | d | message |
|---|---|---|---|---|---------|
| 0 | 1 | 2 | 3 | 4 | hello   |
| 1 | 5 | 6 | 7 | 8 | world   |
| 2 | 9 | 10 | 11 | 12 | foo   |

### **Leitura de arquivos simples com Pandas (Headers)**

```pd.read_csv('test.txt', sep=' ')```
|   | 0 | 1 | 2 | 3 |   4     |
|---|---|---|---|---|---------|
| 0  | a | b | c | d | message |
| 1 | 1 | 2 | 3 | 4 | hello   |
| 2 | 5 | 6 | 7 | 8 | world   |
| 3 | 9 | 10 | 11 | 12 | foo   |

```pd.read_csv('test.txt', sep=' ', names=['z', 'u', 't', 'y', 'mensaje'])```
|   | z | u | t | y |  mensaje |
|---|---|---|---|---|---------|
| 0  | a | b | c | d | messaje |
| 1 | 1 | 2 | 3 | 4 | hello   |
| 2 | 5 | 6 | 7 | 8 | world   |
| 3 | 9 | 10 | 11 | 12 | foo   |

## **Leitura de arquivos simples com pandas (Datas)**

In [6]:
df = pd.read_csv('https://raw.githubusercontent.com/jherfson/curso-coderhouse/main/aula11/dates.txt', sep=',')
df.dtypes

date       object
product    object
price       int64
dtype: object

In [8]:
df = pd.read_csv(
    'https://raw.githubusercontent.com/jherfson/curso-coderhouse/main/aula11/dates.txt', 
    sep=',',
    parse_dates=['date']
)
df.dtypes

date       datetime64[ns]
product            object
price               int64
dtype: object

In [10]:
df = pd.read_csv(
    'https://raw.githubusercontent.com/jherfson/curso-coderhouse/main/aula11/dates2.txt',
)
df

Unnamed: 0,year,month,day,produt,price
0,2019,1,1,a,10
1,2019,1,2,b,20
2,2019,1,3,c,30
3,2019,1,4,d,40
4,2019,1,5,e,50


In [21]:
df = pd.read_csv(
    'https://raw.githubusercontent.com/jherfson/curso-coderhouse/main/aula11/dates2.txt',
    date_format=[['year', 'month', 'day']]
)
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 5 entries, 0 to 4
Data columns (total 5 columns):
 #   Column  Non-Null Count  Dtype 
---  ------  --------------  ----- 
 0   year    5 non-null      int64 
 1   month   5 non-null      int64 
 2   day     5 non-null      int64 
 3   produt  5 non-null      object
 4    price  5 non-null      int64 
dtypes: int64(4), object(1)
memory usage: 328.0+ bytes


## **Leitura de arquivos simples com Pandas (Data e Hora)**

In [13]:
from datetime import datetime

In [19]:
custom_date_parser = lambda x: datetime.strptime(x, '%Y-%d-%m %H:%M:%S')

df = pd.read_csv(
    'https://raw.githubusercontent.com/jherfson/curso-coderhouse/main/aula11/dates3.txt',
    parse_dates=['date'],
    date_format=custom_date_parser
)
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3 entries, 0 to 2
Data columns (total 3 columns):
 #   Column    Non-Null Count  Dtype 
---  ------    --------------  ----- 
 0   date      3 non-null      object
 1    product  3 non-null      object
 2    price    3 non-null      int64 
dtypes: int64(1), object(2)
memory usage: 200.0+ bytes


## **Leitura de arquivos simples com Pandas (Booleanos)**

```read_csv``` Pode detectar automaticamente valores booleanos se forem indicados. "Ajudou" se refere à assistência dada a um(a) aluno(a) e "Tarefa" indica se o (a) aluno(a) completou ou não a tarefa.

In [4]:
df = pd.read_csv(
    'https://raw.githubusercontent.com/jherfson/curso-coderhouse/main/aula11/ex_boleano.txt', 
    sep=',',
    dtype={
        'Ajudou': bool,
        'Tarefa': bool
    }
)
df.head()

Unnamed: 0,ID,Ajudou,Tarefa
0,a,True,True
1,b,False,False
2,c,True,False
3,d,True,True
4,e,True,False


# **Folhas de cálculo (Excel)**

## **O que são?**

* Consistem em dados armazenados em linhas e colunas no formato de tabela.
* Diferentemente dos arquivos simples, podem ter fórmulas e formato.
* Um único arquivo pode ter diferentes folhas de cálculo.

In [5]:
pd.read_excel?

[0;31mSignature:[0m
[0mpd[0m[0;34m.[0m[0mread_excel[0m[0;34m([0m[0;34m[0m
[0;34m[0m    [0mio[0m[0;34m,[0m[0;34m[0m
[0;34m[0m    [0msheet_name[0m[0;34m:[0m [0;34m'str | int | list[IntStrT] | None'[0m [0;34m=[0m [0;36m0[0m[0;34m,[0m[0;34m[0m
[0;34m[0m    [0;34m*[0m[0;34m,[0m[0;34m[0m
[0;34m[0m    [0mheader[0m[0;34m:[0m [0;34m'int | Sequence[int] | None'[0m [0;34m=[0m [0;36m0[0m[0;34m,[0m[0;34m[0m
[0;34m[0m    [0mnames[0m[0;34m:[0m [0;34m'SequenceNotStr[Hashable] | range | None'[0m [0;34m=[0m [0;32mNone[0m[0;34m,[0m[0;34m[0m
[0;34m[0m    [0mindex_col[0m[0;34m:[0m [0;34m'int | str | Sequence[int] | None'[0m [0;34m=[0m [0;32mNone[0m[0;34m,[0m[0;34m[0m
[0;34m[0m    [0musecols[0m[0;34m:[0m [0;34m'int | str | Sequence[int] | Sequence[str] | Callable[[str], bool] | None'[0m [0;34m=[0m [0;32mNone[0m[0;34m,[0m[0;34m[0m
[0;34m[0m    [0mdtype[0m[0;34m:[0m [0;34m'DtypeArg | None'[0m [

* Leitura de olhas e colunas

```df = pd.read_excel(file_location, sheet_name='Sheet1', usecols='A, C, F')```

```df = pd.read_excel(file_location, sheet_name=1, usecols='A:N')```

```df = pd.read_excel(file_location, sheet_name='Sheet2', usecols='A:F, H')```

```df = pd.read_excel(file_location, sheet_name='Sheet1', usecols='A:F, H, J:N')```

# **Outros Formatos Estruturados**

## **utros Formatos Estruturados (PICKLE)**

É um formato nativo de Python, popular para fazer a serialização de objetos.

* É muito mais rápido que .csv.
* Reduz o tamanho dos arquivos pela metade usando técnicas de compactação.
* Não há necessidade de especificar colunas de dados nem argumentos.
* Por ser nativo de Python, só pode ser lido utilizando Python.

## **Leitura em Pickle**

In [1]:
import pandas as pd

In [2]:
df = pd.read_csv('https://raw.githubusercontent.com/jherfson/curso-coderhouse/main/aula11/housing.csv')
df.head(3)

Unnamed: 0,longitude,latitude,housing_median_age,total_rooms,total_bedrooms,population,households,median_income,median_house_value,ocean_proximity
0,-122.23,37.88,41.0,880.0,129.0,322.0,126.0,8.3252,452600.0,NEAR BAY
1,-122.22,37.86,21.0,7099.0,1106.0,2401.0,1138.0,8.3014,358500.0,NEAR BAY
2,-122.24,37.85,52.0,1467.0,190.0,496.0,177.0,7.2574,352100.0,NEAR BAY


In [4]:
df.to_pickle('housing_pickle')

In [7]:
df1 = pd.read_pickle('/aula11/housing_pickle')
df1.head()

Unnamed: 0,longitude,latitude,housing_median_age,total_rooms,total_bedrooms,population,households,median_income,median_house_value,ocean_proximity
0,-122.23,37.88,41.0,880.0,129.0,322.0,126.0,8.3252,452600.0,NEAR BAY
1,-122.22,37.86,21.0,7099.0,1106.0,2401.0,1138.0,8.3014,358500.0,NEAR BAY
2,-122.24,37.85,52.0,1467.0,190.0,496.0,177.0,7.2574,352100.0,NEAR BAY
3,-122.25,37.85,52.0,1274.0,235.0,558.0,219.0,5.6431,341300.0,NEAR BAY
4,-122.25,37.85,52.0,1627.0,280.0,565.0,259.0,3.8462,342200.0,NEAR BAY
