## Conceitos importantes

**Text files (arquivos de texto)**: armazenam dados em formato leg√≠vel por humanos, usando caracteres (letras, n√∫meros, s√≠mbolos). Exemplos: .txt, .csv, .py.
üëâ Exemplo: nome,idade\nJo√£o,25

**Arquivos bin√°rios**: armazenam dados em formato que n√£o √© leg√≠vel diretamente, pois usa c√≥digo bin√°rio (0 e 1). S√£o usados para imagens, v√≠deos, programas, etc. Exemplos: .jpg, .exe, .mp3.
üëâ Exemplo: 01101000 1100101 1101100 1101100 1101111 (representa ‚Äúhello‚Äù).

**Text File (arquivo de texto)**: armazena dados como texto leg√≠vel (caracteres), usando codifica√ß√µes como UTF-8. Exemplos: `.txt`, `.csv`, `.json`.

**End of Line Character (EOL)**: √© o caractere que indica o **fim de uma linha** em um arquivo de texto.
  * No Windows: `\r\n`
  * No Linux/macOS: `\n`

| Termo                 | Significado               | Fun√ß√£o principal            | Exemplo        |
| --------------------- | ------------------------- | --------------------------- | -------------- |
| **Separator**         | S√≠mbolo que separa dados  | Divide valores em uma linha | `,` ou `;`     |
| **EOL (End of Line)** | Indica o fim de uma linha | Quebra a linha no texto     | `\n` ou `\r\n` |
| **EOF (End of File)** | Indica o fim do arquivo   | Marca que n√£o h√° mais dados | Fim da leitura |

**Binary File (arquivo bin√°rio)**: armazena dados em **formato bin√°rio** (0s e 1s) n√£o leg√≠vel diretamente, usado por imagens, v√≠deos, execut√°veis etc. Exemplos: `.jpg`, `.exe`, `.mp4`.


**File**:√© o arquivo em si, ou seja, o dado armazenado no disco (exemplo: dados.txt).

**File object**: √© o objeto criado pelo Python quando voc√™ abre um arquivo com a fun√ß√£o open(). Ele permite ler, escrever e manipular o conte√∫do do arquivo.

**File vs File Object**

**File**: √© o arquivo em si, o que est√° armazenado no disco (por exemplo, dados.txt).

**File Object**: √© o objeto criado no Python quando voc√™ abre o arquivo com open().
üëâ Exemplo:
```python
arquivo = open("dados.txt")
```
Aqui, "dados.txt" √© o file, e arquivo √© o file object (ou manipulador de arquivo).

**Reading (leitura)**: √© o ato de ler o conte√∫do bruto de um arquivo ou dado (por exemplo, ler todo o texto de um .txt ou os bytes de um .bin).
Exemplo: ler "1,2,3,4" de um arquivo CSV.

**Parsing (an√°lise)**:√© o processo de interpretar e estruturar esse conte√∫do bruto, transformando-o em algo compreens√≠vel pelo programa.
Exemplo: converter "1,2,3,4" em uma lista [1, 2, 3, 4].

| Tipo de dado     | Estrutura               | Exemplo                 | Onde √© usado                      |
| ---------------- | ----------------------- | ----------------------- | --------------------------------- |
| Estruturado      | Fixa (tabelas)          | SQL, planilhas          | Bancos de dados relacionais       |
| Semi-estruturado | Parcialmente organizada | JSON, XML               | Web, APIs, NoSQL                  |
| N√£o estruturado  | Sem formato definido    | Imagens, textos, v√≠deos | M√≠dias, documentos, redes sociais |

**Data Connectivity (ou conectividade de dados)**: √© a capacidade de acessar, conectar e integrar dados que est√£o armazenados em diferentes fontes ‚Äî como bancos de dados, planilhas, APIs, ou servi√ßos na nuvem ‚Äî para us√°-los em uma aplica√ß√£o, an√°lise ou sistema.

| Formato | Melhor para             | Estrutura            | Leveza    | Uso comum               |
| ------- | ----------------------- | -------------------- | --------- | ----------------------- |
| `.csv`  | Dados tabulares simples | Tabelar              | üü¢ Leve   | An√°lises, import/export |
| `.json` | Dados hier√°rquicos      | Flex√≠vel             | üü¢ M√©dio  | APIs, web, configs      |
| `.xlsx` | Planilhas formatadas    | Tabelar (com extras) | üî¥ Pesado | Relat√≥rios, Excel       |

- Para an√°lise e automa√ß√£o ‚Üí .csv

- Para integra√ß√£o e APIs ‚Üí .json

- Para apresenta√ß√£o e relat√≥rios ‚Üí .xlsx


**Interpretador**: √â o programa que l√™ e executa o c√≥digo-fonte.
Em vez de compilar tudo de uma vez, ele traduz e executa linha por linha.

**Encoding e Decoding**

S√£o processos de convers√£o entre texto e bytes ‚Äî o interpretador precisa disso para entender e manipular os dados.

**Encoding (codifica√ß√£o):** Converte texto leg√≠vel (caracteres) para bytes (n√∫meros bin√°rios que o computador entende).
Exemplo: `"Ol√°"` ‚Üí `b'\xc3\x93l\xc3\xa1'` em UTF-8.

**Decoding (decodifica√ß√£o):**: Faz o inverso ‚Äî converte **bytes** ‚Üí **texto leg√≠vel**.
Exemplo: `b'\xc3\x93l\xc3\xa1'` ‚Üí `"Ol√°"`.

## Importing Text Files in Python ( `open()` )

In [None]:
filename = "source.txt"

In [None]:
filename

In [None]:
file = open(filename, mode= "r")

In [None]:
file

In [None]:
file.read()

In [None]:
file = open(filename, mode = "r")
text = file.read()
text

In [None]:
file.close()

In [None]:
file.closed

## Importing Text Files in Python (**with** open())

In [None]:
filename = 'source.txt'

In [None]:
file = open(filename, mode= "r")
text = file.read()
file.close()

In [None]:
with open(filename, mode='r') as out_file:
    out_file.read()

In [None]:
print(text)

In [None]:
print(out_file)

In [None]:
with open('source.txt', 'w') as out_file:
    out_file.write("It is not so simple anymore!")

In [None]:
print(out_file)

In [None]:
file = open(filename, mode = 'r')
text = file.read()
file.close()

In [None]:
print(text)

In [None]:
with open(filename, mode = 'r') as out_file:
    new_text = out_file.read()
print(new_text)

## Importing `.csv` Files with pandas - Part I

In [None]:
filename = 'lending-company.csv'

file = open(filename, mode='r')
text = file.read()
text

In [None]:
type(text)

In [None]:
import pandas as pd

In [None]:
pd.read_csv("Lending-company.csv")

In [None]:
type(pd.read_csv('Lending-company.csv'))

In [None]:
filename = 'Lending-company.csv'
my_csv_data = pd.read_csv(filename)
my_csv_data

## Importing Data with the index_col parameter

In [None]:
import pandas as pd

In [None]:
filename = 'Lending-company.csv'
my_csv_data = pd.read_csv(filename)
my_csv_data

In [None]:
filename = 'Lending-company.csv'
my_csv_data = pd.read_csv(filename, index_col = 'LoanID')
my_csv_data

In [None]:
data = {
    'ProductName' : ['Product A', 'Product B', 'Product C'],
    'ProductPrice': [22250,16600,12500]}
product_IDs = ['A','B','C']
df = pd.DataFrame(data, index = product_IDs)
df

## Import Data with Numpy

In [None]:
import numpy as np

### np.loadtxt() vs np.genfromtxt()

| Fun√ß√£o            | Aceita valores ausentes? | Tipos mistos (n√∫meros + texto)? | Velocidade    | Ideal para                       |
| ----------------- | ------------------------ | ------------------------------- | ------------- | -------------------------------- |
| `np.loadtxt()`    | ‚ùå N√£o                    | ‚ùå N√£o                           | ‚ö° R√°pido      | Dados limpos e uniformes         |
| `np.genfromtxt()` | ‚úÖ Sim                    | ‚úÖ Sim                           | üê¢ Mais lento | Dados reais com poss√≠veis falhas |
 

- Ambas as fun√ß√µes fazem parte do NumPy
- "load" implica que os dados est√£o prontos para serem importados e usados diretamente.
- A parte "generate/gen" indica que a fun√ß√£o cria o conjunto de dados a partir do arquivo de texto.
- Generating requer a constru√ß√£o da matriz √† medida que percorremos o arquivo de texto.

In [None]:
lending_co_data_numeric_1 = np.loadtxt("Lending-Company-Numeric-Data.csv", delimiter= ',')
lending_co_data_numeric_1

In [None]:
lending_co_data_numeric_2 = np.genfromtxt("Lending-Company-Numeric-Data.csv", delimiter= ',')
lending_co_data_numeric_2

In [None]:
np.array_equal(lending_co_data_numeric_1, lending_co_data_numeric_2)

In [None]:
lending_co_data_numeric_NAN = np.loadtxt("Lending-Company-Numeric-Data-NAN.csv",
                                         delimiter = ';',
                                        dtype = np.str)
lending_co_data_numeric_NAN

In [None]:
lending_co_data_numeric_NAN[0,0] + lending_co_data_numeric_NAN[0,1]

### Partial Cleaning While Importing

In [None]:
lending_co_data_numeric_NAN = np.genfromtxt("Lending-Company-Numeric-Data-NAN.csv", delimiter = ';')
lending_co_data_numeric_NAN

In [None]:
lending_co_data_numeric_NAN = np.genfromtxt("Lending-Company-Numeric-Data-NAN.csv", delimiter = ';')
lending_co_data_numeric_NAN

In [None]:
lending_co_data_numeric_NAN = np.genfromtxt("Lending-Company-Numeric-Data-NAN.csv", delimiter = ';', skip_header = 2)
lending_co_data_numeric_NAN

In [None]:
lending_co_data_numeric_NAN = np.genfromtxt("Lending-Company-Numeric-Data-NAN.csv", delimiter = ';', skip_footer = 2)
lending_co_data_numeric_NAN

In [None]:
lending_co_data_numeric_NAN = np.genfromtxt("Lending-Company-Numeric-Data-NAN.csv", delimiter = ';', usecols = (0,1,5))
lending_co_data_numeric_NAN

In [None]:
lending_co_data_numeric_NAN = np.genfromtxt("Lending-Company-Numeric-Data-NAN.csv", delimiter = ';', usecols = (5,0,1), skip_header = 2, skip_footer = 2)
lending_co_data_numeric_NAN

## Import .json Files

In [None]:
prices_per_product = {"Product A": 22250, "Product B": 16600, "Product C": 15600}
prices_per_product

In [None]:
import json

In [None]:
parsed_str = json.loads(prices_per_product)
parsed_str

In [None]:
import pandas as pd

In [None]:
pd.read_json('Lending-company.json')

In [None]:
new_csv_data = pd.read_json('Lending-company.json')
new_csv_data

In [None]:
type(new_csv_data)

## Working with Excel Data

In [None]:
import pandas as pd

In [None]:
filename = 'Lending-company.xlsx'
my_xslx_data = pd.read_excel(filename)
# my_csv_data = pd.read_excel(filename, index_col = 'LoanID')
my_xslx_data

In [None]:
type(my_xlsx_data)

## An Important Exercise on Importing Data in Python

In [None]:
import pandas as pd

In [None]:
location_data = pd.read_csv('Lending-company.csv', usecols= ['StringID', 'Location', 'Region'], index_col = 'StringID')
location_data.head()

In [None]:
filename = 'Lending-company-single-column-data.csv'
my_csv_data = pd.read_csv(filename)
my_csv_data

In [None]:
my_csv_data = pd.read_csv(filename, sep= '\,')
my_csv_data.head()

In [None]:
my_csv_data = pd.read_csv(filename, sep = '\,', engine = 'python')
my_csv_data.head()

In [None]:
my_csv_data = pd.read_csv(filename, delimiter = '\,', engine= 'python')
my_csv_data.head()

## Importing Data with the pandas Squeeze Method

In [None]:
import pandas as pd

In [None]:
my_df = pd.read_csv('Lending-company.csv')
my_df.head()

In [None]:
type(my_df)

In [None]:
df_usecols = pd.read_csv('Lending-company.csv', usecols= ['Product'])
df_usecols.head()

In [None]:
type(my_df)

In [None]:
df_single_col = pd.read_csv('Customer-Gender.csv')
df_single_col.head()

In [None]:
type(df_single_col)

In [None]:
data = pd.read_csv('Lending-company.csv')
df_squeeze = data.squeeze("columns")
df_squeeze.head()

In [None]:
type(df_squeeze)

In [None]:
df_squeeze = data.squeeze(1)
df_squeeze

In [None]:
type(df_squeeze)

In [None]:
df_single_col = pd.read_csv('Customer-Gender.csv')
df_squeeze = df_single_col.squeeze('columns')
df_squeeze.head()

In [None]:
type(df_squeeze)

## Saving Your Data with pandas

In [None]:
import pandas as pd

In [None]:
filename = 'Lending-company.csv'
my_data = pd.read_csv(filename)
my_data.head()

In [None]:
my_data.to_csv('my-csv-file.csv')

In [None]:
my_data.to_json('my-json-file.json')

In [None]:
my_data.to_excel('my-excel-file.xlsx')

In [None]:
my_data.to_excel('my-excel-file.xlsx', index=False)

## Saving Files with NumPy

In [None]:
import numpy as np

### np.save()

In [None]:
lending_co = np.genfromtxt("Lending-Company-Saving.csv", delimiter= ',', dtype = np.str)
print(lending_co)

In [None]:
np.save('Lending-Company-Saving', lending_co)

In [None]:
lending_data_save = np.load("Lending-Company-Saving.csv")

In [None]:
print(lending_data_save)

In [None]:
np.array_equal(lending_data_save, lending_co)

### np.savez()

In [None]:
lending_co = np.genfromtxt("Lending-Company-Saving.csv", delimiter= ',', dtype = np.str)
lending_data_save = np.load("Lending-Company-Saving.csv")

In [None]:
np.savez('Lending-Company-Saving', lending_co, lending_data_save)

In [None]:
lending_data_savez = np.load('Lending-Company-Saving.npz')

In [None]:
print(lending_data_savez["arr_0"])