## Fundamentos de Python para Data Science

### Lendo e escrevendo em arquivos com `open`

#### Leitura de arquivos com Open

In [None]:
file1 = open("/downloads/data/...", "r") #r = read mode
file_name = file1.name
file_mode = file1.mode # "r"
file1.close() #sempre necessário fechar o arquivo

with open("Example1.txt", "r") as file2:
    file_stuff = file2.read()
    print(file_stuff)

    new_file_stuff = file2.readline()
    print(new_file_stuff)

    for line in file2:
        print(line)


    first_chars = file2.readlines(5) #ler os 5 primeiros chars de um arquivo
    print(first_chars)

print(file2.closed) #não podemos mexer nele depois do fim da indentação



#### Escrevendo em arquivos com Open

In [None]:
file1 = open("Example2.txt", "w") #Cria um arquivo novo

lines=["Linha A", "Linha B", "Linha C", "Linha D"]

with open("Example2.txt", "w") as file2:
    file2.write("Esta é a linha A\n")
    file2.write("Esta é a linha B\n")

    for line in lines:
        file1.write(line)

with open("Example3.txt", "a") as file3:
    #...

# Transferindo texto de um arquivo para outro

with open("Example1.txt", "r") as readfile:
    with open("Example2.txt", "w") as writefile:

        for line in readfile:
            writefile.write(line)

### Pandas

#### Introdução a biblioteca pandas

In [None]:
import pandas as pd

csv_path = "file1.csv"
df = pd.read_csv(csv_path)
df.head() #Mostrar a primeira linha do dataframe

xlsx_file = "file1.xlsx"
df = pd.read_excel(xlsx_file)
df.head()

# É possível criar um dataframe com dicionários, onde as keys serão as colunas e os values serão as linhas

x = df[["Key"]] # cria um dataframe apenas com as colunas selecionada

df.iloc[0,0] # retorna a primeira linha e primeira coluna

df.loc[0, "Key"] #usa o nome da coluna

df_new = df
df_new.index = ['a', 'b', 'c', 'd'] #cria um dataframe novo df_new = df e troca o nome das linhas por a, b, c, d

z = df.iloc[0:2, 0:3] #cria um dataframe z que pega as duas primeiras linhas partindo da linha 0 e as 3 primeiras colunas partindo da coluna 0 do dataframe df



#### Trabalhando com e salvando dados


In [None]:
df["Nome da Coluna"].unique() #retorna os valores exclusivos

df["Nome da Coluna"] > 1000 #retorna True ou False para todos os itens da coluna com base na desigualdade

df1 = df[df["Nome da Coluna"] > 1000] #dataframe em que todas as colunas obedecem a desigualdade

df1.to_csv("file.csv")

#### Exemplo 1 de Trabalhando com Pandas

In [None]:
# %pip install pandas

import pandas as pd

# Cria e transforma o dicionário x em um DataFrame

x = {'Name': ['Rose','John', 'Jane', 'Mary'], 'ID': [1, 2, 3, 4], 'Department': ['Architect Group', 'Software Group', 'Design Team', 'Infrastructure'], 
      'Salary':[100000, 80000, 50000, 60000]}

df = pd.DataFrame(x)

df

# Seleção de colunas

y = df[['ID']]
y

type(x)

# Acessando várias colunas

z = df[["Department", 'Salary', 'ID']]
z

# Exercício 1 - Pandas: Dataframes e Séries

new_dictionary = {'Student': ['David', 'Samuel', 'Terry', 'Evan'], 'Age': [27, 24, 22, 32], 'Country': ['UK', 'Canada', 'China', 'USA'], 'Course': ['Python', 'Data Structures', 'Machine Learning', 'Web Development'], 'Marks': [85, 72, 89, 76]}

new_df = pd.DataFrame(new_dictionary)
b = new_df[['Marks']]
b

c = new_df[['Country', 'Course']]
c

# Exercício 2 - loc() e iloc()

df2 = df
df2 = df2.set_index("Name") 
df2.head()
df2.loc['Jane', 'Salary']

df2.loc['Jane', 'Department']
df2.iloc[3, 2]

# Exercício 3 - Slicing

df.iloc[0:2, 0:3]
df.loc[0:2, 'ID': 'Deparment']
df2.loc['Rose': 'Jane', 'ID': 'Department']

df.loc[2:3, 'Name': 'Department']



#### Exemplo 2 de Trabalhando com Pandas

In [None]:
%pip install xlrd openpyxl

from pyodide.http import pyfetch
import pandas as pd

filename = "https://cf-courses-data.s3.us.cloud-object-storage.appdomain.cloud/LXjSAttmoxJfEG6il1Bqfw/Product-sales.csv"

async def download(url, filename):
    response = await pyfetch(url)
    if response.status == 200:
        with open(filename, 'wb') as f:
            f.write(await response.bytes())

await download(filename, 'Product-sales.csv')
df = pd.read_csv("Product-sales.csv")

df.head()

xlsx_path = 'https://cf-courses-data.s3.us.cloud-object-storage.appdomain.cloud/n9LOuKI9SlUa1b5zkaCMeg/Product-sales.xlsx'

await download(xlsx_path, 'Product-sales.xlsx')
df = pd.read_excel("Product-sales.xlsx")
df.head()

x = df[['Quantity']]
x

# Visualizando e acessando data

x = df['Product']
x
x = df[["Quantity"]]
type(x)

y = df[['Product', 'Category', 'Quantity']]

q = df[["Price"]]
q
q = df[["Product", "Category"]]

df.iloc[1, 2]

new_index = ['a','b','c','d','e']

df_new = df
df_new.index=new_index
df_new.loc['a', 'Customer City']
df_new.loc['a': 'd', 'Customer City']

### Numpy

#### 1D Numpy

Array em numpy possui tamanho fixo e os elementos são do mesmo tipo

In [None]:
import numpy as np

a = np.array([0, 1, 2, 3, 4])

type(a) #numpy.ndarray
a.dtype #dtype('int64') -> tipo dos itens dentro do array
a.size #tamanho
a.ndim #dimensões
a.shape #formato?

a[0] = 100 #muda o primeiro elemento para 100

b = a[1:4] #slicin obs

# Vetores no numpy

u = np.array([1, 0])
v = np.array([0, 1])

z = u + v
z:array([1, 1])

result = np.dot(u, v) #produto escalar

# Métodos

mean_a = a.mean()
max_a = a.max()

np.linspace(-2, 2, num=5) # Gera um array de tamanho 5 que começa no -2 e vai até o 2 em espaços iguais


NameError: name 'array' is not defined

#### 2D Numpy

In [None]:
import numpy as np

a = [[1, 2, 3], [4, 5, 6], [7, 8, 9]]
b = [[10 ,11, 12], [13, 14, 15], [16, 17, 18]]
A = np.array(a) #matriz 3x3
B = np.array(b)

Z = A * B #multiplica cada elemento de uma matriz pelo seu correspondente na outra

W = np.dot(A, B) #produto de matrizes





### APIs e Coleta de Dados

#### Biblioteca ` requests ` e os métodos `Get` e `Post`

In [None]:
import requests

## Get Requests

url="https://ibm.com/"
r=requests.get(url)
print(r.status_code)

## Outros métodos do objeto requests:
header = r.headers
body = r.body

url_get = "http://httpbin.org/get"
payload = {"name": "Joseph", "ID": 123}
r = requests.get(url_get, params=payload)

print(r.url)
r.json()

## Post Requests

url_post = "http://httpbin.org/post"
r_post=requests.post(url_post, data=payload)

#### Web Scraping com `BeautifulSoup`

In [None]:
from bs4 import BeautifulSoup

table = BeautifulSoup(html, "html5lib")

table_rows = table.find_all(name="tr")
for row in table_rows:
    print(row)

## Programa em Python para web scraping

import requests
from bs4 import BeautifulSoup

page = requests.get("http://EnterWebsiteURL...").text

soup = BeautifulSoup(page, "html.parser")

artists = soup.find_all("a")

for artist in artists:
    names = artist.contents[0]
    fullLink = artist.get('href')
    print(names)
    print(fullLink)


#### Web Scraping com `Scrapy`

Scrapy: Scrapy is an open-source and collaborative web crawling framework for Python. It is used to extract the data from the website.

In [None]:
import scrapy
class QuotesSpider(scrapy.Spider):
    name = "quotes"
    start_urls = ['http://quotes.toscrape.com/tag/humor/',]
    def parse(self, response):
        for quote in response.css('div.quote'):
            yield {'quote': quote.css('span.text::text').get()}

#### Web Scraping com `Selenium`

Selenium: Selenium is a tool used for controlling web browsers through programs and automating browser tasks.

In [None]:
    from selenium import webdriver
    driver = webdriver.Firefox()
    driver.get("http://www.example.com")

#### Tabelas de raspagem da Web usando `Pandas`

In [None]:
import pandas as pd
URL = 'https://en.wikipedia.org/wiki/List_of_largest_banks'
tables = pd.read_html(URL)
df = tables[0]
print(df)

### Trabalhando com diferentes tipos de arquivos em Python

In [None]:
import pandas as pd

file = "FileExample.csv"
df = pd.read_csv(file) # já que a tabela não tinha header, a primeira linha foi transformada num header
df.columns = ['Name', 'Phone Number', 'Birthday'] #adiciona um header

import json

with open('filesample.json', 'r') as openfile:
    json_object = json.load(openfile)
print(json_object)

import pandas as pd

import xml.etree.ElementTree as etree

tree = etree.parse("fileExample.xml")
root = tree.getroot()
columns = ["Name", "Phone Number", "Birthday"]
df = pd.DataFrame(columns = columns)

for node in root:
    name = node.find('name').text
    phonenumber = node.find('phonenumber').text
    birthday = node.find('birthday').text
    df = df.append(pd.Series([name, phonenumber, birthday], index = columns), ignore_index = True)

