# Guia de referência de funções mais usadas no python

futuro índice 

## Transcrição de áudios

Obs: Usa API externa do google

In [19]:
import speech_recognition as sr

recognizer = sr.Recognizer()
audio_file = 'XXXXX.wav' 

with sr.AudioFile(audio_file) as source:
    audio_data = recognizer.record(source) 

try:
    texto = recognizer.recognize_google(audio_data, language='pt-BR')
    print("Transcrição: " + texto)
except sr.UnknownValueError:
    print("O áudio não pôde ser entendido.")
except sr.RequestError as e:
    print(f"Erro ao solicitar resultados; {e}")

Transcrição: testando testando vou testar a biblioteca de speech


## Funções pandas

In [3]:
# Instalando bibloteca e importando ela
#pip install pandas

import pandas as pd

# 1. Ler um arquivo Excel
df = pd.read_excel('caminho/para/o/arquivo.xlsx')  

# 2. Renomear colunas
df.rename(columns={'coluna_antiga': 'nova_coluna'}, inplace=True)  

# 3. Obter a contagem de valores únicos em uma coluna
contagem = df['coluna'].value_counts()  

# 4. Agrupar dados
df_grouped = df.groupby('linha')['coluna'].sum()  # função de agregação - sum,mean,std...
sumario = df[['coluna1', 'coluna2']].agg(['mean', 'max', 'min', 'sum']) # outro jeito

# 5. Limpar espaços em branco de uma coluna
df['coluna'] = df['coluna'].str.strip()  

# 6. Encontrar e substituir valores
df['coluna'] = df['coluna'].replace({'valor_antigo': 'valor_novo'})  

# 7. Obter o tamanho de uma coluna (número de elementos)
tamanho = len(df['coluna'])  

# 8. Filtrar dados com base em uma condição
df_filtrado = df[df['coluna'] > 10]  

# 9. Criar uma nova coluna com base em condições
df['nova_coluna'] = df['coluna'].apply(lambda x: 'alto' if x > 10 else 'baixo')  

# 10. Converter uma coluna para um tipo específico
df['coluna'] = df['coluna'].astype(float)  

# 11. Remover colunas
df.drop(columns=['coluna_para_remover'], inplace=True) 

# 12. Resetar o índice
df.reset_index(drop=True, inplace=True) 

# 13. Salvar o DataFrame em um arquivo CSV
df.to_csv('caminho/para/o/arquivo.csv', index=False)  

# 14. Ordenar valores
df = df.sort_values(by='coluna', ascending=True) 

# 15. Converter valores de uma coluna para numérico
df['coluna'] = pd.to_numeric(df['coluna'], errors='coerce')  

# 16. Filtrar
df_loc = df.loc[df['coluna'] > 10, ['coluna1', 'coluna2']] 

# 17. Exibir as primeiras linhas do DataFrame
df_head = df.head(5)  

# 18. Acessar os nomes das colunas do DataFrame
colunas = df.columns.tolist() 

# 19. Reordenar a posição das colunas
df = df[['Salario', 'Idade', 'Nome']]  

# 20. Preenchendo vazios
df['coluna'] = df['coluna'].fillna('o que você quiser')

# 21. Removendo duplicadas
df = df.drop_duplicates(subset=['coluna'])

# 22. Transformando coluna para data
df = pd.to_datetime(df['coluna'], origin = 'XXXX-XX-XX', unit='D')

# 23. Colocando as letras inicias de palavras virarem maíusculas. Ex: gustavo camargo ---> Gustavo Camargo
df['coluna'] = df['coluna'].str.title()

# 24. Letras maiúsculas (Ex: sp --> SP)
df['coluna'] = df['coluna'].str.upper()

# 25. Letras minúsculas (Ex: SP --> sp)
df['coluna'] = df['coluna'].str.lower()

# 26. Dando um split em alguma coluna (Ex: São Paulo, UF ----> cria uma coluna para colocar São Paulo e outra UF)
df['coluna'] = df['coluna'].str.split('delimitador')

# 27. Juntar colunas 
df['Nome junto'] = df['Nome'] + ' ' + df['Sobrenome']

# 28. Método describe para colunas numéricas. Dá mean,max,min,sum de uma vez
df['coluna'].describe()

FileNotFoundError: [Errno 2] No such file or directory: 'caminho/para/o/arquivo.xlsx'

## Extração de Tabelas em PDFs

In [None]:
pip install pdfplumber # Execute para baixar a bibloteca

In [None]:
pip install pandas # Execute para baixar a bibloteca

Se o pdf for só de páginas da mesma tabela

In [None]:
import pdfplumber
import pandas as pd


pdf_path = "caminho_do_arquivo.pdf"
dfs = []

with pdfplumber.open(pdf_path) as pdf:
    for page in pdf.pages:
        table = page.extract_table()
        
        if table:
            df = pd.DataFrame(table[1:], columns=table[0])
            dfs.append(df)

df_final = pd.concat(dfs, ignore_index=True)
df_final.head()

Se quiser pegar só de páginas específicas (Ex: Quando a tabela começa na página 1, na 2 tem uma propaganda que você não quer e a tabela continua na página 3)

In [None]:
import pdfplumber
import pandas as pd

pdf_path = "caminho_do_arquivo.pdf"
dfs = []
pages_with_tables = [48,50,51,52,53,54,55,56,57,58] # Digite o número das páginas

with pdfplumber.open(pdf_path) as pdf:
    for page_number in pages_with_tables:
        page = pdf.pages[page_number - 1]  
        table = page.extract_table()
        
        if table:
            df = pd.DataFrame(table[1:], columns=table[0])
            dfs.append(df)


df_final = pd.concat(dfs, ignore_index=True)
df_final.head()

Exportar para Excel

In [None]:
df_final.to_excel("DigiteONomeQvcQuer.xlsx", index=False)

## Webscraping

In [22]:
#pip install requests beautifulsoup4
import requests
from bs4 import BeautifulSoup

In [None]:
# URL do site
url = "https://www.globo.com/"

# Fazer a requisição para o site
response = requests.get(url)

# Verificar se a requisição foi bem-sucedida
if response.status_code == 200:
    
    # Criar o objeto BeautifulSoup para fazer o parsing do HTML
    soup = BeautifulSoup(response.content, 'html.parser')

    # Exibir o HTML para analisar a estrutura (opcional)
    #print(soup.prettify())
else:
    print(f"Erro ao acessar o site: {response.status_code}")

# Ver se está dando certo
h2_tag = soup.find_all('h2')
h2_tag

In [None]:
# Listas para armazenar os dados
titulos = []
descricoes = []

# Extrair os títulos e as descrições
for noticia in soup.find_all('h2', class_='post__title'):
    #print(noticia)
    
    titulo = noticia.text.strip()


    if titulo:
        titulos.append(titulo)

# Exibir os resultados
print("Títulos:", titulos)

In [None]:
df = pd.DataFrame(titulos, columns=['Título'])
df.head(5)

In [None]:
import pdfplumber
import pandas as pd


with pdfplumber.open("XXXX.pdf") as pdf:
    page = pdf.pages[X] # colocar o número da página 
    table = page.extract_table()

df = pd.DataFrame(table[1:], columns=table[0])  
df.to_excel("tabela_extraida.xlsx", index=False)