### **Fun√ß√£o PDF ‚Äî `extrair_texto_e_tabela()`**

Essa fun√ß√£o serve para **ler um arquivo PDF** e **extrair informa√ß√µes importantes dele**, de forma que possamos usar esses dados em an√°lises ou relat√≥rios. Ela faz duas coisas principais:

1. **Pega o texto da primeira p√°gina:**

   * A fun√ß√£o abre o PDF e olha s√≥ a primeira p√°gina.
   * Todo o texto que estiver nessa p√°gina √© extra√≠do e mostrado no console.
   * Assim, voc√™ consegue ver rapidamente o conte√∫do do documento sem precisar abrir o PDF manualmente.

2. **Pega a primeira tabela da p√°gina:**

   * Se a p√°gina tiver tabelas, a fun√ß√£o pega **apenas a primeira**.
   * Ela transforma a tabela em um **DataFrame**, que √© uma tabela organizada que o Python consegue manipular facilmente.
   * Esse DataFrame tamb√©m √© mostrado no console para que voc√™ veja como os dados ficaram organizados.

**O que a fun√ß√£o devolve:**

* Uma **string** com todo o texto da primeira p√°gina (`texto_completo`).
* Um **DataFrame** com a primeira tabela (`tabela_df`), ou `None` caso n√£o exista tabela.

**Resumo pr√°tico:**
Essa fun√ß√£o permite pegar **texto e tabela de PDFs** de forma r√°pida e autom√°tica, tornando poss√≠vel trabalhar com esses dados em gr√°ficos, an√°lises ou relat√≥rios, sem precisar digitar nada manualmente.



In [None]:
pip install pdfplumber

In [None]:
# PDF
import pdfplumber
import pandas as pd

def extrair_texto_e_tabela(caminho_pdf):
    """
    Extrai texto e a primeira tabela de um arquivo PDF.

    Par√¢metros:
        caminho_pdf (str): Caminho do arquivo PDF.

    Retorna:
        tuple: (texto_completo, tabela_df)
               texto_completo -> str com o texto da primeira p√°gina
               tabela_df -> DataFrame com a tabela extra√≠da (ou None se n√£o houver tabela)
    """
    with pdfplumber.open(caminho_pdf) as pdf:
        primeira_pagina = pdf.pages[0]

        # Extrai todo o texto da primeira p√°gina
        texto_completo = primeira_pagina.extract_text()
        print("\n--- Texto Extra√≠do ---")
        print(texto_completo or "Nenhum texto encontrado.")

        # Extrai a primeira tabela encontrada
        tabelas = primeira_pagina.extract_tables()
        tabela_df = None

        if tabelas:
            print("\n--- Tabela Extra√≠da ---")
            tabela_encontrada = tabelas[0]

            # Converte para DataFrame
            tabela_df = pd.DataFrame(tabela_encontrada[1:], columns=tabela_encontrada[0])
            print(tabela_df)
        else:
            print("\nNenhuma tabela foi encontrada no PDF.")

    return texto_completo, tabela_df


# Exemplo de uso direto
if __name__ == "__main__":
    texto, tabela = extrair_texto_e_tabela("DadosSinteticos-personas1.pdf")

ModuleNotFoundError: No module named 'pdfplumber'

### **Fun√ß√£o DOCX ‚Äî `extrair_texto_docx()`**

Essa fun√ß√£o serve para **extrair todo o texto de um arquivo Word (.docx)** e retornar o conte√∫do de forma organizada, pronta para an√°lise ou relat√≥rios.

**Como funciona:**

1. **Abre o arquivo DOCX:**

   * Recebe o caminho do arquivo a ser lido (`caminho_docx`).
   * Usa a biblioteca `python-docx` para abrir o documento.

2. **Extrai o texto dos par√°grafos:**

   * Percorre todos os par√°grafos do documento.
   * Ignora par√°grafos vazios.
   * Salva cada par√°grafo como um item de uma **lista de strings**.

3. **Exibe o texto extra√≠do:**

   * Imprime no console todo o texto lido, permitindo visualizar rapidamente o conte√∫do do documento.

**O que a fun√ß√£o devolve:**

* `texto_paragrafos` ‚Üí uma lista com o texto de cada par√°grafo.
* Retorna `None` se o arquivo n√£o for encontrado ou ocorrer algum erro na leitura.

**Resumo pr√°tico:**
Funciona de forma **muito parecida com a fun√ß√£o do PDF**: abre o arquivo, l√™ o conte√∫do textual e retorna uma estrutura de dados (lista) pronta para an√°lise, gr√°ficos ou relat√≥rios, sem precisar abrir o Word manualmente.


In [None]:
pip install python-docx

In [None]:
# DOCS
import docx

def extrair_texto_docx(caminho_docx):
    """
    Extrai e retorna o texto de um arquivo DOCX.

    Par√¢metros:
        caminho_docx (str): Caminho do arquivo .docx

    Retorna:
        list: Lista de strings, onde cada item representa um par√°grafo do documento.
    """
    try:
        # Abre o arquivo DOCX
        documento = docx.Document(caminho_docx)

        # Extrai o texto de cada par√°grafo
        texto_paragrafos = [p.text for p in documento.paragraphs if p.text.strip()]

        print("\n--- Texto Extra√≠do ---")
        for linha in texto_paragrafos:
            print(linha)

        return texto_paragrafos

    except FileNotFoundError:
        print(f"Erro: O arquivo '{caminho_docx}' n√£o foi encontrado.")
        return None
    except Exception as e:
        print(f"Ocorreu um erro ao ler o arquivo DOCX: {e}")
        return None


# Exemplo de uso direto
if __name__ == "__main__":
    extrair_texto_docx("DadosSinteticos-personas1.docx")


### **Fun√ß√£o Excel ‚Äî `extrair_dados_excel()`**

Essa fun√ß√£o serve para **ler os dados de uma aba espec√≠fica de um arquivo Excel (.xlsx)** e retornar o conte√∫do organizado como um **DataFrame**, pronto para an√°lise, relat√≥rios ou gr√°ficos.

**Como funciona:**

1. **Abre o arquivo Excel:**

   * Recebe o caminho do arquivo (`caminho_excel`) e, opcionalmente, o nome da aba a ser lida (`nome_aba`).
   * Usa `pandas.ExcelFile()` para abrir o Excel e listar todas as abas dispon√≠veis.

2. **Seleciona a aba a ser lida:**

   * Se o nome da aba for fornecido e existir, a fun√ß√£o l√™ essa aba.
   * Caso contr√°rio, l√™ automaticamente a **primeira aba dispon√≠vel**.
   * Imprime as abas encontradas e indica qual foi escolhida para leitura.

3. **Extrai os dados e exibe:**

   * Usa `pd.read_excel()` para ler os dados da aba selecionada.
   * Mostra as primeiras linhas em formato tabular leg√≠vel com `tabulate`, facilitando a visualiza√ß√£o.

4. **Armazena o DataFrame:**

   * A fun√ß√£o atribui os dados lidos √† vari√°vel `data` e retorna esse DataFrame, que pode ser usado diretamente para an√°lises ou gera√ß√£o de gr√°ficos.

**O que a fun√ß√£o devolve:**

* `data` ‚Üí um **DataFrame** contendo os dados da aba selecionada.
* Retorna `None` se o arquivo n√£o existir ou ocorrer algum erro na leitura.

**Resumo pr√°tico:**
Funciona de forma **semelhante √†s fun√ß√µes de PDF e DOCX**: abre o arquivo, l√™ o conte√∫do (neste caso, uma aba do Excel), mostra uma visualiza√ß√£o inicial e retorna os dados em uma estrutura pronta para an√°lise autom√°tica.

In [None]:
# XLSX
import pandas as pd
from tabulate import tabulate

def extrair_dados_excel(caminho_excel, nome_aba=None):
    """
    Extrai os dados de uma aba espec√≠fica de um arquivo Excel (.xlsx)
    e exibe em formato tabular leg√≠vel.

    Retorna o DataFrame lido.
    """
    try:
        xls = pd.ExcelFile(caminho_excel)
        print("Abas dispon√≠veis no arquivo:", xls.sheet_names)

        # Define qual aba ser√° usada
        if nome_aba and nome_aba in xls.sheet_names:
            aba_escolhida = nome_aba
        else:
            if nome_aba:
                print(f"A aba '{nome_aba}' n√£o existe. Lendo a primeira aba dispon√≠vel.")
            aba_escolhida = xls.sheet_names[0]

        # L√™ a aba selecionada
        df = pd.read_excel(caminho_excel, sheet_name=aba_escolhida)

        print(f"\n--- Dados da aba '{aba_escolhida}' ---")
        print(tabulate(df.head(10), headers='keys', tablefmt='grid'))  # Mostra 10 primeiras linhas

        # üîπ Atribui o DataFrame lido √† vari√°vel `data`
        data = df

        return data

    except FileNotFoundError:
        print(f"Erro: O arquivo '{caminho_excel}' n√£o foi encontrado.")
        return None
    except Exception as e:
        print(f"Ocorreu um erro ao ler o arquivo Excel: {e}")
        return None


if __name__ == "__main__":
    # L√™ o Excel e armazena os dados em `data`
    data = extrair_dados_excel("DadosSinteticos-personas.xlsx", nome_aba="URLs")


### **Fun√ß√£o CSV ‚Äî `extrair_dados_csv()`**
**Como funciona:**

1. **Abre o arquivo CSV:**

   * Recebe o caminho do arquivo (`caminho_csv`) e o separador usado no CSV (`separador`, padr√£o `,`).
   * Usa `pandas.read_csv()` para carregar os dados do arquivo em um DataFrame.

2. **Exibe os dados:**

   * Imprime as primeiras linhas do arquivo no console usando `tabulate`, em um formato de tabela leg√≠vel, facilitando a visualiza√ß√£o inicial.

3. **Tratamento de erros:**

   * Detecta se o arquivo n√£o existe e avisa o usu√°rio.
   * Detecta problemas de separador incorreto e sugere alternativas (`;` ou `\t`).
   * Captura outros erros gerais de leitura do CSV.

**O que a fun√ß√£o devolve:**

* `df` ‚Üí um **DataFrame** contendo todos os dados lidos do CSV.
* Retorna `None` em caso de erro, seja arquivo inexistente, separador incorreto ou outro problema.

**Resumo pr√°tico:**
Funciona de forma **semelhante √†s fun√ß√µes de PDF, DOCX e Excel**: abre o arquivo, l√™ o conte√∫do, mostra uma visualiza√ß√£o inicial e retorna os dados em uma estrutura pronta para an√°lise, gr√°ficos ou relat√≥rios.

In [None]:
# CSV
import pandas as pd
from tabulate import tabulate

def extrair_dados_csv(caminho_csv, separador=","):
    """
    L√™ um arquivo CSV e exibe em formato tabular leg√≠vel.

    Par√¢metros:
        caminho_csv (str): Caminho do arquivo CSV.
        separador (str): Delimitador do CSV (padr√£o: ',').

    Retorna:
        DataFrame: Dados lidos do CSV (ou None se houver erro).
    """
    try:
        # L√™ o CSV com pandas
        df = pd.read_csv(caminho_csv, sep=separador)

        print(f"\n--- Dados do arquivo '{caminho_csv}' ---")
        print(tabulate(df.head(15), headers='keys', tablefmt='grid', showindex=False))

        return df

    except FileNotFoundError:
        print(f"Erro: O arquivo '{caminho_csv}' n√£o foi encontrado.")
        return None
    except pd.errors.ParserError:
        print(f"Erro ao ler o CSV ‚Äî talvez o separador n√£o seja '{separador}'.")
        print("Tente usar separador=';' ou '\\t'.")
        return None
    except Exception as e:
        print(f"Ocorreu um erro ao ler o CSV: {e}")
        return None


# Exemplo de uso direto
if __name__ == "__main__":
    extrair_dados_csv("DadosSinteticos-personas - Sheet1.csv", separador=";")



### **Estat√≠stica Descritiva do DataFrame**

O c√≥digo l√™ o Excel e calcula estat√≠sticas descritivas para todas as colunas, adicionando o Coeficiente de Varia√ß√£o para num√©ricas. Mostra m√©dia, desvio, quartis e frequ√™ncia de categorias, fornecendo um panorama completo do dataset.

In [None]:
arquivo = "DadosSinteticos-personas.xlsx"
df = pd.read_excel(arquivo)

# Estat√≠stica descritiva completa (num√©ricas + categ√≥ricas)
estatisticas = df.describe(include='all').transpose()

# Para as num√©ricas, adiciona Coeficiente de Varia√ß√£o
for col in df.select_dtypes(include='number').columns:
    estatisticas.loc[col, 'CV'] = estatisticas.loc[col, 'std'] / estatisticas.loc[col, 'mean']

print("\n--- Estat√≠stica Descritiva Completa ---")
print(estatisticas)



Al√©m disso, comandos auxiliares ajudam a entender o DataFrame:

df.tail() ‚Üí mostra as √∫ltimas 5 linhas do DataFrame.

df.info() ‚Üí resumo do DataFrame: colunas, tipos e valores n√£o nulos.

df.shape ‚Üí retorna tupla (linhas, colunas) do DataFrame.

In [None]:
df.tail()
df.info()
df.shape

### **Gr√°ficos de An√°lise das Personas: Desafios, Motivadores e Problemas T√©cnicos nos Dados**

### **1Ô∏è‚É£ Gr√°fico de Barras: ‚ÄúDores por Persona‚Äù**

**Objetivo:** Visualizar **quantos desafios cada persona enfrenta**, com base na contagem de itens listados no campo *Dores* (contagem de v√≠rgulas como proxy).

In [None]:
import matplotlib.pyplot as plt

# Dados consolidados com base nos insights das personas
personas = ['Ana', 'Jo√£o', 'Miguel', 'Ricardo', 'Sofia']

# N√∫mero de motiva√ß√µes e dores por persona
motiva√ß√µes = [3, 3, 2, 3, 3]
dores = [4, 3, 3, 4, 4]

# Gr√°fico de Barras ‚Äì Comparativo Motiva√ß√µes x Dores
import matplotlib.pyplot as plt
import numpy as np
personas = ['Ana', 'Jo√£o', 'Miguel', 'Ricardo', 'Sofia']
motiva√ß√µes = [3, 3, 2, 3, 3]
dores = [4, 3, 3, 4, 4]
x = np.arange(len(personas))  # posi√ß√£o das barras
largura = 0.35  # largura de cada barra
plt.figure(figsize=(10, 6))
plt.bar(x - largura/2, motiva√ß√µes, width=largura, label='Motiva√ß√µes', color='steelblue')
plt.bar(x + largura/2, dores, width=largura, label='Dores', color='salmon')
plt.xticks(x, personas)
plt.ylabel('Quantidade')
plt.title('Motiva√ß√µes vs Dores por Persona')
plt.legend()
plt.tight_layout()
plt.show()



### **3Ô∏è‚É£ Gr√°fico de Pizza: ‚ÄúDistribui√ß√£o dos Problemas T√©cnicos em Dados Sujos‚Äù**

**Objetivo:** Visualizar a **frequ√™ncia relativa** dos **principais problemas t√©cnicos** presentes nos campos de *Dados Sujos das personas.*
**negrito**
Isso ajuda a identificar quais inconsist√™ncias t√©cnicas s√£o mais comuns, permitindo priorizar esfor√ßos na limpeza e padroniza√ß√£o dos dados.


In [None]:
# Frequ√™ncia dos problemas t√©cnicos em Dados Sujos
problemas_tecnicos = {
    'Datas formatos diferentes': 2,
    'Status incoerentes': 1,
    'Registros duplicados': 2,
    'Campos em branco': 1,
    'Colunas trocadas': 1,
    'Separadores inconsistentes': 1,
    'Erros de digita√ß√£o': 2,
    'Formata√ß√£o variada': 1
}

plt.figure(figsize=(8, 8))
plt.pie(problemas_tecnicos.values(), labels=problemas_tecnicos.keys(), autopct='%1.1f%%', startangle=140, colors=plt.cm.tab20.colors)
plt.title('Distribui√ß√£o dos Problemas T√©cnicos em Dados Sujos')
plt.tight_layout()
plt.show()




### **3Ô∏è‚É£ Gr√°fico de Pizza: ‚ÄúDistribui√ß√£o das Dores Categorizadas‚Äù**

**Objetivo:** Visualizar a **frequ√™ncia relativa dos principais tipos de dores** relatadas pelas personas, agrupando-as por **categorias tem√°ticas**.


In [None]:
# Gr√°fico de Pizza ‚Äì Categorias mais citadas nas dores
dores_categorias = {
    'Padroniza√ß√£o/Duplica√ß√£o': 4,
    'Dispers√£o de Dados': 3,
    'Extra√ß√£o Manual': 2,
    'Relat√≥rios T√©cnicos': 2,
    'Bugs/Suporte': 2,
    'Aprova√ß√µes/Comunica√ß√£o': 2
}

plt.figure(figsize=(8, 8))
plt.pie(dores_categorias.values(), labels=dores_categorias.keys(), autopct='%1.1f%%', startangle=140)
plt.title('Distribui√ß√£o das Dores Categorizadas')
plt.tight_layout()
plt.show()