# 9 - Manipulando Tabelas




## Criando uma tabela <code>.csv</code>

Um arquivo CSV (Comma-Separated Values) é um tipo de arquivo de texto que armazena dados de maneira simples, com os valores separados por vírgulas. Ele é amplamente utilizado para armazenar dados tabulares, como planilhas de Excel ou bancos de dados. Cada linha do arquivo representa uma linha de dados, e os valores em cada linha são separados por vírgulas, formando colunas.

CSV também é um módulo nativo do Python https://docs.python.org/3/library/csv.html

In [None]:
import csv

In [None]:
dados = [
    ["Nome", "Estatística", "Programação"],  # Cabeçalho
    ["João", 8.5, 9.0],
    ["Maria", 7.0, 8.5],
    ["Pedro", 6.5, 7.5],
    ["Ana", 9.0, 9.5],
    ["Lucas", 5.5, 6.0],
    ["Julia", 8.0, 7.0],
    ["Ronaldo", 8.0, 7.0],
    ["Mariana", 6.0, 10.0],
    ["Jonas", 7.0, 4.0],
    ["Fernanda", 7.5, 7.0],
    ["Beatriz", 4.5, 8.0],
]

In [None]:
with open("notas_alunos.csv", mode='w', newline='', encoding='utf-8') as file:
    writer = csv.writer(file)
    writer.writerows(dados)

In [None]:
with open("notas_alunos.csv", mode='r', newline='', encoding='utf-8') as file:
    reader = csv.reader(file)
    linhas = [linha for linha in reader]

In [None]:
linhas

In [None]:
linhas[0]

In [None]:
linhas[1][1]

In [None]:
type(linhas[1][1])  # Perceba que os conteudos das células da tabela são Strings

## Pandas

A biblioteca Pandas é uma ferramenta de Python projetada para facilitar a manipulação e análise de dados estruturados. Ela trabalha com dois principais tipos de estruturas de dados: o <code>DataFrame</code>, que é uma tabela bidimensional com linhas e colunas, e a <code>Series</code>, que é uma estrutura unidimensional. Pandas permite ler, escrever e manipular dados de forma eficiente, como arquivos CSV, Excel e bancos de dados, oferecendo uma maneira simples de acessar, organizar e processar grandes volumes de dados. A principal ideia por trás do Pandas é tornar o trabalho com dados tabulares mais fácil e rápido, sem a necessidade de escrever longas linhas de código.

https://pandas.pydata.org/docs/user_guide/index.html

In [None]:
import pandas as pd

In [None]:
df = pd.read_csv('notas_alunos.csv')

In [None]:
type(df)

In [None]:
df.columns

In [None]:
df.head()

In [None]:
df.tail()

In [None]:
df.info()

In [None]:
df.describe()

In [None]:
df.hist()

In [None]:
df.boxplot()

In [None]:
def media_final(nota_estatistica,nota_programacao):
    return(0.4*nota_estatistica+0.6*nota_programacao)

In [None]:
media_final(10,10)

In [None]:
media_final(10,5)

In [None]:
df['Media'] = df.apply(lambda x: media_final(x['Estatística'], x['Programação']), axis=1)

In [None]:
df.head()

In [None]:
def aprovacao(media):
    if media >=7:
        return "Aprovado"
    else:
        return "Retido"

In [None]:
df['Aprovacao'] = df['Media'].apply(aprovacao)

In [None]:
df.head()

In [None]:
retidos = df[df['Aprovacao']=='Retido']

retidos

In [None]:
aprovados = df[df['Aprovacao']=='Aprovado']

aprovados

In [None]:
df.groupby('Aprovacao').count()

In [None]:
df.groupby('Aprovacao')[['Programação','Estatística']].mean()

In [None]:
df.corr()

O <code>np.number</code> é um tipo de dado que representa todos os tipos numéricos no NumPy, que incluem tanto números inteiros quanto números de ponto flutuante.

In [None]:
import numpy as np

In [None]:
df.select_dtypes(include=[np.number]).corr()