# Exploratory Data Analysis - Tic Tac Toe
**Author**: Gabriela Dellamora Paim, Bruno Duarte Carlan

**Version**: 14/04/2025

**Python Ver**: 3.12.9

In [1]:
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt
from ydata_profiling import ProfileReport
# Importar libs de visualização.

PATH = './data.csv'
X_WIN   = X = '1'
O_WIN   = O ='-1'
DRAW    = '0'
ONGOING = '0.5'

  from .autonotebook import tqdm as notebook_tqdm


In [None]:
# Estatísticas descritivas das colunas (somente para numéricos, target no caso)
df = pd.read_csv(PATH)
df.describe()

In [None]:
# Exibir as primeiras linhas do dataset para inspeção inicial
print("\nPrimeiras linhas do dataset:")
print(df.head())

In [None]:
# Verificar o tamanho do dataset
print("\nDimensões do dataset:")
print(df.shape)

In [None]:
# Verificar valores únicos por coluna
print("\nValores únicos por coluna:")
for col in df.columns:
    print(f"\nColuna '{col}':")
    print(df[col].value_counts())

In [None]:
# Análise da variável alvo
print("\nDistribuição da variável alvo (category):")
print(df['category'].value_counts(normalize=True))

In [None]:
# Visualização da distribuição da variável alvo
plt.figure(figsize=(6, 4))
sns.countplot(x='category', data=df, palette='viridis')
plt.title('Distribuição da variável alvo (category)')
plt.xlabel('Category')
plt.ylabel('Contagem')
plt.show()

In [None]:
# Visualizar distribuições dos valores em cada coluna do tabuleiro (corrigido)
cols = df.columns[:-1]  # Excluir a coluna 'category'
num_cols = len(cols)

# Calcular número de linhas e colunas para o subplot dinamicamente
n_cols = 3
n_rows = (num_cols + n_cols - 1) // n_cols  # Arredondar para cima

fig, axes = plt.subplots(n_rows, n_cols, figsize=(5 * n_cols, 4 * n_rows))
fig.suptitle('Distribuição dos valores em cada posição do tabuleiro', fontsize=16)

# Se axes for 1D, transformar em 2D para evitar erros
if n_rows == 1:
    axes = [axes]
axes = axes.flatten()

# Plotar cada coluna
for i, col in enumerate(cols):
    sns.countplot(x=col, hue=col, data=df, ax=axes[i], palette='Set2', legend=False)
    axes[i].set_title(f'Posição {col}')
    axes[i].set_xlabel('Valor')
    axes[i].set_ylabel('Contagem')

# Remover subplots vazios
for j in range(i + 1, len(axes)):
    fig.delaxes(axes[j])

plt.tight_layout(rect=[0, 0.03, 1, 0.95])
plt.show()

In [None]:
# Análise cruzada: posição 0 x category
print("\nCruzamento entre a posição 0 e a variável category:")
cross_tab = pd.crosstab(df['0'], df['category'])
print(cross_tab)

In [None]:
# Heatmap para visualizar a correlação entre posições e categoria
plt.figure(figsize=(8, 6))
sns.heatmap(cross_tab, annot=True, fmt='d', cmap='YlGnBu')
plt.title('Heatmap - Posição 0 vs Category')
plt.ylabel('Valor na posição 0')
plt.xlabel('Category')
plt.show()