In [7]:
import pandas as pd

# Lendo o arquivo corretamente - a primeira linha é dados, não cabeçalho
df = pd.read_csv('iris.data', header=None)

# Verificando como ficou
print("Primeiras 5 linhas:")
print(df.head())
print("\nFormato:", df.shape)

Primeiras 5 linhas:
     0    1    2    3            4
0  5.1  3.5  1.4  0.2  Iris-setosa
1  4.9  3.0  1.4  0.2  Iris-setosa
2  4.7  3.2  1.3  0.2  Iris-setosa
3  4.6  3.1  1.5  0.2  Iris-setosa
4  5.0  3.6  1.4  0.2  Iris-setosa

Formato: (150, 5)


In [8]:
# Renomeando as colunas conforme especificado no PDF
colunas = ['comprimento_sepala', 'largura_sepala', 'comprimento_petala', 'largura_petala', 'especie']
df.columns = colunas

print("Dataset com colunas corretas:")
print(df.head())
print(f"\nFormato: {df.shape}")
print(f"\nAmostras por espécie:")
print(df['especie'].value_counts())

Dataset com colunas corretas:
   comprimento_sepala  largura_sepala  comprimento_petala  largura_petala  \
0                 5.1             3.5                 1.4             0.2   
1                 4.9             3.0                 1.4             0.2   
2                 4.7             3.2                 1.3             0.2   
3                 4.6             3.1                 1.5             0.2   
4                 5.0             3.6                 1.4             0.2   

       especie  
0  Iris-setosa  
1  Iris-setosa  
2  Iris-setosa  
3  Iris-setosa  
4  Iris-setosa  

Formato: (150, 5)

Amostras por espécie:
especie
Iris-setosa        50
Iris-versicolor    50
Iris-virginica     50
Name: count, dtype: int64


In [9]:
# Mapeamento das espécies para números inteiros
mapeamento_especies = {
    'Iris-setosa': 0,
    'Iris-versicolor': 1, 
    'Iris-virginica': 2
}

# Aplicando o mapeamento (criando uma nova coluna ou substituindo)
df['especie'] = df['especie'].replace(mapeamento_especies)

print("Dataset após mapeamento:")
print(df.head(10))
print(f"\nTipos de dados:")
print(df.dtypes)
print(f"\nValores únicos na coluna especie: {df['especie'].unique()}")

Dataset após mapeamento:
   comprimento_sepala  largura_sepala  comprimento_petala  largura_petala  \
0                 5.1             3.5                 1.4             0.2   
1                 4.9             3.0                 1.4             0.2   
2                 4.7             3.2                 1.3             0.2   
3                 4.6             3.1                 1.5             0.2   
4                 5.0             3.6                 1.4             0.2   
5                 5.4             3.9                 1.7             0.4   
6                 4.6             3.4                 1.4             0.3   
7                 5.0             3.4                 1.5             0.2   
8                 4.4             2.9                 1.4             0.2   
9                 4.9             3.1                 1.5             0.1   

   especie  
0        0  
1        0  
2        0  
3        0  
4        0  
5        0  
6        0  
7        0  
8        0

  df['especie'] = df['especie'].replace(mapeamento_especies)


In [11]:
# Verificando se está tudo correto
print("=== RESUMO FINAL DA TABELA ===")
print(f"Dimensões: {df.shape}")
print(f"\nPrimeiras 10 linhas:")
print(df.head(10))
print(f"\nÚltimas 5 linhas:")
print(df.tail())
print(f"\nEstatísticas descritivas:")
print(df.describe())

=== RESUMO FINAL DA TABELA ===
Dimensões: (150, 5)

Primeiras 10 linhas:
   comprimento_sepala  largura_sepala  comprimento_petala  largura_petala  \
0                 5.1             3.5                 1.4             0.2   
1                 4.9             3.0                 1.4             0.2   
2                 4.7             3.2                 1.3             0.2   
3                 4.6             3.1                 1.5             0.2   
4                 5.0             3.6                 1.4             0.2   
5                 5.4             3.9                 1.7             0.4   
6                 4.6             3.4                 1.4             0.3   
7                 5.0             3.4                 1.5             0.2   
8                 4.4             2.9                 1.4             0.2   
9                 4.9             3.1                 1.5             0.1   

   especie  
0        0  
1        0  
2        0  
3        0  
4        0  
5