# Análise exploratória de dados

In [None]:
### Import de bibliotecas para manipulação dos dados 
import pandas as pd
import numpy as np
import math

### para visualizacao 
import seaborn as sns
#import matplotlib.pyplot as plt

### para obter estatisticas de teste
import scipy.stats as stats
from scipy.stats import norm
from sklearn.preprocessing import LabelEncoder

## 1. Descrição dos dados

##### O dataset "Orange Quality Data.csv" contém 241 linhas e 11 colunas, e ele foi retirado dos datasets da kaggle. 
##### As variáveis incluem: 


* **Size (cm):** Diâmetro da laranja em centímetros, representando o tamanho da fruta.
* **Weight (g):** Peso da laranja em gramas, indicando a massa da fruta.
* **Brix (Sweetness):** Nível de açúcar da laranja, medido pela escala Brix, que indica o grau de doçura.
* **pH (Acidity):** Nível de acidez da laranja, medido pelo pH, que indica o sabor azedo da fruta.
* **Softness (1-5):** Nível de maciez da laranja em uma escala de 1 a 5, onde 1 indica uma fruta muito dura e 5 indica uma fruta muito macia.
* **HarvestTime (days):** Número de dias desde o plantio até a colheita, indicando o tempo de cultivo.
* **Ripeness (1-5):** Nível de maturação da laranja em uma escala de 1 a 5, onde 1 indica uma fruta verde e 5 indica uma fruta madura.
* **Color:** Cor da casca da laranja, indicando a variedade e o estágio de maturação.
* **Variety:** Variedade da laranja, como Valencia, Navel, Cara Cara, etc.
* **Blemishes (Y/N):** Indica se a laranja possui manchas ou defeitos visíveis (Sim ou Não).
* **Quality (1-5):** Qualidade geral da laranja em uma escala de 1 a 5, avaliando diversos atributos como tamanho, aparência, sabor e textura.

In [29]:
#Caminho e leitura do Dataframe
df = pd.read_csv('../data/raw/Orange_Quality_Data.csv')

#Análise das 10 primeiras linhas 
df.head(10)



Unnamed: 0,Size (cm),Weight (g),Brix (Sweetness),pH (Acidity),Softness (1-5),HarvestTime (days),Ripeness (1-5),Color,Variety,Blemishes (Y/N),Quality (1-5)
0,7.5,180,12.0,3.2,2.0,10,4.0,Orange,Valencia,N,4.0
1,8.2,220,10.5,3.4,3.0,14,4.5,Deep Orange,Navel,N,4.5
2,6.8,150,14.0,3.0,1.0,7,5.0,Light Orange,Cara Cara,N,5.0
3,9.0,250,8.5,3.8,4.0,21,3.5,Orange-Red,Blood Orange,N,3.5
4,8.5,210,11.5,3.3,2.5,12,5.0,Orange,Hamlin,Y (Minor),4.5
5,6.7,126,9.1,3.0,2.0,25,2.0,Orange,Navel,N,1.0
6,7.2,160,9.0,3.5,3.5,9,4.0,Yellow-Orange,Tangelo (Hybrid),N,4.0
7,6.5,130,13.5,2.8,1.5,5,4.5,Light Orange,Murcott (Hybrid),N,4.5
8,8.8,240,7.5,4.0,5.0,18,3.0,Deep Orange,Moro (Blood),Y (Sunburn),3.0
9,7.8,190,12.0,3.1,2.0,11,4.5,Orange,Jaffa,N,5.0


In [34]:
def  separador():
    print("=" * 50 + " ************** " + "=" * 50)
separador()

# Exibindo as informações do DataFrame
print(f"Informações gerais do DataFrame")
print(f" ")
df.info()
print(f" ")

separador()
print(f"Resumo estatístico")
print(f" ")
#Resumo estatístico
df.describe()

Informações gerais do DataFrame
 
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 241 entries, 0 to 240
Data columns (total 11 columns):
 #   Column              Non-Null Count  Dtype  
---  ------              --------------  -----  
 0   Size (cm)           241 non-null    float64
 1   Weight (g)          241 non-null    int64  
 2   Brix (Sweetness)    241 non-null    float64
 3   pH (Acidity)        241 non-null    float64
 4   Softness (1-5)      241 non-null    float64
 5   HarvestTime (days)  241 non-null    int64  
 6   Ripeness (1-5)      241 non-null    float64
 7   Color               241 non-null    object 
 8   Variety             241 non-null    object 
 9   Blemishes (Y/N)     241 non-null    object 
 10  Quality (1-5)       241 non-null    float64
dtypes: float64(6), int64(2), object(3)
memory usage: 20.8+ KB
 
Resumo estatístico
 


Unnamed: 0,Size (cm),Weight (g),Brix (Sweetness),pH (Acidity),Softness (1-5),HarvestTime (days),Ripeness (1-5),Quality (1-5)
count,241.0,241.0,241.0,241.0,241.0,241.0,241.0,241.0
mean,7.844813,205.128631,10.907884,3.4739,3.072614,15.344398,3.599585,3.817427
std,1.086002,56.461012,2.760446,0.421007,1.32363,5.323852,1.205214,1.01441
min,6.0,100.0,5.5,2.8,1.0,4.0,1.0,1.0
25%,6.9,155.0,8.5,3.2,2.0,11.0,3.0,3.0
50%,7.8,205.0,11.0,3.4,3.0,15.0,4.0,4.0
75%,8.7,252.0,13.4,3.8,4.0,20.0,4.5,4.5
max,10.0,300.0,16.0,4.4,5.0,25.0,5.0,5.0


In [None]:
# Caminho do dicionário dos dados .csv
csv_path = '../data/external/dicionario_de_dados_laranjas.csv'

# Leitura do CSV
df_dicionario_dados = pd.read_csv(csv_path, sep=';')
dicionario = df_dicionario_dados.loc[:, ~df_dicionario_dados.columns.str.contains('^Unnamed')]
print(dicionario)




## 2. Perguntas de partida e hipóteses

## a: Como a maciez das laranjas varia com o tempo de colheita e o estágio de maturação? Laranjas mais maduras são sempre mais macias?

In [None]:
#Coloque seu código aqui 

## b: A cor das laranjas está relacionada à sua qualidade? Quais tonalidades são indicativas de maior qualidade?

In [None]:
# Análise Exploratória da Relação entre Cor e Qualidade
# Calculando a média da qualidade para cada tonalidade de cor
color_quality = df.groupby('Color')['Quality (1-5)'].mean().sort_values()

# Exibindo a tabela de médias de qualidade por cor para melhor visualização 
print("Qualidade média por tonalidade de cor:")
print(color_quality)

# Gráfico de Barra Qualidade vs Tonalidade de Cor
plt.figure(figsize=(12, 8))
sns.barplot(x=color_quality.index, y=color_quality.values, palette="plasma")

# Configurações do Gráfico
plt.title('Qualidade Média das Laranjas por Tonalidade de Cor')
plt.xlabel('Tonalidade de Cor')
plt.ylabel('Qualidade Média')
plt.xticks(rotation=0)
plt.grid(axis='y', linestyle='--', alpha=0.6)

# Adicionando os valores em cima das barras
for index, value in enumerate(color_quality.values):
    plt.text(index, value + 0.05, f"{value:.2f}", ha='center', va='bottom', fontsize=10)


# Exibir o gráfico
plt.show()

#Espaçamento para melhor visualização 
print(' ')
print(' ')
print(' ')
print(' ')

# Transformando a coluna 'color' em valores numéricos para utilizar a correlação
label_encoder = LabelEncoder()
df['color_encoded'] = label_encoder.fit_transform(df['Color'])

# Cálculo da correlação entre cor e qualidade
correlation = df[['color_encoded', 'Quality (1-5)']].corr().iloc[0, 1]
print(f"Correlação entre cor e qualidade: {correlation:.2f}")

# Gráfico de dispersão
plt.figure(figsize=(10, 6))
sns.scatterplot(x='color_encoded', y='Quality (1-5)', data=df, palette="plasma", hue='Color', legend=False)

# Configurações do gráfico de dispersão
plt.title('Correlação entre Cor das Laranjas e Qualidade')
plt.xlabel('Cor (Codificada)')
plt.ylabel('Qualidade')
plt.grid(True, linestyle='--', alpha=0.6)

# Exibir o gráfico
plt.show()

# Exibir cores originais, codificadas e qualidade em tabela para melhor entendimento
color_mapping = pd.DataFrame({
    'Original Color': label_encoder.classes_,  # Cores originais
    'Encoded Color': range(len(label_encoder.classes_)),  # Cores codificadas
    'Quality': [df[df['Color'] == color]['Quality (1-5)'].mean() for color in label_encoder.classes_]  # Média da qualidade por cor
})

print("\nTabela de Cores e Qualidade:")
print(color_mapping)


#Insight
''' 
A correlação calculada é de -0.12.
Interpretação dos Resultados
Qualidade Média: A análise mostra que a tonalidade Deep Orange apresenta a maior qualidade média (4.31), 
seguida por Yellow-Orange (4.22). Isso indica que as laranjas dessas cores tendem a ser avaliadas como de maior 
qualidade. Tonalidades Menores: As tonalidades Light Orange, Orange, e Orange-Red têm médias de qualidade inferiores 
(3.28 a 3.75), sugerindo que essas cores estão associadas a uma qualidade menor em comparação às tonalidades mais escuras.
Correlação Negativa: A correlação de -0.12 indica uma relação fraca e negativa entre a cor das laranjas e sua qualidade.
Isso sugere que, embora existam variações na qualidade média entre as diferentes tonalidades, não há uma relação forte que
indique que a cor mais intensa sempre resulta em maior qualidade.
'''

## c: Qual é a influência das manchas na avaliação da qualidade das laranjas?

In [None]:
#Coloque seu código aqui 

## d: Como o tempo de colheita afeta as características das laranjas? Existem períodos ideais para a colheita que maximizam a qualidade?

In [None]:
#Coloque seu código aqui 

## e: A presença de manchas afeta o pH ou a doçura das laranjas? Isso poderia indicar alguma relação entre defeitos visuais e características internas da fruta.

In [None]:
#Coloque seu código aqui 

## 3. Insights