Desafio 22: Limpeza de Dados de Produção Agrícola

📂 Dataset: Informações de produção agrícola com inconsistências e dados sujos.
Colunas: Ano, Estado, Cultura, Clima, Area_Produtiva_ha, Producao_Toneladas

🎯 Desafios de Limpeza:

Identifique e trate os valores ausentes nas colunas Area_Produtiva_ha e Producao_Toneladas.

Corrija a padronização de nomes nas colunas Cultura, Clima e Estado (maiúsculas/minúsculas, acentuação, traços).

Converta corretamente os valores de Area_Produtiva_ha para numérico.

Remova ou preencha valores inválidos e substitua entradas vazias ou "N/A".

Após a limpeza, calcule a produtividade média por hectare para cada tipo de cultura.

In [1]:
import pandas as pd

In [81]:
df = pd.read_csv("dia_22_producao_agricola_sujo.csv")
df.head()

Unnamed: 0,Ano,Estado,Cultura,Clima,Area_Produtiva_ha,Producao_Toneladas
0,2023,PR,Soja,Subtropical,1404.7,36801.37
1,2022,RS,Milho,Tropical,7115.82,1820.77
2,2023,MG,Algodão,Equatorial,8968.15,57367.9
3,2018,PR,Café,Subtropical,8392.7,
4,2019,RS,Soja,Subtropical,4398.2,50159.24


In [82]:
#Identifique e trate os valores ausentes nas colunas Area_Produtiva_ha e Producao_Toneladas.
print(f"Valores Nulos sem tratamento: \n{df[["Area_Produtiva_ha", "Producao_Toneladas"]].isnull().sum()}")
df["Producao_Toneladas"] = df.groupby("Cultura")["Producao_Toneladas"].transform(lambda x: x.fillna(x.mean()))
df["Area_Produtiva_ha"] = df.groupby("Cultura")["Area_Produtiva_ha"].transform(lambda x: x.fillna(x.mean()))
print(f"\nValores Nulos depois do tratamento : \n{df[["Area_Produtiva_ha", "Producao_Toneladas"]].isnull().sum()}")

Valores Nulos sem tratamento: 
Area_Produtiva_ha     3
Producao_Toneladas    5
dtype: int64

Valores Nulos depois do tratamento : 
Area_Produtiva_ha     0
Producao_Toneladas    0
dtype: int64


In [83]:
#Corrija a padronização de nomes nas colunas Cultura, Clima e Estado (maiúsculas/minúsculas, acentuação, traços).
df["Cultura"] = df["Cultura"].str.strip().str.lower().str.replace("-", " ").str.title()
df["Clima"] = df["Clima"].str.strip().str.lower().str.replace("-", " ").str.title()
df["Estado"] = df["Estado"].str.strip().str.replace("-", " ").str.upper()
df[["Estado", "Clima", "Cultura"]]

Unnamed: 0,Estado,Clima,Cultura
0,PR,Subtropical,Soja
1,RS,Tropical,Milho
2,MG,Equatorial,Algodão
3,PR,Subtropical,Café
4,RS,Subtropical,Soja
...,...,...,...
145,PR,Equatorial,Milho
146,RS,Equatorial,Algodão
147,SP,Equatorial,Milho
148,GO,Tropical,Algodão


In [84]:
#Converta corretamente os valores de Area_Produtiva_ha para numérico.
df["Area_Produtiva_ha"] = pd.to_numeric(df["Area_Produtiva_ha"])
print(f"Mostra que todos os valores são realmente númericos: \n{df["Area_Produtiva_ha"].apply(type).value_counts()}")

Mostra que todos os valores são realmente númericos: 
Area_Produtiva_ha
<class 'float'>    150
Name: count, dtype: int64


In [85]:
#Remova ou preencha valores inválidos e substitua entradas vazias ou "N/A".
print("Neste momento todos os valores nulos já foram tratados: \n")
df.replace(["N/A", "n/a", "-", " ", ""], pd.NA, inplace=True)
print(df.isnull().sum())

Neste momento todos os valores nulos já foram tratados: 

Ano                   0
Estado                0
Cultura               0
Clima                 0
Area_Produtiva_ha     0
Producao_Toneladas    0
dtype: int64


In [86]:
#Após a limpeza, calcule a produtividade média por hectare para cada tipo de cultura.
df["Produtividade_Toneladas_ha"] = df["Producao_Toneladas"] / df["Area_Produtiva_ha"]
produtividadeMedia = df.groupby("Cultura")["Produtividade_Toneladas_ha"].mean().reset_index().sort_values(by="Produtividade_Toneladas_ha", ascending=False)
print(produtividadeMedia.round(2))

   Cultura  Produtividade_Toneladas_ha
1    Arroz                       43.69
2     Café                       41.80
4     Soja                       32.27
0  Algodão                       28.81
3    Milho                       21.53
