# Projeto Final Pipeline de Dados: Agricultura na Índia

Imports necessários

In [1]:
import kagglehub
import matplotlib
import pandas as pd
import numpy as np
import os

  from .autonotebook import tqdm as notebook_tqdm


Import dos dados de produção da Índia, produção estatística da Índia, dados climáticos do planeta, dados climáticos da Índia

In [2]:
def carregar_dataset_kaggle(handle_dataset: str):
    """
    Baixa um dataset do Kaggle Hub e carrega o primeiro arquivo CSV encontrado em um DataFrame.
    """
    print(f"--- Iniciando carregamento de: {handle_dataset} ---")
    try:
        caminho_pasta = kagglehub.dataset_download(handle_dataset)
        arquivos_csv = [f for f in os.listdir(caminho_pasta) if f.endswith('.csv')]
        
        if not arquivos_csv:
            print(f"AVISO: Nenhum arquivo .csv encontrado para '{handle_dataset}'.")
            return None
        
        nome_csv = arquivos_csv[0]
        caminho_completo = os.path.join(caminho_pasta, nome_csv)
        
        print(f"Arquivo encontrado: '{nome_csv}'. Lendo os dados...")
        # Adicionado tratamento para possíveis erros de codificação e linhas mal formatadas
        df = pd.read_csv(caminho_completo, encoding='latin1', on_bad_lines='skip')
        
        print(f"--> Dataset '{handle_dataset}' carregado com sucesso!\n")
        return df

    except Exception as e:
        print(f"ERRO ao carregar o dataset '{handle_dataset}': {e}\
")
        return None

# --------------------------------------------------------------------------
# 3. Carregando os 4 Datasets para DataFrames separados
# --------------------------------------------------------------------------
df_producao = carregar_dataset_kaggle("abhinand05/crop-production-in-india")
df_estatisticas = carregar_dataset_kaggle("nikhilmahajan29/crop-production-statistics-india")
df_clima_planeta = carregar_dataset_kaggle("berkeleyearth/climate-change-earth-surface-temperature-data")
df_clima_india = carregar_dataset_kaggle("swarooprangle/indian-agriculture-and-climate-dataset-1961-2018")



--- Iniciando carregamento de: abhinand05/crop-production-in-india ---
Arquivo encontrado: 'crop_production.csv'. Lendo os dados...
--> Dataset 'abhinand05/crop-production-in-india' carregado com sucesso!

--- Iniciando carregamento de: nikhilmahajan29/crop-production-statistics-india ---
Arquivo encontrado: 'APY.csv'. Lendo os dados...
--> Dataset 'nikhilmahajan29/crop-production-statistics-india' carregado com sucesso!

--- Iniciando carregamento de: berkeleyearth/climate-change-earth-surface-temperature-data ---
Arquivo encontrado: 'GlobalLandTemperaturesByCity.csv'. Lendo os dados...
--> Dataset 'berkeleyearth/climate-change-earth-surface-temperature-data' carregado com sucesso!

--- Iniciando carregamento de: swarooprangle/indian-agriculture-and-climate-dataset-1961-2018 ---
AVISO: Nenhum arquivo .csv encontrado para 'swarooprangle/indian-agriculture-and-climate-dataset-1961-2018'.


Informação dos DataFrames Carregados:

In [3]:
print("\n### Informação de df_producao (Crop Production in India):")
print(df_producao.head())
df_producao.info()

print("\n### Informação de df_estatisticas (Crop Production Statistics):")
print(df_estatisticas.head())
df_estatisticas.info()

print("\n### Informação de df_clima_planeta (Climate Change Earth Surface Temperature):")
print(df_clima_planeta.head())
df_clima_planeta.info()

print("\n### Informação de df_clima_india (Indian Agriculture and Climate):")
print(df_clima_india.head())
df_clima_india.info()


### Informação de df_producao (Crop Production in India):
                    State_Name District_Name  Crop_Year       Season  \
0  Andaman and Nicobar Islands      NICOBARS       2000  Kharif        
1  Andaman and Nicobar Islands      NICOBARS       2000  Kharif        
2  Andaman and Nicobar Islands      NICOBARS       2000  Kharif        
3  Andaman and Nicobar Islands      NICOBARS       2000  Whole Year    
4  Andaman and Nicobar Islands      NICOBARS       2000  Whole Year    

                  Crop    Area  Production  
0             Arecanut  1254.0      2000.0  
1  Other Kharif pulses     2.0         1.0  
2                 Rice   102.0       321.0  
3               Banana   176.0       641.0  
4            Cashewnut   720.0       165.0  
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 246091 entries, 0 to 246090
Data columns (total 7 columns):
 #   Column         Non-Null Count   Dtype  
---  ------         --------------   -----  
 0   State_Name     246091 non-null  o

AttributeError: 'NoneType' object has no attribute 'head'

Análise Descritiva dos DataFrames Carregados:

In [None]:
print("\n### Descrição de df_producao (Crop Production in India):")
print(df_producao.describe())

print("\n### Descrição de df_estatisticas (Crop Production Statistics):")
print(df_estatisticas.describe())

print("\n### Descrição de df_clima_planeta (Climate Change Earth Surface Temperature):")
print(df_clima_planeta.describe())

print("\n### Descrição de df_clima_india (Indian Agriculture and Climate):")
print(df_clima_india.describe())

## Combinando os DataFrames
Vamos começar combinando os dados de produção (`df_producao`) com os dados de estatística de produção ('df_estatisticas').

In [None]:
df_producao_estatisticas = pd.merge(
    df_producao,
    df_estatisticas,
    left_on=['State_Name', 'District_Name', 'Crop_Year', 'Season', 'Crop'],
    right_on=['State', 'District', 'Crop_Year', 'Season', 'Crop'],
    how='inner',
    suffixes=('_producao', '_estatisticas')
)

print(df_producao_estatisticas.head())
df_producao_estatisticas.info()