In [5]:
# Importar bibliotecas necesarias
import pandas as pd

# Cargar los datos
df = pd.read_csv('crop_yield_dataset.csv')

# Mostrar las primeras 10 filas del DataFrame
print(df.head(10))

# Mostrar las últimas 5 filas del DataFrame
print(df.tail(5))

# Obtener información general sobre el DataFrame
print(df.info())

# Generar estadísticas descriptivas del DataFrame
print(df.describe())

# Identificar y manejar datos faltantes
print(df.isnull().sum())  # Verificar si hay datos faltantes

# Rellenar con la media solo las columnas numéricas
df.fillna(df.mean(numeric_only=True), inplace=True)

# Rellenar con la moda las columnas no numéricas
df['Crop_Type'].fillna(df['Crop_Type'].mode()[0], inplace=True)

# Corregir tipos de datos
df['Date'] = pd.to_datetime(df['Date'])  # Convertir a fecha

# Eliminar duplicados
df.drop_duplicates(inplace=True)

# Crear nuevas columnas
df['Ingresos'] = df['Crop_Yield'] * df['Temperature']  # Calcular ingresos

# Clasificar datos en categorías
df['Categoria'] = pd.cut(df['Crop_Yield'], bins=[0, 20, 40, 60, 80, 100], labels=['Bajo', 'Medio', 'Alto', 'Muy Alto', 'Excelente'])

# Agrupar datos
print(df.groupby('Crop_Type')['Crop_Yield'].mean())  # Ventas por producto
print(df.groupby('Soil_Type')['Crop_Yield'].sum())  # Ventas por región

# Aplicar funciones de agregación
print(df.groupby('Crop_Type')['Crop_Yield'].agg(['mean', 'std', 'count']))

# Utilizar el método apply
df['NuevoCampo'] = df.apply(lambda row: row['Crop_Yield'] * row['Temperature'], axis=1)

# Analizar la relación entre la temperatura y el rendimiento de los cultivos
print(df.groupby('Temperature')['Crop_Yield'].mean())

# Analizar la relación entre el tipo de suelo y el rendimiento de los cultivos
print(df.groupby('Soil_Type')['Crop_Yield'].mean())

# Analizar la relación entre la humedad y el rendimiento de los cultivos
print(df.groupby('Humidity')['Crop_Yield'].mean())

# Analizar la relación entre la velocidad del viento y el rendimiento de los cultivos
print(df.groupby('Wind_Speed')['Crop_Yield'].mean())

# Analizar la relación entre la calidad del suelo y el rendimiento de los cultivos
print(df.groupby('Soil_Quality')['Crop_Yield'].mean())

# Analizar la relación entre el tipo de cultivo y el rendimiento de los cultivos
print(df.groupby('Crop_Type')['Crop_Yield'].mean())

# Analizar la relación entre la fecha y el rendimiento de los cultivos
print(df.groupby('Date')['Crop_Yield'].mean())

         Date  Crop_Type Soil_Type  Soil_pH  Temperature   Humidity  \
0  2014-01-01      Wheat     Peaty     5.50     9.440599  80.000000   
1  2014-01-01       Corn     Loamy     6.50    20.052576  79.947424   
2  2014-01-01       Rice     Peaty     5.50    12.143099  80.000000   
3  2014-01-01     Barley     Sandy     6.75    19.751848  80.000000   
4  2014-01-01    Soybean     Peaty     5.50    16.110395  80.000000   
5  2014-01-01     Cotton     Sandy     6.75    14.826739  80.000000   
6  2014-01-01  Sugarcane    Saline     8.00    13.533004  80.000000   
7  2014-01-01     Tomato      Clay     6.25    18.323272  80.000000   
8  2014-01-01     Potato     Peaty     5.50    18.895963  80.000000   
9  2014-01-01  Sunflower     Loamy     6.50    16.865595  80.000000   

   Wind_Speed     N     P     K  Crop_Yield  Soil_Quality  
0   10.956707  60.5  45.0  31.5    0.000000     22.833333  
1    8.591577  84.0  66.0  50.0  104.871310     66.666667  
2    7.227751  71.5  54.0  38.5    0.0

The behavior will change in pandas 3.0. This inplace method will never work because the intermediate object on which we are setting values always behaves as a copy.

For example, when doing 'df[col].method(value, inplace=True)', try using 'df.method({col: value}, inplace=True)' or df[col] = df[col].method(value) instead, to perform the operation inplace on the original object.


  df['Crop_Type'].fillna(df['Crop_Type'].mode()[0], inplace=True)


Temperature
-3.540176     0.0
-2.390846     0.0
-2.266770     0.0
-2.240215     0.0
-2.216596     0.0
             ... 
 52.026027    0.0
 52.040254    0.0
 53.056750    0.0
 53.447390    0.0
 54.148911    0.0
Name: Crop_Yield, Length: 36520, dtype: float64
Soil_Type
Clay      29.199383
Loamy     36.523071
Peaty     21.992942
Saline    23.504590
Sandy     23.199531
Name: Crop_Yield, dtype: float64
Humidity
45.851089     0.000000
46.552610     0.000000
46.943250     0.000000
47.959746     0.000000
47.973973     0.000000
               ...    
79.997910    40.227775
79.998701    41.857465
79.999106    26.760402
79.999389    95.923588
80.000000    27.952897
Name: Crop_Yield, Length: 22906, dtype: float64
Wind_Speed
-3.388906     14.059794
-1.884739     44.696556
-1.157606     50.122264
-1.131445      0.000000
-1.110924     22.420083
                ...    
 20.808496     0.000000
 21.115730     0.000000
 21.708396     0.000000
 22.301027     0.000000
 22.606078     0.000000
Name: Crop_Yie

# Referencias

### Librerías utilizadas

*   [Pandas](https://pandas.pydata.org/docs/)

### Recursos adicionales

*   [Documentación de Python](https://docs.python.org/3/)
*   [Tutorial de Jupyter Notebook](https://jupyter-notebook.readthedocs.io/en/stable/)
*   [DataCamp](https://www.datacamp.com/)
*   [Kaggle](https://www.kaggle.com/)
*   [GitHub](https://github.com/polivares/CD-DataScience/tree/2024-2)

### Notas

*   Este notebook utiliza datos de [Crop Yield and Environmental Factors](https://www.kaggle.com/datasets/madhankumar789/crop-yield-and-environmental-factors-2014-2023?select=crop_yield_dataset.csv).