# 🐄 Livestock Data: Initial Inspection & Cleaning

This notebook performs:

1. **Initial Inspection**: `.head()`, `.info()`, `.describe()`  
2. **Cleaning**: Missing values handling  
3. **Preparation**: Filtering relevant rows

We'll apply this to five datasets:
- 1_Производство.xlsx
- 2_Численность.xlsx
- 3_Молоко.xlsx
- 4_Производство_яиц.xlsx
- 5_Убой скота.xlsx


## 📊 Cleaning `1_Производство.xlsx`

In [5]:
import pandas as pd
print("📂 Обработка файла: 1_Производство.xlsx")

# Загрузка
df = pd.read_excel("data/1_Производство.xlsx", sheet_name=None)

# Для простоты объединим все листы в один DataFrame
combined_df = pd.concat(df.values(), ignore_index=True)

# Первичная проверка
print("✅ .info():")
print(combined_df.info())

print("\n✅ .head():")
print(combined_df.head())

print("\n✅ .describe():")
print(combined_df.describe(include='all', datetime_is_numeric=True))

# Проверка пропусков
print("\n🔍 Пропущенные значения:")
print(combined_df.isnull().sum())

# Простейшая стратегия:
# - удалим полностью пустые строки
# - оставим пропуски в числовых столбцах, если они минимальны

# Удаляем полностью пустые строки
cleaned_df = combined_df.dropna(how='all')

# Дополнительно можно сохранить очищенный файл
cleaned_df.to_excel(f"data/1_Производство_cleaned.xlsx", index=False)
print(f"✅ Сохранено: data/1_Производство_cleaned.xlsx")


📂 Обработка файла: 1_Производство.xlsx
✅ .info():
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 44 entries, 0 to 43
Data columns (total 16 columns):
 #   Column       Non-Null Count  Dtype 
---  ------       --------------  ----- 
 0   Unnamed: 0   39 non-null     object
 1   Unnamed: 1   37 non-null     object
 2   Unnamed: 2   36 non-null     object
 3   Unnamed: 3   36 non-null     object
 4   Unnamed: 4   38 non-null     object
 5   Unnamed: 5   36 non-null     object
 6   Unnamed: 6   36 non-null     object
 7   Unnamed: 7   37 non-null     object
 8   Unnamed: 8   36 non-null     object
 9   Unnamed: 9   36 non-null     object
 10  Unnamed: 10  37 non-null     object
 11  Unnamed: 11  36 non-null     object
 12  Unnamed: 12  36 non-null     object
 13  Unnamed: 13  37 non-null     object
 14  Unnamed: 14  36 non-null     object
 15  Unnamed: 15  36 non-null     object
dtypes: object(16)
memory usage: 5.6+ KB
None

✅ .head():
                                          Unnamed: 

TypeError: NDFrame.describe() got an unexpected keyword argument 'datetime_is_numeric'

## 📊 Cleaning `2_Численность.xlsx`

In [6]:
print("📂 Обработка файла: 2_Численность.xlsx")

# Загрузка
df = pd.read_excel("data/2_Численность.xlsx", sheet_name=None)

# Для простоты объединим все листы в один DataFrame
combined_df = pd.concat(df.values(), ignore_index=True)

# Первичная проверка
print("✅ .info():")
print(combined_df.info())

print("\n✅ .head():")
print(combined_df.head())

print("\n✅ .describe():")
print(combined_df.describe(include='all', datetime_is_numeric=True))

# Проверка пропусков
print("\n🔍 Пропущенные значения:")
print(combined_df.isnull().sum())

# Простейшая стратегия:
# - удалим полностью пустые строки
# - оставим пропуски в числовых столбцах, если они минимальны

# Удаляем полностью пустые строки
cleaned_df = combined_df.dropna(how='all')

# Дополнительно можно сохранить очищенный файл
cleaned_df.to_excel(f"data/2_Численность_cleaned.xlsx", index=False)
print(f"✅ Сохранено: data/2_Численность_cleaned.xlsx")


📂 Обработка файла: 2_Численность.xlsx
✅ .info():
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 535 entries, 0 to 534
Data columns (total 16 columns):
 #   Column       Non-Null Count  Dtype 
---  ------       --------------  ----- 
 0   Unnamed: 0   423 non-null    object
 1   Unnamed: 1   458 non-null    object
 2   Unnamed: 2   437 non-null    object
 3   Unnamed: 3   437 non-null    object
 4   Unnamed: 4   475 non-null    object
 5   Unnamed: 5   437 non-null    object
 6   Unnamed: 6   440 non-null    object
 7   Unnamed: 7   399 non-null    object
 8   Unnamed: 8   385 non-null    object
 9   Unnamed: 9   384 non-null    object
 10  Unnamed: 10  386 non-null    object
 11  Unnamed: 11  367 non-null    object
 12  Unnamed: 12  375 non-null    object
 13  Unnamed: 13  106 non-null    object
 14  Unnamed: 14  89 non-null     object
 15  Unnamed: 15  40 non-null     object
dtypes: object(16)
memory usage: 67.0+ KB
None

✅ .head():
                                          Unnamed

TypeError: NDFrame.describe() got an unexpected keyword argument 'datetime_is_numeric'

## 📊 Cleaning `3_Молоко.xlsx`

In [None]:
print("📂 Обработка файла: 3_Молоко.xlsx")

# Загрузка
df = pd.read_excel("data/3_Молоко.xlsx", sheet_name=None)

# Для простоты объединим все листы в один DataFrame
combined_df = pd.concat(df.values(), ignore_index=True)

# Первичная проверка
print("✅ .info():")
print(combined_df.info())

print("\n✅ .head():")
print(combined_df.head())

print("\n✅ .describe():")
print(combined_df.describe(include='all', datetime_is_numeric=True))

# Проверка пропусков
print("\n🔍 Пропущенные значения:")
print(combined_df.isnull().sum())

# Простейшая стратегия:
# - удалим полностью пустые строки
# - оставим пропуски в числовых столбцах, если они минимальны

# Удаляем полностью пустые строки
cleaned_df = combined_df.dropna(how='all')

# Дополнительно можно сохранить очищенный файл
cleaned_df.to_excel(f"data/3_Молоко_cleaned.xlsx", index=False)
print(f"✅ Сохранено: data/3_Молоко_cleaned.xlsx")


## 📊 Cleaning `4_Яйца.xlsx`

In [None]:
print("📂 Обработка файла: 4_Яйца.xlsx")

# Загрузка
df = pd.read_excel("data/4_Яйца.xlsx", sheet_name=None)

# Для простоты объединим все листы в один DataFrame
combined_df = pd.concat(df.values(), ignore_index=True)

# Первичная проверка
print("✅ .info():")
print(combined_df.info())

print("\n✅ .head():")
print(combined_df.head())

print("\n✅ .describe():")
print(combined_df.describe(include='all', datetime_is_numeric=True))

# Проверка пропусков
print("\n🔍 Пропущенные значения:")
print(combined_df.isnull().sum())

# Простейшая стратегия:
# - удалим полностью пустые строки
# - оставим пропуски в числовых столбцах, если они минимальны

# Удаляем полностью пустые строки
cleaned_df = combined_df.dropna(how='all')

# Дополнительно можно сохранить очищенный файл
cleaned_df.to_excel(f"data/4_Яйца_cleaned.xlsx", index=False)
print(f"✅ Сохранено: data/4_Яйца_cleaned.xlsx")


## 📊 Cleaning `5_Забой.xlsx`

In [None]:
print("📂 Обработка файла: 5_Забой.xlsx")

# Загрузка
df = pd.read_excel("data/5_Забой.xlsx", sheet_name=None)

# Для простоты объединим все листы в один DataFrame
combined_df = pd.concat(df.values(), ignore_index=True)

# Первичная проверка
print("✅ .info():")
print(combined_df.info())

print("\n✅ .head():")
print(combined_df.head())

print("\n✅ .describe():")
print(combined_df.describe(include='all', datetime_is_numeric=True))

# Проверка пропусков
print("\n🔍 Пропущенные значения:")
print(combined_df.isnull().sum())

# Простейшая стратегия:
# - удалим полностью пустые строки
# - оставим пропуски в числовых столбцах, если они минимальны

# Удаляем полностью пустые строки
cleaned_df = combined_df.dropna(how='all')

# Дополнительно можно сохранить очищенный файл
cleaned_df.to_excel(f"data/5_Забой_cleaned.xlsx", index=False)
print(f"✅ Сохранено: data/5_Забой_cleaned.xlsx")
