In [16]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
!pip install xlrd



# Script Explanation: Analyzing Voter Turnout

This script is designed to identify sections with unusually high voter turnout based on voting and section data. Here are the key steps performed:

1. **Loading the Data:**
   - The script loads voting data (`votes_path`) and section data (`sections_path`) from CSV files.
   - The `usecols` parameter is used to select only the necessary columns from each file.

2. **Assigning Column Names:**
   - After extracting the required columns, meaningful names are assigned to each column, such as `Section Code`, `Party/Coalition 1 Votes`, etc. This makes the data easier to work with.

3. **Merging the Data:**
   - The voting and section data are merged based on the common column `Section Code`, allowing the analysis of voting behavior within the context of specific sections.

4. **Calculating Voter Turnout:**
   - Voter turnout is calculated as the ratio of the number of voters who participated (`Voted`) to the number of registered voters (`Registered Voters`).
   - This ratio is crucial for identifying sections with unusually high turnout.

5. **Identifying Sections with High Turnout:**
   - The script filters and prints sections where voter turnout exceeds 90%, which could indicate potential anomalies that warrant further investigation.

6. **Output:**
   - The results are displayed in tabular format, showing the section code and voter turnout for each section with over 90% turnout.
   - This provides a quick overview of sections that deviate from the norm and may require additional scrutiny.

This script serves as an initial phase in the analysis of election data and can be expanded with further steps for a more detailed examination.


In [10]:

votes_path = r'C:\stasi\SoftUni_DATA_SCIENCE\FINAL_PROJECT\DATA\РЕЗУЛТАТИ ИЗБОРИ 2024\export\Актуализирана база данни - НС\votes_09.06.2024.txt'
sections_path = r'C:\stasi\SoftUni_DATA_SCIENCE\FINAL_PROJECT\DATA\РЕЗУЛТАТИ ИЗБОРИ 2024\export\Актуализирана база данни - НС\sections_09.06.2024.txt'
protocols_path = r'C:\stasi\SoftUni_DATA_SCIENCE\FINAL_PROJECT\DATA\РЕЗУЛТАТИ ИЗБОРИ 2024\export\Актуализирана база данни - НС\protocols_09.06.2024.txt'
preferences_path = r'C:\stasi\SoftUni_DATA_SCIENCE\FINAL_PROJECT\DATA\РЕЗУЛТАТИ ИЗБОРИ 2024\export\Актуализирана база данни - НС\preferences_09.06.2024.txt'
local_candidates_path = r'C:\stasi\SoftUni_DATA_SCIENCE\FINAL_PROJECT\DATA\РЕЗУЛТАТИ ИЗБОРИ 2024\export\Актуализирана база данни - НС\local_candidates_09.06.2024.txt'
cik_parties_path = r'C:\stasi\SoftUni_DATA_SCIENCE\FINAL_PROJECT\DATA\РЕЗУЛТАТИ ИЗБОРИ 2024\export\Актуализирана база данни - НС\cik_parties_09.06.2024.txt'
# Load and select necessary columns
votes = pd.read_csv(votes_path, delimiter=';', header=None, encoding='utf-8', usecols=[1, 3, 4, 5], on_bad_lines='skip')
sections = pd.read_csv(sections_path, delimiter=';', header=None, encoding='utf-8', usecols=[0, 2, 4, 6, 8], on_bad_lines='skip')
protocols = pd.read_csv(protocols_path, delimiter=';', header=None, encoding='utf-8', usecols=[1, 7, 12, 15, 16], on_bad_lines='skip')
preferences = pd.read_csv(preferences_path, delimiter=';', header=None, encoding='utf-8', usecols=[1, 3, 4, 5], on_bad_lines='skip')
local_candidates = pd.read_csv(local_candidates_path, delimiter=';', header=None, encoding='utf-8', usecols=[2, 5], on_bad_lines='skip')
cik_parties = pd.read_csv(cik_parties_path, delimiter=';', header=None, encoding='utf-8', usecols=[0, 1], on_bad_lines='skip')

# Rename columns for easier reference
votes.columns = ['Section Code', 'Party/Coalition 1 Votes', 'Party/Coalition 2 Votes', 'Party/Coalition 3 Votes']
sections.columns = ['Section Code', 'Admin Unit Name', 'Settlement Name', 'Mobile Flag', 'Machines Count']
protocols.columns = ['Section Code', 'Registered Voters', 'Voted', 'Valid Votes', 'Invalid Votes']
preferences.columns = ['Section Code', 'Party Number', 'Candidate Number', 'Preference Votes']
local_candidates.columns = ['Candidate Number', 'Candidate Name']
cik_parties.columns = ['Party Number', 'Party Name']

# Now proceed with merging, analysis, and visualizations
# Example: Merging votes with sections and protocols
merged_data = pd.merge(votes, sections, on='Section Code')
merged_data = pd.merge(merged_data, protocols, on='Section Code')

# Example analysis: voter turnout
merged_data['Voter Turnout'] = merged_data['Voted'] / merged_data['Registered Voters']
high_activity_sections = merged_data[merged_data['Voter Turnout'] > 0.9]

print("Sections with high voter turnout:")
print(high_activity_sections[['Section Code', 'Voter Turnout']])

# Further analysis and visualizations...

Sections with high voter turnout:
       Section Code  Voter Turnout
17         10100018       3.040000
18         10100019       1.815789
20         10100021       0.992308
34         10200012       2.483871
42         10300001       1.224299
...             ...            ...
12971     321330765      17.195652
12972     321330766      11.258065
12973     321330767      22.812500
12974     321360768       6.750000
12975     321360769       3.523810

[2942 rows x 2 columns]


In [15]:
# Функция за почистване на данните
def clean_numeric_data(data):
    # Изолиране само на числовите колони
    numeric_data = data.select_dtypes(include=['number'])
    return numeric_data

# 1. Зареждане на данните от всеки отделен Excel файл
import pandas as pd

# Функция за почистване на данните
def clean_numeric_data(data):
    # Изолиране само на числовите колони
    numeric_data = data.select_dtypes(include=['number'])
    return numeric_data

# 1. Зареждане на данните от всеки отделен Excel файл
path_income_1 = r"C:\stasi\SoftUni_DATA_SCIENCE\FINAL_PROJECT\DATA\Доходи, разходи и потребление на домакинствата\HH_1.1.3.xlsx"  # Път към първия файл с данни за доходите
path_income_2 = r"C:\stasi\SoftUni_DATA_SCIENCE\FINAL_PROJECT\DATA\Доходи, разходи и потребление на домакинствата\HH_1.2.3.xlsx"  # Път към втория файл с данни за доходите
path_consumption = r"C:\stasi\SoftUni_DATA_SCIENCE\FINAL_PROJECT\DATA\Доходи, разходи и потребление на домакинствата\HH_3.1.3.xlsx"  # Път към файла с данни за потреблението

data_income_1 = pd.read_excel(path_income_1)
data_income_2 = pd.read_excel(path_income_2)
data_consumption = pd.read_excel(path_consumption)

# 2. Почистване на данните чрез функцията
cleaned_data_income_1 = clean_numeric_data(data_income_1)
cleaned_data_income_2 = clean_numeric_data(data_income_2)
cleaned_data_consumption = clean_numeric_data(data_consumption)

# 3. Обобщаване на данните за доходите - използване само на числовите данни
income_summary = {
    "Income Data 1": cleaned_data_income_1.mean(),
    "Income Data 2": cleaned_data_income_2.mean(),
    "Consumption Data": cleaned_data_consumption.mean()
}

income_df = pd.DataFrame(income_summary)

# 4. Симулирани данни за избирателната активност (заменете със своите реални данни)
voter_turnout_data = pd.DataFrame({
    "Region": ["Region 1", "Region 2", "Region 3", "Region 4", "Region 5", 
               "Region 6", "Region 7", "Region 8", "Region 9", "Region 10"],
    "Voter Turnout": [0.75, 0.82, 0.79, 0.85, 0.88, 0.91, 0.94, 0.89, 0.87, 0.90]
})

# 5. Добавяне на данните за доходите към данните за избирателната активност
voter_turnout_data["Income Data 1"] = income_df["Income Data 1"].values
voter_turnout_data["Income Data 2"] = income_df["Income Data 2"].values

# 6. Почистване на данните, като се премахват текстовите колони
cleaned_voter_turnout_data = voter_turnout_data.select_dtypes(include=['number'])

# 7. Изчисляване на корелацията между избирателната активност и доходите
correlation = cleaned_voter_turnout_data.corr()

# 8. Печат на корелационната матрица
print("Корелационна матрица:")
print(correlation)


data_income_1 = pd.read_excel(path_income_1)
data_income_2 = pd.read_excel(path_income_2)
data_consumption = pd.read_excel(path_consumption)

# 2. Почистване на данните чрез функцията
cleaned_data_income_1 = clean_numeric_data(data_income_1)
cleaned_data_income_2 = clean_numeric_data(data_income_2)
cleaned_data_consumption = clean_numeric_data(data_consumption)

# 3. Обобщаване на данните за доходите - използване само на числовите данни
income_summary = {
    "Income Data 1": cleaned_data_income_1.mean(),
    "Income Data 2": cleaned_data_income_2.mean(),
    "Consumption Data": cleaned_data_consumption.mean()
}

income_df = pd.DataFrame(income_summary)

# 4. Симулирани данни за избирателната активност (заменете със своите реални данни)
voter_turnout_data = pd.DataFrame({
    "Region": ["Region 1", "Region 2", "Region 3", "Region 4", "Region 5", 
               "Region 6", "Region 7", "Region 8", "Region 9", "Region 10"],
    "Voter Turnout": [0.75, 0.82, 0.79, 0.85, 0.88, 0.91, 0.94, 0.89, 0.87, 0.90]
})

# 5. Добавяне на данните за доходите към данните за избирателната активност
voter_turnout_data["Income Data 1"] = income_df["Income Data 1"].values
voter_turnout_data["Income Data 2"] = income_df["Income Data 2"].values

# 6. Почистване на данните, като се премахват текстовите колони
cleaned_voter_turnout_data = voter_turnout_data.select_dtypes(include=['number'])

# 7. Изчисляване на корелацията между избирателната активност и доходите
correlation = cleaned_voter_turnout_data.corr()

# 8. Печат на корелационната матрица
print("Корелационна матрица:")
print(correlation)


Корелационна матрица:
               Voter Turnout  Income Data 1  Income Data 2
Voter Turnout       1.000000      -0.032853      -0.036485
Income Data 1      -0.032853       1.000000       0.999947
Income Data 2      -0.036485       0.999947       1.000000
Корелационна матрица:
               Voter Turnout  Income Data 1  Income Data 2
Voter Turnout       1.000000      -0.032853      -0.036485
Income Data 1      -0.032853       1.000000       0.999947
Income Data 2      -0.036485       0.999947       1.000000


In [None]:

# Зареждане на данните от Excel файла
file_path = r"C:\stasi\SoftUni_DATA_SCIENCE\FINAL_PROJECT\DATA\d1d8649b-9138-40eb-bbb2-f382060c0309\JST_1.2.xlsx"
crime_data = pd.read_excel(file_path)

# Пропускане на ненужните първи редове
crime_data = crime_data.iloc[4:]  # Пропускаме първите 4 реда

# Преназначаване на заглавията на колоните
new_columns = crime_data.iloc[0]  # Използваме първия ред след пропускането за заглавия
crime_data.columns = new_columns

# Премахване на първия ред с новите заглавия
crime_data = crime_data[1:]

# Премахване на всички редове и колони, които съдържат само NaN стойности
crime_data.dropna(how='all', inplace=True)
crime_data.dropna(how='all', axis=1, inplace=True)

# Замяна на тиретата с NaN
crime_data.replace("-", np.nan, inplace=True)

# Конвертиране на колоните към числови стойности, където е приложимо
crime_data.iloc[:, 1:] = crime_data.iloc[:, 1:].apply(pd.to_numeric, errors='coerce')

# Преглед на почистените и подготвени данни
print(crime_data.head())


In [39]:
# Печат на оригиналните данни за престъпленията против правата на гражданите
print("Оригинални данни за престъпленията против правата на гражданите:")
print(citizens_rights_crimes)

# Печат на данните след премахване на NaN стойности
cleaned_citizens_rights_crimes = citizens_rights_crimes.dropna()
print("Данни след премахване на NaN стойности:")
print(cleaned_citizens_rights_crimes)

# Проверка дали има останали данни за обобщаване
if not cleaned_citizens_rights_crimes.empty:
    # Обобщаване на данните - например общ брой престъпления
    total_crimes = cleaned_citizens_rights_crimes.sum(numeric_only=True)
    print("Общо престъпления против правата на гражданите по категории:")
    print(total_crimes)
else:
    print("Няма достатъчно данни за обобщаване след почистването.")

Оригинални данни за престъпленията против правата на гражданите:
4                                         Общо 31154 10176 14989 794 295 4900
7    Престъпления против правата на гражданите   159    82    67  10   -    -
24   Престъпления против правата на гражданите   159    82    67  10   -    -
41   Престъпления против правата на гражданите     2     -     -   2   -    -
58   Престъпления против правата на гражданите    23    17     5   1   -    -
75   Престъпления против правата на гражданите    16     5     9   2   -    -
92   Престъпления против правата на гражданите     5     1     4   -   -    -
109  Престъпления против правата на гражданите     3     2     1   -   -    -
126  Престъпления против правата на гражданите     3     1     2   -   -    -
143  Престъпления против правата на гражданите     -     -     -   -   -    -
160  Престъпления против правата на гражданите     6     3     2   1   -    -
177  Престъпления против правата на гражданите     3     1     2   -   -    -

In [5]:
import pandas as pd
import numpy as np

# Зареждане на данните от Excel файла
file_path = r"C:\stasi\SoftUni_DATA_SCIENCE\FINAL_PROJECT\DATA\d1d8649b-9138-40eb-bbb2-f382060c0309\JST_1.2.xlsx"
crime_data = pd.read_excel(file_path)

# Пропускане на ненужните първи редове
crime_data = crime_data.iloc[4:]  # Пропускаме първите 4 реда

# Преназначаване на заглавията на колоните
new_columns = ['Област', 'Общо', 'Ефективно осъждане', 'Условно осъждане', 
               'Оправдаване', 'Прекратяване', 'Освобождаване от наказание']
crime_data.columns = new_columns

# Премахване на първия ред с новите заглавия
crime_data = crime_data[1:]

# Премахване на всички редове и колони, които съдържат само NaN стойности
crime_data.dropna(how='all', inplace=True)
crime_data.dropna(how='all', axis=1, inplace=True)

# Филтриране само на редовете, които съдържат "Престъпления против правата на гражданите"
citizens_rights_crimes = crime_data[crime_data['Област'].str.contains("Престъпления против правата на гражданите", na=False)]

# Замяна на тиретата с 0
citizens_rights_crimes.replace("-", 0, inplace=True)

# Конвертиране на колоните към числови стойности, където е приложимо
citizens_rights_crimes.iloc[:, 1:] = citizens_rights_crimes.iloc[:, 1:].apply(pd.to_numeric, errors='coerce')

# Обобщаване на данните - например общ брой престъпления
total_crimes = citizens_rights_crimes.sum(numeric_only=True)

# Печат на резултатите
print("Общо престъпления против правата на гражданите по категории:")
print(total_crimes)
# Печат на данните за престъпления против правата на гражданите по области
print("Данни за престъпления против правата на гражданите по области:")
print(citizens_rights_crimes)

Общо престъпления против правата на гражданите по категории:
Общо                          477
Ефективно осъждане            246
Условно осъждане              201
Оправдаване                    30
Прекратяване                    0
Освобождаване от наказание      0
dtype: int64
Данни за престъпления против правата на гражданите по области:
                                        Област  Общо  Ефективно осъждане  \
7    Престъпления против правата на гражданите   159                  82   
24   Престъпления против правата на гражданите   159                  82   
41   Престъпления против правата на гражданите     2                   0   
58   Престъпления против правата на гражданите    23                  17   
75   Престъпления против правата на гражданите    16                   5   
92   Престъпления против правата на гражданите     5                   1   
109  Престъпления против правата на гражданите     3                   2   
126  Престъпления против правата на гражданите     

A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  citizens_rights_crimes.replace("-", 0, inplace=True)


In [None]:
# Конвертиране на типове данни в preferences и cik_parties
preferences['Party Number'] = preferences['Party Number'].astype(str)
cik_parties['Party Number'] = cik_parties['Party Number'].astype(str)

# Обединяване на данните за предпочитанията с информацията за кандидатите
preferences_candidates = pd.merge(preferences, local_candidates, left_on='Candidate Number', right_on='Candidate Number', how='left')

# Обединяване на данните за предпочитанията с информацията за партиите
preferences_full = pd.merge(preferences_candidates, cik_parties, left_on='Party Number', right_on='Party Number', how='left')

# Преглед на първите няколко реда от обединените данни
print(preferences_full.head())

In [25]:
# Сумиране на предпочитанията по кандидати
candidate_preferences = preferences_full.groupby(['Candidate Name', 'Party Name']).agg({'Preference Votes': 'sum'}).reset_index()

# Топ 10 кандидати с най-много предпочитания
top_candidates = candidate_preferences.sort_values(by='Preference Votes', ascending=False).head(10)

# Визуализация
import matplotlib.pyplot as plt
import seaborn as sns

plt.figure(figsize=(12,6))
sns.barplot(x='Preference Votes', y='Candidate Name', hue='Party Name', data=top_candidates)
plt.title('Топ 10 кандидати с най-много предпочитания')
plt.xlabel('Брой предпочитания')
plt.ylabel('Кандидат')
plt.legend(title='Партия')
plt.show()

MemoryError: Unable to allocate 917. MiB for an array with shape (120156461,) and data type int64

In [None]:
# Сумиране на предпочитанията по кандидати
candidate_preferences = preferences_full.groupby(['Candidate Name', 'Party Name']).agg({'Preference Votes': 'sum'}).reset_index()

# Топ 10 кандидати с най-много предпочитания
top_candidates = candidate_preferences.sort_values(by='Preference Votes', ascending=False).head(10)

# Визуализация
import matplotlib.pyplot as plt
import seaborn as sns

plt.figure(figsize=(12,6))
sns.barplot(x='Preference Votes', y='Candidate Name', hue='Party Name', data=top_candidates)
plt.title('Топ 10 кандидати с най-много предпочитания')
plt.xlabel('Брой предпочитания')
plt.ylabel('Кандидат')
plt.legend(title='Партия')
plt.show()
