# Iranian Family Data Mining

**By Avestura @ avestura.dev**

Mail: me@avestura.dev

For: IUST Data Mining Course Homework

In [2]:
import pandas as pd
import numpy as np
from sklearn import preprocessing
from pandas.core.frame import DataFrame
from datetime import datetime

In [3]:
# Download this from http://mashghema.ir/500000FamilySample-990402.rar
data = pd.read_csv("500000FamilySample-990402.csv")

In [4]:
# Configuration

pd.set_option('display.max_rows', 1000)
pd.options.display.max_rows = 300
pd.options.display.min_rows = 50
pd.options.display.float_format = '{:.2f}'.format

### میانگین درآمد افراد هر شهر در ماه

In [5]:
data_county_grouped = data.groupby(by="CountyName")[["Daramad_Total_Rials"]]
data_county_grouped_mean = data_county_grouped.mean()
sorted_data_county = data_county_grouped_mean.sort_values(ascending=False, by="Daramad_Total_Rials")

sorted_data_county

Unnamed: 0_level_0,Daramad_Total_Rials
CountyName,Unnamed: 1_level_1
جم,12889368.89
بهاباد,12205119.38
سنندج,11745850.57
دیر,11365977.50
خور و بیابانک,10753482.57
زنجان,10491872.67
شهربابک,10344711.51
جاسک,9912103.11
تهران,9786858.09
بندرلنگه,9703964.40


### تعداد اعضای دارای بیماری خاص استان تهران به تفکیک شهر و وضعیت بهزیستی

In [6]:
data_tehran = data[data["ProvinceName"] == "تهران"]

In [7]:
data_tehran_group_city_behzisti = data_tehran.groupby(by=["CountyName", "IsBehzisti_Malool"])

data_tehran_group_city_behzisti[["IsBimarkhas"]].sum()

Unnamed: 0_level_0,Unnamed: 1_level_0,IsBimarkhas
CountyName,IsBehzisti_Malool,Unnamed: 2_level_1
اسلامشهر,0,17
اسلامشهر,1,1
بهارستان,0,6
بهارستان,1,3
تهران,0,479
تهران,1,58
دماوند,0,4
دماوند,1,1
رباطکریم,0,10
رباطکریم,1,3


### تعداد پروانه های صنفی افراد شهرنشین در استان مازندران به تفکیک شهر و سال تولد

In [23]:
condition = (data["ProvinceName"] == "مازندران") & (data["IsUrban"] == 1)

In [24]:
data_mazandaran = data[condition]
data_mazandaran["IsSenf"] = data_mazandaran["SenfName"].map(lambda x: 0 if pd.isna(x) else 1)

In [25]:
def get_year(date: str):
    date_time_obj = datetime.strptime(date, "%Y-%m-%d")
    return date_time_obj.year

data_mazandaran["BirthYear"] = data_mazandaran["BirthDate"].map(lambda x: get_year(x))
data_mazandaran_grouped_city_birth = data_mazandaran.groupby(by=["CountyName", "BirthYear"])
data_mazandaran_grouped_city_birth[["IsSenf"]].sum().sort_values(by=["IsSenf"], ascending=False)

Unnamed: 0_level_0,Unnamed: 1_level_0,IsSenf
CountyName,BirthYear,Unnamed: 2_level_1
ساری,1979,25
ساری,1966,21
ساری,1982,19
آمل,1971,18
آمل,1976,18
آمل,1968,18
ساری,1986,17
ساری,1980,16
آمل,1974,16
قایم شهر,1985,16


به تفکیک شهر

In [26]:
data_mazandaran_grouped_city = data_mazandaran.groupby(by=["CountyName"])
data_mazandaran_grouped_city[["IsSenf"]].sum().sort_values(by=["IsSenf"], ascending=False)

Unnamed: 0_level_0,IsSenf
CountyName,Unnamed: 1_level_1
ساری,439
آمل,420
بابل,377
قایم شهر,277
تنکابن,184
بهشهر,153
نور,98
نوشهر,95
رامسر,65
بابلسر,40


به تفکیک سال تولد

In [27]:
data_mazandaran_grouped_birthyear = data_mazandaran.groupby(by=["BirthYear"])
data_mazandaran_grouped_birthyear[["IsSenf"]].sum().sort_values(ascending=False, by=["IsSenf"])

Unnamed: 0_level_0,IsSenf
BirthYear,Unnamed: 1_level_1
1981,86
1985,85
1984,80
1980,77
1983,76
1968,73
1979,70
1982,70
1971,66
1973,65


### مقدار واریزی افراد به تفکیک سال، استان، جنسیت و وضعیت شهر نشینی

In [45]:
data["VariziAll"] = data["Variz95"] + data["Variz96"] + data["Variz97"]

In [49]:
data_group_province_sex_rural = data.groupby(by=["ProvinceName", "Gender", "IsUrban"])

data_group_province_sex_rural[["Variz95", "Variz96", "Variz97", "VariziAll"]].sum()

Unnamed: 0_level_0,Unnamed: 1_level_0,Unnamed: 2_level_0,Variz95,Variz96,Variz97,VariziAll
ProvinceName,Gender,IsUrban,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
آذربایجان شرقی,زن,0,690997500000,1023167500000,2137575000000,3851740000000
آذربایجان شرقی,زن,1,7256835000000,9825587500000,18658527500006,35740950000006
آذربایجان شرقی,مرد,0,5607597500000,6942452500000,15753080000010,28303130000010
آذربایجان شرقی,مرد,1,33655485000000,39028872500000,103508505000108,176192862500108
آذربایجان غربی,زن,0,705227500000,1007382500000,2089117500000,3801727500000
آذربایجان غربی,زن,1,4319217500000,5973475000000,12170870000006,22463562500006
آذربایجان غربی,مرد,0,6229060000000,7635537500000,19474102500015,33338700000015
آذربایجان غربی,مرد,1,21165382500000,24730185000000,67452230000061,113347797500061
اردبیل,زن,0,203032500000,331657500000,558340000000,1093030000000
اردبیل,زن,1,1446610000000,2200285000000,4080285000001,7727180000001


به تفکیک سال

In [51]:
varizi95 = data[["Variz95"]]
varizi96 = data[["Variz96"]]
varizi97 = data[["Variz97"]]

In [52]:
varizi95

Unnamed: 0,Variz95
0,1025000000
1,332500000
2,600000000
3,2750000000
4,75000000
...,...
1456225,0
1456226,0
1456227,0
1456228,0


In [54]:
varizi96

Unnamed: 0,Variz96
0,550000000
1,950000000
2,1375000000
3,2250000000
4,72500000
...,...
1456225,0
1456226,0
1456227,0
1456228,0


In [53]:
varizi97

Unnamed: 0,Variz97
0,375000000
1,550000000
2,8500000000
3,950000000
4,202500000
...,...
1456225,0
1456226,2250000000
1456227,0
1456228,0


به تفکیک استان

In [57]:
data_tafkik_ostan = data.groupby(by=["ProvinceName"])[["VariziAll"]]

In [59]:
data_tafkik_ostan.sum().sort_values(ascending=False, by=["VariziAll"])

Unnamed: 0_level_0,VariziAll
ProvinceName,Unnamed: 1_level_1
تهران,1655910967501709
خراسان رضوی,383298935000186
اصفهان,361483927500210
فارس,356915930000190
آذربایجان شرقی,244088682500124
خوزستان,231179847500101
مازندران,189454522500075
آذربایجان غربی,172951787500082
کرمان,154231312500045
گیلان,134061082500059


به تفکیک جنسیت

In [60]:
data_tafkik_gender = data.groupby(by=["Gender"])[["VariziAll"]]

In [112]:
data_tafkik_gender.sum().sort_values(ascending=False)

Gender
مرد    3455568270002765
زن      975394200000245
Name: VariziAll, dtype: int64

به تفکیک وضعیت شهر نشینی

In [113]:
data_tafkik_urban = data.groupby(by="IsUrban")["VariziAll"]
data_tafkik_urban.sum().sort_values(ascending=False)

IsUrban
1    3953832300002853
0     477130170000157
Name: VariziAll, dtype: int64

### میانگین قیمت ماشینهای هر خانواده به تفکیک شهر و تعداد اعضای خانواده

In [61]:
data["CarPriceMean"] = np.where(data["Cars_Count"] > 0, data["CarPrice_Sum"] / data["Cars_Count"], 0) 

In [62]:
data_families = data.groupby(by="ParentId")

In [63]:
family_sizes = data_families.size()

In [64]:
data["FamilyMembers"] = data["ParentId"].map(lambda pid: family_sizes[pid]) 

In [66]:
data_group_city_family_member = data.groupby(by=["CountyName", "FamilyMembers"])

In [69]:
data_group_city_family_member[["CarPriceMean"]].mean()

Unnamed: 0_level_0,Unnamed: 1_level_0,CarPriceMean
CountyName,FamilyMembers,Unnamed: 2_level_1
آبادان,1,147197788.38
آبادان,2,97501721.69
آبادان,3,103210637.35
آبادان,4,98666793.04
آبادان,5,79838617.77
آبادان,6,73925002.56
آبادان,7,59305941.28
آبادان,8,77272753.59
آبادان,11,0.00
آباده,1,181554904.83


به تفکیک شهر

In [70]:
data_tafkik_city_mean_car_price = data.groupby(by=["CountyName"])

In [71]:
data_tafkik_city_mean_car_price[["CarPriceMean"]].mean().sort_values(ascending=False, by=["CarPriceMean"])

Unnamed: 0_level_0,CarPriceMean
CountyName,Unnamed: 1_level_1
تهران,340881191.97
جاسک,261715734.79
شمیرانات,258484351.49
بندرعباس,257381140.67
بندرلنگه,237700278.94
جم,226912442.23
دلفان,223604400.0
اصفهان,212497961.6
زنجان,208714927.46
شیراز,205456925.91


به تفکیک تعداد اعضای خانواده

In [73]:
data_tafkik_family_member_count = data.groupby(by=["FamilyMembers"])
data_tafkik_family_member_count[["CarPriceMean"]].mean().sort_values(ascending=False, by=["CarPriceMean"])

Unnamed: 0_level_0,CarPriceMean
FamilyMembers,Unnamed: 1_level_1
1,417099131.92
3,152773659.33
4,141090574.22
2,137489754.57
5,107252425.24
6,90307196.06
12,79351044.27
10,76622558.45
7,72275338.55
8,67825550.71
