In [3]:
import numpy as np
import pandas as pd
import scipy as sp

In [4]:
df_agricultura = pd.read_csv('input/Agricultura.csv')
df_populatie = pd.read_csv('input/PopulatieLocalitati.csv')
df_ronuts = pd.read_csv('input/RO_NUTS.csv')

### 1_LOCALITATILE SORTATE DESCRESCATOR DUPA CIFRA CUMULATA INTRE PLANTE NEPERMANENTE SI PERMANENTE INMULTIRE
- se face un dataframe nou cu structura siruta/localitate/plante (conform cerintei)
- coloana de plante va fi suma dintre coloanele de plante nepermanente si plante inmultire
- se da sort la dataframe dupa coloane plante
- se scrie in csv

In [5]:
df_agricultura_plante = pd.DataFrame()
df_agricultura_plante['Siruta'] = df_agricultura['Siruta']
df_agricultura_plante['Localitate'] = df_agricultura['Localitate']
df_agricultura_plante['Plante'] = df_agricultura['PlanteNepermanente'] + df_agricultura['PlanteInmultire']
df_agricultura_plante.sort_values(by='Plante', ascending=False)
df_agricultura_plante.to_csv('output/cerinta1.csv')

In [6]:
df_agricultura_plante

Unnamed: 0,Siruta,Localitate,Plante
0,32768,Budesti,0.0
1,49153,Sahateni,0.0
2,57350,Cojocna,0.0
3,90119,Lunca Cernii De Jos,0.0
4,73736,Poiana Mare,0.0
...,...,...,...
3176,122864,Grinties,0.0
3177,163832,Falciu,0.0
3178,40955,Feldioara,0.0
3179,131069,Oras Boldesti-Scaeni,0.0


### 2_SUMA CIFREI DE AFACERI PENTRU FIECARE DINTRE LOCALITATI
- se creaza un dataframe nou cu structura siruta/localitate/cif_afaceri (conform cerintei)
- se extrag intr-un dataframe toate coloanele din agricultura care tin de cif de afaceri (totul de la col 2 la sfarsit)
- coloana cif_afaceri din dataframe-ul nou creat va fi egala cu suma pe linie a dataframe-ului cu valorile ce tin de cif de afaceri
- se scrie in csv

In [7]:
df_agricultura_cif_afaceri = pd.DataFrame()
df_agricultura_cif_afaceri['Siruta'] = df_agricultura['Siruta']
df_agricultura_cif_afaceri['Localitate'] = df_agricultura['Localitate']
#extrage toate liniile de la coloana 2 incolo
df_cif_afaceri = df_agricultura.iloc[:, 2:]
#axis = 1 specifica ca operatie de sum se face la randuri. axis = 0 s-ar fi facut pe coloane
df_agricultura_cif_afaceri['Total_cif_afaceri'] = df_cif_afaceri.sum(axis=1)
df_agricultura_cif_afaceri.to_csv('output/cerinta2.csv')

In [8]:
df_agricultura_cif_afaceri

Unnamed: 0,Siruta,Localitate,Total_cif_afaceri
0,32768,Budesti,0.0
1,49153,Sahateni,390087.0
2,57350,Cojocna,1670212.0
3,90119,Lunca Cernii De Jos,0.0
4,73736,Poiana Mare,2854738.0
...,...,...,...
3176,122864,Grinties,0.0
3177,163832,Falciu,44473344.0
3178,40955,Feldioara,52518542.0
3179,131069,Oras Boldesti-Scaeni,312983474.0


### 3_CIFRA DE AFACERI PER CAP DE LOCUITOR PENTRU FICARE LOCALITATE IN PARTE
- se creaza un dataframe nou cu structura siruta/localitate/cif_afaceri_per_locuitor (conform cerintei)
- nu am date despre numarul de oameni per localitate asa ca va trebui sa fac merge cu df_populatie
    - fac merge cu df_populatie pentru ca dataframe-urile au o ordine diferita a liniilor
    - pot folosi df_agricultura_cif_afaceri de la punctul trecut ca dataframe de merge
        - mergul pe care il fac este inner pentru ca vreau doar datele care sunt comune ambelor dataframe-urilor

- dupa ce am facut merge, coloana cif_afaceri_per_locuitor din noul dataframe va avea ca valoare raportul dintre nr_loc/total_cif_afaceri 


In [9]:
df_agricultura_cif_afaceri_per_loc = pd.DataFrame()
df_merge_afaceri_pop = df_agricultura_cif_afaceri.merge(df_populatie, how='inner')
df_agricultura_cif_afaceri_per_loc['Siruta'] = df_merge_afaceri_pop['Siruta']
df_agricultura_cif_afaceri_per_loc['Localitate'] = df_merge_afaceri_pop['Localitate']
df_agricultura_cif_afaceri_per_loc['Ca_loc'] = df_merge_afaceri_pop['Total_cif_afaceri']/df_merge_afaceri_pop['Populatie']
df_agricultura_cif_afaceri_per_loc.to_csv('output/cerinta3.csv')

In [10]:
df_agricultura_cif_afaceri_per_loc

Unnamed: 0,Siruta,Localitate,Ca_loc
0,32768,Budesti,0.000000
1,49153,Sahateni,114.832794
2,57350,Cojocna,398.713774
3,90119,Lunca Cernii De Jos,0.000000
4,73736,Poiana Mare,267.422763
...,...,...,...
3175,122864,Grinties,0.000000
3176,163832,Falciu,7783.224361
3177,40955,Feldioara,7083.698678
3178,131069,Oras Boldesti-Scaeni,26995.297050


### 4_CIFRA DE AFACERI PER SECTOR LA NIVEL DE JUDET
- vom extrage intr-un dataframe judet/activ1/activ2/.../activ_n
    - pentru a face asta extragem toate activitatile si localitatea din df_agricultura 
    - dam merge cu judet din df_populatie
- vom crea un nou dataframe in care vom da groupby la primul dataframe bazat pe judet facand suma pe fiecare linie

In [22]:
df_tip_activ = df_agricultura.iloc[:, 1:]
df_jud_activ_merge = df_tip_activ.merge(df_populatie[['Judet','Localitate']], how='inner')

# daca nu pun as_index = false, nu voi mai putea accesa coloana judet pentru ca devine index
# pentru ca o sa mai folosesc df_cif_afaceri in viitor voi vrea sa am acces la coloana Judet
df_cif_afaceri_jud = df_jud_activ_merge.groupby('Judet', as_index=False).sum()
# (OPTIONAL) nu am nevoie de coloana localitate asa ca ii voi da drop
df_cif_afaceri_jud.drop('Localitate', axis=1, inplace=True)
df_cif_afaceri_jud.to_csv('output/cerinta4.csv')

In [23]:
df_cif_afaceri_jud.sort_values('Judet')

Unnamed: 0,Judet,PlantePermanente,PlanteNepermanente,PlanteInmultire,CrestereaAnimalelor,FermeMixte,ActivitatiAuxiliare
0,ab,100766000.0,157215511.0,2286030.0,675752092.0,17735482.0,29525661.0
1,ag,234683000.0,2724578.0,199525.0,288616681.0,10678077.0,21267928.0
2,ar,492348700.0,12994009.0,418837.0,111806410.0,41711037.0,35922919.0
3,b,2516831000.0,15871233.0,13136115.0,216949664.0,49321755.0,69409930.0
4,bc,312579700.0,24626247.0,2268525.0,108488579.0,239769271.0,169815903.0
5,bh,614665800.0,3385875.0,1546957.0,311095635.0,39514562.0,29000391.0
6,bn,23622490.0,17464799.0,758437.0,118183040.0,1809748.0,3963133.0
7,br,1193549000.0,9157647.0,190712.0,245177247.0,64337325.0,64332160.0
8,bt,348451200.0,2178738.0,0.0,69468520.0,58155399.0,22734551.0
9,bv,80866200.0,5703015.0,20932953.0,626220718.0,101184584.0,51482320.0


### 5_CIFRA DE AFACERI MEDIE LA NIVEL DE REGIUNE PENTRU FIECARE ACTIVITATE
- media artimetica ponderata M = sum(xi*ni)/N
- nu avem regiunile asa ca va trebui sa facem merge la df_cif_afaceri_jud cu df_ronuts unde si apar
- nu am populatia per regiuni asa ca va trebui sa o calculez pentru ca reprezinta ponderea in formula
- dupa ce am facut merge-urile, similar cu cerinta4, va trebui sa dam un groupby, de aceasta data pe regiuni 
    - trebuie sa folosesc o functie custom pentru media ponderata

prelucrari pentru activitati per regiuni

In [24]:
df_cif_afaceri_regiuni = df_cif_afaceri_jud.merge(df_ronuts[['Regiune','IndicativJudet']], how='inner', left_on='Judet', right_on='IndicativJudet')
#dau delete la indicativ judet pentru ca il folosesc doar pentru merge si nu am nevoie sa apara de doua ori in dataframe
df_cif_afaceri_regiuni.drop(columns=['IndicativJudet'], axis=1, inplace=True)
#nu pot sa calculez media unor valori nenumerice asa ca voi aplica groupby().mean() doar pe coloanele numerice
numeric_columns = df_cif_afaceri_regiuni.select_dtypes('number').columns.to_list()
numeric_columns.append('Regiune')

In [14]:
df_cif_afaceri_regiuni

Unnamed: 0,Judet,Localitate,PlantePermanente,PlanteNepermanente,PlanteInmultire,CrestereaAnimalelor,FermeMixte,ActivitatiAuxiliare,Regiune
0,ab,Vadu MotilorValea LungaVidraVintu De JosLivezi...,100766000.0,157215511.0,2286030.0,675752092.0,17735482.0,29525661.0,Centru
1,ag,DobrestiDomnestiDragoslaveleDraganuPopestiGode...,234683000.0,2724578.0,199525.0,288616681.0,10678077.0,21267928.0,Sud
2,ar,FantaneleMunicipiul AradFantaneleLivadaSofrone...,492348700.0,12994009.0,418837.0,111806410.0,41711037.0,35922919.0,Vest
3,b,Municipiul Bucuresti,2516831000.0,15871233.0,13136115.0,216949664.0,49321755.0,69409930.0,Bucuresti-Ilfov
4,bc,PoduriRacovaRacaciuniRachitoasaMargineniRosior...,312579700.0,24626247.0,2268525.0,108488579.0,239769271.0,169815903.0,Nord-Est
5,bh,DobrestiPopestiPopestiRosioriDraganestiPopesti...,614665800.0,3385875.0,1546957.0,311095635.0,39514562.0,29000391.0,Nord-Vest
6,bn,BudestiCaianu MicCetateCiceu-GiurgestiChiochis...,23622490.0,17464799.0,758437.0,118183040.0,1809748.0,3963133.0,Nord-Vest
7,br,RosioriRacovitaUnireaTraianSutestiVictoriaMuni...,1193549000.0,9157647.0,190712.0,245177247.0,64337325.0,64332160.0,Sud-Est
8,bt,RomanestiDraguseniCandestiUngureniVladeniDragu...,348451200.0,2178738.0,0.0,69468520.0,58155399.0,22734551.0,Nord-Est
9,bv,BunestiFundataHalchiuHarmanHarseniHoghizHomoro...,80866200.0,5703015.0,20932953.0,626220718.0,101184584.0,51482320.0,Centru


prelucrari pentru populatie per regiuni

In [25]:
df_pop_per_judet = df_populatie.groupby('Judet', as_index=False).sum()
df_pop_per_judet.drop('Localitate', axis=1, inplace=True)
df_pop_regiuni = df_pop_per_judet.merge(df_ronuts[['Regiune', 'IndicativJudet']], how='inner', left_on='Judet', right_on='IndicativJudet')
df_pop_regiuni.drop('IndicativJudet', axis=1, inplace=True)
df_pop_regiuni.drop('Judet', axis=1, inplace=True)
df_pop_regiuni.drop('Siruta', axis=1, inplace=True)

In [26]:
df_pop_per_judet

Unnamed: 0,Judet,Siruta,Populatie
0,ab,401272,381185
1,ag,1689589,646530
2,ar,869159,474347
3,b,179132,2107399
4,bc,2166280,747689
5,bh,2979592,619475
6,bn,2828535,329490
7,br,1920859,356380
8,bt,2962730,456404
9,bv,2397592,631356


In [17]:
df_merge = df_pop_per_judet.merge(df_cif_afaceri_regiuni, on='Judet', how='inner')
for column in df_merge.iloc[:, 4:-1]:
    #face xi*ni pentru fiecare coloana numerica
    df_merge[column] *= df_merge['Populatie']

#face sum(xi*ni) pentru fiercare coloana numerica
df_merge_groupby = df_merge.groupby('Regiune').sum()
for column in df_merge_groupby.iloc[:, 4:-1]:
    #in final avem sum(xi*ni)/N unde N --> populatia totala
    df_merge_groupby[column] /= df_merge_groupby['Populatie']

In [27]:
df_merge_groupby_formatted = df_merge_groupby.iloc[:, 4:-1]
df_merge_groupby_formatted.to_csv('output/Cerinta5.csv')

In [28]:
df_merge_groupby_formatted

Unnamed: 0_level_0,PlantePermanente,PlanteNepermanente,PlanteInmultire,CrestereaAnimalelor,FermeMixte
Regiune,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
Bucuresti-Ilfov,2191637000.0,14353720.0,18680420.0,214482000.0,43660290.0
Centru,103410900.0,32885400.0,5960845.0,316244900.0,59096170.0
Nord-Est,382036700.0,9385260.0,671920.7,190101100.0,143812500.0
Nord-Vest,237793100.0,7835743.0,1272303.0,205299600.0,26272300.0
Sud,784603500.0,8194199.0,1508558.0,356664100.0,74947030.0
Sud-Est,988767000.0,63868010.0,275744.6,271244700.0,83152710.0
Sud-Vest,423090900.0,13458780.0,133714.5,162034400.0,19231230.0
Vest,591669800.0,13939900.0,514130.9,421761100.0,49547500.0
