### Manipuleren van Data

In [1]:
import pandas as pd
import numpy as np

Herinner je enkele aggregatiefuncties die we zagen in NumPy:

In [2]:
m = np.array(
    [
        [1, 10, 100],
        [2, 20, 200],
        [3, 30, 300],
        [4, 40, 400]
    ]
)

We kunnen het gemiddelde voor elke kolom berekenen door de as te specificeren als `0`:

In [3]:
np.mean(m, axis=0)

array([  2.5,  25. , 250. ])

Of we kunnen het gemiddelde van elke rij berekenen door de as te specificeren als `1`:

In [4]:
np.mean(m, axis=1)

array([ 37.,  74., 111., 148.])

Die aggregatiefuncties zijn ook beschikbaar als methods op de array:

In [5]:
m.mean(axis=0)

array([  2.5,  25. , 250. ])

In [6]:
m.mean(axis=1)

array([ 37.,  74., 111., 148.])

We hebben dezelfde functionaliteit beschikbaar voor DataFrames:

In [7]:
df = pd.DataFrame(
    m,
    index=['r0', 'r1', 'r2', 'r3'],
    columns=['c0', 'c1', 'c2']
)
df

Unnamed: 0,c0,c1,c2
r0,1,10,100
r1,2,20,200
r2,3,30,300
r3,4,40,400


In [8]:
df.mean(axis=0)

c0      2.5
c1     25.0
c2    250.0
dtype: float64

In [9]:
df.mean(axis=1)

r0     37.0
r1     74.0
r2    111.0
r3    148.0
dtype: float64

Of we kunnen de som van alle elementen vinden, rij voor rij, of kolom voor kolom:

In [10]:
df.sum(axis=0)

c0      10
c1     100
c2    1000
dtype: int64

In [11]:
df.sum(axis=1)

r0    111
r1    222
r2    333
r3    444
dtype: int64

Hetzelfde geldt voor functies zoals `max`, `min`, `std`, `mean`, `count`, `prod`, `sum`, enz.

#### Gevectoriseerde functies

Het werken met `DataFrame`-kolommen werkt vrijwel op dezelfde manier als met NumPy-arrays - we gebruiken universele (of vectorized) functies.

In [12]:
df

Unnamed: 0,c0,c1,c2
r0,1,10,100
r1,2,20,200
r2,3,30,300
r3,4,40,400


In [13]:
df['c0'] + df['c1']

r0    11
r1    22
r2    33
r3    44
dtype: int64

Of, als we `loc` en `iloc` willen gebruiken:

In [14]:
df.loc[:, 'c0'] + df.iloc[:, 1]

r0    11
r1    22
r2    33
r3    44
dtype: int64

We kunnen reguliere NumPy-functies ook toepassen op volledige `DataFrame`-objecten, net zoals bij NumPy-arrays:

In [15]:
np.sin(df)

Unnamed: 0,c0,c1,c2
r0,0.841471,-0.544021,-0.506366
r1,0.909297,0.912945,-0.873297
r2,0.14112,-0.988032,-0.999756
r3,-0.756802,0.745113,-0.850919


#### Het transponeren van een DataFrame

Een zeer handige functie bij het werken met gegevens is het transponeren van de gegevens - d.w.z. het omzetten van de rijen in kolommen en kolommen in rijen.

Zoals we eerder hebben gezien, kan dit worden gedaan met behulp van de `transpose`-methode:

In [16]:
df

Unnamed: 0,c0,c1,c2
r0,1,10,100
r1,2,20,200
r2,3,30,300
r3,4,40,400


In [17]:
df.transpose()

Unnamed: 0,r0,r1,r2,r3
c0,1,2,3,4
c1,10,20,30,40
c2,100,200,300,400


#### Een Series dwingen naar een numeriek type

Vaak hebben we te maken met datasets waar kolommen voornamelijk numerieke gegevens bevatten, maar een paar waarden dat niet doen - misschien is het een ontbrekende waarde die is vervangen door een bepaalde string.

Laten we hier een voorbeeld van bekijken:

In [18]:
df = pd.read_csv('world_bank_countries.csv')
df[:5]

Unnamed: 0,CountryCode,ShortName,TableName,LongName,Alpha2Code,CurrencyUnit,SpecialNotes,Region,IncomeGroup,Wb2Code,...,GovernmentAccountingConcept,ImfDataDisseminationStandard,LatestPopulationCensus,LatestHouseholdSurvey,SourceOfMostRecentIncomeAndExpenditureData,VitalRegistrationComplete,LatestAgriculturalCensus,LatestIndustrialData,LatestTradeData,LatestWaterWithdrawalData
0,AFG,Afghanistan,Afghanistan,Islamic State of Afghanistan,AF,Afghan afghani,Fiscal year end: March 20; reporting period fo...,South Asia,Low income,AF,...,Consolidated central government,General Data Dissemination System (GDDS),1979,"Multiple Indicator Cluster Survey (MICS), 2010/11","Integrated household survey (IHS), 2008",,2013/14,,2013.0,2000.0
1,ALB,Albania,Albania,Republic of Albania,AL,Albanian lek,,Europe & Central Asia,Upper middle income,AL,...,Budgetary central government,General Data Dissemination System (GDDS),2011,"Demographic and Health Survey (DHS), 2008/09",Living Standards Measurement Study Survey (LSM...,Yes,2012,2011.0,2013.0,2006.0
2,DZA,Algeria,Algeria,People's Democratic Republic of Algeria,DZ,Algerian dinar,,Middle East & North Africa,Upper middle income,DZ,...,Budgetary central government,General Data Dissemination System (GDDS),2008,"Multiple Indicator Cluster Survey (MICS), 2012","Integrated household survey (IHS), 1995",,,2010.0,2013.0,2001.0
3,ASM,American Samoa,American Samoa,American Samoa,AS,U.S. dollar,,East Asia & Pacific,Upper middle income,AS,...,,,2010,,,Yes,2007,,,
4,ADO,Andorra,Andorra,Principality of Andorra,AD,Euro,,Europe & Central Asia,High income: nonOECD,AD,...,,,2011. Population data compiled from administra...,,,Yes,,,2006.0,


Bekijk even de `LatestPopulationCensus` kolom:

In [19]:
df['LatestPopulationCensus'].unique()

array(['1979', '2011', '2008', '2010',
       '2011. Population data compiled from administrative registers.',
       '2014', nan, '2009', '2013', '2005', '2012', '2006', '2003',
       'Guernsey: 2009; Jersey: 2011.', '2007', '1984', '2002',
       '2006. Rolling census based on continuous sample survey.', '1997',
       '2004', '1943', '1993', '1998', '1987', '2001', '1989'],
      dtype=object)

Zoals je kunt zien, hebben we voornamelijk integer waarden voor de jaren, maar sommige items bevatten tekst - dus we hebben geen numerieke kolom, zoals we kunnen zien door naar de `info()` methode te kijken:

In [20]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 247 entries, 0 to 246
Data columns (total 31 columns):
 #   Column                                      Non-Null Count  Dtype  
---  ------                                      --------------  -----  
 0   CountryCode                                 247 non-null    object 
 1   ShortName                                   247 non-null    object 
 2   TableName                                   247 non-null    object 
 3   LongName                                    247 non-null    object 
 4   Alpha2Code                                  244 non-null    object 
 5   CurrencyUnit                                214 non-null    object 
 6   SpecialNotes                                164 non-null    object 
 7   Region                                      214 non-null    object 
 8   IncomeGroup                                 214 non-null    object 
 9   Wb2Code                                     246 non-null    object 
 10  NationalAccoun

Maar laten we zeggen dat we deze kolom wel als een numerieke kolom willen behandelen - we zullen natuurlijk de waarden die niet numeriek zijn moeten verwijderen, maar dat zal ons nog steeds wat gegevens geven om mee te werken.

Om dat te doen, kunnen we de `to_numeric()` functie gebruiken om de kolom om te zetten in een numerieke kolom.

Als we proberen om deze functie gewoon aan te roepen op onze kolom, zullen we standaard een uitzondering krijgen omdat sommige waarden (de strings) niet kunnen worden omgezet naar een numerieke waarde:

In [21]:
try:
    pd.to_numeric(df['LatestPopulationCensus'])
except ValueError as ex:
    print('ValueError:', ex)

ValueError: Unable to parse string "2011. Population data compiled from administrative registers." at position 4


Er is niets wat we hieraan kunnen doen, maar we kunnen ervoor kiezen om die waarden in plaats daarvan te vervangen door `NaN`:

In [22]:
latest_census = pd.to_numeric(df['LatestPopulationCensus'], errors='coerce')
latest_census

0      1979.0
1      2011.0
2      2008.0
3      2010.0
4         NaN
        ...  
242    2007.0
243       NaN
244    2004.0
245    2010.0
246    2012.0
Name: LatestPopulationCensus, Length: 247, dtype: float64

Zoals je kunt zien, zijn de "slechte" waarden geconverteerd naar `NaN`, en de kolom is nu numeriek.

In werkelijkheid kunnen dit gehele getallen zijn, geen floats, en we kunnen deze gegevens verder manipuleren om de waarden naar gehele getallen **om te zetten**.
Het probleem is de `NaN` nummers die niet naar integers kunnen worden omgevormd.

Als we proberen de `astype()` methode te gebruiken:

In [23]:
try:
    latest_census.astype(int)
except ValueError as ex:
    print('ValueError:', ex)

ValueError: Cannot convert non-finite values (NA or inf) to integer


Dus, we moeten eerst deze `NaN`-waarden laten vallen en deze vervolgens naar een integer type dwingen:

In [24]:
latest_census.dropna().astype(int)

0      1979
1      2011
2      2008
3      2010
5      2014
       ... 
241    2010
242    2007
244    2004
245    2010
246    2012
Name: LatestPopulationCensus, Length: 208, dtype: int64

Een andere manier om deze nulwaarden te verwijderen is via een boolean mask wat we eerder hebben gezien:

In [25]:
latest_census[latest_census.notnull()].astype(int)

0      1979
1      2011
2      2008
3      2010
5      2014
       ... 
241    2010
242    2007
244    2004
245    2010
246    2012
Name: LatestPopulationCensus, Length: 208, dtype: int64

#### Het samenvoegen van DataFrames

Vaak willen we een nieuw DataFrame-object bouwen vanuit elders verkregen series.

Het lastige deel is natuurlijk de rij-index - rij-indexlabels hoeven niet overeen te komen wanneer je dit doet, maar dit zal leiden tot ontbrekende waarden waar indices niet overeenkomen.

Laten we eerst eens kijken naar enkele eenvoudige voorbeelden, waarbij we de `concat()` functie gebruiken:

In [26]:
df_1 = pd.DataFrame(
    [
        [1, 2, 3],
        [2, 3, 4]
    ],
    index = ['r1', 'r2'],
    columns = ['c1', 'c2', 'c3']
)

df_2 = pd.DataFrame(
    [
        [10, 20],
        [20, 30]
    ],
    index = ['r1', 'r2'],
    columns = ['c10', 'c20']
)


In [27]:
df_1

Unnamed: 0,c1,c2,c3
r1,1,2,3
r2,2,3,4


In [28]:
df_2

Unnamed: 0,c10,c20
r1,10,20
r2,20,30


We kunnen deze twee frames concateneren, langs de kolomas (as `1`), door de `concat` functie te gebruiken:

In [29]:
pd.concat([df_1, df_2], axis=1)

Unnamed: 0,c1,c2,c3,c10,c20
r1,1,2,3,10,20
r2,2,3,4,20,30


Zoals je kunt zien, zijn de rij-indexen met elkaar uitgelijnd, maar als onze rij-indexlabels niet overeenkomen, gebeurt het volgende:

In [30]:
df_1 = pd.DataFrame(
    [
        [1, 2, 3],
        [2, 3, 4]
    ],
    index = ['r1', 'r2'],
    columns = ['c1', 'c2', 'c3']
)

df_2 = pd.DataFrame(
    [
        [10, 20],
        [20, 30]
    ],
    index = ['r10', 'r2'],
    columns = ['c10', 'c20']
)

In [31]:
pd.concat([df_1, df_2], axis=1)

Unnamed: 0,c1,c2,c3,c10,c20
r1,1.0,2.0,3.0,,
r2,2.0,3.0,4.0,20.0,30.0
r10,,,,10.0,20.0


Zoals je kunt zien, heeft ons resulterende frame nu `3` rijen, en zijn er nu `NaN`-waarden aanwezig voor de "misaligned" rijen.

Als we "duplicaat" kolomlabels hebben, is dit perfect acceptabel, behalve dat onze resulterende kolomindexlabels herhaalde waarden zullen hebben:

In [32]:
df_1 = pd.DataFrame(
    [
        [1, 2, 3],
        [2, 3, 4]
    ],
    index = ['r1', 'r2'],
    columns = ['c1', 'c2', 'c3']
)

df_2 = pd.DataFrame(
    [
        [10, 20],
        [20, 30]
    ],
    index = ['r1', 'r2'],
    columns = ['c1', 'c20']
)

pd.concat([df_1, df_2], axis=1)

Unnamed: 0,c1,c2,c3,c1.1,c20
r1,1,2,3,10,20
r2,2,3,4,20,30


Natuurlijk, we kunnen altijd de kolomindexlabels vervangen - hier zal ik je een andere manier laten zien om dit te doen (we hebben eerder de `rename` methode gezien) - in het bijzonder omdat we een herhaalde label `c1` hebben, dus het gebruik van een dictionary die de oude naam naar de nieuwe naam afbeeldt, gaat niet werken.

Alles wat we moeten doen, is de `columns` (index) eigenschap instellen met behulp van een lijst van de nieuwe kolomlabels:

In [33]:
data = pd.concat([df_1, df_2], axis=1)
data.columns = ['c1', 'c2', 'c3', 'c4', 'c5']
data

Unnamed: 0,c1,c2,c3,c4,c5
r1,1,2,3,10,20
r2,2,3,4,20,30


We kunnen ook rijen samenvoegen, en dit gedraagt zich op een vergelijkbare manier als kolomsamenvoeging.

In [34]:
df_1 = pd.DataFrame(
    [
        [1, 2, 3],
        [2, 3, 4]
    ],
    index = ['r1', 'r2'],
    columns = ['c1', 'c2', 'c3']
)

df_2 = pd.DataFrame(
    [
        [10, 20],
        [20, 30]
    ],
    index = ['r3', 'r4'],
    columns = ['c3', 'c4']
)

In [35]:
pd.concat([df_1, df_2], axis=0)

Unnamed: 0,c1,c2,c3,c4
r1,1.0,2.0,3,
r2,2.0,3.0,4,
r3,,,10,20.0
r4,,,20,30.0


Laten we nu teruggaan naar ons voorbeeld met `world_bank_countries.csv`.
We hebben reeds een kolom `LatestPopulationCensus` geëxtraheerd en gecleaned door de niet numerieke waarden te verwijderen:

In [36]:
latest_census = latest_census[latest_census.notnull()].astype(int)
latest_census

0      1979
1      2011
2      2008
3      2010
5      2014
       ... 
241    2010
242    2007
244    2004
245    2010
246    2012
Name: LatestPopulationCensus, Length: 208, dtype: int64

Wat we nu willen doen is een subset van kolommen extraheren, en de aangepaste `latest_census` serie gebruiken om de originele kolom te vervangen.

Laten we eerst de kolomsubset bekijken:

In [37]:
subset = df.loc[:, ['CountryCode', 'ShortName']]
subset.loc[:5]

Unnamed: 0,CountryCode,ShortName
0,AFG,Afghanistan
1,ALB,Albania
2,DZA,Algeria
3,ASM,American Samoa
4,ADO,Andorra
5,AGO,Angola


Je zult merken dat onze expliciete index automatisch is aangemaakt toen we het DataFrame hebben gemaakt. (Het was gebaseerd op een positionele index, maar het is nog steeds een expliciete index - dus zelfs als we rijen door elkaar halen, worden die indexlabels behouden):

In [38]:
subset.sort_values('CountryCode', ascending=False)

Unnamed: 0,CountryCode,ShortName
246,ZWE,Zimbabwe
245,ZMB,Zambia
54,ZAR,Dem. Rep. Congo
199,ZAF,South Africa
244,YEM,Yemen
...,...,...
1,ALB,Albania
5,AGO,Angola
0,AFG,Afghanistan
4,ADO,Andorra


En toen we onze nieuwe kolom opbouwden, werd ook de expliciete index behouden:

In [39]:
latest_census

0      1979
1      2011
2      2008
3      2010
5      2014
       ... 
241    2010
242    2007
244    2004
245    2010
246    2012
Name: LatestPopulationCensus, Length: 208, dtype: int64

Dit betekent dat we deze nu kunnen samenvoegen langs de kolomas, en de expliciete indexlabels zullen overeenkomen, behalve waar we ontbrekende labels hebben in `latest_census`:

In [40]:
pd.concat(
    [subset, latest_census],
    axis=1
).info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 247 entries, 0 to 246
Data columns (total 3 columns):
 #   Column                  Non-Null Count  Dtype  
---  ------                  --------------  -----  
 0   CountryCode             247 non-null    object 
 1   ShortName               247 non-null    object 
 2   LatestPopulationCensus  208 non-null    float64
dtypes: float64(1), object(2)
memory usage: 5.9+ KB


Het probleem is dat onze `latest_census`-kolom weer een float is geworden!

De reden is natuurlijk dat we `NaN`-waarden hebben voor de ontbrekende gegevens.

Er zijn twee manieren om dit op te lossen.

De eerste manier is om een masker te gebruiken om de rijen met ontbrekende gegevens uit `subset` te verwijderen, en deze dan te concatenaten met de `latest_census` serie:

In [41]:
df = pd.read_csv('world_bank_countries.csv')
latest_census = pd.to_numeric(df['LatestPopulationCensus'], errors='coerce')
subset = df.loc[latest_census.notnull(), ['CountryCode', 'ShortName']]
subset

Unnamed: 0,CountryCode,ShortName
0,AFG,Afghanistan
1,ALB,Albania
2,DZA,Algeria
3,ASM,American Samoa
5,AGO,Angola
...,...,...
241,VIR,Virgin Islands
242,WBG,West Bank and Gaza
244,YEM,Yemen
245,ZMB,Zambia


In [42]:
result = pd.concat([subset, latest_census.dropna().astype(int)], axis=1)
result

Unnamed: 0,CountryCode,ShortName,LatestPopulationCensus
0,AFG,Afghanistan,1979
1,ALB,Albania,2011
2,DZA,Algeria,2008
3,ASM,American Samoa,2010
5,AGO,Angola,2014
...,...,...,...
241,VIR,Virgin Islands,2010
242,WBG,West Bank and Gaza,2007
244,YEM,Yemen,2004
245,ZMB,Zambia,2010


De andere methode is om het `join` argument van de concat methode te gebruiken.
De standaardwaarde voor dit argument is outer, wat betekent dat kolomwaarden die niet overeenkomen op de rij-index worden vervangen door NaN - wat we tot nu toe hebben gezien.

De andere waarde voor dit argument is `inner` - in dat geval worden rijen verwijderd die niet overeenkomen met de indices - dus eindigen we met minder rijen, maar geen null-waarden.

In [1]:
df = pd.read_csv('world_bank_countries.csv')
latest_census = pd.to_numeric(df['LatestPopulationCensus'], errors='coerce')
latest_census = latest_census.dropna().astype(int)
subset = df[['CountryCode', 'ShortName']]

In [44]:
latest_census

0      1979
1      2011
2      2008
3      2010
5      2014
       ... 
241    2010
242    2007
244    2004
245    2010
246    2012
Name: LatestPopulationCensus, Length: 208, dtype: int64

In [45]:
subset

Unnamed: 0,CountryCode,ShortName
0,AFG,Afghanistan
1,ALB,Albania
2,DZA,Algeria
3,ASM,American Samoa
4,ADO,Andorra
...,...,...
242,WBG,West Bank and Gaza
243,WLD,World
244,YEM,Yemen
245,ZMB,Zambia


Zoals je kunt zien hebben we minder rijen in `latest_census` dan in `subset` - d.w.z. `latest_census` bevat een subset van de expliciete rij-indices van `subset`.
We kunnen nu joinen (langs de kolom as) met behulp van een `inner` join:

In [46]:
pd.concat([subset, latest_census], axis=1, join='inner')

Unnamed: 0,CountryCode,ShortName,LatestPopulationCensus
0,AFG,Afghanistan,1979
1,ALB,Albania,2011
2,DZA,Algeria,2008
3,ASM,American Samoa,2010
5,AGO,Angola,2014
...,...,...,...
241,VIR,Virgin Islands,2010
242,WBG,West Bank and Gaza,2007
244,YEM,Yemen,2004
245,ZMB,Zambia,2010
