<!--Header-->
<div>
    <div class="row" style="color: #4D4D4D;font-size: 15px;padding-bottom: 20px">
        <div class="col-md-7">
            <img src="http://materials.cv.uoc.edu/cdocent/common/img/logo-uoc.png" alt="Logo UOC" class="img-responsive" style="margin:20px 0px 0px">
        </div>
        <div class="col-md-5">
            <h1 style="margin:15px 0px 0px;font-size: 40px;">Manipulació de dades amb la llibreria pandas</h1>
            <div style="text-align:left;margin-top: 5px;"></div>
        </div>
    </div>
    <div class="row" style="background: #FCB517;padding: 10px 20px;">
        <div class="col-md-6">
            <div>PID_00233252</div>
        </div>
        <div class="col-md-6">
            <div style="text-align:right;">Autor: Xavier Duran Albareda <span style="margin-left: 30px;">Coordinació: Julià Minguillón</span></div>
        </div>
    </div>
</div>
<!--/Header-->

# Introducció

![Pandas](images/pandas_logo.png)

`Pandas` és un paquet de `Python` que ens facilita la manipulació i l'anàlisi de dades. Incorpora estructures de dades ràpides i flexibles dissenyades per treballar amb dades relacionals o etiquetades de manera intuitiva.

Pandas ens permet treballar amb diferents tipus de dades:

- Tabulars amb columnes heterogènies, com ara `Excels`, `CSV` o taules `SQL`
- Series temporals, ordenades o no
- Matrius
- Dades estadístiques i observacionals de tot tipus

In [18]:
import pandas as pd

# Estructures de dades

Les dues estructures de dades que ens ofereix `Pandas` són les `Series` i el `DataFrame`.

![Pandas cheat sheet](images/pandas-02.png)

## Series

Les `Series` són arrays unidimensionals que poden guardar dades de qualsevol tipus, i tenen un `index`.

En aquest exemple veiem com podem crear una `Series` on l'`index` correspon a l'any i els valors la quantitat de $CO_2$ a l'atmosfera mesurada en parts per milió.

In [19]:
carbon_dioxide_ppm = pd.Series(
    [295, 297, 299, 302, 305, 309, 314, 322, 335, 351, 373, 403],
    index = [1900, 1910, 1920, 1930, 1940, 1950, 1960, 1970, 1980, 1990, 2000, 2010]
)
carbon_dioxide_ppm

1900    295
1910    297
1920    299
1930    302
1940    305
1950    309
1960    314
1970    322
1980    335
1990    351
2000    373
2010    403
dtype: int64

## DataFrame

Els  `DataFrame` són arrays bidimensionals o matrius, indexat per files i per columnes, i que també poden guardar dades de qualsevol tipus.

Per exemple, podem crear un `DataFrame` amb les freqüències dels noms més posats a Catalunya durant el 2016 [segons l'Idescat](https://www.idescat.cat/nadons/).

In [20]:
onomastica = {
    'Noms': [
        'Marc',
        'Martina',
        'Àlex/Álex',
        'Júlia/Julia',
        'Laia',
        'Lucía',
        'Maria/María',
        'Jan',
        'Martí',
        'Hugo'
    ],
    'Sexe': ['H', 'D', 'H', 'D', 'D', 'D', 'D', 'H', 'H', 'H'],
    '2016': [832, 702, 656, 649, 582, 573, 566, 562, 557, 553]
}

pd.DataFrame(onomastica, columns = ['Noms', 'Sexe', '2016'])

Unnamed: 0,Noms,Sexe,2016
0,Marc,H,832
1,Martina,D,702
2,Àlex/Álex,H,656
3,Júlia/Julia,D,649
4,Laia,D,582
5,Lucía,D,573
6,Maria/María,D,566
7,Jan,H,562
8,Martí,H,557
9,Hugo,H,553


# Selecció de columnes

El `DataFrame` que farem servir en aquest exemple correspon al dataset de la competició [Titanic: Machine Learning from Disaster](https://www.kaggle.com/c/titanic) de [Kaggle](https://www.kaggle.com/).

In [21]:
df = pd.read_csv('data/titanic.csv')
df.head()

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,,S


Podem seleccionar una columna determinada d'un `DataFrame`, per exemple, la columna _Name_ indistintament amb `df.Name` o `df['Name']`.

In [22]:
df.Name.head()

0                              Braund, Mr. Owen Harris
1    Cumings, Mrs. John Bradley (Florence Briggs Th...
2                               Heikkinen, Miss. Laina
3         Futrelle, Mrs. Jacques Heath (Lily May Peel)
4                             Allen, Mr. William Henry
Name: Name, dtype: object

In [23]:
df.Name.equals(df['Name'])

True

Cada columna del nostre `DataFrame` és un objecte de tipus `Series`.

In [24]:
type(df.Name)

pandas.core.series.Series

Per seleccionar més d'una columna, utilitzarem un `array` amb els noms de les columnes.

In [25]:
df[['Name', 'Sex']].head()

Unnamed: 0,Name,Sex
0,"Braund, Mr. Owen Harris",male
1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female
2,"Heikkinen, Miss. Laina",female
3,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female
4,"Allen, Mr. William Henry",male


# Filtrat de files

`Pandas` ens ofereix diferents maneres per filtrar les dades d'un `DataFrame`.

## Filtrat de files basat en condicions

En bona part dels casos voldrem seleccionar un subconjunt de files que compleixin alguna condició. Per exemple, podem seleccionar aquells passatgers de hagin sobreviscut a la tragèdia del Titanic.

In [26]:
survivors = df[df.Survived == 1]
survivors.head()

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S
8,9,1,3,"Johnson, Mrs. Oscar W (Elisabeth Vilhelmina Berg)",female,27.0,0,2,347742,11.1333,,S
9,10,1,2,"Nasser, Mrs. Nicholas (Adele Achem)",female,14.0,1,0,237736,30.0708,,C


La condició pot ser tan complexa com volguem. Per exemple, a continuació seleccionarem aquells passatgers menors de 21 anys que hagin sobreviscut i fóssin en alguna cabina.

In [27]:
survivors = df[(df.Survived == 1) & (df.Age < 21) & ~(pd.isna(df.Cabin))]
survivors.head()

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
10,11,1,3,"Sandstrom, Miss. Marguerite Rut",female,4.0,1,1,PP 9549,16.7,G6,S
136,137,1,1,"Newsom, Miss. Helen Monypeny",female,19.0,0,2,11752,26.2833,D47,S
183,184,1,2,"Becker, Master. Richard F",male,1.0,2,1,230136,39.0,F4,S
193,194,1,2,"Navratil, Master. Michel M",male,3.0,1,1,230080,26.0,F2,S
291,292,1,1,"Bishop, Mrs. Dickinson H (Helen Walton)",female,19.0,1,0,11967,91.0792,B49,C


## Filtrat de files amb la funció map

Per poder fer filtres més complexes, a vegades ens serà molt útil la funció [`map`](https://pandas.pydata.org/pandas-docs/stable/generated/pandas.Series.map.html). La funció [`map`](https://pandas.pydata.org/pandas-docs/stable/generated/pandas.Series.map.html) ens permet aplicar una funció a tots els valor d'un objecte `Series`. Recordem que cada columna del nostre `DataFrame` és individualment un objecte del tipus `Series`.

En el següent exemple, aplicarem una funció a cada element de la columna `Name` que ens indicarà si conté el text _Mr._.

In [28]:
df[df.Name.map(lambda name: 'Mr.' in name)].head()

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,,S
5,6,0,3,"Moran, Mr. James",male,,0,0,330877,8.4583,,Q
6,7,0,1,"McCarthy, Mr. Timothy J",male,54.0,0,0,17463,51.8625,E46,S
12,13,0,3,"Saundercock, Mr. William Henry",male,20.0,0,0,A/5. 2151,8.05,,S


# Dividir les dades en dos conjunts de train i test

Un cas molt habitual en problemes de _machine learning_ és haver de dividir el nostre _datatset_ en dos trossos o _splits_: el _dataset_ de _train_ i el _dataset_ de _test_. El _dataset_ de _train_ ens servirà per entrenar el model amb els mètodes de _machine learning_ que escollim. I el _dataset_ de _test_, per avaluar el model a partir de comparar les prediccions del model en aquest últim dataset.

En el cas més habitual, en què les nostres dades no són sèries temporals, dividirem les dades en dos _splits_ aleatoris. A continuació veurem dues de les moltes maneres que tenim per fer-ho.

## Funció sample

La funció [`sample`](https://pandas.pydata.org/pandas-docs/stable/generated/pandas.DataFrame.sample.html) de `pandas` retorna una mostra aleatòria del nostre _dataset_. En l'exemple següent, primer crearem el _dataset_ de _train_, especificant la proporció del _dataset_ original que volem en el paràmetre `frac`, i després assignarem al _dataset_ de _test_ la resta de les files que no han estat seleccionades.

In [44]:
train = df.sample(frac=0.8, random_state=200)
test = df.drop(train.index)
train.head()

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
659,660,0,1,"Newell, Mr. Arthur Webster",male,58.0,0,2,35273,113.275,D48,C
525,526,0,3,"Farrell, Mr. James",male,40.5,0,0,367232,7.75,,Q
828,829,1,3,"McCormack, Mr. Thomas Joseph",male,,0,0,367228,7.75,,Q
753,754,0,3,"Jonkoff, Mr. Lalio",male,23.0,0,0,349204,7.8958,,S
518,519,1,2,"Angle, Mrs. William A (Florence ""Mary"" Agnes H...",female,36.0,1,0,226875,26.0,,S


## Sickit-learn

La segona opció és utilitzant la llibreria `Scikit-learn` ens proporciona eines simples i eficients per fer mineria i anàlisi de dades, i a més és de les més utilitzades en _machine learning_.

![Scikit-learn](images/scikit-learn-logo.png)

La funció [`train_test_split`](http://scikit-learn.org/stable/modules/generated/sklearn.model_selection.train_test_split.html) divideix les nostres dades en dos _datasets_ de _train_ i _test_ especificant la proporció del _dataset_ de _test_ en el paràmetre `test_size`. Aquest segon mètode ens permet explicitar quina serà la nostra variable depenent, la nostra _y_ o _target_ en un posterior anàlisi, en el nostre cas la columna `Survived`.

In [45]:
from sklearn.preprocessing import StandardScaler
from sklearn.model_selection import train_test_split

# Create the features matrix
X = df.drop('Survived', axis=1)

# Create the target vector
y = df.Survived

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size = 0.3)
X_train.head()

Unnamed: 0,PassengerId,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
430,431,1,"Bjornstrom-Steffansson, Mr. Mauritz Hakan",male,28.0,0,0,110564,26.55,C52,S
865,866,2,"Bystrom, Mrs. (Karolina)",female,42.0,0,0,236852,13.0,,S
593,594,3,"Bourke, Miss. Mary",female,,0,2,364848,7.75,,Q
328,329,3,"Goldsmith, Mrs. Frank John (Emily Alice Brown)",female,31.0,1,1,363291,20.525,,S
527,528,1,"Farthing, Mr. John",male,,0,0,PC 17483,221.7792,C95,S


In [47]:
y_train.head()

430    1
865    1
593    0
328    1
527    0
Name: Survived, dtype: int64

<!--Footer-->
 <div style="background: #333333;padding: 35px 0px;margin-top: 25px;">
    <div class="row">
     <div class="col-sm-12">
        <img src="http://materials.cv.uoc.edu/cdocent/common/img/logo-uoc-bottom.png" alt="Logo UOC" class="img-responsive" style="margin: 0 auto; display: block;">
    </div>
</div>
</div>
<!--/Footer-->