<!--Header-->
<div>
    <div class="row" style="color: #4D4D4D;font-size: 15px;padding-bottom: 20px">
        <div class="col-md-7">
            <img src="http://materials.cv.uoc.edu/cdocent/common/img/logo-uoc.png" alt="Logo UOC" class="img-responsive" style="margin:20px 0px 0px">
        </div>
        <div class="col-md-5">
            <h1 style="margin:15px 0px 0px;font-size: 40px;">Manipulació de dades amb la llibreria pandas</h1>
            <div style="text-align:left;margin-top: 5px;"></div>
        </div>
    </div>
    <div class="row" style="background: #FCB517;padding: 10px 20px;">
        <div class="col-md-6">
            <div>PID_00233252</div>
        </div>
        <div class="col-md-6">
            <div style="text-align:right;">Autor: Xavier Duran Albareda <span style="margin-left: 30px;">Coordinació: Julià Minguillón</span></div>
        </div>
    </div>
</div>
<!--/Header-->

# Introducció

![Pandas](images/pandas_logo.png)

Pandas és un paquet de Python que ens facilita la manipulació i l'anàlisi de dades. Incorpora estructures de dades ràpides i flexibles dissenyades per treballar amb dades relacionals o etiquetades de manera intuitiva.

Pandas ens permet treballar amb diferents tipus de dades:

- Tabulars amb columnes heterogènies, com ara Excels, CSV o taules SQL
- Series temporals, ordenades o no
- Matrius
- Dades estadístiques i observacionals de tot tipus

## Estructures de dades

Les dues estructures de dades que ens ofereix _Pandas_ són les __Series__ i el __DataFrame__.

![Pandas cheat sheet](images/pandas-02.png)

### Series

Les `Series` són arrays unidimensionals que poden guardar dades de qualsevol tipus, i tenen un `index`.

En aquest exemple veiem com podem crear una `Series` on l'`index` correspon a l'any i els valors la quantitat de $CO_2$ a l'atmosfera mesurada en parts per milió.

In [11]:
carbon_dioxide_ppm = pd.Series(
    [295, 297, 299, 302, 305, 309, 314, 322, 335, 351, 373, 403],
    index = [1900, 1910, 1920, 1930, 1940, 1950, 1960, 1970, 1980, 1990, 2000, 2010]
)
carbon_dioxide_ppm

1900    295
1910    297
1920    299
1930    302
1940    305
1950    309
1960    314
1970    322
1980    335
1990    351
2000    373
2010    403
dtype: int64

### DataFrame

Els  `DataFrame` són arrays bidimensionals o matrius, indexat per files i per columnes, i que també poden guardar dades de qualsevol tipus.

Per exemple, podem crear un `DataFrame` amb les freqüències dels noms més posats a Catalunya durant el 2016 [segons l'Idescat](https://www.idescat.cat/nadons/).

In [7]:
import pandas as pd

onomastica = {
    'Noms': [
        'Marc',
        'Martina',
        'Àlex/Álex',
        'Júlia/Julia',
        'Laia',
        'Lucía',
        'Maria/María',
        'Jan',
        'Martí',
        'Hugo'
    ],
    'Sexe': ['H', 'D', 'H', 'D', 'D', 'D', 'D', 'H', 'H', 'H'],
    '2016': [832, 702, 656, 649, 582, 573, 566, 562, 557, 553]
}

pd.DataFrame(onomastica, columns = ['Noms', 'Sexe', '2016'])

Unnamed: 0,Noms,Sexe,2016
0,Marc,H,832
1,Martina,D,702
2,Àlex/Álex,H,656
3,Júlia/Julia,D,649
4,Laia,D,582
5,Lucía,D,573
6,Maria/María,D,566
7,Jan,H,562
8,Martí,H,557
9,Hugo,H,553


## Seleccionar i filtrar dades en un DataFrame

`Pandas` ens ofereix diferents maneres per seleccionar i filtrar les dades d'un `DataFrame`.

El __DataFrame__ que farem servir en aquest exemple correspon al dataset de la competició [Titanic: Machine Learning from Disaster](https://www.kaggle.com/c/titanic) de [Kaggle](https://www.kaggle.com/).

In [6]:
df = pd.read_csv('data/titanic.csv')
df.head()

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,,S


### Selecció de files basada en condicions

En bona part dels casos voldrem seleccionar un subconjunt de files que compleixin alguna condició. Per exemple, podem seleccionar aquells passatgers de hagin sobreviscut a la tragèdia del Titanic.

In [13]:
survivors = df[df.Survived == 1]
survivors.head()

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S
8,9,1,3,"Johnson, Mrs. Oscar W (Elisabeth Vilhelmina Berg)",female,27.0,0,2,347742,11.1333,,S
9,10,1,2,"Nasser, Mrs. Nicholas (Adele Achem)",female,14.0,1,0,237736,30.0708,,C


La condició pot ser tan complexa com volguem. Per exemple, a continuació seleccionarem aquells passatgers menors de 21 anys que hagin sobreviscut i fóssin en alguna cabina.

In [45]:
survivors = df[(df.Survived == 1) & (df.Age < 21) & ~(pd.isna(df.Cabin))]
survivors.head()

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
10,11,1,3,"Sandstrom, Miss. Marguerite Rut",female,4.0,1,1,PP 9549,16.7,G6,S
136,137,1,1,"Newsom, Miss. Helen Monypeny",female,19.0,0,2,11752,26.2833,D47,S
183,184,1,2,"Becker, Master. Richard F",male,1.0,2,1,230136,39.0,F4,S
193,194,1,2,"Navratil, Master. Michel M",male,3.0,1,1,230080,26.0,F2,S
291,292,1,1,"Bishop, Mrs. Dickinson H (Helen Walton)",female,19.0,1,0,11967,91.0792,B49,C


<!--Footer-->
 <div style="background: #333333;padding: 35px 0px;margin-top: 25px;">
    <div class="row">
     <div class="col-sm-12">
        <img src="http://materials.cv.uoc.edu/cdocent/common/img/logo-uoc-bottom.png" alt="Logo UOC" class="img-responsive" style="margin: 0 auto; display: block;">
    </div>
</div>
</div>
<!--/Footer-->