<!--Header-->
<div>
    <div class="row" style="color: #4D4D4D;font-size: 15px;padding-bottom: 20px">
        <div class="col-md-7">
            <img src="http://materials.cv.uoc.edu/cdocent/common/img/logo-uoc.png" alt="Logo UOC" class="img-responsive" style="margin:20px 0px 0px">
        </div>
        <div class="col-md-5">
            <h1 style="margin:15px 0px 0px;font-size: 40px;">Lectura i escriptura de fitxers de dades</h1>
            <div style="text-align:left;margin-top: 5px;"></div>
        </div>
    </div>
    <div class="row" style="background: #FCB517;padding: 10px 20px;">
        <div class="col-md-6">
            <div>PID_00233252</div>
        </div>
        <div class="col-md-6">
            <div style="text-align:right;">Autor: Xavier Duran Albareda <span style="margin-left: 30px;">Coordinació: Julià Minguillón</span></div>
        </div>
    </div>
</div>
<!--/Header-->

# Introducció

L'exporació, manipulació, visualització i anàlisi de dades comença amb la càrrega de les dades des de diferents formats de fitxers. En aquesta activitat veurem com llegir fitxers de tipus `CSV`, `Excel`, `TXT`, `JSON` i `ZIP`, carregar-los en un `DataFrame` i tornar-los a guardar en un altre fitxer.

![Pandas](images/pandas_logo.png)


Farem servir un paquet de `Python` anomenat `pandas`, que facilita la manipulació i l'anàlisi de dades. `Pandas` incorpora estructures de dades ràpides i flexibles dissenyades per a treballar d'una manera intuïtiva amb dades relacionals o etiquetades.

El primer que farem serà importar la llibreria `pandas`.

In [1]:
import pandas as pd

## Fitxers CSV

L'acrònim `CSV` correspon a _Comma Separated Values_, és a dir, fitxers separats per comes. De fet, veurem que la funció de `pandas` que farem servir per llegir aquests tipus de fitxers també serveix per llegir fitxers separats per altres caracters, com els `TSV` o _Tab-Separated Values_, o els fitxers separats per punt i coma.

El fitxer `CSV` que llegirem correspon al dataset de la competició [Titanic: Machine Learning from Disaster](https://www.kaggle.com/c/titanic) de [Kaggle](https://www.kaggle.com/).

Per llegir un fitxer `CSV` farem servir la funció [`read_csv`](https://pandas.pydata.org/pandas-docs/stable/generated/pandas.read_csv.html) de `pandas`.

In [2]:
df = pd.read_csv("titanic.csv")
df.head()

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,,S


Si el fitxer no té capcelera, especificarem el paràmetre `header=None` i opcionalment, el nom de les columnes.

In [3]:
df = pd.read_csv("titanic_no_header.csv", header = None,
                 names = ["PassengerId", "Survived", "Pclass", "Name",
                          "Sex", "Age", "SibSp", "Parch", "Ticket", "Fare", "Cabin", "Embarked"
                         ])
df.head()

FileNotFoundError: [Errno 2] No such file or directory: 'titanic_no_header.csv'

Com podem veure, el resultat és exactament el mateix, i l'única diferència és que li hem hagut d'especificar explícitament el nom de les columnes.

Si volem llegir un fitxer que no està separat per comes, especificarem el separador amb el paràmetre `sep`.

In [None]:
df = pd.read_csv("data/titanic.tsv", sep='\t')
df.head()

Per tornar-lo a guardar en un altre fitxer, per exemple separat per punts i coma, farem servir la funció [`to_csv`](https://pandas.pydata.org/pandas-docs/stable/generated/pandas.DataFrame.to_csv.html) de `pandas`.

In [None]:
df.to_csv('data/titanic_semicolon.csv', sep=';')

Si provem de tornar a carregar des del fitxer que hem creat just ara, veurem que ens ha creat una columna `Unnamed`. Això passa perquè per defecte ens guarda l'índex del `DataFrame`.

In [None]:
pd.read_csv('data/titanic_semicolon.csv', sep=';').head()

Per evitar-ho, li explicitarem que no volem que ens guardi l'índex amb el paràmetre `index=False`.

In [None]:
df.to_csv('data/titanic_semicolon_no_index.csv', sep=';', index=False)

##  Fitxers Excel

Tot i ser un programari propietari, `Excel` és una de les eines més populars i utilitzades en el tractament de dades. `Pandas` és capaç de llegir els fitxers que genera aquest programari en les seves diferents versions. 

El fitxer `Excel` que llegirem correspon al dataset de la competició [TMDB 5000 Movie Dataset](https://www.kaggle.com/tmdb/tmdb-movie-metadata) de [Kaggle](https://www.kaggle.com/). Aquest excel té tres `sheets` que corresponen a les películes dels anys `1900s`, `2000s` i `2010s`.

Per llegir un fitxer `Excel` farem servir la funció [`read_excel`](https://pandas.pydata.org/pandas-docs/stable/generated/pandas.read_excel.html) de `pandas`.

In [None]:
xls_file = pd.read_excel('data/movies.xls')
xls_file.head()

El nostre `Excel` té tres `sheets`. Si no li diem res, per defecte la funció [`read_excel`](https://pandas.pydata.org/pandas-docs/stable/generated/pandas.read_excel.html) ens carrega el primer. Si volem especificar-ne un altre, ho podem fer pel nom amb el paràmetre `sheet_name`.

In [None]:
xls_file = pd.read_excel('data/movies.xls', sheet_name='2010s')
xls_file.head()

Per tornar-lo a guardar en un altre fitxer `Excel` farem servir la funció  [`to_excel`](https://pandas.pydata.org/pandas-docs/stable/generated/pandas.DataFrame.to_excel.html) de `pandas`.

In [None]:
xls_file.to_excel('data/movies_2010.xlsx', index=False)

## Fitxers TXT

A vegades els fitxers de dades no estan separats per cap caracter en concret, sino que cada camp té una mida fixa. Aquests tipus de fitxers s'anomenen de _Fixed Width Format_, o de camps d'amplada fixa. La funció [`read_fwf`](https://pandas.pydata.org/pandas-docs/stable/generated/pandas.read_fwf.html) de `pandas` ens permet tractar amb aquests. Si no especifiquem la mida dels camps, provarà d'inferir l'estructura del fitxer.

Les dades que farem servir són els [_ratings_](https://ratings.fide.com/download.phtml) dels jugadors de la Federació Internacional d'Escacs.

In [None]:
df = pd.read_fwf('data/players_list_foa.txt')
df.head()

## Fitxers JSON

`JSON`, acrònim de _JavaScript Object Notation_, és un format estàndard de transferència de dades que utilitza una sintaxi llegible pels humans i que consisteix en llistes aniuades de parelles clau/valor. Per [exemple](http://json.org/example.html), aquí podem veure un registre d'una base de dades no relacional en format JSON:

```json
{
  "menu": {
    "id": "file",
    "value": "File",
    "popup": {
      "menuitem": [
        {"value": "New", "onclick": "CreateNewDoc()"},
        {"value": "Open", "onclick": "OpenDoc()"},
        {"value": "Close", "onclick": "CloseDoc()"}
      ]
    }
  }
}
```

Com podem veure, les dades no estan estructurades en format taula. Quan carreguem el `JSON` a un `DataFrame` amb `pandas`, cada columna correspondrà a una de les claus de primer nivell de cada registre. I el seu valor serà, en el cas de llistes aniuades, una llista en format `JSON`.

Les dades que farem servir corresponen als darrers 15 `issues` del paquet `pandas` publicats a [`Github`](https://api.github.com/repositories/858127/issues?per_page=15). Veiem que `pandas` també ens permet llegir el fitxer a través de la seva `URL`.

In [None]:
df = pd.read_json('https://api.github.com/repositories/858127/issues?per_page=15')
df = pd.read_json('data/pandas_issues.json')
df.head()

En el `DataFrame` anterior veiem que hi ha camps, `milestone`, `pull_request` o `user`, que tenen com a valor un altre `JSON`. Hi ha una manera però, d'aplanar l'estructura d'un `JSON` per encabir-la en format `DataFrame`, i és a través de la funció [`json_normalize`](http://pandas.pydata.org/pandas-docs/version/0.19/generated/pandas.io.json.json_normalize.html).

In [None]:
import json
from pandas.io.json import json_normalize

with open('data/pandas_issues.json') as f:
    issues = json.load(f)
    
df = json_normalize(issues)
df.head()

Veiem que ara els camps ja no contenen llistes de valors. I és que el camp `user`, per exemple, se'ns ha convertit en els camps `user.id`, `user.login`, `user.organizations_url`, `user.received_events_url`, `user.repos_url`, `user.site_admin`, `user.starred_url`, `user.subscriptions_url`, `user.type` i `user.url`.

Finalment, per guardar el nou `DataFrame` aplanat en un fitxer `JSON` farem servir la funció  [`to_json`](https://pandas.pydata.org/pandas-docs/stable/generated/pandas.DataFrame.to_json.html) de `pandas`.

In [None]:
df.to_json('data/pandas_issues_flattened.json')

## Fitxers zip

Qualsevol dels formats anteriors els podem trobar comprimits. Podem descomprimir el fitxer i després llegir-lo.

In [None]:
import zipfile

zf = zipfile.ZipFile('data/titanic.csv.zip')
df = pd.read_csv(zf.open('titanic.csv'))
df.head()

Però també podem fer-ho tot en un sol pas sense haver-lo de descomprimir abans, amb el paràmetre `compression`.

In [None]:
df = pd.read_csv('data/titanic.csv.zip', compression='zip')
df.head()

<!--Footer-->
 <div style="background: #333333;padding: 35px 0px;margin-top: 25px;">
    <div class="row">
     <div class="col-sm-12">
        <img src="http://materials.cv.uoc.edu/cdocent/common/img/logo-uoc-bottom.png" alt="Logo UOC" class="img-responsive" style="margin: 0 auto; display: block;">
    </div>
</div>
</div>
<!--/Footer-->