<!--Header-->
<div>
    <div class="row" style="color: #4D4D4D;font-size: 15px;padding-bottom: 20px">
        <div class="col-md-8">
            <h1 style="margin:15px 0px 0px;font-size: 40px;">Manipulación de datos con la librería pandas</h1>
            <div style="text-align:left;margin-top: 5px;"></div>
        </div>
    </div>
    <div class="row" style="background: #FCB517;padding: 10px 20px;"></div>


</div>
<!--/Header-->

# Introducción

La exporación, manipulación, visualización y análisis de datos empieza con la carga de los datos desde diferentes formatos de ficheros. En esta actividad veremos cómo leer ficheros de tipo `CSV`, `Excel`, `TXT`, `JSON` i `ZIP`, cargarlos en un `DataFrame` y volverlos a guardar en otro fichero.

![Pandas](pandas_logo.svg)

Usaremos un paquete de `Python` llamado `pandas`, que facilita la manipulación y el análisis de datos. `Pandas` incorpora estructuras de datos rápidas y flexibles diseñadas para trabajar de una manera intuitiva con datos relacionales o etiquetados.

Lo primero que haremos será importar la librería `pandas`.

In [1]:
import pandas as pd
import numpy as np

## Ficheros CSV

El acrónimo `CSV` corresponde a _Comma Separated Values_, es decir, ficheros separados por comas. De hecho, veremos que la función de `pandas` que usaremos para leer este tipo de ficheros también sirve para leer ficheros separados por otros caracteres, como los `TSV` o _Tab-Separated Values_, o los ficheros separados por punto y coma.

El fichero `CSV` que leeremos corresponde al dataset de la competición [Titanic: Machine Learning from Disaster](https://www.kaggle.com/c/titanic) de [Kaggle](https://www.kaggle.com/).

Para leer un fichero `CSV` usaremos la función [`read_csv`](https://pandas.pydata.org/pandas-docs/stable/generated/pandas.read_csv.html) de `pandas`.

In [31]:
df = pd.read_csv("titanic.csv")
df.head()

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,,S


Si el fichero no tiene cabecera, especificaremos el parámetro `header=None` y opcionalmente, el nombre de las columnas.

In [32]:
df = pd.read_csv("data/titanic_no_header.csv", header = None,
                 names = ["PassengerId", "Survived", "Pclass", "Name",
                          "Sex", "Age", "SibSp", "Parch", "Ticket", "Fare", "Cabin", "Embarked"
                         ])
df.head()

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,,S


Com podemos ver, el resultado es exactamente el mismo, y la única diferencia es que le hemos tenido que especificar explícitament el nombre de las columnas.

Si queremos leer un fichero que no está separado por comas, especificaremos el separador con el parámetro `sep`.

In [33]:
df = pd.read_csv("titanic.tsv", sep='\t')
df.head()

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,,S


Para volverlo a guardar en otro fichero, por ejemplo separado por punto y coma, usaremos la función [`to_csv`](https://pandas.pydata.org/pandas-docs/stable/generated/pandas.DataFrame.to_csv.html) de `pandas`.

In [42]:
df.to_csv('titanic_semicolon.csv', sep=';')

Si intentamos volver a cargar desde el fichero que hemos creado justo ahora, veremos que nos ha creado una columna `Unnamed`. Esto pasa porque por defecto nos guarda el índice del `DataFrame`.

In [43]:
pd.read_csv('titanic_semicolon.csv', sep=';').head()

Unnamed: 0.1,Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
1,1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S
3,3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S
4,4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,,S


Para evitarlo, le explicitaremos que no quremos que nos guarde el índice mediante el parámetro `index=False`.

In [46]:
df.to_csv('data/titanic_semicolon_no_index.csv', sep=';', index=False)

##  Ficheros Excel

Aún y ser un software propietario, `Excel` es una de las herramientas más populares y usadas en el tratamiento de datos. `Pandas` es capaz de leer los ficheros que genera este software en sus diferentes versiones.

El fichero `Excel` que leeremos corresponde al dataset de la competición [TMDB 5000 Movie Dataset](https://www.kaggle.com/tmdb/tmdb-movie-metadata) de [Kaggle](https://www.kaggle.com/). Este `Excel` tiene tres `sheets` que corresponden a las películas de los años `1900s`, `2000s` i `2010s`.

Para leer un fichero `Excel` usaremos la función [`read_excel`](https://pandas.pydata.org/pandas-docs/stable/generated/pandas.read_excel.html) de `pandas`.

In [47]:
xls_file = pd.read_excel('movies.xls')
xls_file.head()

Unnamed: 0,Title,Year,Genres,Language,Country,Content Rating,Duration,Aspect Ratio,Budget,Gross Earnings,...,Facebook Likes - Actor 1,Facebook Likes - Actor 2,Facebook Likes - Actor 3,Facebook Likes - cast Total,Facebook likes - Movie,Facenumber in posters,User Votes,Reviews by Users,Reviews by Crtiics,IMDB Score
0,Intolerance: Love's Struggle Throughout the Ages,1916,Drama|History|War,,USA,Not Rated,123,1.33,385907.0,,...,436,22,9.0,481,691,1,10718,88,69.0,8.0
1,Over the Hill to the Poorhouse,1920,Crime|Drama,,USA,,110,1.33,100000.0,3000000.0,...,2,2,0.0,4,0,1,5,1,1.0,4.8
2,The Big Parade,1925,Drama|Romance|War,,USA,Not Rated,151,1.33,245000.0,,...,81,12,6.0,108,226,0,4849,45,48.0,8.3
3,Metropolis,1927,Drama|Sci-Fi,German,Germany,Not Rated,145,1.33,6000000.0,26435.0,...,136,23,18.0,203,12000,1,111841,413,260.0,8.3
4,Pandora's Box,1929,Crime|Drama|Romance,German,Germany,Not Rated,110,1.33,,9950.0,...,426,20,3.0,455,926,1,7431,84,71.0,8.0


Nuestro `Excel` tiene tres `sheets`. Si no le decimos nada, por defecto la función [`read_excel`](https://pandas.pydata.org/pandas-docs/stable/generated/pandas.read_excel.html) nos carga el primero. Si queremos especificar otro, lo podemos hacer por el nombre mediante el parámetro `sheet_name`.

In [48]:
xls_file = pd.read_excel('movies.xls', sheet_name='2010s')
xls_file.head()

Unnamed: 0,Title,Year,Genres,Language,Country,Content Rating,Duration,Aspect Ratio,Budget,Gross Earnings,...,Facebook Likes - Actor 1,Facebook Likes - Actor 2,Facebook Likes - Actor 3,Facebook Likes - cast Total,Facebook likes - Movie,Facenumber in posters,User Votes,Reviews by Users,Reviews by Crtiics,IMDB Score
0,127 Hours,2010.0,Adventure|Biography|Drama|Thriller,English,USA,R,94.0,1.85,18000000.0,18329466.0,...,11000.0,642.0,223.0,11984,63000,0.0,279179,440.0,450.0,7.6
1,3 Backyards,2010.0,Drama,English,USA,R,88.0,,300000.0,,...,795.0,659.0,301.0,1884,92,0.0,554,23.0,20.0,5.2
2,3,2010.0,Comedy|Drama|Romance,German,Germany,Unrated,119.0,2.35,,59774.0,...,24.0,20.0,9.0,69,2000,0.0,4212,18.0,76.0,6.8
3,8: The Mormon Proposition,2010.0,Documentary,English,USA,R,80.0,1.78,2500000.0,99851.0,...,191.0,12.0,5.0,210,0,0.0,1138,30.0,28.0,7.1
4,A Turtle's Tale: Sammy's Adventures,2010.0,Adventure|Animation|Family,English,France,PG,88.0,2.35,,,...,783.0,749.0,602.0,3874,0,2.0,5385,22.0,56.0,6.1


Para volverlo a guardar en otro fichero `Excel` usaremos la función  [`to_excel`](https://pandas.pydata.org/pandas-docs/stable/generated/pandas.DataFrame.to_excel.html) de `pandas`.

In [9]:
xls_file.to_excel('movies_2010.xlsx', index=False)

## Ficheros TXT

A veces los ficheros de datos no estan separados por ningún caracter en concreto, sino que cada campo tiene una medida fija. Estos tipos de ficheros se llaman _Fixed Width Format_, o de campos de ancho fija. La función [`read_fwf`](https://pandas.pydata.org/pandas-docs/stable/generated/pandas.read_fwf.html) de `pandas` nos permite tratar con estos ficheros. Si no especificamos el ancho de los campos, intentará inferir la estructura del fichero.

Los datos que usaremos son los [_ratings_](https://ratings.fide.com/download.phtml) de los jugadores de la Federación Internacional de Ajedrez.

In [10]:
df = pd.read_fwf('players_list_foa.txt')
df.head()

Unnamed: 0,ID Number,Name,Fed,Sex,Tit,WTit,OTit,FOA,SRtng,SGm,SK,RRtng,RGm,Rk,BRtng,BGm,BK,B-day,Flag
0,10224084,"A B M Hasibuzzaman, Tapan",BAN,M,,,,,,,,,,,,,,1977,
1,35077023,A Chakravarthy,IND,M,,,,,1151.0,0.0,40.0,,,,,,,1986,i
2,10207538,"A E M, Doshtagir",BAN,M,,,,,1840.0,0.0,40.0,1836.0,0.0,20.0,1860.0,0.0,20.0,1974,i
3,5716365,"A Hamid, Harman",MAS,M,,,NI,,,,,1593.0,0.0,20.0,,,,0,
4,10207546,"A K M Aminul, Islam",BAN,M,,,,,,,,,,,,,,0,


## Ficheros JSON

`JSON`, acrónimo de _JavaScript Object Notation_, es un formato estándard de transferencia de datos que utiliza una sintaxi legible para los humanos y que consiste en listas anidadas de pares clave/valor. Por [ejemplo](http://json.org/example.html), aquí podemos ver un registro de una base de datos no relacional en formato JSON:

```json
{
  "menu": {
    "id": "file",
    "value": "File",
    "popup": {
      "menuitem": [
        {"value": "New", "onclick": "CreateNewDoc()"},
        {"value": "Open", "onclick": "OpenDoc()"},
        {"value": "Close", "onclick": "CloseDoc()"}
      ]
    }
  }
}
```

Como podemos ver, los datos no están estructurados en formato tabla. Cuando carguemos el `JSON` a un `DataFrame` con `pandas`, cada columna corresponderá a una de las claves de primer nivel de cada registro. Y su valor será, en el caso de listas anidadas, una lista en formato `JSON`.

In [64]:
import json
from pandas.io.json import json_normalize

with open('pandas_issues.json') as f:
    issues = json.load(f)
    
df = json_normalize(issues)
df.head()

Unnamed: 0,assignee,assignees,author_association,body,closed_at,comments,comments_url,created_at,events_url,html_url,...,user.id,user.login,user.organizations_url,user.received_events_url,user.repos_url,user.site_admin,user.starred_url,user.subscriptions_url,user.type,user.url
0,,[],OWNER,This adds the matplotlib.sphinxext.plot_direct...,,0,https://api.github.com/repos/pandas-dev/pandas...,2018-03-06T15:20:53Z,https://api.github.com/repos/pandas-dev/pandas...,https://github.com/pandas-dev/pandas/pull/20015,...,1020496,jorisvandenbossche,https://api.github.com/users/jorisvandenbossch...,https://api.github.com/users/jorisvandenbossch...,https://api.github.com/users/jorisvandenbossch...,False,https://api.github.com/users/jorisvandenbossch...,https://api.github.com/users/jorisvandenbossch...,User,https://api.github.com/users/jorisvandenbossche
1,,[],CONTRIBUTOR,"xref #18614 \r\n\r\n- [ ] remove the classes,...",,1,https://api.github.com/repos/pandas-dev/pandas...,2018-03-06T11:40:05Z,https://api.github.com/repos/pandas-dev/pandas...,https://github.com/pandas-dev/pandas/issues/20014,...,953992,jreback,https://api.github.com/users/jreback/orgs,https://api.github.com/users/jreback/received_...,https://api.github.com/users/jreback/repos,False,https://api.github.com/users/jreback/starred{/...,https://api.github.com/users/jreback/subscript...,User,https://api.github.com/users/jreback
2,,[],NONE,"#### Code Sample, a copy-pastable example if p...",,0,https://api.github.com/repos/pandas-dev/pandas...,2018-03-06T11:22:54Z,https://api.github.com/repos/pandas-dev/pandas...,https://github.com/pandas-dev/pandas/issues/20012,...,25247745,weber-s,https://api.github.com/users/weber-s/orgs,https://api.github.com/users/weber-s/received_...,https://api.github.com/users/weber-s/repos,False,https://api.github.com/users/weber-s/starred{/...,https://api.github.com/users/weber-s/subscript...,User,https://api.github.com/users/weber-s
3,,[],CONTRIBUTOR,```\r\npandas/tests/frame/test_operators.py::T...,,0,https://api.github.com/repos/pandas-dev/pandas...,2018-03-06T11:03:58Z,https://api.github.com/repos/pandas-dev/pandas...,https://github.com/pandas-dev/pandas/issues/20011,...,953992,jreback,https://api.github.com/users/jreback/orgs,https://api.github.com/users/jreback/received_...,https://api.github.com/users/jreback/repos,False,https://api.github.com/users/jreback/starred{/...,https://api.github.com/users/jreback/subscript...,User,https://api.github.com/users/jreback
4,,[],CONTRIBUTOR,"#### Code Sample, a copy-pastable example if p...",,0,https://api.github.com/repos/pandas-dev/pandas...,2018-03-06T00:24:20Z,https://api.github.com/repos/pandas-dev/pandas...,https://github.com/pandas-dev/pandas/issues/20008,...,1224492,toobaz,https://api.github.com/users/toobaz/orgs,https://api.github.com/users/toobaz/received_e...,https://api.github.com/users/toobaz/repos,False,https://api.github.com/users/toobaz/starred{/o...,https://api.github.com/users/toobaz/subscriptions,User,https://api.github.com/users/toobaz


Vemos que ahora los campos ya no contienen listas de valores. Y es que el campo `user`, por ejemplo, se nos ha convertido en los camps `user.id`, `user.login`, `user.organizations_url`, `user.received_events_url`, `user.repos_url`, `user.site_admin`, `user.starred_url`, `user.subscriptions_url`, `user.type` y `user.url`.