<!--Header-->
<div>
    <div class="row" style="color: #4D4D4D;font-size: 15px;padding-bottom: 20px">
        <div class="col-md-8">
            <h1 style="margin:15px 0px 0px;font-size: 40px;">Manipulación de datos con la librería pandas</h1>
            <div style="text-align:left;margin-top: 5px;"></div>
        </div>
    </div>
    <div class="row" style="background: #FCB517;padding: 10px 20px;"></div>

</div>
<!--/Header-->

# Introducción

![Pandas](pandas_logo.svg)

`Pandas` es un paquete de `Python` que nos facilita la manipulación y el análisis de datos. Incorpora estructuras de datos rápidas y flexibles diseñadas para trabajar con datos relacionales o etiquetados de manera intuitiva.

Nos permite trabajar con diferentes tipos de datos:

- Tabulares con columnas heterogéneas, cómo `Excels`, `CSV` o tablas `SQL`
- Series temporales, ordenadas o no
- Matrices
- Datos estadísticos y observacionales de todo tipo

In [2]:
import pandas as pd
import numpy as np

# Estructuras de datos

Las dos estructuras de datos que nos ofrece `Pandas` son las `Series` y el `DataFrame`.

## Series

Las `Series` son `arrays` unidimensionales que pueden guardar datos de cualquier tipo, y tienen un `index`.

En este ejemplo vemos cómo podemos crear una `Series` donde el `index` corresponde al año y los valores la cantidad de habitantes de las ciudades más pobladas en el mundo.

In [17]:
People_in_time = pd.Series(
    data = [670000, 700000, 699000, 115000, 6590000, 9460000, 16355000])
People_in_time

0      670000
1      700000
2      699000
3      115000
4     6590000
5     9460000
6    16355000
dtype: int64

## DataFrame

Los  `DataFrame` son `arrays` bidimensionales o matrices, indexados por filas y por columnas, y que también pueden guardar datos de cualquier tipo.

Por ejemplo, podemos crear un `DataFrame` con los datos del apartado anterior, añadiendo un par de indicadores más.

In [18]:
df_people_in_time = {
    'Cities': [
        'Pekín','Estambúl','Estambúl','Pekín','Londres','Nueva York','Tokyo'],
    'Año': [1500, 1600, 1700, 1800, 1900, 1935, 1960],
    'Total': [670000, 700000, 699000, 115000, 6590000, 9460000, 16355000]
}

pd.DataFrame(df_people_in_time, columns = ['Total', 'Año', 'Cities'])

Unnamed: 0,Total,Año,Cities
0,670000,1500,Pekín
1,700000,1600,Estambúl
2,699000,1700,Estambúl
3,115000,1800,Pekín
4,6590000,1900,Londres
5,9460000,1935,Nueva York
6,16355000,1960,Tokyo


# Selección de columnas

El `DataFrame` que usaremos en este ejemplo corresponde al dataset de la competición [Titanic: Machine Learning from Disaster](https://www.kaggle.com/c/titanic) de [Kaggle](https://www.kaggle.com/).

In [3]:
df = pd.read_csv('train.csv')
df.head()

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,,S


Podemos seleccionar una columna determinada de un `DataFrame`, por ejemplo, la columna _Name_ indistintamente con `df.Name` o `df['Name']`.

In [22]:
df.Name.head()

0                              Braund, Mr. Owen Harris
1    Cumings, Mrs. John Bradley (Florence Briggs Th...
2                               Heikkinen, Miss. Laina
3         Futrelle, Mrs. Jacques Heath (Lily May Peel)
4                             Allen, Mr. William Henry
Name: Name, dtype: object

In [4]:
(df['Name'])

0                                Braund, Mr. Owen Harris
1      Cumings, Mrs. John Bradley (Florence Briggs Th...
2                                 Heikkinen, Miss. Laina
3           Futrelle, Mrs. Jacques Heath (Lily May Peel)
4                               Allen, Mr. William Henry
5                                       Moran, Mr. James
6                                McCarthy, Mr. Timothy J
7                         Palsson, Master. Gosta Leonard
8      Johnson, Mrs. Oscar W (Elisabeth Vilhelmina Berg)
9                    Nasser, Mrs. Nicholas (Adele Achem)
10                       Sandstrom, Miss. Marguerite Rut
11                              Bonnell, Miss. Elizabeth
12                        Saundercock, Mr. William Henry
13                           Andersson, Mr. Anders Johan
14                  Vestrom, Miss. Hulda Amanda Adolfina
15                      Hewlett, Mrs. (Mary D Kingcome) 
16                                  Rice, Master. Eugene
17                          Wil

In [5]:
df.Name

0                                Braund, Mr. Owen Harris
1      Cumings, Mrs. John Bradley (Florence Briggs Th...
2                                 Heikkinen, Miss. Laina
3           Futrelle, Mrs. Jacques Heath (Lily May Peel)
4                               Allen, Mr. William Henry
5                                       Moran, Mr. James
6                                McCarthy, Mr. Timothy J
7                         Palsson, Master. Gosta Leonard
8      Johnson, Mrs. Oscar W (Elisabeth Vilhelmina Berg)
9                    Nasser, Mrs. Nicholas (Adele Achem)
10                       Sandstrom, Miss. Marguerite Rut
11                              Bonnell, Miss. Elizabeth
12                        Saundercock, Mr. William Henry
13                           Andersson, Mr. Anders Johan
14                  Vestrom, Miss. Hulda Amanda Adolfina
15                      Hewlett, Mrs. (Mary D Kingcome) 
16                                  Rice, Master. Eugene
17                          Wil

Cada columna de nuestro `DataFrame` es un objeto de tipo `Series`.

In [24]:
type(df.Name)

pandas.core.series.Series

Para seleccionar más de una columna, utilizaremos un `array` con los nombres de las columnas.

In [25]:
df[['Name', 'Sex']].head()

Unnamed: 0,Name,Sex
0,"Braund, Mr. Owen Harris",male
1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female
2,"Heikkinen, Miss. Laina",female
3,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female
4,"Allen, Mr. William Henry",male


# Filtrado de filas

`Pandas` nos ofrece diferentes maneras para filtrar los datos de un `DataFrame`.

## Filtrado de filas basado en condiciones

En muchos de los casos querremos seleccionar un subconjunto de filas que cumplan alguna condición. Por ejemplo, podemos seleccionar aquellos pasajeros de hayan sobrevivido a la tragedia del Titanic.

In [26]:
survivors = df[df.Survived == 1]
survivors.head()

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S
8,9,1,3,"Johnson, Mrs. Oscar W (Elisabeth Vilhelmina Berg)",female,27.0,0,2,347742,11.1333,,S
9,10,1,2,"Nasser, Mrs. Nicholas (Adele Achem)",female,14.0,1,0,237736,30.0708,,C


La condición puede ser tan compleja como queramos. Por ejemplo, a continuación seleccionaremos aquellos pasajeros menores de 21 años que hayan sobrevivido y estuvieran en alguna cabina.

In [27]:
survivors = df[(df.Survived == 1) & (df.Age < 21) & ~(pd.isna(df.Cabin))]
survivors.head()

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
10,11,1,3,"Sandstrom, Miss. Marguerite Rut",female,4.0,1,1,PP 9549,16.7,G6,S
136,137,1,1,"Newsom, Miss. Helen Monypeny",female,19.0,0,2,11752,26.2833,D47,S
183,184,1,2,"Becker, Master. Richard F",male,1.0,2,1,230136,39.0,F4,S
193,194,1,2,"Navratil, Master. Michel M",male,3.0,1,1,230080,26.0,F2,S
291,292,1,1,"Bishop, Mrs. Dickinson H (Helen Walton)",female,19.0,1,0,11967,91.0792,B49,C
