In [2]:
import pandas as pd

In [3]:
%matplotlib inline
import numpy as np
import matplotlib.pyplot as plt
try:
    import seaborn
except ImportError:
    pass

# Tabular data

In [4]:
df = pd.read_csv("data/titanic.csv")

In [5]:
df.head()

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,,S


Comenzando por leer este conjunto de datos, para responder preguntas sobre estos datos en unas pocas líneas de código:

**¿Cuál es la distribución por edades de los pasajeros?**

In [None]:
df['Age'].hist()

**¿En qué se diferencia la tasa de supervivencia de los pasajeros entre sexos?**

In [None]:
df.groupby('Sex')[['Survived']].aggregate(lambda x: x.sum() / len(x))

**¿O en qué se diferencia entre las diferentes clases?**

In [None]:
df.groupby('Pclass')['Survived'].aggregate(lambda x: x.sum() / len(x)).plot(kind='bar')

**¿Tienen más probabilidades de sobrevivir los jóvenes?**

In [None]:
df['Survived'].sum() / df['Survived'].count()

In [None]:
df25 = df[df['Age'] <= 25]
df25['Survived'].sum() / len(df25['Survived'])

Toda la funcionalidad necesaria para los ejemplos anteriores se explicará a lo largo de este tutorial.

# Data structures

Pandas proporciona dos objetos de datos fundamentales, para datos 1D (``Series``) y datos 2D (``DataFrame``).

## Series

Una serie es un soporte básico para **datos etiquetados unidimensionales**. Se puede crear de la misma forma que se crea una matriz NumPy:

In [6]:
s = pd.Series([0.1, 0.2, 0.3, 0.4])
s

0    0.1
1    0.2
2    0.3
3    0.4
dtype: float64

### Attributes of a Series: `index` and `values`

La serie tiene un concepto integrado de **índice**, que por defecto son los números * 0 * a * N - 1 *

In [7]:
s.index

RangeIndex(start=0, stop=4, step=1)

Puede acceder a la representación de matriz numérica subyacente con el atributo `.values`:

In [8]:
s.values

array([0.1, 0.2, 0.3, 0.4])

Podemos acceder a los valores de la serie a través del índice, al igual que para las matrices NumPy:

In [None]:
s[0]

Sin embargo, a diferencia de la matriz NumPy, este índice puede ser algo diferente a números enteros:

In [9]:
s2 = pd.Series(np.arange(4), index=['a', 'b', 'c', 'd'])
s2

a    0
b    1
c    2
d    3
dtype: int64

In [10]:
s2['c']

2

De esta manera, un objeto ``Series`` puede considerarse similar a un diccionario ordenado que asigna un valor escrito a otro valor escrito.

De hecho, es posible construir una serie directamente desde un diccionario de Python:

In [11]:
pop_dict = {'Germany': 81.3,
            'Belgium': 11.3,
            'France': 64.3,
            'United Kingdom': 64.9,
            'Netherlands': 16.9}
population = pd.Series(pop_dict)
population

Germany           81.3
Belgium           11.3
France            64.3
United Kingdom    64.9
Netherlands       16.9
dtype: float64

Podemos indexar las poblaciones como un dictado como se esperaba:

In [12]:
population['France']

64.3

pero con el poder de matrices numpy:

In [13]:
population * 1000

Germany           81300.0
Belgium           11300.0
France            64300.0
United Kingdom    64900.0
Netherlands       16900.0
dtype: float64

## DataFrames: Multi-dimensional Data

Un DataFrame es una **estructura de datos tabulares** (objeto multidimensional para contener datos etiquetados) que consta de filas y columnas, similar a una hoja de cálculo, una tabla de base de datos o un objeto data.frame de R. Puede pensar en él como varios objetos Series que comparten el mismo índice.

<img src="img/dataframe.png" width=110%>

Una de las formas más comunes de crear un marco de datos es a partir de un diccionario de matrices o listas.

Tenga en cuenta que en el cuaderno de IPython, el marco de datos se mostrará en una vista HTML enriquecida:

In [14]:
data = {'country': ['Belgium', 'France', 'Germany', 'Netherlands', 'United Kingdom'],
        'population': [11.3, 64.3, 81.3, 16.9, 64.9],
        'area': [30510, 671308, 357050, 41526, 244820],
        'capital': ['Brussels', 'Paris', 'Berlin', 'Amsterdam', 'London']}
countries = pd.DataFrame(data)
countries

Unnamed: 0,country,population,area,capital
0,Belgium,11.3,30510,Brussels
1,France,64.3,671308,Paris
2,Germany,81.3,357050,Berlin
3,Netherlands,16.9,41526,Amsterdam
4,United Kingdom,64.9,244820,London


### Attributes of the DataFrame


Un DataFrame tiene además de un atributo de `index`, también un atributo de `columns`:

In [15]:
countries.index

RangeIndex(start=0, stop=5, step=1)

In [16]:
countries.columns

Index(['country', 'population', 'area', 'capital'], dtype='object')

Para verificar los tipos de datos de las diferentes columnas:

In [17]:
countries.dtypes

country        object
population    float64
area            int64
capital        object
dtype: object

Se puede dar una descripción general de esa información con el método `info ()`:

In [18]:
countries.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 5 entries, 0 to 4
Data columns (total 4 columns):
 #   Column      Non-Null Count  Dtype  
---  ------      --------------  -----  
 0   country     5 non-null      object 
 1   population  5 non-null      float64
 2   area        5 non-null      int64  
 3   capital     5 non-null      object 
dtypes: float64(1), int64(1), object(2)
memory usage: 288.0+ bytes


Además, un DataFrame tiene un atributo de `valores`, pero atención: cuando tienes datos heterogéneos, todos los valores se actualizarán:

In [19]:
countries.values

array([['Belgium', 11.3, 30510, 'Brussels'],
       ['France', 64.3, 671308, 'Paris'],
       ['Germany', 81.3, 357050, 'Berlin'],
       ['Netherlands', 16.9, 41526, 'Amsterdam'],
       ['United Kingdom', 64.9, 244820, 'London']], dtype=object)

Si no nos gusta cómo se ve el índice, podemos restablecerlo y establecer una de nuestras columnas:

In [20]:
countries = countries.set_index('country')
countries

Unnamed: 0_level_0,population,area,capital
country,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Belgium,11.3,30510,Brussels
France,64.3,671308,Paris
Germany,81.3,357050,Berlin
Netherlands,16.9,41526,Amsterdam
United Kingdom,64.9,244820,London


Para acceder a una serie que representa una columna en los datos, use la sintaxis de indexación típica:

In [21]:
countries['area']

country
Belgium            30510
France            671308
Germany           357050
Netherlands        41526
United Kingdom    244820
Name: area, dtype: int64

# Basic operations on Series/Dataframes

Mientras juega con DataFrames, notará que muchas operaciones que funcionan en matrices NumPy también funcionarán en marcos de datos.

In [22]:
# redefining the example objects

population = pd.Series({'Germany': 81.3, 'Belgium': 11.3, 'France': 64.3,
                        'United Kingdom': 64.9, 'Netherlands': 16.9})

countries = pd.DataFrame({'country': ['Belgium', 'France', 'Germany', 'Netherlands', 'United Kingdom'],
        'population': [11.3, 64.3, 81.3, 16.9, 64.9],
        'area': [30510, 671308, 357050, 41526, 244820],
        'capital': ['Brussels', 'Paris', 'Berlin', 'Amsterdam', 'London']})

### Elementwise-operations (like numpy)

Al igual que con las matrices numpy, muchas operaciones son por elementos:

In [23]:
population / 100

Germany           0.813
Belgium           0.113
France            0.643
United Kingdom    0.649
Netherlands       0.169
dtype: float64

In [24]:
countries['population'] / countries['area']

0    0.000370
1    0.000096
2    0.000228
3    0.000407
4    0.000265
dtype: float64

### Alignment! (unlike numpy)

Solo, preste atención a la **alineación**: las operaciones entre series se alinearán en el índice:

In [31]:
s1 = population[['Belgium', 'France']]
s2 = population[['France', 'Germany']]

In [32]:
s1

Belgium    11.3
France     64.3
dtype: float64

In [33]:
s2

France     64.3
Germany    81.3
dtype: float64

In [34]:
# no tengo entre series germany y belgium
s1 + s2

Belgium      NaN
France     128.6
Germany      NaN
dtype: float64

### Reductions (like numpy)

El número de población promedio:

In [None]:
population.mean()

El área mínima:

In [None]:
countries['area'].min()

Para los marcos de datos, a menudo solo se incluyen las columnas numéricas en el resultado:

In [None]:
countries.median()

<div class="alert alert-success">
    <b>EXERCISE</b>: Calcular las cifras de población en relación con Bélgica
</div>

In [None]:
population / population['Belgium'].mean()

<div class="alert alert-success">
    <b>EXERCISE</b>: Calcule la densidad de población de cada país y agréguela como una nueva columna al marco de datos.
</div>

In [None]:
countries['population']*1000000 / countries['area']

In [None]:
countries['density'] = countries['population']*1000000 / countries['area']
countries

### Some other useful methods

Ordenar las filas del DataFrame de acuerdo con los valores en una columna:

In [None]:
countries.sort_values('density', ascending=False)

Un método útil a utilizar es el método ``describe``, que calcula estadísticas de resumen para cada columna:

In [None]:
countries.describe()

El método `plot` se puede utilizar para visualizar rápidamente los datos de diferentes formas:

In [None]:
countries.plot()

Sin embargo, para este conjunto de datos, no dice mucho:

In [None]:
countries['population'].plot(kind='bar')

Puedes jugar con la palabra clave `kind`: 'línea', 'barra', 'hist', 'densidad', 'área', 'pie', 'dispersión', 'hexbin'

## Importing and exporting data

Pandas admite de forma nativa una amplia gama de formatos de entrada / salida:

* CSV, text
* SQL database
* Excel
* HDF5
* json
* html
* pickle
* ...

In [None]:
pd.read

In [None]:
states.to

## Other features

* Working with missing data (`.dropna()`, `pd.isnull()`)
* Merging and joining (`concat`, `join`)
* Grouping: `groupby` functionality
* Reshaping (`stack`, `pivot`)
* Time series manipulation (resampling, timezones, ..)
* Easy plotting