# Manejo y Visualización de Datos con Python

Para este trabajo se utilizo

 - **pandas**: Un módulo que proporciona estructuras de datos y herramientas de análisis de datos de alto rendimiento y fácil de usar.

## pandas

pandas es un paquete de Python que proporciona estructuras de datos rápidas, flexibles y expresivas diseñadas para trabajar con datos relacionales o etiquetados. Es un componente fundamental de alto nivel para hacer un análisis práctico y real de datos en Python.

In [1]:
import pandas as pd

Los datos que trabajaremos son del sitio web climáticos NOAA

In [2]:
data_url = 'https://firebasestorage.googleapis.com/v0/b/info-a9313.appspot.com/o/dataFrame.csv?alt=media&token=9f7b94c6-c806-4796-ba8f-6eb18b71e465'

La estructura de los datos es la siguiente:
```
4.0 grados N, 79.2 grados W Anomalías de temperatura en octubre
Unidades: Grados Celsius
Período base: 1901-2000
Año, valor
1880, -0.17
1881, -9999
1882, -9999
1883, -9999
1884, -0.89
```
Los datos son anomalías globales de la temperatura superficial, que son diferencias entre alguna medición de la temperatura de la superficie terrestre y un promedio a largo plazo. Un valor positivo indica una temperatura más cálida observada, mientras que los valores negativos son más fríos. Las temperaturas relativas son mejores para describir la variabilidad climática en grandes áreas y escalas de tiempo que las temperaturas absolutas.

Este archivo de datos contiene anomalías promedio mensuales de la temperatura de la tierra desde 1880 hasta 2015, que importaremos y analizaremos.

¿Cómo hacemos para que este conjunto de datos se convierta en una estructura de datos pandas?
pandas hace que sea muy fácil importar datos en varios formatos con su conjunto de funciones de importación:

In [3]:
[f for f in dir(pd) if f.startswith('read_')]

['read_clipboard',
 'read_csv',
 'read_excel',
 'read_feather',
 'read_fwf',
 'read_gbq',
 'read_hdf',
 'read_html',
 'read_json',
 'read_msgpack',
 'read_parquet',
 'read_pickle',
 'read_sas',
 'read_sql',
 'read_sql_query',
 'read_sql_table',
 'read_stata',
 'read_table']

Nuestro conjunto de datos está delimitado por comas, por lo que usaremos `read_csv`. Afortunadamente, podemos importar los datos directamente desde su URL, en lugar de tener que guardarlos en un disco local.

In [4]:
raw_data = pd.read_csv(data_url, skiprows=3)
raw_data.head()

Unnamed: 0,Year,Value
0,1998,0.14
1,1999,-0.52
2,2000,0.1
3,2001,0.18
4,2002,0.32


`read_csv` devuelve un **`DataFrame`**, una estructura tabular de datos proporcionada por pandas.

In [5]:
type(raw_data)

pandas.core.frame.DataFrame

Un `DataFrame` está dotado de varios atributos y métodos útiles para explorar los datos.

In [6]:
raw_data

Unnamed: 0,Year,Value
0,1998,0.14
1,1999,-0.52
2,2000,0.1
3,2001,0.18
4,2002,0.32
5,2003,0.52
6,2004,0.48
7,2005,-0.27
8,2006,0.77
9,2007,-0.47


In [7]:
raw_data.shape

(19, 2)

In [8]:
raw_data.describe()

Unnamed: 0,Year,Value
count,19.0,19.0
mean,2007.0,0.212632
std,5.627314,0.455373
min,1998.0,-0.52
25%,2002.5,-0.025
50%,2007.0,0.18
75%,2011.5,0.47
max,2016.0,1.26


Un `DataFrame` se compone de dos componentes principales; el primero son los datos mismos, que se pueden extraer a través del atributo de valores:

In [9]:
raw_data.values

array([[  1.99800000e+03,   1.40000000e-01],
       [  1.99900000e+03,  -5.20000000e-01],
       [  2.00000000e+03,   1.00000000e-01],
       [  2.00100000e+03,   1.80000000e-01],
       [  2.00200000e+03,   3.20000000e-01],
       [  2.00300000e+03,   5.20000000e-01],
       [  2.00400000e+03,   4.80000000e-01],
       [  2.00500000e+03,  -2.70000000e-01],
       [  2.00600000e+03,   7.70000000e-01],
       [  2.00700000e+03,  -4.70000000e-01],
       [  2.00800000e+03,   1.10000000e-01],
       [  2.00900000e+03,   7.10000000e-01],
       [  2.01000000e+03,  -1.50000000e-01],
       [  2.01100000e+03,  -4.10000000e-01],
       [  2.01200000e+03,   1.60000000e-01],
       [  2.01300000e+03,   2.10000000e-01],
       [  2.01400000e+03,   4.60000000e-01],
       [  2.01500000e+03,   1.26000000e+00],
       [  2.01600000e+03,   4.40000000e-01]])

El segundo es un conjunto de índices, que son esencialmente etiquetas para las filas y columnas del DataFrame.

In [10]:
raw_data.index

RangeIndex(start=0, stop=19, step=1)

In [11]:
raw_data.columns

Index(['Year', 'Value'], dtype='object')

Pero, un `índice` es más que un conjunto de etiquetas. Es importante destacar que asegura la **alineación de datos** cuando se agregan datos o se combinan estructuras de datos.

De hecho, podemos especificar un índice más apropiado para nuestros datos. El campo Año aquí es un índice único para los valores de análisis correspondientes.

`set_index` nos permite convertir cualquier columna (o matriz externa) que elijamos en el índice de fila.

In [12]:
temp_anomaly = raw_data.set_index('Year')
temp_anomaly.head()

Unnamed: 0_level_0,Value
Year,Unnamed: 1_level_1
1998,0.14
1999,-0.52
2000,0.1
2001,0.18
2002,0.32


 ## Trazado en Python
 
 - **Bokeh**: Es una biblioteca de visualización interactiva de Python con gráficos novedosos.