# Python para análisis de datos

# Table of Contents
* [Python para análisis de datos](#Python-para-análisis-de-datos)
	* [Introducción](#Introducción)
		* [¿Qué es Python?](#¿Qué-es-Python?)
	* [Características del lenguaje](#Características-del-lenguaje)
	* [Librerías básicas para el tratamiento de datos](#Librerías-básicas-para-el-tratamiento-de-datos)
		* [NumPy (Numerical Python)](#NumPy-%28Numerical-Python%29)
		* [pandas (panel data sets)](#pandas-%28panel-data-sets%29)
		* [SciPy](#SciPy)


## Introducción

Los proyectos de Big Data conllevan la ejecución secuencial de una serie de tareas.

* __Interactuar con el mundo exterior:__ Será necesario leer y escribir datos en diferentes formatos y BBDD.

* __Preparación:__ Se trata de la limpieza, transformación, de datos no estructurados para conseguir datos estructurados y limpios. 

* __Transformación:__ Aplicar operaciones matemáticas y/o estadísticas a ciertos conjuntos de datos para obtener como resultado nuevos datos (por ejemplo operaciones de agregación).

* __Modelado y procesamiento:__ Se trata de conectar los datos con modelos estadísticos, aprendizaje, etc...

* __Presentación:__ Generación de informes textuales, gráficos.

### ¿Qué es Python? 

* Python es una herramienta poderosa en el análisis numérico, el cual es ampliamente utilizado en ciencia e ingeniería.
* Aunque desconocido aún por algunos, hoy en día es uno de los lenguajes más populares junto con Ruby, Perl y otros.
* Se ha hecho muy popular entre otras razones por la cantidad de librerías que contiene, tipos de datos y funciones incorporadas en el propio lenguaje, que ayudan a realizar muchas tareas habituales sin necesidad de tener que programarlas desde cero.
* El coste de aprendizaje es muy bajo.
* Creado por Guido van Rossum en 1991.

## Características del lenguaje

__Lenguaje interpretado__: Interpretado quiere decir que no se debe compilar el código antes de su ejecución.

* Esto implica que la mayor parte del código Python se ejecuta más lento que el código compilado de C++ o Java.

* En casos donde se necesita mucha rapidez de proceso es preferible asumir el coste en tiempo de programación en un lenguaje de bajo nivel como C++ para conseguir mayor rapidez de proceso.

__Multiparadigma__: Es un lenguaje imperativo y orientado a objetos. También posee características de los lenguajes funcionales.

__Multiplataforma__: Python es un lenguaje disponible en los principales Sistemas Operativos (Windows, Linux y Mac). El lenguaje permite realizar cualquier tipo de programa, desde aplicaciones Windows a servidores de red o incluso, páginas web.

__Tipado dinámico__: El tipo de los datos es inferido en tiempo de ejecución. Esta es una característica que diferencia a Python de la mayoría de los lenguajes compilados.

## Librerías básicas para el tratamiento de datos

Python tiene disponibles un gran número de librerías y herramientas para el tratamiento de datos.

Estas librerías tienen que ser importadas (hacerlas accesibles) en el momento en que van a ser utilizadas.

Entre las librerías denominadas científicas tenemos:

----

### NumPy (Numerical Python)

* Es el pilar fundamental de todo el ecosistema numérico en Python.
* Proporciona un objeto de tipo array multidimensional: ndarray
* ndarray permite el almacenamiento de datos homogéneos y heterogéneos.
* Proporciona funciones y métodos para operar eficientemente con este objeto.
* Proporciona herramientas para la escritura y lectura de datos a disco.
* Además: operaciones de álgebra lineal, números aleatorios, funciones financieras, etc.


__Desventajas__:
* Pensado para conjuntos de datos de tamaño fijo
* No optimizado para datos heterogéneos (números, texto, fechas)
* Manejo de datos textuales engorroso
* Solución: pandas

-----

### pandas (panel data sets)

* Se trata de una librería construida sobre NumPy.
* Proporciona estructuras de datos de alto nivel y optimizada para análisis de datos: DataFrame.
* Se trata de una estructura que permite el almacenamiento de datos que en su origen se representan de forma tabular (como por ejemplo: hojas de cálculo).
* Incorpora herramientas para leer y escribir datos en diversos formatos: CSV y texto, Excel, bases de datos SQL.
* Manejo de series temporales.
* Está integrada con otras librerías:
    * matplotlib : para la representación de los datos de forma gráfica
    * PyTables : para la recuperación y almacenamiento de datos
    
[Tutorial en español](https://pybonacci.wordpress.com/2014/05/30/pandas-i/)

------

### SciPy

* Colección de sublibrerías y funciones que implementan fucionalidad estándard útil en ciencias y finanzas.
* Interpolación e integración numérica.

-----

<img src="../iconos/Cute-Ball-Go-icon.png" alt="Smiley face" height="42" width="42" align: "right">