# Table of Contents
* [Python para análisis de datos](#Python-para-análisis-de-datos)
	* [Big Data](#Big-Data)
		* [Tareas Big Data](#Tareas-Big-Data)
	* [¿Qué es Python?](#¿Qué-es-Python?)
		* [Características del lenguaje](#Características-del-lenguaje)
		* [Librerías básicas para el tratamiento de datos](#Librerías-básicas-para-el-tratamiento-de-datos)
			


# Python para análisis de datos

## Big Data

El análisis de datos o análisis de la información permite a una empresa conocer mejor a los consumidores, ofrecerles los productos que realmente desean o preveer picos en el consumo.

El concepto Big Data está muy unido al concepto de Inteligencia de Negocio. La inteligencia de negocio es la actividad empresarial encargada de la recogida, procesamiento y presentación de la información relevante que facilite la toma de decisiones.

![De Datos a Decisiones](../images/DatosDEcisiones.jpg "DDD")

* ¿Qué productos son los que me generan mayores beneficios? 
* ¿Qué productos son comprados por segmentos de clientes con características comunes?
* ¿Qué productos disparan sus ventas end eterminadas fechas o épocas del año?
* ¿Cúales son las características de mi 5% de clientes más rentables? 
* ¿Qué promociones generan mayor repetición de compra entre mis clientes? 
* ¿Qué productos son comprados por el mismo segmento de clientes?
* ¿Cómo van mis resultados frente a lo presupuestado? 
* ¿Qué tipo de gastos se están disparando?
* ¿Dónde se concentran el 80% de mis ventas, costes y rentabilidad?
* ¿Qué objetivos se están cumpliendo?

__¿Qué es BIG DATA?__

 * Big Data se refiere a la gestión y análisis de enormes volúmenes de datos que no pueden ser tratados de manera convencional, ya que superan los límites y capacidades de las herramientas de software habitualmente utilizadas para la captura, gestión y procesamiento de datos.
 
![Big Data](../images/BigData.jpg "BD")
 
 * Las nuevas tecnologías permiten incluir en los proyectos de análisis informaciones (por ejemplo logs) que hasta la fecha no se utilizaban porque la tecnología no permitía procesarlos en un tiempo razonable. 
 
 * Cuando hablamos de Big Data, hablamos  de tecnologías creadas para el tratamientos de datos estructurados y para otro tipo de datos de más difícil tratamientono como son los datos no estructurados o semi-estructurados.

__Tecnologías Big Data__

Existen muchas tecnologías para tratar con Big Data. Nombres como Hadoop, NoSQL, Python, R, Cassandra, SAS, Business Intelligence, Machine Learning, MapReduce… son sólo algunos de los más conocidos.

![__Tecnologías](../images/varias.jpg "__Tecnologías")

### Tareas Big Data

Los proyectos de Big Data conllevan la ejecución secuencial de una serie de tareas. 
* __Interactuar con el mundo exterior:__ Será necesario leer y escribir datos en diferentes formatos (csv, xml, json, excel, txt, dat, etc.).

* __Preparación:__ Se trata de la limpieza, transformación, de datos no estructurados para conseguir datos estructurados y limpios. 

* __Transformación:__ Aplicar operaciones matemáticas y/o estadísticas a ciertos conjuntos de datos para obtener como resultado nuevos datos (por ejemplo operaciones de agregación).

* __Presentación:__ Generación de informes textuales, gráficos.

En este curso vamos a estudiar cómo se abordan estas tareas usando el lenguaje Python y las principales librerías de cálculo numérico y científico.


Lo que no vamos a estudiar:

* Conectar los datos con modelos de aprendizaje, recomendadores, etc...

## ¿Qué es Python? 

* Python es una herramienta poderosa en el análisis numérico, el cual es ampliamente utilizado en ciencia e ingeniería.
* Aunque desconocido aún por algunos, hoy en día es uno de los lenguajes más populares junto con Ruby, Perl y otros.
> Python se ha hecho muy popular entre otras razones por la cantidad de librerías que contiene, tipos de datos y funciones incorporadas en el propio lenguaje, que ayudan a realizar muchas tareas habituales sin necesidad de tener que programarlas desde cero.
* El coste de aprendizaje es muy bajo.
* Creado por Guido van Rossum en 1991.

### Características del lenguaje

__Lenguaje interpretado__: Interpretado quiere decir que no se debe compilar el código antes de su ejecución.

* Esto implica que la mayor parte del código Python se ejecuta más lento que el código compilado de C++ o Java.

* En casos donde se necesita mucha rapidez de proceso es preferible asumir el coste en tiempo de programación en un lenguaje de bajo nivel como C++ para conseguir mayor rapidez de proceso.

__Multiparadigma__: Es un lenguaje imperativo y orientado a objetos. También posee características de los __lenguajes funcionales__.

__Multiplataforma__: Python es un lenguaje disponible en los principales Sistemas Operativos (Windows, Linux y Mac). El lenguaje permite realizar cualquier tipo de programa, desde aplicaciones Windows a servidores de red o incluso, páginas web.

__Tipado dinámico__: El tipo de los datos es inferido en tiempo de ejecución. Esta es una característica que diferencia a Python de la mayoría de los lenguajes compilados.

### Librerías básicas para el tratamiento de datos

Python tiene disponibles un gran número de librerías y herramientas para el tratamiento de datos.

Estas librerías tienen que ser importadas (hacerlas accesibles) en el momento en que van a ser utilizadas.

Entre las librerías denominadas científicas tenemos:

#### * NumPy (Numerical Python)

* Es el pilar fundamental de todo el ecosistema numérico en Python.
* Proporciona un objeto de tipo array multidimensional: ndarray
* ndarray permite el almacenamiento de datos homogéneos y heterogéneos.
* Proporciona funciones y métodos para operar eficientemente con este objeto.
* Proporciona herramientas para la escritura y lectura de datos a disco.
* Además: operaciones de álgebra lineal, números aleatorios, funciones financieras, etc.


__Desventajas__:
* Pensado para conjuntos de datos de tamaño fijo
* No optimizado para datos heterogéneos (números, texto, fechas)
* Manejo de datos textuales engorroso
* Solución: pandas

-----

#### * pandas (panel data sets)

* Se trata de una librería construida sobre NumPy.
* Proporciona estructuras de datos de alto nivel y optimizada para análisis de datos: DataFrame.
* Se trata de una estructura que permite el almacenamiento de datos que en su origen se representan de forma tabular (como por ejemplo: hojas de cálculo).
* Incorpora herramientas para leer y escribir datos en diversos formatos: CSV y texto, Excel, bases de datos SQL, documentos XML y JSON, etc.
* Manejo de series temporales.
* Está integrada con otras librerías:
    * matplotlib : para la representación de los datos de forma gráfica


#### * SciPy

* Colección de sublibrerías y funciones que implementan fucionalidad estándard útil en ciencias y finanzas.
* Interpolación e integración numérica.

-----

<a rel="license" href="http://creativecommons.org/licenses/by-nc-sa/4.0/"><img alt="Licencia Creative Commons" style="border-width:0" src="https://i.creativecommons.org/l/by-nc-sa/4.0/88x31.png" /></a><br />