# Proyecto Telepan

Proyecto para empresa de reparto de pan en la provincia de **Ávila**, se aplicarán técnicas de Análisis de Datos y Machine Learning.

***

>En este proyecto, mostraremos cómo:

>>* ___administrar___, 
>>* ___extraer___, 
>>* ___transformar___, 
>>* ___analizar___ 
>>* y ___visualizar datos___.

***


![facebook de Telepan](./data/logo.jpg "EL MEJOR PAN DE ÁVILA")
Para mayor información consultar [facebook de Telepan](https://www.facebook.com/Telepan-%C3%81vila-441157269309528/)

## Case Study
***
Para lo cual seguiremos la metodología [CRISP-DM](https://www.ibm.com/support/knowledgecenter/SS3RA7_sub/modeler_crispdm_ddita/clementine/crisp_help/crisp_overview.html)

![ciclo](./data/crisp_process.jpg "ciclo CRISP-DM") 

Basada en los siguientes 6 pasos:

1) __Business Understanding__.

   Comprensión del problema empresarial, objetivos del proyecto y metodología a usar. Definición del tema para poder determinar el mejor enfoque a utilizar.

   Esta etapa es la más importante porque es aquí donde se perfila la intención del proyecto. La Metodología Fundamental y CRISP-DM se alinean aquí. Requiere comunicación y claridad. La dificultad aquí es que las partes interesadas tienen diferentes objetivos, sesgos y modalidades de relacionar la información. No todos ven las mismas cosas ni de la misma manera. Sin una perspectiva clara, concisa y completa de cuáles son los objetivos del proyecto, los recursos se gastarán innecesariamente.
    
2) __Data Understanding__.

   La comprensión de los datos se basa en la comprensión empresarial. Los datos se recopilan en esta etapa del proceso. La comprensión de lo que la empresa quiere y necesita determinará qué datos se recopilan, de qué fuentes y mediante qué métodos. CRISP-DM combina las etapas de requisitos de datos, recopilación de datos y comprensión de datos del esquema de la metodología fundamental.

3) __Data Preparation__.
    
   Una vez que se han recopilado los datos, se deben transformar en un subconjunto utilizable a menos que se determine que se necesitan más datos. Una vez que se elige un conjunto de datos, se debe verificar si hay casos cuestionables, faltantes o ambiguos. La preparación de datos es común a CRISP-DM y a la metodología fundamental.

4) __Modeling__.

   Una vez preparados para su uso, los datos deben expresarse a través de los modelos apropiados, brindar información significativa y, con suerte, nuevos conocimientos. Este es el propósito de la minería de datos: crear información de conocimiento que tenga significado y utilidad. El uso de modelos revela patrones y estructuras dentro de los datos que brindan información sobre las características de interés. Los modelos se seleccionan en una parte de los datos y se realizan ajustes si es necesario. La selección de modelos es un arte y una ciencia. Tanto la Metodología Fundamental como CRISP-DM son necesarios para la etapa siguiente.

5) __Evaluation__.

   El modelo seleccionado debe probarse. Esto generalmente se hace al tener una prueba preseleccionada, configurada para ejecutar el modelo entrenado. Esto le permitirá ver la efectividad del modelo en un conjunto que considera nuevo. Los resultados de esto se utilizan para determinar la eficacia del modelo y presagia su papel en la siguiente y última etapa.

6) __Deployment__.

   En el paso de implementación, el modelo se usa en nuevos datos fuera del alcance del conjunto de datos y por nuevas partes interesadas. Las nuevas interacciones en esta fase podrían revelar las nuevas variables y necesidades del conjunto de datos y el modelo. Estos nuevos desafíos podrían iniciar la revisión de las necesidades y acciones comerciales, o del modelo y los datos, o de ambos.
***

# Gestión de nuestos datos

### pandas

In [11]:
# librerias a utilizar
import pandas as pd

In [51]:
# podemos decirle a pandas que solo recoja un número de lineas del archivo
df = pd.read_csv("data/telepan.txt", nrows=8)

In [52]:
# observamos nuestros datos
df
# df.head(8)
# df.head(8).describe()
# df.tail(2)

# para los atributos no es necesario poner los paréntesis, para el caso de métodos/funciones entonces sí los ponemos
df.columns
# df.values # array con solo los datos


Index(['cliente', 'total'], dtype='object')

In [53]:
# a modo de reordenar nuestra base de datos para temas de anonimato, usamos un truco con sample
df_reordenado = df.sample(frac=1)
df_reordenado

Unnamed: 0,cliente,total
5,6,1.5
0,1,4.5
7,8,4.5
2,3,23.4
1,2,11.2
6,7,0.5
3,4,4.5
4,5,15.4


In [54]:
# tipos de variables, int, float, object (=string)
df.dtypes

cliente      int64
total      float64
dtype: object

### filtrado de los datos

In [68]:
df['total'] # solo una columna
df[1:3] # solo filas, ojo con el rango de :autoexcluyente
df[df['total'] > 10] # filtrado selectivo
df[(df['total'] > 10) & (df['cliente'] <= 2)] # filtrado combinado
df[(df['total'] > 10) | (df['cliente'] <= 2)] # filtrado combinado

Unnamed: 0,cliente,total
0,1,4.5
1,2,11.2
2,3,23.4
4,5,15.4


In [74]:
df[df['cliente'].isin([2, 4])] # filtrado por listado, todo lo visto funciona también en el caso de 'cadenas'
# df['cliente'].isin([2, 4])

Unnamed: 0,cliente,total
1,2,11.2
3,4,4.5


In [78]:
df[pd.isna(df['cliente'])] # filtramos mi df a todos aquellos cuya columna valor sea nan
# pd.isna(df['cliente'])

Unnamed: 0,cliente,total


### transformaciones de los datos

In [84]:
# columna nueva con el 21% de iva aplicado, aplicamos redondeo con 2 decimales
df['total_IVA'] = round(df['total'] * 1.21, 2)
df

df['columna para borrar'] = df['total'] / 49
df

Unnamed: 0,cliente,total,total_IVA,columna para borrar
0,1,4.5,5.44,0.091837
1,2,11.2,13.55,0.228571
2,3,23.4,28.31,0.477551
3,4,4.5,5.44,0.091837
4,5,15.4,18.63,0.314286
5,6,1.5,1.82,0.030612
6,7,0.5,0.6,0.010204
7,8,4.5,5.44,0.091837


In [85]:
# eleminar columna
del(df['columna para borrar'])
df

Unnamed: 0,cliente,total,total_IVA
0,1,4.5,5.44
1,2,11.2,13.55
2,3,23.4,28.31
3,4,4.5,5.44
4,5,15.4,18.63
5,6,1.5,1.82
6,7,0.5,0.6
7,8,4.5,5.44
