# Proyecto Automatidata 
**Curso 4 - El poder de las estadísticas**

Usted es un profesional de datos en una empresa de consultoría de datos, llamada Automatidata. El proyecto actual para su cliente más reciente, la New York City Taxi & Limousine Commission (New York City TLC) está llegando a su punto medio, tras haber completado una propuesta de proyecto, el trabajo de codificación en Python y el análisis exploratorio de datos.

Usted recibe un nuevo correo electrónico de Uli King, director de proyecto de Automatidata. Uli informa a su equipo de una nueva petición del TLC de Nueva York: analizar la relación entre el importe de la tarifa y el tipo de pago. Un correo electrónico de seguimiento de Luana incluye su tarea específica: realizar una prueba A/B. 

Se ha estructurado y preparado un cuaderno para ayudarle en este proyecto. Por favor, complete las siguientes preguntas.


# Curso 4 Proyecto fin de curso: Análisis estadístico

En esta actividad, practicará el uso de la estadística para analizar e interpretar datos. La actividad abarca conceptos fundamentales como la estadística descriptiva y las pruebas de hipótesis. Explorarás los datos proporcionados y realizarás pruebas A/B y de hipótesis.  
<br/>   

**El objetivo** de este proyecto es demostrar conocimientos sobre cómo preparar, crear y analizar pruebas A/B. Los resultados de sus pruebas A/B deben tener como objetivo encontrar formas de generar más ingresos para los taxistas.

**Nota:** A efectos de este ejercicio, supongamos que los datos de la muestra proceden de un experimento en el que los clientes se seleccionan aleatoriamente y se dividen en dos grupos: 1) clientes que deben pagar con tarjeta de crédito, 2) clientes que deben pagar en efectivo. Sin este supuesto, no podemos extraer conclusiones causales sobre cómo afecta el método de pago al importe del billete.

**El objetivo** es aplicar la estadística descriptiva y la prueba de hipótesis en Python. El objetivo de esta prueba A/B es muestrear datos y analizar si existe una relación entre el tipo de pago y el importe de la tarifa. Por ejemplo: descubrir si los clientes que utilizan tarjetas de crédito pagan importes más altos que los clientes que utilizan efectivo.
  
*Esta actividad consta de cuatro partes*

**Parte 1:** Importación y carga de datos
* ¿Qué paquetes de datos serán necesarios para la prueba de hipótesis?

**Parte 2:** Realización de EDA y comprobación de hipótesis
* ¿Cómo le ayudó el cálculo de estadísticas descriptivas a analizar sus datos? 

* ¿Cómo formuló su hipótesis nula e hipótesis alternativa? 

**Parte 3:** Comunicar la información a las partes interesadas

* ¿Qué información empresarial clave se desprende de la prueba A/B?

* ¿Qué recomendaciones de negocio propone basándose en los resultados?

<br/> 
Siga las instrucciones y responda a las preguntas que figuran a continuación para completar la actividad. A continuación, elaborará un resumen utilizando las preguntas que figuran en el documento de estrategia PACE.

Asegúrese de completar esta actividad antes de continuar. El siguiente punto del curso le proporcionará un ejemplo completado para que lo compare con su propio trabajo. 

# **Realizar una prueba A/B**


<img src="images/Pace.png" width="100" height="100" align=left>

# **PACE stages**


A lo largo de estos cuadernos de proyecto, verás referencias al marco de resolución de problemas PACE. Los siguientes componentes del cuaderno están etiquetados con la etapa PACE correspondiente: Planificar, Analizar, Construir y Ejecutar.

<img src="images/Plan.png" width="100" height="100" align=left>


## PACE: Plan 

En esta fase, tenga en cuenta las siguientes preguntas cuando proceda para completar su respuesta en código:
1. ¿Cuál es su pregunta de investigación para este proyecto de datos? Más adelante, tendrá que formular las hipótesis nula y alternativa como primer paso de su prueba de hipótesis. Considere su pregunta de investigación ahora, al comienzo de esta tarea.


¿Existe una relación entre el importe total de la tarifa y el tipo de pago?.

*Completa los siguientes pasos para realizar el análisis estadístico de tus datos:* 

### Tarea 1. Importación y carga de datos

Importe los paquetes y bibliotecas necesarios para calcular estadísticas descriptivas y realizar una prueba de hipótesis.

<details>
  <summary><h4><strong>Hint: </strong></h4></summary>

Before you begin, recall the following Python packages and functions that may be useful:

*Main functions*: stats.ttest_ind(a, b, equal_var)

*Other functions*: mean() 

*Packages*: pandas, stats.scipy

</details>

In [1]:
import pandas as pd 
from scipy import stats

**Nota:** Como se muestra en esta celda, el conjunto de datos se ha cargado automáticamente para usted. No es necesario descargar el archivo .csv ni proporcionar más código para acceder al conjunto de datos y continuar con este laboratorio. Por favor, continúe con esta actividad completando las siguientes instrucciones.

In [2]:
# Load dataset into dataframe
taxi_data = pd.read_csv("2017_Yellow_Taxi_Trip_Data.csv", index_col = 0)

<img src="images/Analyze.png" width="100" height="100" align=left>

<img src="images/Construct.png" width="100" height="100" align=left>

## PACE: **Analyze and Construct**

En esta fase, tenga en cuenta las siguientes preguntas cuando proceda para completar su respuesta en código:
1. Los profesionales de los datos utilizan estadísticas descriptivas para el Análisis Exploratorio de Datos. ¿Cómo puede ayudarle el cálculo de estadísticas descriptivas a conocer mejor sus datos en esta fase del análisis?


 En general, las estadísticas descriptivas son útiles porque permiten explorar y comprender rápidamente grandes cantidades de datos. En este caso, el cálculo de estadísticas descriptivas le ayuda a comparar rápidamente el importe total medio de las tarifas entre los distintos tipos de pago.

### Tarea 2. Exploración de datos

Utilizar la estadística descriptiva para llevar a cabo el Análisis Exploratorio de Datos (AED). 

<details>
  <summary><h4><strong>Hint: </strong></h4></summary>

Consulte *Estadística Descriptiva Autoexaminada* para este proceso paso a paso.

</details>

**Nota:** En el conjunto de datos, `payment_type` está codificado en números enteros:
*   1: Credit card
*   2: Cash
*   3: No charge
*   4: Dispute
*   5: Unknown



In [3]:
taxi_data.describe(include="all")

Unnamed: 0,VendorID,tpep_pickup_datetime,tpep_dropoff_datetime,passenger_count,trip_distance,RatecodeID,store_and_fwd_flag,PULocationID,DOLocationID,payment_type,fare_amount,extra,mta_tax,tip_amount,tolls_amount,improvement_surcharge,total_amount
count,22699.0,22699,22699,22699.0,22699.0,22699.0,22699,22699.0,22699.0,22699.0,22699.0,22699.0,22699.0,22699.0,22699.0,22699.0,22699.0
unique,,22687,22688,,,,2,,,,,,,,,,
top,,07/03/2017 3:45:19 PM,10/18/2017 8:07:45 PM,,,,N,,,,,,,,,,
freq,,2,2,,,,22600,,,,,,,,,,
mean,1.556236,,,1.642319,2.913313,1.043394,,162.412353,161.527997,1.336887,13.026629,0.333275,0.497445,1.835781,0.312542,0.299551,16.310502
std,0.496838,,,1.285231,3.653171,0.708391,,66.633373,70.139691,0.496211,13.243791,0.463097,0.039465,2.800626,1.399212,0.015673,16.097295
min,1.0,,,0.0,0.0,1.0,,1.0,1.0,1.0,-120.0,-1.0,-0.5,0.0,0.0,-0.3,-120.3
25%,1.0,,,1.0,0.99,1.0,,114.0,112.0,1.0,6.5,0.0,0.5,0.0,0.0,0.3,8.75
50%,2.0,,,1.0,1.61,1.0,,162.0,162.0,1.0,9.5,0.0,0.5,1.35,0.0,0.3,11.8
75%,2.0,,,2.0,3.06,1.0,,233.0,233.0,2.0,14.5,0.5,0.5,2.45,0.0,0.3,17.8


Le interesa conocer la relación entre el tipo de pago y el importe de la tarifa que paga el cliente. Un método consiste en examinar el importe medio de cada tipo de pago. 

In [4]:
taxi_data.groupby('payment_type')['fare_amount'].mean()

payment_type
1    13.429748
2    12.213546
3    12.186116
4     9.913043
Name: fare_amount, dtype: float64

A partir de las medias mostradas, parece que los clientes que pagan con tarjeta de crédito tienden a pagar un importe mayor que los que pagan en efectivo. Sin embargo, esta diferencia podría deberse a un muestreo aleatorio y no a una diferencia real en el importe del billete. Para evaluar si la diferencia es estadísticamente significativa, realice una prueba de hipótesis.

### Tarea 3. Prueba de hipótesis

Antes de realizar su prueba de hipótesis, tenga en cuenta las siguientes preguntas cuando proceda para completar su respuesta en código:

1. Recuerde la diferencia entre la hipótesis nula y las hipótesis alternativas. Considere las siguientes hipótesis para este proyecto.

$H_0$: No hay diferencia en el importe medio de las tarifas entre los clientes que utilizan tarjetas de crédito y los clientes que utilizan efectivo.

H_A$: Existe una diferencia en el importe medio de las tarifas entre los clientes que utilizan tarjetas de crédito y los clientes que utilizan efectivo.


**Hipótesis nula**: No hay diferencia en la tarifa media entre los clientes que utilizan tarjetas de crédito y los clientes que utilizan efectivo. 

**Hipótesis alternativa**: Hay una diferencia en la tarifa media entre los clientes que utilizan tarjetas de crédito y los clientes que utilizan dinero en efectivo.



Su objetivo en este paso es realizar una prueba t de dos muestras. Recuerda los pasos para realizar una prueba de hipótesis: 


1.   Enuncie la hipótesis nula y la hipótesis alternativa
2.   Elija un nivel de significación
3.   Encuentre el valor p
4.   Rechazar o no rechazar la hipótesis nula 



**Nota:** A efectos de este ejercicio, su prueba de hipótesis es el componente principal de su prueba A/B. 

Se elige el 5% como nivel de significación y se procede a una prueba t de dos muestras.

In [7]:
#prueba de hipótesis, prueba A/B
#Nivel de significación

tarjeta_de_crédito = taxi_data[taxi_data['payment_type'] == 1]['fare_amount']
efectivo = taxi_data[taxi_data['payment_type'] == 2]['fare_amount']
stats.ttest_ind(a=tarjeta_de_crédito, b=efectivo , equal_var=False)

Ttest_indResult(statistic=6.866800855655372, pvalue=6.797387473030518e-12)

 Como el valor p es significativamente inferior al nivel de significación del 5%, se rechaza la hipótesis nula. 

*Observe el 'e-12' al final del resultado del valor p.

Se concluye que existe una diferencia estadísticamente significativa en el importe medio de las tarifas entre los clientes que utilizan tarjetas de crédito y los clientes que utilizan efectivo.

<img src="images/Execute.png" width="100" height="100" align=left>

## PACE: **Execute**

Considere las preguntas de su Documento de Estrategia PACE para reflexionar sobre la etapa Ejecutar.

### Tarea 4. Comunicar las ideas a las partes interesadas

*Hágase las siguientes preguntas:*

1. ¿Qué visión(es) empresarial(es) puede extraer del resultado de su prueba de hipótesis?
2. Considere por qué este proyecto de prueba A/B podría no ser realista, y qué suposiciones tuvieron que hacerse para este proyecto educativo.

1.   La idea empresarial clave es que animar a los clientes a pagar con tarjeta de crédito puede generar más ingresos para los taxistas. 

2.   Este proyecto requiere suponer que se obligaba a los pasajeros a pagar de una forma u otra y que, una vez informados de este requisito, siempre lo cumplían. Los datos no se recogieron de esta manera, por lo que hubo que partir de la hipótesis de agrupar aleatoriamente las entradas de datos para realizar una prueba A/B. Este conjunto de datos no tiene en cuenta otras explicaciones probables. Por ejemplo, es posible que los usuarios no lleven mucho dinero en efectivo, por lo que es más fácil pagar los viajes más largos o lejanos con tarjeta de crédito. En otras palabras, es mucho más probable que el importe del billete determine el tipo de pago, y no al revés. 

**¡Felicidades!** Has completado este laboratorio. Sin embargo, es posible que no veas una marca de verificación verde junto a este elemento en la plataforma de Coursera. Por favor, continúa tu progreso independientemente de la marca de verificación. Simplemente haga clic en el icono "guardar" en la parte superior de este cuaderno para asegurarse de que su trabajo ha sido registrado.