# **Proyecto TikTok**
**Curso 4: El poder de las estadísticas**

Eres un profesional de datos en TikTok. El proyecto actual está llegando a su punto medio; se han completado la propuesta de proyecto, el trabajo de codificación en Python y el análisis exploratorio de datos.

El equipo ha revisado los resultados del análisis exploratorio de datos y el resumen ejecutivo previo que el equipo preparó. Ha recibido un correo electrónico de Orion Rainier, Científico de Datos de TikTok, con su siguiente tarea: determinar y llevar a cabo las pruebas de hipótesis y el análisis estadístico necesarios para el proyecto de clasificación de TikTok.

Se estructuró y preparó un cuaderno para ayudarte en este proyecto. Por favor, complete las siguientes preguntas.


# **Proyecto fin de curso 4: Exploración de datos y comprobación de hipótesis**

En esta actividad, explorará los datos proporcionados y realizará pruebas de hipótesis.
<br/>

**El propósito** de este proyecto es demostrar el conocimiento de cómo preparar, crear y analizar pruebas de hipótesis.

**El objetivo** es aplicar la estadística descriptiva e inferencial, las distribuciones de probabilidad y las pruebas de hipótesis en Python.
<br/>

*Esta actividad consta de tres partes:*

**Parte 1:** Importación y carga de datos
* ¿Qué paquetes de datos serán necesarios para la prueba de hipótesis?

**Parte 2:** Realización de pruebas de hipótesis
* ¿Cómo le ayudarán las estadísticas descriptivas a analizar sus datos?

* ¿Cómo formulará la hipótesis nula y la hipótesis alternativa?

**Parte 3:** Comunicar la información a las partes interesadas

* ¿Qué información empresarial clave se desprende de su prueba de hipótesis?

* ¿Qué recomendaciones empresariales propone basándose en los resultados?

<br/>

Siga las instrucciones y responda a las preguntas que figuran a continuación para completar la actividad. A continuación, elabore un resumen utilizando las preguntas que figuran en el Documento de Estrategia PACE.

Asegúrese de completar esta actividad antes de continuar. El siguiente punto del curso le proporcionará un ejemplo completado para que lo compare con su propio trabajo.



# **Exploración de datos y comprobación de hipótesis**

<img src="images/Pace.png" width="100" height="100" align=left>

# **PACE stages**

A lo largo de estos cuadernos de proyecto, verás referencias al marco de resolución de problemas PACE. Los siguientes componentes del cuaderno están etiquetados con la etapa PACE correspondiente: Planificar, Analizar, Construir y Ejecutar.

<img src="images/Plan.png" width="100" height="100" align=left>


## **PACE: Plan**

Considere las preguntas de su Documento de Estrategia PACE y las que figuran a continuación para elaborar su respuesta.

1. ¿Cuál es su pregunta de investigación para este proyecto de datos? Más adelante, tendrá que formular las hipótesis nula y alternativa como primer paso de su prueba de hipótesis. Considere su pregunta de investigación ahora, al comienzo de esta tarea.

Hay varias formas posibles de formular la pregunta de investigación. Por ejemplo

1) ¿Los vídeos de cuentas verificadas y los vídeos de cuentas no verificadas tienen un número medio de visionados diferente?

2) ¿Existe una relación entre la cuenta verificada y el número de visionados de los vídeos asociados?

*Completa los siguientes pasos para realizar el análisis estadístico de tus datos:*

### **Tarea 1. Importación y carga de datos**

Importe los paquetes y bibliotecas necesarios para calcular estadísticas descriptivas y realizar una prueba de hipótesis.

<details>
  <summary><h4><strong>Hint:</strong></h4></summary>

Asegúrate de importar `pandas`, `numpy`, `matplotlib.pyplot`, `seaborn`, y `scipy`.

</details>

In [3]:
# Import packages for data manipulation
import pandas as pd
import numpy as np 
# Import packages for data visualization
import matplotlib.pyplot as plt 
import seaborn as sns
# Import packages for statistical analysis/hypothesis testing
from scipy import stats

Cargue el conjunto de datos.

**Nota:** Como se muestra en esta celda, el conjunto de datos se ha cargado automáticamente. No es necesario descargar el archivo .csv ni proporcionar más código para acceder al conjunto de datos y continuar con este laboratorio. Por favor, continúe con esta actividad completando las siguientes instrucciones.

In [4]:
# Load dataset into dataframe
data = pd.read_csv("tiktok_dataset.csv")

<img src="images/Analyze.png" width="100" height="100" align=left>

<img src="images/Construct.png" width="100" height="100" align=left>

## **PACE: Analyze and Construct**

Considere las preguntas de su Documento de Estrategia PACE y las que figuran a continuación para elaborar su respuesta:
1. Los profesionales de los datos utilizan estadísticas descriptivas para el análisis exploratorio de datos. ¿Cómo puede ayudarle el cálculo de estadísticas descriptivas a conocer mejor sus datos en esta fase del análisis?


En general, los estadísticos descriptivos son útiles porque permiten explorar y comprender rápidamente grandes cantidades de datos. En este caso, el cálculo de estadísticas descriptivas le ayuda a calcular rápidamente los valores medios de video_view_count para cada grupo de verified_status en los datos de la muestra.

### **Tarea 2. Exploración de datos**

Utilizar la estadística descriptiva para llevar a cabo el Análisis Exploratorio de Datos (EDA).



<details>
  <summary><h4><strong>Hint:</strong></h4></summary>

Consulte Estadísticas descriptivas de autoexamen para este proceso paso a paso.

</details>

Inspeccione las cinco primeras filas del marco de datos.

In [6]:
# Display first few rows
data.head(10)


Unnamed: 0,#,claim_status,video_id,video_duration_sec,video_transcription_text,verified_status,author_ban_status,video_view_count,video_like_count,video_share_count,video_download_count,video_comment_count
0,1,claim,7017666017,59,someone shared with me that drone deliveries a...,not verified,under review,343296.0,19425.0,241.0,1.0,0.0
1,2,claim,4014381136,32,someone shared with me that there are more mic...,not verified,active,140877.0,77355.0,19034.0,1161.0,684.0
2,3,claim,9859838091,31,someone shared with me that american industria...,not verified,active,902185.0,97690.0,2858.0,833.0,329.0
3,4,claim,1866847991,25,someone shared with me that the metro of st. p...,not verified,active,437506.0,239954.0,34812.0,1234.0,584.0
4,5,claim,7105231098,19,someone shared with me that the number of busi...,not verified,active,56167.0,34987.0,4110.0,547.0,152.0
5,6,claim,8972200955,35,someone shared with me that gross domestic pro...,not verified,under review,336647.0,175546.0,62303.0,4293.0,1857.0
6,7,claim,4958886992,16,someone shared with me that elvis presley has ...,not verified,active,750345.0,486192.0,193911.0,8616.0,5446.0
7,8,claim,2270982263,41,someone shared with me that the best selling s...,not verified,active,547532.0,1072.0,50.0,22.0,11.0
8,9,claim,5235769692,50,someone shared with me that about half of the ...,not verified,active,24819.0,10160.0,1050.0,53.0,27.0
9,10,claim,4660861094,45,someone shared with me that it would take a 50...,verified,active,931587.0,171051.0,67739.0,4104.0,2540.0


In [8]:
# Generate a table of descriptive statistics about the data
data.describe()


Unnamed: 0,#,video_id,video_duration_sec,video_view_count,video_like_count,video_share_count,video_download_count,video_comment_count
count,19382.0,19382.0,19382.0,19084.0,19084.0,19084.0,19084.0,19084.0
mean,9691.5,5627454000.0,32.421732,254708.558688,84304.63603,16735.248323,1049.429627,349.312146
std,5595.245794,2536440000.0,16.229967,322893.280814,133420.546814,32036.17435,2004.299894,799.638865
min,1.0,1234959000.0,5.0,20.0,0.0,0.0,0.0,0.0
25%,4846.25,3430417000.0,18.0,4942.5,810.75,115.0,7.0,1.0
50%,9691.5,5618664000.0,32.0,9954.5,3403.5,717.0,46.0,9.0
75%,14536.75,7843960000.0,47.0,504327.0,125020.0,18222.0,1156.25,292.0
max,19382.0,9999873000.0,60.0,999817.0,657830.0,256130.0,14994.0,9599.0


Comprobación y tratamiento de los valores omitidos.

In [10]:
# Check for missing values
data.isna().sum()

#                             0
claim_status                298
video_id                      0
video_duration_sec            0
video_transcription_text    298
verified_status               0
author_ban_status             0
video_view_count            298
video_like_count            298
video_share_count           298
video_download_count        298
video_comment_count         298
dtype: int64

In [11]:
data.isnull().sum()

#                             0
claim_status                298
video_id                      0
video_duration_sec            0
video_transcription_text    298
verified_status               0
author_ban_status             0
video_view_count            298
video_like_count            298
video_share_count           298
video_download_count        298
video_comment_count         298
dtype: int64

In [12]:
# Drop rows with missing values

data=data.dropna(axis=0)


In [14]:
data.isna().sum()

#                           0
claim_status                0
video_id                    0
video_duration_sec          0
video_transcription_text    0
verified_status             0
author_ban_status           0
video_view_count            0
video_like_count            0
video_share_count           0
video_download_count        0
video_comment_count         0
dtype: int64

In [13]:
# Display first few rows after handling missing values
data.head(10)


Unnamed: 0,#,claim_status,video_id,video_duration_sec,video_transcription_text,verified_status,author_ban_status,video_view_count,video_like_count,video_share_count,video_download_count,video_comment_count
0,1,claim,7017666017,59,someone shared with me that drone deliveries a...,not verified,under review,343296.0,19425.0,241.0,1.0,0.0
1,2,claim,4014381136,32,someone shared with me that there are more mic...,not verified,active,140877.0,77355.0,19034.0,1161.0,684.0
2,3,claim,9859838091,31,someone shared with me that american industria...,not verified,active,902185.0,97690.0,2858.0,833.0,329.0
3,4,claim,1866847991,25,someone shared with me that the metro of st. p...,not verified,active,437506.0,239954.0,34812.0,1234.0,584.0
4,5,claim,7105231098,19,someone shared with me that the number of busi...,not verified,active,56167.0,34987.0,4110.0,547.0,152.0
5,6,claim,8972200955,35,someone shared with me that gross domestic pro...,not verified,under review,336647.0,175546.0,62303.0,4293.0,1857.0
6,7,claim,4958886992,16,someone shared with me that elvis presley has ...,not verified,active,750345.0,486192.0,193911.0,8616.0,5446.0
7,8,claim,2270982263,41,someone shared with me that the best selling s...,not verified,active,547532.0,1072.0,50.0,22.0,11.0
8,9,claim,5235769692,50,someone shared with me that about half of the ...,not verified,active,24819.0,10160.0,1050.0,53.0,27.0
9,10,claim,4660861094,45,someone shared with me that it would take a 50...,verified,active,931587.0,171051.0,67739.0,4104.0,2540.0


Usted está interesado en la relación entre `verified_status`y `video_view_count`. Un enfoque consiste en examinar el valor medio de `video_view_count` para cada grupo de `verified_status` en los datos de la muestra.

In [15]:
# Compute the mean `video_view_count` for each group in `verified_status`
# Calcula la media de `video_view_count` para cada grupo en `verified_status`.
data.groupby("verified_status")["video_view_count"].mean()


verified_status
not verified    265663.785339
verified         91439.164167
Name: video_view_count, dtype: float64

### **Tarea 3. Prueba de hipótesis**

Antes de realizar su prueba de hipótesis, considere las siguientes preguntas cuando corresponda para completar su respuesta en código:

1. Recuerde la diferencia entre la hipótesis nula y las hipótesis alternativas. ¿Cuáles son sus hipótesis para este proyecto de datos?

* **Hipótesis nula**: No hay diferencia en el número de visualizaciones entre los vídeos de TikTok publicados por cuentas verificadas y los vídeos de TikTok publicados por cuentas no verificadas (cualquier diferencia observada en los datos de la muestra se debe al azar o a la variabilidad del muestreo).

* **Hipótesis alternativa**: Existe una diferencia en el número de visualizaciones entre los vídeos de TikTok publicados por cuentas verificadas y los vídeos de TikTok publicados por cuentas no verificadas (cualquier diferencia observada en los datos de la muestra se debe a una diferencia real en las medias poblacionales correspondientes).



Su objetivo en este paso es realizar una prueba t de dos muestras. Recuerda los pasos para realizar una prueba de hipótesis:


1.   Enuncie la hipótesis nula y la hipótesis alternativa
2.   Elija un nivel de significación
3.   Encuentre el valor p
4.   Rechazar o no rechazar la hipótesis nula



**$H_0$**: No hay diferencia en el número de visualizaciones entre los vídeos de TikTok publicados por cuentas verificadas y los vídeos de TikTok publicados por cuentas no verificadas (cualquier diferencia observada en los datos de la muestra se debe al azar o a la variabilidad del muestreo).

**$H_A$**: Existe una diferencia en el número de visualizaciones entre los vídeos de TikTok publicados por cuentas verificadas y los vídeos de TikTok publicados por cuentas no verificadas (cualquier diferencia observada en los datos de la muestra se debe a una diferencia real en las medias poblacionales correspondientes).


Se elige el 5% como nivel de significación y se procede a una prueba t de dos muestras.

In [16]:
# Conduct a two-sample t-test to compare means
# Realice una prueba t de dos muestras para comparar las medias
# Save each sample in a variable
# Guardar cada muestra en una variable
no_verificados = data[data["verified_status"] == "not verified"]["video_view_count"]
verificados = data[data["verified_status"] == "verified"]["video_view_count"]

# Implement a t-test using the two samples
# Implementar una prueba t usando las dos muestras
stats.ttest_ind(a=no_verificados, b=verificados, equal_var=False)

Ttest_indResult(statistic=25.499441780633777, pvalue=2.6088823687177823e-120)

**Pregunta:** Según el valor p que has obtenido, ¿rechazas o no rechazas la hipótesis nula?


Dado que el valor p es extremadamente pequeño (mucho menor que el nivel de significación del 5%), se rechaza la hipótesis nula. **existe** una diferencia estadísticamente significativa en la media de visualizaciones de vídeos entre cuentas verificadas y no verificadas en TikTok.


<img src="images/Execute.png" width="100" height="100" align=left>

## **PACE: Execute**

Tenga en cuenta las preguntas de su Documento de Estrategia PACE para reflexionar sobre la fase de Ejecución.

## **Paso 4: Comunicar la información a las partes interesadas**

*Hágase las siguientes preguntas:*

1. ¿Qué información empresarial puede extraer del resultado de su prueba de hipótesis?

El análisis muestra que existe una diferencia estadísticamente significativa en el promedio de visionados entre los vídeos de cuentas verificadas y los vídeos de cuentas no verificadas. Esto sugiere que podría haber diferencias fundamentales de comportamiento entre estos dos grupos de cuentas.

Sería interesante investigar la causa de esta diferencia de comportamiento. Por ejemplo, ¿tienden las cuentas no verificadas a publicar más vídeos con publicidad engañosa? ¿O están las cuentas no verificadas asociadas a bots de spam que ayudan a inflar el número de visitas?

El siguiente paso será construir un modelo de regresión sobre verified_status. Un modelo de regresión es el siguiente paso natural porque el objetivo final es hacer predicciones sobre el estado de las reclamaciones. Un modelo de regresión para verified_status puede ayudar a analizar el comportamiento de los usuarios en este grupo de usuarios verificados. Nota técnica para preparar el modelo de regresión: como los datos están sesgados y hay una diferencia significativa en los tipos de cuenta, será clave construir un modelo de regresión logística.

**¡Felicidades!** Has completado este laboratorio. Sin embargo, es posible que no veas una marca de verificación verde junto a este elemento en la plataforma de Coursera. Por favor, continúa tu progreso independientemente de la marca de verificación. Simplemente haga clic en el icono "guardar" en la parte superior de este cuaderno para asegurarse de que su trabajo ha sido registrado.