# **TikTok Project**
**Curso 1 - Foundations of Data Science**

¡Bienvenido al Proyecto TikTok! 

Acabas de empezar como profesional de datos en TikTok. 

El equipo aún se encuentra en las primeras etapas del proyecto. Has recibido la notificación de que tu equipo ha obtenido acceso a los datos de TikTok. Para obtener información clara y preparar un modelo de clasificación de reclamaciones, es necesario examinar los datos proporcionados por TikTok para iniciar el proceso de análisis exploratorio de datos (EDA). 

Se ha estructurado y preparado un cuaderno para ayudarte en este proyecto. Por favor, responde las siguientes preguntas.

# **Proyecto de fin de curso del Curso 1: Inspeccionar y analizar datos**

En esta actividad, examinarás los datos proporcionados y los prepararás para su análisis.
<br/>

**El propósito** de este proyecto es investigar y comprender los datos proporcionados. Esta actividad te permitirá:

1.   Familiarizarte con los datos

2.   Recopilar información resumida sobre los datos

3.   Iniciar el proceso de EDA y descubrir la información contenida en los datos

4.   Prepararte para un EDA más profundo, pruebas de hipótesis y análisis estadístico

**El objetivo** es construir un marco de datos en Python, realizar una inspección rápida del conjunto de datos proporcionado e informar a los miembros del equipo de datos de TikTok sobre tus hallazgos.
<br/>
*Esta actividad consta de tres partes:*

**Parte 1:** Comprender la situación

* ¿Cómo puedes prepararte mejor para comprender y organizar la información proporcionada por TikTok?

**Parte 2:** Comprender los datos

* Crear un marco de datos de Pandas para el aprendizaje de datos y futuras actividades de análisis exploratorio de datos (AED) y estadísticas.

* Recopilar información resumida sobre los datos para orientar los próximos pasos.

**Parte 3:** Comprender las variables

* Utilizar la información obtenida del análisis de los datos resumidos para profundizar en la investigación de las variables.

<br/>

Seguir las instrucciones y responder las siguientes preguntas para completar la actividad. A continuación, elaborar un resumen ejecutivo utilizando las preguntas del documento de estrategia PACE.

Asegúrese de completar esta actividad antes de continuar. El siguiente elemento del curso le proporcionará un ejemplo completo.

# **Identificar tipos de datos y compilar información resumida**


En estos cuadernos de proyecto, encontrará referencias al marco de resolución de problemas PACE. Los siguientes componentes del cuaderno están etiquetados con su respectiva etapa de PACE: Planificar, Analizar, Construir y Ejecutar.

# **PACE stages**

   *        [Plan](#scrollTo=psz51YkZVwtN&line=3&uniqifier=1)
   *        [Analyze](#scrollTo=mA7Mz_SnI8km&line=4&uniqifier=1)
   *        [Construct](#scrollTo=Lca9c8XON8lc&line=2&uniqifier=1)
   *        [Execute](#scrollTo=401PgchTPr4E&line=2&uniqifier=1)

## **PACE: Plan**

Tenga en cuenta las preguntas de su Documento de Estrategia PACE y las que aparecen a continuación para elaborar su respuesta:


### **Task 1. Comprender la situación**

* ¿Cómo puedes prepararte mejor para comprender y organizar la información proporcionada?

*Comienza explorando tu conjunto de datos y considera revisar el Diccionario de Datos.*

==> INGRESA TU RESPUESTA AQUÍ

## **PACE: Analyze**

Considere las preguntas de su Documento de Estrategia PACE para reflexionar sobre la etapa de Análisis.

### **Task 2a. Importar y cargar los datos**

Comience importando los paquetes necesarios para cargar y explorar el conjunto de datos. Asegúrese de usar las siguientes instrucciones de importación:

*   `import pandas as pd`

*   `import numpy as np`


In [None]:
# Import packages
import pandas as pd
import numpy as np

A continuación, cargue el conjunto de datos en un marco de datos. Crear un marco de datos le ayudará a realizar la manipulación de datos, el análisis exploratorio de datos (AED) y actividades estadísticas.

**Nota:** Como se muestra en esta celda, el conjunto de datos se ha cargado automáticamente. No necesita descargar el archivo .csv ni proporcionar más código para acceder al conjunto de datos y continuar con este laboratorio. Continúe con esta actividad siguiendo las instrucciones a continuación.

In [None]:
# Load dataset into dataframe
data = pd.read_csv("tiktok_dataset.csv")

### **Task 2b. Comprender los datos - Inspeccionar los datos**

Observe e inspeccione la información resumida del marco de datos codificando lo siguiente:

1. `data.head(10)`
2. `data.info()`
3. `data.describe()`

*Considere las siguientes preguntas:*

**Pregunta 1:** Al revisar las primeras filas del marco de datos, ¿qué observa sobre los datos? ¿Qué representa cada fila?

**Pregunta 2:** Al revisar el resultado de `data.info()`, ¿qué observa sobre las diferentes variables? ¿Hay valores nulos? ¿Son todas las variables numéricas? ¿Hay algo más que destaque?

**Pregunta 3:** Al revisar el resultado de `data.describe()`, ¿qué observa sobre las distribuciones de cada variable? ¿Hay valores cuestionables? ¿Parece que hay valores atípicos?

















In [None]:
# Display and examine the first ten rows of the dataframe
data.head(10)


In [None]:
# Get summary info
data.info()

In [None]:
# Get summary statistics
data.describe()

===> ENTER YOUR RESPONSE TO QUESTIONS 1-3 HERE

### **Task 2c. Comprender los datos - Investigar las variables**

En esta fase, comenzarás a investigar las variables con mayor profundidad para comprenderlas mejor.

De la propuesta del proyecto, sabes que el objetivo final es usar el aprendizaje automático para clasificar los videos como afirmaciones u opiniones. Por lo tanto, un buen primer paso para comprender los datos podría ser examinar la variable `claim_status`. Comienza por determinar cuántos videos hay para cada estado de afirmación.

In [None]:
# What are the different values for claim status and how many of each are in the data?
### YOUR CODE HERE ###



**Pregunta:** ¿Qué observas sobre los valores mostrados?

A continuación, examina las tendencias de interacción asociadas con cada estado de reclamación.

Comienza usando el enmascaramiento booleano para filtrar los datos según el estado de la reclamación y, a continuación, calcula la media y la mediana de visualizaciones para cada estado.

In [None]:
# What is the average view count of videos with "claim" status?
### YOUR CODE HERE ###


In [None]:
# What is the average view count of videos with "opinion" status?
### YOUR CODE HERE ###


**Pregunta:** ¿Qué observas sobre la media y los medios dentro de cada categoría de reclamación?

Ahora, examina las tendencias asociadas con el estado de prohibición del autor.

Usa `groupby()` para calcular cuántos vídeos hay para cada combinación de categorías de estado de reclamación y estado de prohibición del autor.

In [None]:
# Get counts for each group combination of claim status and author ban status
### YOUR CODE HERE ###


**Pregunta:** ¿Qué observas sobre la cantidad de videos con reclamos de autores baneados? ¿Por qué podría darse esta relación?

Continúa investigando los niveles de interacción, centrándote ahora en `author_ban_status`.

Calcula la mediana de compartición de videos para cada estado de baneo del autor. 

In [None]:
### YOUR CODE HERE ###

In [None]:
# What's the median video share count of each author ban status?
### YOUR CODE HERE ###

**Pregunta:** ¿Qué observas sobre el número de compartidos de los autores baneados, en comparación con el de los autores activos? Analiza esto con más detalle.

Usa `groupby()` para agrupar los datos por `author_ban_status` y, a continuación, usa `agg()` para obtener el número, la media y la mediana de cada una de las siguientes columnas:

* `video_view_count`
* `video_like_count`
* `video_share_count`

Recuerda que el argumento de la función ``agg()`` es un diccionario cuyas claves son columnas. Los valores de cada columna son una lista de los cálculos que quieres realizar.

In [None]:
### YOUR CODE HERE ###

**Pregunta:** ¿Qué observas sobre la cantidad de visualizaciones, "me gusta" y comparticiones de los autores bloqueados en comparación con los autores activos?

Ahora, crea tres nuevas columnas para comprender mejor las tasas de interacción:
`likes_per_view`: representa la cantidad de "me gusta" dividida entre la cantidad de visualizaciones de cada video.

`comments_per_view`: representa la cantidad de comentarios dividida entre la cantidad de visualizaciones de cada video.

`shares_per_view`: representa la cantidad de comparticiones dividida entre la cantidad de visualizaciones de cada video.

In [None]:
# Create a likes_per_view column
### YOUR CODE HERE ###

# Create a comments_per_view column
### YOUR CODE HERE ###

# Create a shares_per_view column
### YOUR CODE HERE ###

Use `groupby()` to compile the information in each of the three newly created columns for each combination of categories of claim status and author ban status, then use `agg()` to calculate the count, the mean, and the median of each group.

In [None]:
### YOUR CODE HERE ###


**Question:**

How does the data for claim videos and opinion videos compare or differ? Consider views, comments, likes, and shares.

<img src="images/Construct.png" width="100" height="100" align=left>

## **PACE: Construct**

**Note**: The Construct stage does not apply to this workflow. The PACE framework can be adapted to fit the specific requirements of any project.




<img src="images/Execute.png" width="100" height="100" align=left>

## **PACE: Execute**

Consider the questions in your PACE Strategy Document and those below to craft your response.

### **Given your efforts, what can you summarize for Rosie Mae Bradshaw and the TikTok data team?**

*Note for Learners: Your answer should address TikTok's request for a summary that covers the following points:*

*   What percentage of the data is comprised of claims and what percentage is comprised of opinions?
*   What factors correlate with a video's claim status?
*   What factors correlate with a video's engagement level?


==> ENTER YOUR RESPONSE HERE

**Congratulations!** You've completed this lab. However, you may not notice a green check mark next to this item on Coursera's platform. Please continue your progress regardless of the check mark. Just click on the "save" icon at the top of this notebook to ensure your work has been logged.