# **Proyecto TikTok**
**Curso 2 - Introducción a Python**

¡Bienvenido al Proyecto TikTok!

Acabas de empezar como profesional de datos en TikTok.

El equipo está todavía en las primeras etapas del proyecto. Has recibido la noticia de que el equipo de liderazgo de TikTok ha aprobado la propuesta del proyecto. Para obtener una visión clara para preparar un modelo de clasificación de reclamaciones, los datos proporcionados por TikTok deben ser examinados para comenzar el proceso de análisis exploratorio de datos (EDA).

Se ha estructurado y preparado un cuaderno para ayudarle en este proyecto. Por favor, complete las siguientes preguntas.

# **Proyecto fin de curso 2: Inspeccionar y analizar datos**

En esta actividad, examinará los datos proporcionados y los preparará para su análisis.
<br/>

**El objetivo** de este proyecto es investigar y comprender los datos proporcionados. Esta actividad permitirá:

1.   Familiarizarse con los datos

2.   Recopilar información resumida sobre los datos

3.   Iniciar el proceso de EDA y revelar la información contenida en los datos.

4.   Prepararle para un ADA más profundo, pruebas de hipótesis y análisis estadístico.

**El objetivo** es construir un marco de datos en Python, realizar una inspección superficial del conjunto de datos proporcionado, e informar a los miembros del equipo de datos de TikTok de tus hallazgos.
<br/>
*Esta actividad consta de tres partes:*

**Parte 1:** Comprender la situación
* ¿Cómo puedes prepararte mejor para entender y organizar la información proporcionada por TikTok?

**Parte 2:** Entender los datos

* Crear un marco de datos pandas para el aprendizaje de datos y futuros análisis exploratorios de datos (EDA) y actividades estadísticas

* Recopilar información resumida sobre los datos para informar los próximos pasos

**Parte 3:** Comprender las variables

* Utilizar la información obtenida del examen de los datos resumidos para orientar una investigación más profunda de las variables

<br/>

Para completar la actividad, siga las instrucciones y responda a las preguntas que figuran a continuación. A continuación, utilizará sus respuestas a estas preguntas y las preguntas incluidas en el Documento de Estrategia PACE del Curso 2 para crear un resumen ejecutivo.

Asegúrese de completar esta actividad antes de pasar al Curso 3. Podrá evaluar su trabajo comparando los resultados con un modelo terminado después de completar el proyecto de fin de curso.

# **Identificar tipos de datos y compilar información resumida**


A lo largo de estos cuadernos de proyecto, verás referencias al marco de resolución de problemas PACE. Los siguientes componentes del cuaderno están etiquetados con la etapa PACE correspondiente: Planificar, Analizar, Construir y Ejecutar.

# Etapas PACE

<img src="images/Pace.png" width="100" height="100" align=left>

   *        [Planificar](#scrollTo=psz51YkZVwtN&line=3&uniqifier=1)
   *        [Analizar](#scrollTo=mA7Mz_SnI8km&line=4&uniqifier=1)
   *        [Construir](#scrollTo=Lca9c8XON8lc&line=2&uniqifier=1)
   *        [Ejecutar](#scrollTo=401PgchTPr4E&line=2&uniqifier=1)

<img src="images/Plan.png" width="100" height="100" align=left>


## **PACE: Plan**

Considere las preguntas de su Documento de Estrategia PACE y las que figuran a continuación para elaborar su respuesta:



### **Tarea 1. Comprender la situación**

*¿Cómo puede prepararse mejor para comprender y organizar la información proporcionada?


*Comience explorando su conjunto de datos y considere la posibilidad de revisar el Diccionario de Datos.

Realiando algunas preguntas como ¿que datos son revelantes?¿como esta estructurado los datos?

<img src="images/Analyze.png" width="100" height="100" align=left>

## **PACE: Analizar**

Considere las preguntas de su Documento de Estrategia PACE para reflexionar sobre la etapa Analizar.

### **Tarea 2a. Importación y carga de datos**

Comienza importando los paquetes que necesitarás para cargar y explorar el conjunto de datos. Asegúrate de utilizar las siguientes sentencias de importación:
*   `import pandas as pd`

*   `import numpy as np`


In [1]:
# Import packages
import pandas as pd
import numpy as np

A continuación, cargue el conjunto de datos en un marco de datos. La creación de un marco de datos le ayudará a realizar la manipulación de datos, el análisis exploratorio de datos (AED) y las actividades estadísticas.

**Nota:** Como se muestra en esta celda, el conjunto de datos se ha cargado automáticamente. No necesita descargar el archivo .csv ni proporcionar más código para acceder al conjunto de datos y continuar con este laboratorio. Por favor, continúe con esta actividad completando las siguientes instrucciones.

In [2]:
# Load dataset into dataframe
data = pd.read_csv("tiktok_dataset.csv")

### **Tarea 2b. Entender los datos - Inspeccionar los datos**

Ver e inspeccionar información resumida sobre el marco de datos **codificando lo siguiente:**

1. `data.head(10)`
2. `data.info()`
3. `data.describe()`

*Considera las siguientes preguntas:*

**Pregunta 1:** Al revisar las primeras filas del marco de datos, ¿qué observas sobre los datos? ¿Qué representa cada fila?

**Pregunta 2:** Al revisar la salida `data.info()`, ¿qué observas en las distintas variables? ¿Hay valores nulos? ¿Todas las variables son numéricas? ¿Hay algo más que destaque?

**Pregunta 3:** Cuando revises la salida `data.describe()`, ¿qué observas en las distribuciones de cada variable? ¿Hay valores cuestionables? ¿Parece que hay valores atípicos?















In [9]:
# Mostrar y examinar las primeras diez filas del marco de datos
data.head(10)


Unnamed: 0,#,claim_status,video_id,video_duration_sec,video_transcription_text,verified_status,author_ban_status,video_view_count,video_like_count,video_share_count,video_download_count,video_comment_count
0,1,claim,7017666017,59,someone shared with me that drone deliveries a...,not verified,under review,343296.0,19425.0,241.0,1.0,0.0
1,2,claim,4014381136,32,someone shared with me that there are more mic...,not verified,active,140877.0,77355.0,19034.0,1161.0,684.0
2,3,claim,9859838091,31,someone shared with me that american industria...,not verified,active,902185.0,97690.0,2858.0,833.0,329.0
3,4,claim,1866847991,25,someone shared with me that the metro of st. p...,not verified,active,437506.0,239954.0,34812.0,1234.0,584.0
4,5,claim,7105231098,19,someone shared with me that the number of busi...,not verified,active,56167.0,34987.0,4110.0,547.0,152.0
5,6,claim,8972200955,35,someone shared with me that gross domestic pro...,not verified,under review,336647.0,175546.0,62303.0,4293.0,1857.0
6,7,claim,4958886992,16,someone shared with me that elvis presley has ...,not verified,active,750345.0,486192.0,193911.0,8616.0,5446.0
7,8,claim,2270982263,41,someone shared with me that the best selling s...,not verified,active,547532.0,1072.0,50.0,22.0,11.0
8,9,claim,5235769692,50,someone shared with me that about half of the ...,not verified,active,24819.0,10160.0,1050.0,53.0,27.0
9,10,claim,4660861094,45,someone shared with me that it would take a 50...,verified,active,931587.0,171051.0,67739.0,4104.0,2540.0


In [10]:
data.shape

(19382, 12)

In [11]:
# Obtener información resumida
data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 19382 entries, 0 to 19381
Data columns (total 12 columns):
 #   Column                    Non-Null Count  Dtype  
---  ------                    --------------  -----  
 0   #                         19382 non-null  int64  
 1   claim_status              19084 non-null  object 
 2   video_id                  19382 non-null  int64  
 3   video_duration_sec        19382 non-null  int64  
 4   video_transcription_text  19084 non-null  object 
 5   verified_status           19382 non-null  object 
 6   author_ban_status         19382 non-null  object 
 7   video_view_count          19084 non-null  float64
 8   video_like_count          19084 non-null  float64
 9   video_share_count         19084 non-null  float64
 10  video_download_count      19084 non-null  float64
 11  video_comment_count       19084 non-null  float64
dtypes: float64(5), int64(3), object(4)
memory usage: 1.8+ MB


In [12]:
data.isnull().sum()

#                             0
claim_status                298
video_id                      0
video_duration_sec            0
video_transcription_text    298
verified_status               0
author_ban_status             0
video_view_count            298
video_like_count            298
video_share_count           298
video_download_count        298
video_comment_count         298
dtype: int64

In [6]:
# Obtener estadísticas resumidas
data.describe()

Unnamed: 0,#,video_id,video_duration_sec,video_view_count,video_like_count,video_share_count,video_download_count,video_comment_count
count,19382.0,19382.0,19382.0,19084.0,19084.0,19084.0,19084.0,19084.0
mean,9691.5,5627454000.0,32.421732,254708.558688,84304.63603,16735.248323,1049.429627,349.312146
std,5595.245794,2536440000.0,16.229967,322893.280814,133420.546814,32036.17435,2004.299894,799.638865
min,1.0,1234959000.0,5.0,20.0,0.0,0.0,0.0,0.0
25%,4846.25,3430417000.0,18.0,4942.5,810.75,115.0,7.0,1.0
50%,9691.5,5618664000.0,32.0,9954.5,3403.5,717.0,46.0,9.0
75%,14536.75,7843960000.0,47.0,504327.0,125020.0,18222.0,1156.25,292.0
max,19382.0,9999873000.0,60.0,999817.0,657830.0,256130.0,14994.0,9599.0


**Respuesta ejemplar:**

**Pregunta 1:** El marco de datos contiene una colección de datos categóricos, textuales y numéricos. Cada fila representa un vídeo TikTok distinto que presenta una afirmación o una opinión y los metadatos que lo acompañan.

**Pregunta 2:** El marco de datos contiene cinco float64, tres int64 y cuatro objetos. Hay 19.382 observaciones, pero faltan valores en algunas variables, como el estado de la reclamación, la transcripción del vídeo y todas las variables de recuento.

**Pregunta 3:** Muchas de las variables de recuento parecen tener valores atípicos en el extremo superior de la distribución. Tienen desviaciones típicas muy grandes y valores máximos muy altos en comparación con los valores de sus cuartiles.

### **Tarea 2c. Comprender los datos - Investigar las variables**

En esta fase, empezarás a investigar las variables más de cerca para comprenderlas mejor.

Por la propuesta de proyecto, sabes que el objetivo final es utilizar el aprendizaje automático para clasificar los vídeos como afirmaciones u opiniones. Por lo tanto, un buen primer paso para comprender los datos podría ser examinar la variable `claim_status`. Empiece por determinar cuántos vídeos hay para cada estado de reclamación.

In [16]:
# ¿Cuáles son los diferentes valores del estado de la reclamación y cuántos de cada uno hay en los datos?
data["claim_status"].value_counts()


claim      9608
opinion    9476
Name: claim_status, dtype: int64

**Pregunta:** ¿Qué notas en los valores mostrados?

Que aproximadamente el 49% son reclamos  y el 48% son opiniones

A continuación, examine las tendencias de participación asociadas a cada estado de reclamación.

Para empezar, utilice el enmascaramiento booleano para filtrar los datos en función del estado de la reclamación y, a continuación, calcule la media y la mediana de los recuentos de vistas para cada estado de reclamación.

In [24]:
data.head(2)

Unnamed: 0,#,claim_status,video_id,video_duration_sec,video_transcription_text,verified_status,author_ban_status,video_view_count,video_like_count,video_share_count,video_download_count,video_comment_count
0,1,claim,7017666017,59,someone shared with me that drone deliveries a...,not verified,under review,343296.0,19425.0,241.0,1.0,0.0
1,2,claim,4014381136,32,someone shared with me that there are more mic...,not verified,active,140877.0,77355.0,19034.0,1161.0,684.0


In [31]:
# What is the average view count of videos with "claim" status?
# ¿Cuál es el número medio de visionados de los vídeos con estatus de "reclamo"?
reclamo=data[data["claim_status"]=="claim"] 

print("media de reclamos con respesto al numero de visualizaciones ",reclamo.video_view_count.mean())
print("mediana de reclamos con respesto al numero de visualizaciones ",reclamo.video_view_count.median())


media de reclamos con respesto al numero de visualizaciones  501029.4527477102
mediana de reclamos con respesto al numero de visualizaciones  501555.0


In [36]:
# What is the average view count of videos with "opinion" status?
# ¿Cuál es el número medio de visionados de los vídeos con estado "opinión"?
opiniones=data[data["claim_status"] == "opinion"]
print("media de opiniones con respesto al numero de visualizaciones ",opiniones.video_view_count.mean())
print("mediana de opiniones con respesto al numero de visualizaciones ",opiniones.video_view_count.median())


media de opiniones con respesto al numero de visualizaciones  4956.43224989447
mediana de opiniones con respesto al numero de visualizaciones  4953.0


**Pregunta:** ¿Qué observa sobre la media y los medios dentro de cada categoría de reclamación?
 son casi 50% de reclamos como de opiniones 

Ahora, examine las tendencias asociadas con el estado de prohibición del autor.

Utilice `groupby()` para calcular cuántos vídeos hay para cada combinación de categorías de estado de reclamación y estado de prohibición del autor.

In [50]:
# Get counts for each group combination of claim status and author ban status
# Obtener recuentos para cada combinación de grupo de estado de reclamación y estado de prohibición del autor
data.groupby(["claim_status",'author_ban_status',]).count()[["#"]]



Unnamed: 0_level_0,Unnamed: 1_level_0,#
claim_status,author_ban_status,Unnamed: 2_level_1
claim,active,6566
claim,banned,1439
claim,under review,1603
opinion,active,8817
opinion,banned,196
opinion,under review,463



**Pregunta:** ¿Qué observa en el número de vídeos de reclamaciones con autores banned? ¿A qué se debe esta relación?

 - las reclamaciones no son tan altas en personas baneadas ya que ellos estan mas controlados 

Siga investigando los niveles de participación, centrándose ahora en `author_ban_status`.

Calcula la mediana del recuento de vídeos compartidos de cada estado de prohibición de autor.

In [71]:
data.groupby(['author_ban_status']).agg(
    {'video_share_count': ['mean', 'median']})

Unnamed: 0_level_0,video_share_count,video_share_count
Unnamed: 0_level_1,mean,median
author_ban_status,Unnamed: 1_level_2,Unnamed: 2_level_2
active,14111.466164,437.0
banned,29998.942508,14468.0
under review,25774.696999,9444.0


In [68]:
# What's the median video share count of each author ban status?
# ¿Cuál es la mediana de vídeos compartidos de cada estado de prohibición de autor?

data.groupby(['author_ban_status']).median(numeric_only=True)[
    ['video_share_count']]

Unnamed: 0_level_0,video_share_count
author_ban_status,Unnamed: 1_level_1
active,437.0
banned,14468.0
under review,9444.0


**Pregunta:** ¿Qué notas en el recuento de acciones de autores prohibidos, comparado con el de autores activos? Explora esto más a fondo.

Utilice `groupby()` para agrupar los datos por `author_ban_status`, luego utilice `agg()` para obtener el recuento, la media y la mediana de cada una de las siguientes columnas:
* `video_view_count`
* `video_like_count`
* `video_share_count`

Recuerde que el argumento de la función `agg()` es un diccionario cuyas claves son las columnas. Los valores de cada columna son una lista de los cálculos que desea realizar.

In [70]:
data.groupby("author_ban_status").agg(
{"video_view_count"   :["mean","median"],
 "video_like_count"   :["mean","median"],
  "video_share_count" :["mean","median"]
})

Unnamed: 0_level_0,video_view_count,video_view_count,video_like_count,video_like_count,video_share_count,video_share_count
Unnamed: 0_level_1,mean,median,mean,median,mean,median
author_ban_status,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2
active,215927.039524,8616.0,71036.533836,2222.0,14111.466164,437.0
banned,445845.439144,448201.0,153017.236697,105573.0,29998.942508,14468.0
under review,392204.836399,365245.5,128718.050339,71204.5,25774.696999,9444.0


**Pregunta:** ¿Qué observas en el número de visitas, me gusta y compartidos de los autores prohibidos en comparación con los autores activos?

Ahora, cree tres nuevas columnas para comprender mejor los índices de participación:
* `likes_per_view`: representa el número de "me gusta" dividido por el número de visualizaciones de cada vídeo.
* `comments_per_view`: representa el número de comentarios dividido por el número de visionados de cada vídeo.
* `shares_per_view`: representa el número de compartidos dividido por el número de visionados de cada vídeo.

In [73]:
data.head(2)

Unnamed: 0,#,claim_status,video_id,video_duration_sec,video_transcription_text,verified_status,author_ban_status,video_view_count,video_like_count,video_share_count,video_download_count,video_comment_count,likes_per_view
0,1,claim,7017666017,59,someone shared with me that drone deliveries a...,not verified,under review,343296.0,19425.0,241.0,1.0,0.0,0.056584
1,2,claim,4014381136,32,someone shared with me that there are more mic...,not verified,active,140877.0,77355.0,19034.0,1161.0,684.0,0.549096


In [78]:
# Create a likes_per_view column
#Crear una columna likes_per_view
data["likes_per_view"]=data["video_like_count"]/data["video_view_count"]

# Create a comments_per_view column
# Crear una columna comments_per_view
data["comments_per_view"]=data["video_comment_count"]/data["video_view_count"]

# Create a shares_per_view column
#Create a shares_per_view column
data["shares_per_view"]=data["video_share_count"]/data["video_view_count"]

Use `groupby()` to compile the information in each of the three newly created columns for each combination of categories of claim status and author ban status, then use `agg()` to calculate the count, the mean, and the median of each group.

Utilice `groupby()` para compilar la información en cada una de las tres columnas recién creadas para cada combinación de categorías de estado de reclamación y estado de prohibición del autor y, a continuación, utilice `agg()` para calcular el recuento, la media y la mediana de cada grupo.

In [79]:
data.groupby(["claim_status","author_ban_status"]).agg(
{
    "likes_per_view"   :["mean","median"],
    "comments_per_view":["mean","median"],
    "shares_per_view"  :["mean","median"]
    
})


Unnamed: 0_level_0,Unnamed: 1_level_0,likes_per_view,likes_per_view,comments_per_view,comments_per_view,shares_per_view,shares_per_view
Unnamed: 0_level_1,Unnamed: 1_level_1,mean,median,mean,median,mean,median
claim_status,author_ban_status,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2
claim,active,0.329542,0.326538,0.001393,0.000776,0.065456,0.049279
claim,banned,0.345071,0.358909,0.001377,0.000746,0.067893,0.051606
claim,under review,0.327997,0.320867,0.001367,0.000789,0.065733,0.049967
opinion,active,0.219744,0.21833,0.000517,0.000252,0.043729,0.032405
opinion,banned,0.206868,0.198483,0.000434,0.000193,0.040531,0.030728
opinion,under review,0.226394,0.228051,0.000536,0.000293,0.044472,0.035027


**Pregunta**

¿En qué se diferencian o comparan los datos de los vídeos reivindicativos y los de opinión? Ten en cuenta las visualizaciones, los comentarios, los "me gusta" y los "compartidos".


Sabemos que los vídeos de autores vetados y los que están en proceso de revisión suelen tener muchas más visitas, "me gusta" y "compartidos" que los vídeos de autores no vetados. Sin embargo, *cuando un vídeo es visto*, su tasa de participación está menos relacionada con el estado de prohibición del autor y más relacionada con su estado de reivindicación.

Además, sabemos que los vídeos reivindicativos tienen un mayor índice de visionado que los vídeos de opinión, pero esto nos indica que los vídeos reivindicativos también tienen un mayor índice de "me gusta" de media, por lo que también tienen una acogida más favorable. Además, reciben más participación a través de comentarios y comparticiones que los vídeos de opinión.

Obsérvese que, en el caso de los vídeos de reivindicaciones, los autores vetados tienen un índice de me gusta/vista y de compartidos/vista ligeramente superior al de los autores activos o en revisión. Sin embargo, en el caso de los vídeos de opinión, tanto los autores activos como los que están en proceso de revisión obtienen mayores índices de participación que los autores vetados en todas las categorías.

<img src="images/Construct.png" width="100" height="100" align=left>

## **PACE: Construccion**

**Nota**: La fase de construcción no se aplica a este flujo de trabajo. El marco PACE puede adaptarse a los requisitos específicos de cualquier proyecto.




<img src="images/Execute.png" width="100" height="100" align=left>

## **PACE: Ejecutar**

Considere las preguntas de su Documento de Estrategia PACE y las que figuran a continuación para elaborar su respuesta.

### **Dados tus esfuerzos, ¿qué puedes resumir para Rosie Mae Bradshaw y el equipo de datos de TikTok?###

*Nota para los alumnos: Tu respuesta debe abordar la solicitud de TikTok de un resumen que cubra los siguientes puntos:*

* ¿Qué porcentaje de los datos está compuesto por afirmaciones y qué porcentaje por opiniones?
* ¿Qué factores se correlacionan con el estado de reclamación de un vídeo?
* ¿Qué factores se correlacionan con el nivel de participación de un vídeo?


**Respuesta ejemplar:**

* De las 19.382 muestras de este conjunto de datos, algo menos del 50% son reclamaciones&mdash;9.608 de ellas.  
* El nivel de compromiso está fuertemente correlacionado con el estado de la reclamación. Esto debería ser objeto de más investigaciones.
* Los vídeos con autores prohibidos tienen una participación significativamente mayor que los vídeos con autores activos. Los vídeos con autores en revisión se sitúan entre estas dos categorías en cuanto a niveles de participación.

**¡Felicidades!** Has completado este laboratorio. Sin embargo, es posible que no veas una marca de verificación verde junto a este elemento en la plataforma de Coursera. Por favor, continúa tu progreso independientemente de la marca de verificación. Simplemente haga clic en el icono "guardar" en la parte superior de este cuaderno para asegurarse de que su trabajo ha sido registrado.