In [1]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

## Lectura de Datos

In [2]:
data = pd.read_csv("covid19_tweets.csv")
data.head()

Unnamed: 0,user_name,user_location,user_description,user_created,user_followers,user_friends,user_favourites,user_verified,date,text,hashtags,source,is_retweet
0,ᏉᎥ☻լꂅϮ,astroworld,wednesday addams as a disney princess keepin i...,2017-05-26 05:46:42,624,950,18775,False,2020-07-25 12:27:21,If I smelled the scent of hand sanitizers toda...,,Twitter for iPhone,False
1,Tom Basile 🇺🇸,"New York, NY","Husband, Father, Columnist & Commentator. Auth...",2009-04-16 20:06:23,2253,1677,24,True,2020-07-25 12:27:17,Hey @Yankees @YankeesPR and @MLB - wouldn't it...,,Twitter for Android,False
2,Time4fisticuffs,"Pewee Valley, KY",#Christian #Catholic #Conservative #Reagan #Re...,2009-02-28 18:57:41,9275,9525,7254,False,2020-07-25 12:27:14,@diane3443 @wdunlap @realDonaldTrump Trump nev...,['COVID19'],Twitter for Android,False
3,ethel mertz,Stuck in the Middle,#Browns #Indians #ClevelandProud #[]_[] #Cavs ...,2019-03-07 01:45:06,197,987,1488,False,2020-07-25 12:27:10,@brookbanktv The one gift #COVID19 has give me...,['COVID19'],Twitter for iPhone,False
4,DIPR-J&K,Jammu and Kashmir,🖊️Official Twitter handle of Department of Inf...,2017-02-12 06:45:15,101009,168,101,False,2020-07-25 12:27:08,25 July : Media Bulletin on Novel #CoronaVirus...,"['CoronaVirusUpdates', 'COVID19']",Twitter for Android,False


### ¿Cuál es la cantidad de datos que hay?

In [3]:
data.shape

(74436, 13)

Respuesta: Hay un total de 74,436 registros, cada uno con un total de 13 columnas

### Identifica el tipo de variables

In [4]:
data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 74436 entries, 0 to 74435
Data columns (total 13 columns):
 #   Column            Non-Null Count  Dtype 
---  ------            --------------  ----- 
 0   user_name         74436 non-null  object
 1   user_location     59218 non-null  object
 2   user_description  70079 non-null  object
 3   user_created      74436 non-null  object
 4   user_followers    74436 non-null  int64 
 5   user_friends      74436 non-null  int64 
 6   user_favourites   74436 non-null  int64 
 7   user_verified     74436 non-null  bool  
 8   date              74436 non-null  object
 9   text              74436 non-null  object
 10  hashtags          53002 non-null  object
 11  source            74424 non-null  object
 12  is_retweet        74436 non-null  bool  
dtypes: bool(2), int64(3), object(8)
memory usage: 6.4+ MB


Las siguientes variables son categóricas (cualitativas):
- user_name
- user_location
- user_description
- user_description (fecha)
- user_verified
- date (fecha)
- text
- hashtags
- source
- is_retweet

Las siguientes variables son cuantitativas:
- user_followers
- user_friends
- user_favourites

## Análisis de estadísticas

### ¿Qué representa cada variable y en qué rango se encuentra?

In [5]:
data.describe(include=["number"]).T

Unnamed: 0,count,mean,std,min,25%,50%,75%,max
user_followers,74436.0,105951.312913,822289.985493,0.0,166.0,960.0,5148.0,13892841.0
user_friends,74436.0,2154.72117,9365.587474,0.0,153.0,552.0,1780.25,497363.0
user_favourites,74436.0,15297.47203,46689.714291,0.0,220.0,1927.0,10148.0,2047197.0


<b>user_followers</b>

Esta variable se refiere a la cantidad de seguidores que tiene el usuario. Está en un rango de 0 a 13892841 

<b>user_friends</b>

Esta variable se refiere a la cantidad de amigos que tiene el usuario. Está en un rango de 0 a 497363

<b>user_favourites</b>

Esta variable se refiere a la cantidad de favoritos que tiene el usuario. Está en un rango de 0 a 2047197

In [6]:
data.user_verified.value_counts()

False    65082
True      9354
Name: user_verified, dtype: int64

<b>user_verified</b>

Esta variable indica si la cuenta es verificada. Hay 65082 cuentas no verificadas, y 9354 verificadas

In [7]:
data.is_retweet.value_counts()

False    74436
Name: is_retweet, dtype: int64

<b>is_retweet</b>

Esta variable indica si el tweet es en realidad un retweet. Todos los 74436 datos no son retweets

### Basandose en la media, moda y desviación estandar, ¿qué conclusiones se pueden sacar de los datos?

In [8]:
data.describe(include=["number"]).T

Unnamed: 0,count,mean,std,min,25%,50%,75%,max
user_followers,74436.0,105951.312913,822289.985493,0.0,166.0,960.0,5148.0,13892841.0
user_friends,74436.0,2154.72117,9365.587474,0.0,153.0,552.0,1780.25,497363.0
user_favourites,74436.0,15297.47203,46689.714291,0.0,220.0,1927.0,10148.0,2047197.0


<b>user_followers</b>

En este caso, la media es 105951.31, mientras que la mediana es 960. Además, la desviación estándar es elevada: 822289.99 indica que hay una pequeña cantidad de datos atípicos con una cantidad significativamente más grande de seguidores que el resto.

<b>user_friends</b>

En este caso, la media es 2154.72, mientras que la mediana es 552. Además, la desviación estándar es elevada: 9365.59. Esto indica que hay una pequeña cantidad de datos atípicos con mayor cantidad de amigos que el resto


<b>user_favourites</b>

En este caso, la media es 15297.47, mientras que la mediana es 220. Además, la desviación estándar es elevada: 46689.71. Esto indica que hay una pequeña cantidad de datos atípicos con mayor cantidad de favoritos que el resto

In [9]:
data.describe(include=["object"]).T

Unnamed: 0,count,unique,top,freq
user_name,74436,44853,GlobalPandemic.NET,312
user_location,59218,14622,India,1496
user_description,70079,42690,Breaking News & Critical Information to SURVIV...,312
user_created,74436,45554,2010-07-13 21:58:05,312
date,74436,56546,2020-07-29 16:30:00,26
text,74436,74312,Greenland has no active cases of the novel cor...,6
hashtags,53002,23445,['COVID19'],16004
source,74424,450,Twitter Web App,22974


<b>user_name</b>

El usuario con más cantidad de apariciones (moda) es GlobalPandemic.NET, con un total de 312 tweets

<b>user_location</b>

La ubicación más común de los usuarios es India (1496)

<b>user_description</b>

La descripción más frecuente corresponde a la del usuario más frecuente

<b>date</b>

La fecha más frecuente es 2020-07-29

<b>hashtags</b>

El hashtag más frecuente es COVID19, con un total de 16004 apariciones

<b>source</b>

El origen más común es Twitter Web App, con un total de 22974