In [2]:
import pandas as pd

## Inicio proceso
Importar datos y crear dataframe
1. Exploración del dataframe
* cabecera
* información del dataframe, como número de filas y columnas, tipo de datos, entre otros
* obtener estadísticas básicas sobre las columnas númericas del dataframe

### Pasos a seguir:

2. Limpieza y transformación de datos, si es necesario. Esto puede incluir eliminar filas o columnas innecesarias, cambiar el tipo de datos de las columnas, llenar o eliminar valores faltantes, y más.
3. Realizar operaciones de análisis de datos en el DataFrame del tipo:
* Ordenar los canales por número de suscriptores de mayor a menor.
* Encontrar el promedio, la mediana y la desviación estándar del número de suscriptores de los canales.
* Filtrar los canales que tienen más de cierto número de suscriptores.
* Agrupar los canales por país o categoría y encontrar el número promedio de suscriptores por grupo.
* Encontrar los canales que tienen un crecimiento de suscriptores más rápido en un período de tiempo específico.


In [3]:
# importar datos a través de archivo csv
dfCanales = pd.read_csv('C:\\Users\\Joako\\Desktop\\canales_youtube_suscriptores\\Datos_original\\most_subscribed_youtube_channels.csv')

In [4]:
# muestra las primeras filas del DataFrame
dfCanales.head() 

Unnamed: 0,rank,Youtuber,subscribers,video views,video count,category,started
0,1,T-Series,222000000,198459090822,17317,Music,2006
1,2,YouTube Movies,154000000,0,0,Film & Animation,2015
2,3,Cocomelon - Nursery Rhymes,140000000,135481339848,786,Education,2006
3,4,SET India,139000000,125764252686,91271,Shows,2006
4,5,Music,116000000,0,0,,2013


In [5]:
# muestra información sobre el DataFrame, como número de filas y columnas, tipo de datos, entre otros
dfCanales.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1000 entries, 0 to 999
Data columns (total 7 columns):
 #   Column       Non-Null Count  Dtype 
---  ------       --------------  ----- 
 0   rank         1000 non-null   int64 
 1   Youtuber     1000 non-null   object
 2   subscribers  1000 non-null   object
 3   video views  1000 non-null   object
 4   video count  1000 non-null   object
 5   category     973 non-null    object
 6   started      1000 non-null   int64 
dtypes: int64(2), object(5)
memory usage: 54.8+ KB


In [7]:
# muestra estadísticas básicas sobre las columnas numéricas del DataFrame
dfCanales.describe()

Unnamed: 0,rank,started
count,1000.0,1000.0
mean,500.5,2012.376
std,288.819436,3.998076
min,1.0,1970.0
25%,250.75,2010.0
50%,500.5,2013.0
75%,750.25,2015.0
max,1000.0,2021.0


In [8]:
dfCanales.describe(include='all')

Unnamed: 0,rank,Youtuber,subscribers,video views,video count,category,started
count,1000.0,1000,1000.0,1000.0,1000.0,973,1000.0
unique,,999,286.0,991.0,856.0,18,
top,,Bollywood Classics,11100000.0,0.0,0.0,Entertainment,
freq,,2,21.0,10.0,10.0,241,
mean,500.5,,,,,,2012.376
std,288.819436,,,,,,3.998076
min,1.0,,,,,,1970.0
25%,250.75,,,,,,2010.0
50%,500.5,,,,,,2013.0
75%,750.25,,,,,,2015.0


Insight: Tras la primera exploración de los datos. Noto que las columnas 'subscribers', 'video views',  'video count' no son de tipo entero si no que son object. Además las columnas 'video views',  'video count' tienen un espacio entre las cadenas. La columna 'started' parece ser la fecha de inicio del canal. La columna 'category' tiene 27 observaciones menos que el resto de las columnas que son 1000.

Existen canales con varios suscriptores y 0 visualizaciones y 0 cuentas.

Acciones:
* Transformar las columnas 'subscribers', 'video views',  'video count' a tipo int (hecho)
* Eliminar espaciado entre nombres de columnas y sustituir por '_' (hecho)
* Columna 'started' cambiar a tipo date (hecho)
* Explorar las observaciones inferiores de 'category'
* Explorar porque hay 'video views' 0 y 'video count' 0
* hacer todos los nombres minúsculas (hecho)

In [9]:
# Eliminar espaciado entre nombres de columnas y sustituir por '_'
dfCanales.columns = [col.replace(' ','_') for col in dfCanales.columns]

In [10]:
# hacer todos los nombres minúsculas
dfCanales.columns = dfCanales.columns.str.lower()

In [11]:
# Convertir a formato date la columna 'started' formato año
dfCanales['started'] = pd.to_datetime(dfCanales['started'], format='%Y')

In [12]:
# Transformar las columnas 'subscribers', 'video views',  'video count' a tipo int
# dfCanales[['subscribers', 'video_views', 'video_count']] = dfCanales[['subscribers', 'video_views', 'video_count']].str.replace(',','').astype('Int64') no funciona porque el tipo de las columnas es object y la función .srt.replace solo funciona para tipo string. la solución es el mismo código pero por individual
dfCanales['subscribers'] = dfCanales['subscribers'].str.replace(',', '').astype('Int64')
dfCanales['video_views'] = dfCanales['video_views'].str.replace(',', '').astype('Int64')
dfCanales['video_count'] = dfCanales['video_count'].str.replace(',', '').astype('Int64')


In [13]:
pd.options.display.float_format = '{:,.0f}'.format


In [14]:
dfCanales.sample(3)

Unnamed: 0,rank,youtuber,subscribers,video_views,video_count,category,started
182,183,TaylorSwiftVEVO,25800000,23276597783,239,Music,2009-01-01
330,331,Deddy Corbuzier,19200000,4075368246,1132,Entertainment,2009-01-01
919,920,MyLifeAsEva,11400000,1534278655,326,Comedy,2011-01-01


A continuación paso a:
* Explorar las observaciones inferiores de 'category'
* Explorar porque hay 'video views' 0 y 'video count' 0

In [15]:
dfCanales.category.value_counts()

category
Entertainment            241
Music                    222
People & Blogs           119
Gaming                   102
Comedy                    63
Film & Animation          52
Education                 46
Howto & Style             45
News & Politics           27
Science & Technology      18
Shows                     14
Sports                    10
Pets & Animals             6
Trailers                   2
Nonprofits & Activism      2
Movies                     2
Autos & Vehicles           1
Travel & Events            1
Name: count, dtype: int64

In [17]:
print(dfCanales.isna().sum())

rank            0
youtuber        0
subscribers     0
video_views     0
video_count     0
category       27
started         0
dtype: int64


In [22]:
# Cómo la función isna me devolvio previamente que la columna category tiene 27 filas con datos faltantes, esta intrucción me muestra esas filas
filasNa = dfCanales.isna().any(axis=1)
print(dfCanales[filasNa])

     rank                                           youtuber  subscribers   
4       5                                              Music    116000000  \
9      10                                             Gaming     92700000   
15     16                                             Sports     75100000   
81     82                                               News     36200000   
137   138                                 Popular on YouTube     29400000   
163   164                                     Vlad và Nikita     27100000   
180   181                                    व्लाद और निकिता     25900000   
202   203           Super JoJo - Nursery Rhymes & Kids Songs     24400000   
260   261                                 Diana and Roma ARA     21600000   
293   294                                         D Billions     20200000   
316   317                               Vlad and Niki Arabic     19600000   
331   332                                  Minecraft - Topic     19100000   

In [24]:
# Filtramos la columna video_views donde el valor es 0
faltantes_views = dfCanales.query('video_views == 0')
print(faltantes_views)

     rank            youtuber  subscribers  video_views  video_count   
1       2      YouTube Movies    154000000            0            0  \
4       5               Music    116000000            0            0   
9      10              Gaming     92700000            0            0   
15     16              Sports     75100000            0            0   
81     82                News     36200000            0            0   
137   138  Popular on YouTube     29400000            0            0   
331   332   Minecraft - Topic     19100000            0            0   
507   508                Live     15300000            0            0   
870   871           Machinima     11700000            0            0   
977   978            TV Shows     11000000            0            0   

             category    started  
1    Film & Animation 2015-01-01  
4                 NaN 2013-01-01  
9                 NaN 2013-01-01  
15                NaN 2013-01-01  
81                NaN 2013-01-01

In [25]:
# Filtramos la columna video_count donde el valor es 0
faltantes_count = dfCanales.query('video_count == 0')
print(faltantes_count)

     rank            youtuber  subscribers  video_views  video_count   
1       2      YouTube Movies    154000000            0            0  \
4       5               Music    116000000            0            0   
9      10              Gaming     92700000            0            0   
15     16              Sports     75100000            0            0   
81     82                News     36200000            0            0   
137   138  Popular on YouTube     29400000            0            0   
331   332   Minecraft - Topic     19100000            0            0   
507   508                Live     15300000            0            0   
870   871           Machinima     11700000            0            0   
977   978            TV Shows     11000000            0            0   

             category    started  
1    Film & Animation 2015-01-01  
4                 NaN 2013-01-01  
9                 NaN 2013-01-01  
15                NaN 2013-01-01  
81                NaN 2013-01-01

Insight: En la columna 'category' hay 27 filas con datos vacíos y en video_views y video_count hay valores igual a 0 cuando tienen muchos suscriptores, lo que me sugiere que hubo algún error al momento de completar estos campos. 

Acciones. 
* Eliminar las filas de las columnas  'video_views' y 'video_count' que contengan valores 0 ya que no serán utiles para un análisis estadístico posterior
* La columna category aunque tenga valores vacios puede que no afecte ya que solo es una variable categórica.