In [1]:
import pandas as pd

## Inicio proceso
Importar datos y crear dataframe
1. Exploración del dataframe
* cabecera
* información del dataframe, como número de filas y columnas, tipo de datos, entre otros
* obtener estadísticas básicas sobre las columnas númericas del dataframe

### Pasos a seguir:

2. Limpieza y transformación de datos, si es necesario. Esto puede incluir eliminar filas o columnas innecesarias, cambiar el tipo de datos de las columnas, llenar o eliminar valores faltantes, y más.
3. Realizar operaciones de análisis de datos en el DataFrame del tipo:
* Ordenar los canales por número de suscriptores de mayor a menor.
* Encontrar el promedio, la mediana y la desviación estándar del número de suscriptores de los canales.
* Filtrar los canales que tienen más de cierto número de suscriptores.
* Agrupar los canales por país o categoría y encontrar el número promedio de suscriptores por grupo.
* Encontrar los canales que tienen un crecimiento de suscriptores más rápido en un período de tiempo específico.


In [46]:
# importar datos a través de archivo csv
dfCanales = pd.read_csv('C:\\Users\\Joako\\Desktop\\canales_youtube_suscriptores\\Datos_original\\most_subscribed_youtube_channels.csv')

In [47]:
# muestra las primeras filas del DataFrame
dfCanales.head() 

Unnamed: 0,rank,Youtuber,subscribers,video views,video count,category,started
0,1,T-Series,222000000,198459090822,17317,Music,2006
1,2,YouTube Movies,154000000,0,0,Film & Animation,2015
2,3,Cocomelon - Nursery Rhymes,140000000,135481339848,786,Education,2006
3,4,SET India,139000000,125764252686,91271,Shows,2006
4,5,Music,116000000,0,0,,2013


In [48]:
# muestra información sobre el DataFrame, como número de filas y columnas, tipo de datos, entre otros
dfCanales.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1000 entries, 0 to 999
Data columns (total 7 columns):
 #   Column       Non-Null Count  Dtype 
---  ------       --------------  ----- 
 0   rank         1000 non-null   int64 
 1   Youtuber     1000 non-null   object
 2   subscribers  1000 non-null   object
 3   video views  1000 non-null   object
 4   video count  1000 non-null   object
 5   category     973 non-null    object
 6   started      1000 non-null   int64 
dtypes: int64(2), object(5)
memory usage: 54.8+ KB


In [49]:
# muestra estadísticas básicas sobre las columnas numéricas del DataFrame
dfCanales.describe()

Unnamed: 0,rank,started
count,1000,1000
mean,500,2012
std,289,4
min,1,1970
25%,251,2010
50%,500,2013
75%,750,2015
max,1000,2021


Insight: Tras la primera exploración de los datos. Noto que las columnas 'subscribers', 'video views',  'video count' no son de tipo entero si no que son object. Además las columnas 'video views',  'video count' tienen un espacio entre las cadenas. La columna 'started' parece ser la fecha de inicio del canal. La columna 'category' tiene 27 observaciones menos que el resto de las columnas que son 1000.

Existen canales con varios suscriptores y 0 visualizaciones y 0 cuentas.

Acciones:
* Transformar las columnas 'subscribers', 'video views',  'video count' a tipo int
* Eliminar espaciado entre nombres de columnas y sustituir por '_' 
* Columna 'started' cambiar a tipo date
* Explorar las observaciones inferiores de 'category'
* Explorar porque hay 'video views' 0 y 'video count' 0
* hacer todos los nombres minúsculas

In [50]:
# Eliminar espaciado entre nombres de columnas y sustituir por '_'
dfCanales.columns = [col.replace(' ','_') for col in dfCanales.columns]

In [51]:
# hacer todos los nombres minúsculas
dfCanales.columns = dfCanales.columns.str.lower()

In [52]:
# Convertir a formato date la columna 'started' formato año
dfCanales['started'] = pd.to_datetime(dfCanales['started'], format='%Y')

In [53]:
# Transformar las columnas 'subscribers', 'video views',  'video count' a tipo int
# dfCanales[['subscribers', 'video_views', 'video_count']] = dfCanales[['subscribers', 'video_views', 'video_count']].str.replace(',','').astype('Int64') no funciona porque el tipo de las columnas es object y la función .srt.replace solo funciona para tipo string. la solución es el mismo código pero por individual
dfCanales['subscribers'] = dfCanales['subscribers'].str.replace(',', '').astype('Int64')
dfCanales['video_views'] = dfCanales['video_views'].str.replace(',', '').astype('Int64')
dfCanales['video_count'] = dfCanales['video_count'].str.replace(',', '').astype('Int64')


In [54]:
pd.options.display.float_format = '{:,.0f}'.format


In [55]:
dfCanales.sample(3)

Unnamed: 0,rank,youtuber,subscribers,video_views,video_count,category,started
668,669,PlayHard,13500000,1926532344,2138,Gaming,2014-01-01
541,542,Mariale,14900000,2568493946,1918,Howto & Style,2010-01-01
404,405,etvteluguindia,17300000,19465295267,111360,Entertainment,2010-01-01
