## Proyecto Análisis de Datos

En la clase de hoy vamos a ver un Proyecto completo de Análisis de Datos completo realizando todos los pasos necesarios:

* Definición del problema
* Búsqueda de datos
* Análisis exploratorio
* Limpieza
* Visualizaciones
* Presentación de resultados. 


### Definición del Problema

En este caso queremos conocer información sobre las cuentas de instagram que mayor cantidad de seguidores tienen

### Búsqueda de datos

Utilizaramos un dataset extraído de Kaggle que cuenta con los datos de las 200 cuentas de instagram con mayores seguidores en el año 2023. extraído de https://www.kaggle.com/datasets/faisaljanjua0555/top-200-most-followed-instagram-accounts-2023

In [1]:
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

In [35]:
data = pd.read_csv("data.csv")

In [36]:
data.head()

Unnamed: 0,rank,name,channel_Info,Category,Posts,Followers,Avg. Likes,Eng Rate
0,1,instagram,brand,photography,7.3K,580.1M,7.31K,0.1%
1,2,cristiano,male,"Health, Sports & Fitness",3.4K,519.9M,3.41K,1.4%
2,3,leomessi,male,"Health, Sports & Fitness",1K,403.7M,0.97K,1.7%
3,4,kyliejenner,female,entertainment,7K,375.9M,7.02K,1.7%
4,5,selenagomez,female,entertainment,1.8K,365.3M,1.85K,1.1%


In [6]:
data.shape

(200, 8)

In [7]:
data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 200 entries, 0 to 199
Data columns (total 8 columns):
 #   Column        Non-Null Count  Dtype 
---  ------        --------------  ----- 
 0   rank          200 non-null    int64 
 1   name          200 non-null    object
 2   channel_Info  195 non-null    object
 3   Category      193 non-null    object
 4   Posts         200 non-null    object
 5   Followers     200 non-null    object
 6   Avg. Likes    200 non-null    object
 7   Eng Rate      200 non-null    object
dtypes: int64(1), object(7)
memory usage: 12.6+ KB


In [37]:
# Vamos a reenombras las columnas al español

data.columns

Index(['rank', 'name', 'channel_Info', 'Category', 'Posts', 'Followers',
       'Avg. Likes', 'Eng Rate'],
      dtype='object')

In [38]:
data.columns = ["puesto", "nombre", "descripcion", "categoria", "publicaciones", "seguidores", "me_gusta_promedio", "tasa_participacion"]

In [39]:
data.columns

Index(['puesto', 'nombre', 'descripcion', 'categoria', 'publicaciones',
       'seguidores', 'me_gusta_promedio', 'tasa_participacion'],
      dtype='object')

In [11]:
data.head()

Unnamed: 0,puesto,nombre,descripcion,categoria,publicaciones,seguidores,me_gusta_promedio,tasa_participacion
0,1,instagram,brand,photography,7.3K,580.1M,7.31K,0.1%
1,2,cristiano,male,"Health, Sports & Fitness",3.4K,519.9M,3.41K,1.4%
2,3,leomessi,male,"Health, Sports & Fitness",1K,403.7M,0.97K,1.7%
3,4,kyliejenner,female,entertainment,7K,375.9M,7.02K,1.7%
4,5,selenagomez,female,entertainment,1.8K,365.3M,1.85K,1.1%


In [15]:
data.tail()

Unnamed: 0,puesto,nombre,descripcion,categoria,publicaciones,seguidores,me_gusta_promedio,tasa_participacion
195,196,fcbayern,male,"Health, Sports & Fitness",16.8K,35.4M,16.78K,0.6%
196,197,colesprouse,male,entertainment,1.1K,35.3M,1.14K,3.5%
197,198,shaymitchell,male,entertainment,6.3K,35.1M,6.31K,1.2%
198,199,ivetesangalo,female,entertainment,7.8K,35M,7.77K,0.4%
199,200,paollaoliveirareal,female,entertainment,4.8K,34.9M,4.78K,0.7%


In [12]:
data.dtypes

puesto                 int64
nombre                object
descripcion           object
categoria             object
publicaciones         object
seguidores            object
me_gusta_promedio     object
tasa_participacion    object
dtype: object

#### Columna *descripcion*

In [13]:
# Vamos a explorar la distribución de datos de descripcion 

data["descripcion"].value_counts()

male         93
female       74
brand        15
community    13
Name: descripcion, dtype: int64

In [14]:
# Vamos a explorar la distribución de datos de categoria 

data["categoria"].value_counts()

entertainment               129
Health, Sports & Fitness     39
fashion                      10
News & Politics               3
Beauty & Makeup               3
photography                   2
technology                    2
food                          2
Lifestyle                     1
Finance                       1
Craft/DIY                     1
Name: categoria, dtype: int64

#### Columnas *publicaciones*, *seguidores*, *tasa_participacion* y *me_gusta_promedio*

Poder ver como un problema es que los datos numéricos los está tomando como *object*, vemos que el problema es que está en el número y luego "k"/ "m" o "%" y no lo puede leer como nùmero. Lo que vamos a realizar es reemplazar esas letras y símbolos por números utilizando *apply* y *lambda* y luego cambiar el tipo de dato en cada una de las columnas utilizando el método [astype](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.astype.html)

In [61]:
data['publicaciones']

160       110
161    101.8K
162      2.1K
163      1.2K
164       120
165       107
166     20.5K
167       753
168       325
169        37
170      1.4K
171      5.5K
172      5.1K
173      7.5K
174        9K
175      2.8K
176     26.9K
177        27
178       721
179      1.1K
Name: publicaciones, dtype: object

In [41]:
tiene_k = data['publicaciones'].apply(lambda x: 'K' in x)

In [42]:
factor = tiene_k.replace({True:1000,False:1})

In [43]:
# luego reemplazamos K por 00 (el tercer cero no se coloca porque quitamos los puntos decimales)

data["publicaciones_M"] = data["publicaciones"].apply(lambda x: x.replace("K", ""))

In [44]:
data['publicaciones_M']

0       7.3
1       3.4
2         1
3         7
4       1.8
       ... 
195    16.8
196     1.1
197     6.3
198     7.8
199     4.8
Name: publicaciones_M, Length: 200, dtype: object

In [45]:
# Luego convertimos el valor en numérico

data["publicaciones_M"] = data["publicaciones_M"].astype(float)

In [46]:
data['publicaciones_M']

0       7.3
1       3.4
2       1.0
3       7.0
4       1.8
       ... 
195    16.8
196     1.1
197     6.3
198     7.8
199     4.8
Name: publicaciones_M, Length: 200, dtype: float64

In [47]:
# Multiplicamos los valores por 1000

data["publicaciones_M"] = data["publicaciones_M"]*factor

In [53]:
data["publicaciones_M"].min()

16.0

In [None]:
data["seguidores"] = data["seguidores"].apply(lambda x: x.replace("M", ""))
data["seguidores"]=data["seguidores"].astype(float)
data["seguidores"] = data["seguidores"]*1000000

In [None]:
data["seguidores"]

In [None]:
data["me_gusta_promedio"] = data["me_gusta_promedio"].apply(lambda x: x.replace("K", ""))
data["me_gusta_promedio"]=data["me_gusta_promedio"].astype(float)
data["me_gusta_promedio"] = data["me_gusta_promedio"]*1000

In [None]:
data["me_gusta_promedio"]

In [None]:
data["tasa_participacion"] = data["tasa_participacion"].apply(lambda x: x.replace("%", ""))
data["tasa_participacion"]=data["tasa_participacion"].astype(float)

In [None]:
data["tasa_participacion"]

In [None]:
data.dtypes

In [None]:
# Revisamos los datos nulos

data.isnull().sum()

In [None]:
# Primero revisamos la columan descripcion

mask_nulo_descripcion = data["descripcion"].isnull()
mask_nulo_descripcion

In [None]:
data[mask_nulo_descripcion]

Podemos considerar que michelleobama es "female" ylos demàs ("jungkook.97", "uarmyhope", "agustd" y "tyga") son "male" (por el conocimiento sobre el dataset por parte del Analista de Datos. Vamos a **imputar** los valores correspondientes)

In [None]:
data.loc[104, "descripcion"]

In [None]:
data.loc[104, "descripcion"] = "female"

In [None]:
lista_filas = [118,147,158,177]

for i in lista_filas:
    data.loc[i, "descripcion"] = "male"

In [None]:
# revisamos la operación

data[mask_nulo_descripcion]

In [None]:
data.isnull().sum()

In [None]:
# Ahora revisamos categoria

data[data["categoria"].isnull()]


Como no sabemos exactamente cual es la categría, podemos dejarlos nulos o imputarlos por datos aleatorios, en este caso utilizaremos un método de pandas [fillna](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.fillna.html) que reemplaza los valores nulos, en este caso vamos a indicar que por la fila superior. 

In [None]:
data["categoria"].fillna(method="ffill", inplace=True)

In [None]:
data.isnull().sum()

In [None]:
data.describe()

#### Método *to_csv*

Para poder volver a utilizar el Dataset con las modificaciones realizadas vamos a utilizar el método [to_csv](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.to_csv.html)

In [None]:
# Podemos utilizar el método 

data.to_csv("instagram_limpio.csv", index=False)


#### Visualizaciones

In [None]:
data["descripcion"].value_counts()

In [None]:
# Vamos a hacer un gráfico countplot con los datos de descripcion

plt.pie(data["descripcion"].value_counts(), labels=["male", "female", "brand", "community"], autopct = '%0.0f%%')

In [None]:
# Vamos a hacer un gráfico countplot con los datos de categoria

plt.figure(figsize=(10, 5))
sns.countplot(data = data, x="categoria", order=data["categoria"].value_counts().index)
plt.xticks(rotation=45)

In [None]:
# Distribución de variable seguidores

sns.distplot(data["seguidores"])

In [None]:
# Vamos a gráficar el top 10 en seguidores, para eso tenemos que hacer una agrupación:

sns.barplot(data=data[:10], x="seguidores", y="nombre", palette="hsv")
plt.title("Top cuentas de Instagram por seguidores")
plt.xlabel("cantidad de seguidores")
plt.ylabel("cuenta de instragram")

In [None]:
# Para graficar el top 10 de me gusta, tenemos que primero reordenar el dataset
top_me_gusta=data.sort_values(by="me_gusta_promedio", ascending=False)[:10]
top_me_gusta


In [None]:
sns.barplot(data=top_me_gusta[:10], x="me_gusta_promedio", y="nombre", palette="hsv")
plt.title("Top cuentas de Instagram por me gusta")
plt.xlabel("cantidad de me gusta promedio")
plt.ylabel("cuenta de instragram")

In [None]:
# Vamos a graficar la relacion entre la cantidad de publicaciones y de seguidores con un scatterplot

sns.scatterplot(data=data, x="publicaciones", y="seguidores")


In [None]:
# Vamos a graficar la relación entre las categorias y la cantidad de seguidores promedio para eso hay que hacer una agrupación

data_categoria_seguidores = data.groupby("categoria")["seguidores"].mean().sort_values(ascending=False)

In [None]:
sns.barplot(x=data_categoria_seguidores, y=data_categoria_seguidores.index)

In [None]:
# Puedo guardar el gráfico utilizando el método "savefig"

from google.colab import files
data_categoria_seguidores.plot.barh(stacked=True)
plt.savefig("Seguidores x Categoria.png")
files.download("Seguidores x Categoria.png")

#fig = ax.get_figure()
#fig.savefig("output.png")
#plt.savefig('output.png')
#sns_plot.savefig("output.png")
