<a href="https://colab.research.google.com/github/hectorpilo/bootcamp-ds-sonda/blob/main/Analisis_con_Pandas.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# **Analisis con Pandas y Kaggle (Core)**
El presente CORE tiene como objetivo demostrar, a través de la práctica, la aplicación del lenguaje de programación Python junto con la biblioteca Pandas, para el análisis de información en formato "Comma Separated Values" (CSV) y la posterior extracción de insights relevantes. Para este propósito, se ha seleccionado un conjunto de datos titulado “Extrovert vs. Introvert Behavior Data”, obtenido desde la plataforma Kaggle.


In [2]:
#preparacion del entorno
from google.colab import drive
drive.mount('/content/drive')
import pandas as pd

Mounted at /content/drive


# **Exploracion de los datos**


In [28]:
#carga de datos
path = "/content/drive/MyDrive/BBDD/personality_dataset.csv" #carga del archivo y creacion de un DF en pandas.
df_1 = pd.read_csv(path)
#miraremos las primeras filas, para ver que los datos se han cargado correctamente.
df_1.head(10)

Unnamed: 0,Time_spent_Alone,Stage_fear,Social_event_attendance,Going_outside,Drained_after_socializing,Friends_circle_size,Post_frequency,Personality
0,4.0,No,4.0,6.0,No,13.0,5.0,Extrovert
1,9.0,Yes,0.0,0.0,Yes,0.0,3.0,Introvert
2,9.0,Yes,1.0,2.0,Yes,5.0,2.0,Introvert
3,0.0,No,6.0,7.0,No,14.0,8.0,Extrovert
4,3.0,No,9.0,4.0,No,8.0,5.0,Extrovert
5,1.0,No,7.0,5.0,No,6.0,6.0,Extrovert
6,4.0,No,9.0,,No,7.0,7.0,Extrovert
7,2.0,No,8.0,4.0,No,7.0,8.0,Extrovert
8,10.0,Yes,1.0,3.0,Yes,0.0,3.0,Introvert
9,0.0,No,8.0,6.0,No,13.0,8.0,Extrovert


# **Exploración Inicial de los Datos**
* Muestra las últimas 5 filas del DataFrame.
* Utiliza el método info() para obtener información general sobre el DataFrame, incluyendo el número de entradas, nombres de las columnas, tipos de datos y memoria utilizada.
* Genera estadísticas descriptivas del DataFrame utilizando el método describe().

In [5]:
#muestra las ultimas 5 filas.
df_1.tail(5)

Unnamed: 0,Time_spent_Alone,Stage_fear,Social_event_attendance,Going_outside,Drained_after_socializing,Friends_circle_size,Post_frequency,Personality
2895,3.0,No,7.0,6.0,No,6.0,6.0,Extrovert
2896,3.0,No,8.0,3.0,No,14.0,9.0,Extrovert
2897,4.0,Yes,1.0,1.0,Yes,4.0,0.0,Introvert
2898,11.0,Yes,1.0,,Yes,2.0,0.0,Introvert
2899,3.0,No,6.0,6.0,No,6.0,9.0,Extrovert


In [6]:
#Utiliza el método info() para obtener información general sobre el DataFrame, incluyendo el número de entradas, nombres de las columnas, tipos de datos y memoria utilizada.
df_1.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 2900 entries, 0 to 2899
Data columns (total 8 columns):
 #   Column                     Non-Null Count  Dtype  
---  ------                     --------------  -----  
 0   Time_spent_Alone           2837 non-null   float64
 1   Stage_fear                 2827 non-null   object 
 2   Social_event_attendance    2838 non-null   float64
 3   Going_outside              2834 non-null   float64
 4   Drained_after_socializing  2848 non-null   object 
 5   Friends_circle_size        2823 non-null   float64
 6   Post_frequency             2835 non-null   float64
 7   Personality                2900 non-null   object 
dtypes: float64(5), object(3)
memory usage: 181.4+ KB


In [8]:
#estadisticas descriptivas
df_1.describe().T

Unnamed: 0,count,mean,std,min,25%,50%,75%,max
Time_spent_Alone,2837.0,4.505816,3.479192,0.0,2.0,4.0,8.0,11.0
Social_event_attendance,2838.0,3.963354,2.903827,0.0,2.0,3.0,6.0,10.0
Going_outside,2834.0,3.0,2.247327,0.0,1.0,3.0,5.0,7.0
Friends_circle_size,2823.0,6.268863,4.289693,0.0,3.0,5.0,10.0,15.0
Post_frequency,2835.0,3.564727,2.926582,0.0,1.0,3.0,6.0,10.0


# **Limpieza de Datos**
* Identifica y maneja los datos faltantes utilizando técnicas apropiadas (relleno con valores estadísticos, interpolación, eliminación, etc.).
* Corrige los tipos de datos si es necesario (por ejemplo, convertir cadenas a fechas).
* Elimina duplicados si los hay.

In [9]:
#identificacion de datos faltantes.
df_1.isnull().sum()

Unnamed: 0,0
Time_spent_Alone,63
Stage_fear,73
Social_event_attendance,62
Going_outside,66
Drained_after_socializing,52
Friends_circle_size,77
Post_frequency,65
Personality,0


In [12]:
#Revisaremos los valores duplicados.
duplicados = df_1.duplicated().sum()
duplicados

np.int64(388)

# **Conclusiones y acciones a tomar por la falta de datos y duplicados.**

Debido a la gran cantidad de datos faltantes y considerando que este análisis se enfoca en aspectos psicológicos relacionados con la personalidad, no es recomendable aplicar técnicas de interpolación. Esto podría generar resultados artificiales y sesgados, introduciendo una causalidad no real que afectaría la validez del estudio.

Adicionalmente, se identificaron registros duplicados en el conjunto de datos, lo cual representa un riesgo metodológico al distorsionar la representatividad de las observaciones. Por este motivo, se procederá a la eliminación de dichos duplicados.

 **Acciones a tomar:**

* Eliminar todos los registros duplicados para asegurar que cada entrada sea única y confiable.

* Descartar las filas con datos faltantes, priorizando la integridad del análisis por sobre la cantidad de información disponible.


In [14]:
#Eliminación de registros duplicados.
df_2 = df_1.drop_duplicates()
df_2

Unnamed: 0,Time_spent_Alone,Stage_fear,Social_event_attendance,Going_outside,Drained_after_socializing,Friends_circle_size,Post_frequency,Personality
0,4.0,No,4.0,6.0,No,13.0,5.0,Extrovert
1,9.0,Yes,0.0,0.0,Yes,0.0,3.0,Introvert
2,9.0,Yes,1.0,2.0,Yes,5.0,2.0,Introvert
3,0.0,No,6.0,7.0,No,14.0,8.0,Extrovert
4,3.0,No,9.0,4.0,No,8.0,5.0,Extrovert
...,...,...,...,...,...,...,...,...
2894,0.0,No,9.0,3.0,No,12.0,,Extrovert
2896,3.0,No,8.0,3.0,No,14.0,9.0,Extrovert
2897,4.0,Yes,1.0,1.0,Yes,4.0,0.0,Introvert
2898,11.0,Yes,1.0,,Yes,2.0,0.0,Introvert


In [16]:
#Eliminar filas con datos faltantes.
df_2limpia = df_2.dropna()
df_2limpia

Unnamed: 0,Time_spent_Alone,Stage_fear,Social_event_attendance,Going_outside,Drained_after_socializing,Friends_circle_size,Post_frequency,Personality
0,4.0,No,4.0,6.0,No,13.0,5.0,Extrovert
1,9.0,Yes,0.0,0.0,Yes,0.0,3.0,Introvert
2,9.0,Yes,1.0,2.0,Yes,5.0,2.0,Introvert
3,0.0,No,6.0,7.0,No,14.0,8.0,Extrovert
4,3.0,No,9.0,4.0,No,8.0,5.0,Extrovert
...,...,...,...,...,...,...,...,...
2888,5.0,Yes,0.0,1.0,Yes,1.0,0.0,Introvert
2889,6.0,Yes,0.0,0.0,Yes,3.0,0.0,Introvert
2896,3.0,No,8.0,3.0,No,14.0,9.0,Extrovert
2897,4.0,Yes,1.0,1.0,Yes,4.0,0.0,Introvert


# **Transformación de Datos**

Se realizaron las siguientes transformaciones sobre el dataset para facilitar el análisis conductual:

* **Social_activity_score**: suma de eventos sociales, salidas y publicaciones en redes para representar el nivel de actividad social. ***Para ello, crearé una nueva columna sumando todas las salidas, así poder comparar a las personas según su exposición social.***

* **Alone_vs_Social_ratio**: relación entre el tiempo a solas y la actividad social, útil para identificar tendencias de aislamiento o exposición. Para ello, sumé 1 al denominador para evitar errores por divisiones por 0.

* **Sociability_Level**: Clasificación del nivel de sociabilidad en Bajo, Medio o Alto, según el valor del Social_activity_score. Esta transformación convierte los valores numéricos en categorías de texto, permitiendo segmentar a los individuos según su nivel de interacción social.

In [18]:
#Social Activity Score
# Crear una nueva columna que sume la interacción social en tres dimensiones:
df_transformed = df_2limpia.copy()

df_transformed['Social_activity_score'] = (
    df_transformed['Social_event_attendance'] +
    df_transformed['Going_outside'] +
    df_transformed['Post_frequency']
)
df_transformed

Unnamed: 0,Time_spent_Alone,Stage_fear,Social_event_attendance,Going_outside,Drained_after_socializing,Friends_circle_size,Post_frequency,Personality,Social_activity_score
0,4.0,No,4.0,6.0,No,13.0,5.0,Extrovert,15.0
1,9.0,Yes,0.0,0.0,Yes,0.0,3.0,Introvert,3.0
2,9.0,Yes,1.0,2.0,Yes,5.0,2.0,Introvert,5.0
3,0.0,No,6.0,7.0,No,14.0,8.0,Extrovert,21.0
4,3.0,No,9.0,4.0,No,8.0,5.0,Extrovert,18.0
...,...,...,...,...,...,...,...,...,...
2888,5.0,Yes,0.0,1.0,Yes,1.0,0.0,Introvert,1.0
2889,6.0,Yes,0.0,0.0,Yes,3.0,0.0,Introvert,0.0
2896,3.0,No,8.0,3.0,No,14.0,9.0,Extrovert,20.0
2897,4.0,Yes,1.0,1.0,Yes,4.0,0.0,Introvert,2.0


In [20]:
#Alone VS Social Ratio

df_transformed['Alone_vs_Social_ratio'] = df_transformed['Time_spent_Alone'] / (
    df_transformed['Social_activity_score'] + 1)
df_transformed

Unnamed: 0,Time_spent_Alone,Stage_fear,Social_event_attendance,Going_outside,Drained_after_socializing,Friends_circle_size,Post_frequency,Personality,Social_activity_score,Alone_vs_Social_ratio
0,4.0,No,4.0,6.0,No,13.0,5.0,Extrovert,15.0,0.250000
1,9.0,Yes,0.0,0.0,Yes,0.0,3.0,Introvert,3.0,2.250000
2,9.0,Yes,1.0,2.0,Yes,5.0,2.0,Introvert,5.0,1.500000
3,0.0,No,6.0,7.0,No,14.0,8.0,Extrovert,21.0,0.000000
4,3.0,No,9.0,4.0,No,8.0,5.0,Extrovert,18.0,0.157895
...,...,...,...,...,...,...,...,...,...,...
2888,5.0,Yes,0.0,1.0,Yes,1.0,0.0,Introvert,1.0,2.500000
2889,6.0,Yes,0.0,0.0,Yes,3.0,0.0,Introvert,0.0,6.000000
2896,3.0,No,8.0,3.0,No,14.0,9.0,Extrovert,20.0,0.142857
2897,4.0,Yes,1.0,1.0,Yes,4.0,0.0,Introvert,2.0,1.333333


In [22]:
#Social Activity Level

def classify_sociability(score):
    if score <= 5:
        return 'Bajo'
    elif score <= 15:
        return 'Medio'
    else:
        return 'Alto'

df_transformed['Sociability_Level'] = df_transformed['Social_activity_score'].apply(classify_sociability) #utilizar el apply para considerar la función de criterio.
df_transformed

Unnamed: 0,Time_spent_Alone,Stage_fear,Social_event_attendance,Going_outside,Drained_after_socializing,Friends_circle_size,Post_frequency,Personality,Social_activity_score,Alone_vs_Social_ratio,Sociability_Level
0,4.0,No,4.0,6.0,No,13.0,5.0,Extrovert,15.0,0.250000,Medio
1,9.0,Yes,0.0,0.0,Yes,0.0,3.0,Introvert,3.0,2.250000,Bajo
2,9.0,Yes,1.0,2.0,Yes,5.0,2.0,Introvert,5.0,1.500000,Bajo
3,0.0,No,6.0,7.0,No,14.0,8.0,Extrovert,21.0,0.000000,Alto
4,3.0,No,9.0,4.0,No,8.0,5.0,Extrovert,18.0,0.157895,Alto
...,...,...,...,...,...,...,...,...,...,...,...
2888,5.0,Yes,0.0,1.0,Yes,1.0,0.0,Introvert,1.0,2.500000,Bajo
2889,6.0,Yes,0.0,0.0,Yes,3.0,0.0,Introvert,0.0,6.000000,Bajo
2896,3.0,No,8.0,3.0,No,14.0,9.0,Extrovert,20.0,0.142857,Alto
2897,4.0,Yes,1.0,1.0,Yes,4.0,0.0,Introvert,2.0,1.333333,Bajo


# **Resumen de los datos con metodo .info**

In [23]:
df_transformed.info() #En el siguiente codigo, se puede observar que los datos están limpios.

<class 'pandas.core.frame.DataFrame'>
Index: 2098 entries, 0 to 2899
Data columns (total 11 columns):
 #   Column                     Non-Null Count  Dtype  
---  ------                     --------------  -----  
 0   Time_spent_Alone           2098 non-null   float64
 1   Stage_fear                 2098 non-null   object 
 2   Social_event_attendance    2098 non-null   float64
 3   Going_outside              2098 non-null   float64
 4   Drained_after_socializing  2098 non-null   object 
 5   Friends_circle_size        2098 non-null   float64
 6   Post_frequency             2098 non-null   float64
 7   Personality                2098 non-null   object 
 8   Social_activity_score      2098 non-null   float64
 9   Alone_vs_Social_ratio      2098 non-null   float64
 10  Sociability_Level          2098 non-null   object 
dtypes: float64(7), object(4)
memory usage: 196.7+ KB


# **Análisis de Datos**


# **1. Alta actividad social implica mayor expresión pública**

In [27]:
df_transformed[['Social_event_attendance', 'Going_outside', 'Post_frequency']]

Unnamed: 0,Social_event_attendance,Going_outside,Post_frequency
0,4.0,6.0,5.0
1,0.0,0.0,3.0
2,1.0,2.0,2.0
3,6.0,7.0,8.0
4,9.0,4.0,5.0
...,...,...,...
2888,0.0,1.0,0.0
2889,0.0,0.0,0.0
2896,8.0,3.0,9.0
2897,1.0,1.0,0.0


La interpretación se realiza analizando en conjunto las columnas Social_event_attendance, Going_outside y Post_frequency, que representan distintos aspectos del comportamiento social. Valores altos en las tres indican un perfil altamente sociable tanto en interacción presencial como digital. Si Social_event_attendance y Going_outside son bajos pero Post_frequency es alto, sugiere un patrón de vinculación principalmente digital. En cambio, valores cercanos a cero en todas las columnas pueden reflejar aislamiento social o baja participación general. Esta combinación permite segmentar perfiles y detectar patrones de comportamiento social relevantes.

# **2. Sociabilidad y círculo social tienden a crecer juntos**



In [25]:
df_transformed.groupby('Sociability_Level')['Friends_circle_size'].mean()

Unnamed: 0_level_0,Friends_circle_size
Sociability_Level,Unnamed: 1_level_1
Alto,9.837046
Bajo,2.555556
Medio,7.761261


Al analizar las columnas Social_activity_score y Friends_circle_size, se observa que a mayor nivel de actividad social, suele corresponder un mayor tamaño del círculo de amistades. Esta relación sugiere que las personas más activas socialmente —ya sea asistiendo a eventos, saliendo o publicando— tienden a mantener redes interpersonales más amplias, lo que refuerza la idea de que la exposición social favorece la expansión de vínculos.

# **3. Personas con bajo Social_activity_score suelen tener ratios de aislamiento altos**


In [26]:
df_transformed[df_transformed['Sociability_Level'] == 'Bajo']['Alone_vs_Social_ratio'].describe()

Unnamed: 0,Alone_vs_Social_ratio
count,801.0
mean,2.197607
std,1.482761
min,0.666667
25%,1.333333
50%,1.833333
75%,2.5
max,11.0


Al cruzar las columnas Social_activity_score y Alone_vs_Social_ratio, se observa que quienes presentan bajos niveles de actividad social suelen tener un ratio alto entre tiempo a solas y exposición social. Esto indica que una baja participación en eventos, salidas y publicaciones está asociada a una mayor proporción de tiempo en solitario, lo que puede reflejar una preferencia por el aislamiento o una desconexión social sostenida.

# **Conclusion del analisis de la data.**
1.  Alta actividad social implica mayor expresión pública.
  * Publicar más implica una mayor necesidad o costumbre de compartir. Por tanto, alta actividad social presencial + digital = perfil expresivo o extrovertido.
2. Sociabilidad y círculo social tienden a crecer juntos
  * Cuanto más se interactúa, mayor es la probabilidad de mantener más relaciones. Es coherente con estudios de redes sociales humanas: el contacto frecuente refuerza vínculos y expande círculos.
3. Personas con bajo Social_activity_score suelen tener ratios de aislamiento altos
  * Una ratio alta implica más tiempo a solas por cada unidad de interacción social. Esto puede representar tanto una elección (introversión saludable) como un síntoma de desconexión.