In [None]:
import pandas as pd

# Cargar el archivo CSV en un DataFrame
df = pd.read_csv('/content/Datos.csv')

# Verificar los datos cargados y observar las primeras filas
print("Primeras filas del dataset:")
print(df.head())

# Revisar si hay valores nulos
print("Valores nulos por columna antes de la limpieza:")
print(df.isnull().sum())

# Reemplazar valores nulos en la columna 'Rating' con 0
df['Rating'] = df['Rating'].fillna(0)

# Verificar que se hayan reemplazado los valores nulos
print("Valores nulos por columna después de la limpieza:")
print(df.isnull().sum())

: 

In [None]:
# Agrupar los cursos por 'Course Title' y calcular el promedio de 'Rating'
promedios = df.groupby('Course Title')['Rating'].mean()

# Mostrar los promedios de calificaciones
print("Promedio de calificaciones por curso:")
print(promedios)


In [None]:
# Curso con mayor rating
curso_mayor_rating = df[df['Rating'] == df['Rating'].max()]

# Curso con menor rating
curso_menor_rating = df[df['Rating'] == df['Rating'].replace(0, float('nan')).min()]

print("Curso con mayor calificación:")
print(curso_mayor_rating[['Course Title', 'Rating']])

print("Curso con menor calificación:")
print(curso_menor_rating[['Course Title', 'Rating']])


In [None]:
# Filtrar los cursos con horario flexible
cursos_flexibles = df[df['Schedule'] == 'Flexible schedule']

# Calcular el porcentaje de cursos flexibles en relación al total
porcentaje_flexibles = (len(cursos_flexibles) / len(df)) * 100

# Mostrar el porcentaje
print(f"Porcentaje de cursos con horario flexible: {porcentaje_flexibles:.2f}%")


In [None]:
import matplotlib.pyplot as plt

# Gráfica de barras: Número de cursos por nivel de dificultad
plt.figure(figsize=(10, 5))
df['Level'].value_counts().plot(kind='bar')
plt.title('Número de cursos por nivel de dificultad')
plt.xlabel('Nivel de dificultad')
plt.ylabel('Número de cursos')
plt.show()

# Gráfica de barras horizontal: Número de cursos por categoría
plt.figure(figsize=(10, 5))
df['Keyword'].value_counts().plot(kind='barh')
plt.title('Número de cursos por categoría')
plt.xlabel('Número de cursos')
plt.ylabel('Categoría')
plt.show()

# Gráfico de dispersión: Relación entre duración y número de revisiones
df['Review'] = df['Review'].str.replace(' reviews', '').str.replace(',', '').astype(float)  # Limpiar datos
plt.figure(figsize=(10, 5))
plt.scatter(df['Duration'].str.extract('(\d+)').astype(float), df['Review'])
plt.title('Relación entre duración del curso y número de revisiones')
plt.xlabel('Duración del curso (horas)')
plt.ylabel('Número de revisiones')
plt.show()

# Histograma: Distribución de las duraciones de los cursos
plt.figure(figsize=(10, 5))
df['Duration'].str.extract('(\d+)').astype(float).plot(kind='hist', bins=10)
plt.title('Distribución de las duraciones de los cursos')
plt.xlabel('Duración (horas)')
plt.ylabel('Frecuencia')
plt.show()

# Gráfico de cajas: Distribución de las calificaciones por nivel de dificultad
plt.figure(figsize=(10, 5))
df.boxplot(column='Rating', by='Level')
plt.title('Distribución de calificaciones por nivel de dificultad')
plt.suptitle('')  # Eliminar el título automático de boxplot
plt.xlabel('Nivel de dificultad')
plt.ylabel('Rating')
plt.show()


In [None]:
# Importar las bibliotecas necesarias
import nltk
from nltk.tokenize import word_tokenize
from nltk.corpus import stopwords
from nltk.stem import WordNetLemmatizer
from collections import Counter
from string import punctuation
import spacy
from textblob import TextBlob

# Descargar los recursos necesarios
nltk.download('punkt')
nltk.download('stopwords')
nltk.download('wordnet')

# Cargar el modelo de spaCy en español
nlp = spacy.load("es_core_news_sm")
nlp.max_length = len(data)

# Cargar el archivo de texto
with open("Coursera Comments.txt", "r", encoding="utf-8") as file:
    data = file.read()

# 1. Tokenización
tokens = word_tokenize(data)
print("Tokenización:", tokens[:10])
print("------------------------------------------------")

# 2. Lematización (remover signos de puntuación)
lemmatizer = WordNetLemmatizer()
lemmatized_words = [lemmatizer.lemmatize(word.lower()) for word in tokens if word.isalpha()]
print("Lematización:", lemmatized_words[:10])
print("------------------------------------------------")

# 3. Eliminar palabras vacías (stopwords)
spanish_stopwords = set(stopwords.words('spanish'))
filtered_words = [word for word in lemmatized_words if word not in spanish_stopwords]
print("Palabras después de eliminar palabras vacías:", filtered_words[:10])
print("------------------------------------------------")

# 4. Frecuencia de palabras
word_freq = Counter(filtered_words)
print("Palabras más comunes:", word_freq.most_common(10))
print("------------------------------------------------")

# 5. Análisis de sentimientos
blob = TextBlob(data)
sentimiento = blob.sentiment
print("Análisis de Sentimientos:")
print("Polaridad:", sentimiento.polarity)
print("Subjetividad:", sentimiento.subjectivity)
print("------------------------------------------------")

# 6. Reconocimiento de entidades nombradas con spaCy
doc = nlp(data)
entidades_nombradas = [(ent.text, ent.label_) for ent in doc.ents]
print("Entidades nombradas:", entidades_nombradas[:10])
print("------------------------------------------------")

# 7. Extraer entidades por tipo
entidades_personas = [ent.text for ent in doc.ents if ent.label_ == 'PER']
entidades_organizaciones = [ent.text for ent in doc.ents if ent.label_ == 'ORG']
entidades_fechas = [ent.text for ent in doc.ents if ent.label_ == 'DATE']

print("Entidades personas:", entidades_personas[:5])
print("Entidades organizaciones:", entidades_organizaciones[:5])
print("Entidades fechas:", entidades_fechas[:5])
print("------------------------------------------------")





## 📊 Explicación del Proceso de Análisis de Datos (Archivo .csv)

### 1. **Lectura del archivo CSV**
Primero cargamos el archivo CSV, que es un formato muy común para trabajar con datos estructurados. Es como una tabla en la que cada fila tiene diferentes valores separados por comas.

### 2. **Exploración de los datos**
Revisamos los datos para entender qué columnas tenemos y qué tipo de información está contenida. Es como dar una primera ojeada antes de empezar a trabajar en serio.

### 3. **Limpieza de datos**
Aquí eliminamos valores faltantes o duplicados y corregimos cualquier error que pudiera haber. Esto es crucial porque los datos "sucios" pueden arruinar el análisis.

### 4. **Análisis descriptivo**
Luego calculamos algunas estadísticas básicas, como promedios y frecuencias. Esto nos da una visión inicial de cómo están distribuidos los datos.

### 5. **Visualización de datos**
Creamos gráficos para ver mejor la información y descubrir patrones que no son tan fáciles de ver en tablas.

### 6. **Análisis avanzado**
Dependiendo de lo que se necesite, se puede hacer un análisis más profundo, como agrupar los datos o incluso hacer predicciones sobre el futuro usando modelos de machine learning.

### 7. **Conclusión de los resultados**
Finalmente, interpretamos todo lo que descubrimos para sacar conclusiones y hacer recomendaciones basadas en los datos.

---

## 📝 Explicación del Proceso de Análisis de Texto (Archivo .txt)

### 1. **Lectura del archivo**
Primero leímos el archivo completo en Python. Este paso es súper sencillo, pero muy importante, porque necesitamos tener todo el texto en una variable para poder trabajar con él.

### 2. **Tokenización**
Aquí separamos el texto en palabras individuales o "tokens". Esto nos permite analizar cada palabra por separado. Imagínate dividir una frase como "Hola, mundo" en dos palabras: "Hola" y "mundo".

### 3. **Lematización y Stemming**
Luego pasamos a la lematización, que es como reducir las palabras a su forma base. Por ejemplo, "corriendo" se convierte en "correr". Así podemos agrupar palabras similares y hacer un análisis más eficiente.

### 4. **Eliminación de palabras vacías**
En este paso eliminamos palabras que no aportan mucho al significado, como "de", "el", "la", etc. Esto ayuda a concentrarnos en las palabras que realmente importan en el texto.

### 5. **Frecuencia de palabras**
Después, contamos cuántas veces aparece cada palabra en el texto. Esto nos ayuda a identificar las palabras más comunes y a entender los temas más discutidos.

### 6. **Análisis de sentimientos**
Con el análisis de sentimientos, calculamos la polaridad y la subjetividad del texto. En otras palabras, ¿es un texto positivo o negativo? ¿Es objetivo o subjetivo? Esto nos da una idea de cómo se sienten los autores sobre los temas tratados.

### 7. **Reconocimiento de entidades nombradas**
Finalmente, identificamos entidades importantes, como nombres de personas, lugares, fechas, etc. Esto nos da una visión más estructurada del texto y permite identificar elementos clave.

---

# 🔍 Conclusión General

Después de hacer todo el análisis de texto, podemos decir que Python es una herramienta súper útil para trabajar con grandes cantidades de datos, sobre todo en temas de análisis de texto. Usando varias técnicas como **tokenización**, **lematización**, la eliminación de **palabras vacías** y el análisis de **sentimientos** y **entidades**, hemos logrado obtener información valiosa del archivo.

Python facilita mucho el trabajo cuando se trata de manipular textos, ya que tiene bibliotecas poderosas como **spaCy**, **NLTK**, y **TextBlob** que hacen casi todo el trabajo pesado por ti. Además, este análisis no solo te permite entender de qué trata un texto, sino que también te ayuda a obtener el "sentir" general de los autores de esos textos.

Al final del día, el poder de Python no se limita al análisis de texto, sino que también es ideal para manejar datos en general. Y lo mejor es que sigue mejorando, gracias a la comunidad y las herramientas que siempre se están actualizando.

---



💡 **En resumen**, Python no solo es poderoso, sino que también es súper flexible. Nos permite hacer de todo, desde el análisis de texto hasta trabajar con datos estructurados como tablas. Y lo mejor es que hay una biblioteca para casi cualquier cosa que necesites hacer. 🎉
