## Import necesarios

In [1]:
from pyspark.sql import SparkSession

In [2]:
from pyspark.sql.functions import col, sum

In [3]:
import matplotlib.pyplot as plt

In [4]:
import seaborn as sns

In [5]:
from pyspark.sql.functions import desc, asc

In [6]:
pip install folium


Collecting folium
  Downloading folium-0.19.5-py2.py3-none-any.whl.metadata (4.1 kB)
Collecting branca>=0.6.0 (from folium)
  Downloading branca-0.8.1-py3-none-any.whl.metadata (1.5 kB)
Downloading folium-0.19.5-py2.py3-none-any.whl (110 kB)
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m110.9/110.9 kB[0m [31m2.5 MB/s[0m eta [36m0:00:00[0m [36m0:00:01[0m
[?25hDownloading branca-0.8.1-py3-none-any.whl (26 kB)
Installing collected packages: branca, folium
Successfully installed branca-0.8.1 folium-0.19.5
Note: you may need to restart the kernel to use updated packages.


In [7]:
pip install plotly

Collecting plotly
  Downloading plotly-6.0.0-py3-none-any.whl.metadata (5.6 kB)
Collecting narwhals>=1.15.1 (from plotly)
  Downloading narwhals-1.28.0-py3-none-any.whl.metadata (10 kB)
Downloading plotly-6.0.0-py3-none-any.whl (14.8 MB)
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m14.8/14.8 MB[0m [31m15.8 MB/s[0m eta [36m0:00:00[0m00:01[0m00:01[0m
[?25hDownloading narwhals-1.28.0-py3-none-any.whl (308 kB)
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m308.9/308.9 kB[0m [31m12.7 MB/s[0m eta [36m0:00:00[0m
[?25hInstalling collected packages: narwhals, plotly
Successfully installed narwhals-1.28.0 plotly-6.0.0
Note: you may need to restart the kernel to use updated packages.


In [8]:
import folium
from folium.plugins import HeatMap

## Creación de la sesión de Spark

In [9]:
spark = SparkSession.builder\
    .master("spark://spark-master:7077")\
    .appName("eda")\
    .config("spark.executor.memory", "2g")\
    .config("spark.executor.cores", "2")\
    .getOrCreate()

print(spark.sparkContext.master)


spark://spark-master:7077


In [10]:
spark

## Lectura de datasets

## Análisis Exploratorio de los Datos

In [None]:
df.show(10)

In [None]:
df.count()  # Cantidad total de registros

In [None]:
df.printSchema()  # Muestra el esquema de las columnas y tipos de datos

In [None]:
#contar filas y columnas
print(f"Filas: {df.count()}, Columnas: {len(df.columns)}")

In [None]:
df.describe().show()  # Estadísticas básicas de todas las columnas numéricas

In [None]:
df.sort("year").show()  # Valores únicos de una columna

## Nulos

In [None]:
df.select([sum(col(c).isNull().cast("int")).alias(c) for c in df.columns]).show() #Para ver cuántos valores nulos tiene cada columna:

In [None]:
df_filter = df.filter(
    col("year").isNull() & col("reclat").isNull() & col("reclong").isNull()
)


In [None]:
df_filter.show()

In [None]:
#Para las variables categóricas, contamos las ocurrencias:
df.groupBy("fall").count().show()


esto nos dice que hay mas registros de personas que encontraron los meteoritos, que personas que lo vieron caer

In [None]:
df.groupBy("recclass").count().orderBy(col("count").desc()).show(10)

Esto nos dice que hay mas meteoritos del tipo L6 

In [None]:
# Convertir a Pandas para visualización
df_pandas = df.select("mass (g)").toPandas()

# Filtramos valores atípicos para mejor visualización
df_pandas = df_pandas[df_pandas["mass (g)"] < 5000]

# Graficamos
plt.figure(figsize=(10,5))
sns.histplot(df_pandas["mass (g)"], bins=50, kde=True)
plt.xlabel("Masa (g)")
plt.ylabel("Frecuencia")
plt.title("Distribución de la Masa de los Meteoritos")
plt.show()

In [None]:
# Filtramos coordenadas válidas
df_geo = df.select("reclat", "reclong").dropna().toPandas()

# Crear mapa
m = folium.Map(location=[0, 0], zoom_start=2)

# Añadir puntos de calor
HeatMap(df_geo.values, radius=8).add_to(m)

# Mostrar mapa
m

1) transformaciones de tipo de dato
2) para eliminar nulos df = df.dropna()
3) para transformar nulos df = df.fillna({"nombre_de_columna": "valor_predeterminado"})


In [None]:
from pyspark.sql.functions import col, count
import pandas as pd
import plotly.express as px

# Contar la cantidad de ocurrencias por categoría en "recclass"
df_counts = df.groupBy("recclass").agg(count("*").alias("count"))

# Ordenar de mayor a menor y seleccionar las 40 primeras clases
df_counts = df_counts.orderBy(col("count").desc()).limit(40)

# Convertir el DataFrame de Spark a Pandas
pdf = df_counts.toPandas()

# Graficar con Plotly
fig = px.bar(pdf, x="recclass", y="count")
fig.show()
