In [None]:
import pandas as pd 
import numpy as np 
import matplotlib.pyplot as plt

In [None]:
data=pd.read_excel('Data\\UCS-Satellite-Database-1-1-2023.xlsx')

In [None]:
# Establecer la opción para mostrar todas las columnas
pd.set_option('display.max_columns', None)

In [None]:
data.head(4)

In [None]:
data.info()

In [None]:
data.describe()

In [None]:
#crear data para ver si tengo nulos
nulos_por_columna =data.isnull().sum()

In [None]:
# Filtrar y mostrar solo las columnas con valores nulos
columnas_con_nulos = nulos_por_columna[nulos_por_columna > 0]
print(columnas_con_nulos)

In [None]:
# Obtener las columnas que comienzan con 'Unnamed'
columnas_unnamed = [col for col in data.columns if 'Unnamed' in col]

# Eliminar las columnas 'Unnamed' del DataFrame
data_sin_unnamed = data.drop(columns=columnas_unnamed)


In [None]:

# Verificar el nuevo conjunto de datos sin las columnas 'Unnamed'
data_sin_unnamed.info()

In [None]:
data2=data_sin_unnamed

In [None]:
data2.head(1)

In [None]:
eliminar_columnas=['Comments','Source Used for Orbital Data','Name of Satellite, Alternate Names','Source','Source.1','Source.2','Source.3','Source.4','Source.5','Source.6']

In [None]:
data3=data2.drop(columns=eliminar_columnas)

In [None]:
data3.head(2)

In [None]:
data3.columns

In [None]:
# crear nuevo dataframe con informacion relevante
columnas_seleccionadas = ['Current Official Name of Satellite', 'Country/Org of UN Registry',
       'Country of Operator/Owner', 'Operator/Owner', 'Users', 'Purpose',
       'Detailed Purpose','Launch Mass (kg.)', 'Dry Mass (kg.)', 'Power (watts)',
       'Date of Launch', 'Expected Lifetime (yrs.)', 'Contractor',
       'Country of Contractor', 'Launch Site', 'Launch Vehicle',]
nuevo_df = data3[columnas_seleccionadas].copy()

In [None]:
nuevo_df.head(2)

In [None]:
nuevo_df.to_csv('satelites', index=False)

In [None]:
# Reemplaza todos los valores '11/29/018' con '2018-11-29' en la columna 'Date of Launch'
nuevo_df.loc[nuevo_df['Date of Launch'] == '11/29/018', 'Date of Launch'] = '2018-11-29'

# Convierte la columna 'Date of Launch' a tipo datetime
nuevo_df['Date of Launch'] = pd.to_datetime(nuevo_df['Date of Launch'], errors='coerce')


In [None]:
# Convertir la columna 'Date of Launch' a tipo datetime
#nuevo_df['Date of Launch'] = pd.to_datetime(nuevo_df['Date of Launch'])

# Extraer el año de la columna 'Date of Launch'
nuevo_df['Launch Year'] = nuevo_df['Date of Launch'].dt.year

# Crear un histograma de los lanzamientos por año
plt.figure(figsize=(10, 6))
nuevo_df['Launch Year'].hist(bins=20, color='skyblue', edgecolor='black')
plt.xlabel('Año de Lanzamiento')
plt.ylabel('Cantidad de Satélites Lanzados')
plt.title('Histograma de Lanzamiento de Satélites por Año')
plt.grid(False)
plt.show()


In [None]:
# Contar la cantidad de satélites por país propietario
satelites_por_pais = nuevo_df['Country of Operator/Owner'].value_counts()

# Limitar el número de países mostrados en el gráfico (opcional)
top_paises = 10  # Puedes cambiar esto para mostrar más o menos países
satelites_top_paises = satelites_por_pais.head(top_paises)

# Crear el gráfico de barras
plt.figure(figsize=(10, 6))
satelites_top_paises.plot(kind='bar', color='skyblue')
plt.xlabel('Países Propietarios')
plt.ylabel('Cantidad de Satélites')
plt.title('Cantidad de Satélites por País Propietario (Top 10)')
plt.xticks(rotation=45)  # Rotar etiquetas del eje x para mejor legibilidad
plt.tight_layout()
plt.show()


In [None]:
# Contar los valores únicos en la columna 'Purpose'
conteo_propositos = nuevo_df['Purpose'].value_counts()

# Filtrar para mostrar solo aquellos propósitos que superan el 1%
conteo_propositos = conteo_propositos[conteo_propositos / len(nuevo_df) * 100 > 0.5]

# Configurar los datos para el gráfico de pastel
labels = conteo_propositos.index
sizes = conteo_propositos.values

# Crear el gráfico de pastel con mejor presentación
plt.figure(figsize=(8, 8))
plt.pie(sizes, labels=None, autopct='%1.1f%%', startangle=140)
plt.title('Propósitos de los Satélites')

# Mostrar porcentajes fuera del gráfico con una buena ubicación
plt.legend(labels, loc="best", bbox_to_anchor=(1, 0.5))

plt.axis('equal')  # Hace que el gráfico sea un círculo en lugar de una elipse
plt.show()


In [None]:
# Contar los satélites lanzados por cada país
conteo_paises = nuevo_df['Country of Operator/Owner'].value_counts()

print(conteo_paises)

In [None]:
# Contar los satélites lanzados por cada país
conteo_paises = nuevo_df['Country of Operator/Owner'].value_counts()

print(conteo_paises)

In [None]:
# Contar los satélites lanzados por cada país
conteo_paises = nuevo_df['Country of Operator/Owner'].value_counts()

# Filtrar para mostrar solo los países que enviaron más de 10 satélites
conteo_paises_filtrado = conteo_paises[conteo_paises > 10]

# Crear el gráfico de barras para los países que enviaron más de 10 satélites
plt.figure(figsize=(10, 6))
conteo_paises_filtrado.plot(kind='bar')
plt.title('Países que Enviaron Más de 10 Satélites')
plt.xlabel('País')
plt.ylabel('Cantidad de Satélites')
plt.xticks(rotation=45)  # Rotar etiquetas del eje x para mejor legibilidad
plt.grid(axis='y')  # Mostrar líneas de la cuadrícula en el eje y
plt.tight_layout()
plt.show()


In [None]:
# Contar los satélites enviados por cada país
conteo_paises = nuevo_df['Country of Operator/Owner'].value_counts()

# Obtener el número de satélites enviados por Argentina y España
satelites_argentina = conteo_paises.get('Argentina', 0)
satelites_espana = conteo_paises.get('Spain', 0)

print(f"Argentina envió {satelites_argentina} satélites.")
print(f"España envió {satelites_espana} satélites.")


In [None]:
# Contar los lanzamientos desde cada sitio específico y los países responsables
lanzamientos_por_sitio = nuevo_df.groupby('Launch Site')['Country of Operator/Owner'].value_counts().reset_index(name='Lanzamientos')

# Encontrar el país con más lanzamientos desde cada sitio
paises_max_lanzamientos_por_sitio = lanzamientos_por_sitio.groupby('Launch Site').agg({'Country of Operator/Owner': lambda x: x.iloc[0]}).reset_index()

print(paises_max_lanzamientos_por_sitio)


In [None]:
# Calcular la esperanza de vida promedio por país
esperanza_vida_por_pais = nuevo_df.groupby('Country of Operator/Owner')['Expected Lifetime (yrs.)'].mean().reset_index()
esperanza_vida_por_pais = esperanza_vida_por_pais.dropna()  # Eliminar NaN si hay valores faltantes

# Ordenar los países por su esperanza de vida promedio de los satélites
esperanza_vida_por_pais = esperanza_vida_por_pais.sort_values(by='Expected Lifetime (yrs.)', ascending=False)

print(esperanza_vida_por_pais)


In [None]:
# Contar los lanzamientos desde cada sitio específico
conteo_lanzamientos = nuevo_df['Launch Site'].value_counts()

# Filtrar aquellos con más del 1% de participación
umbral = 0.01
conteo_filtado = conteo_lanzamientos[conteo_lanzamientos / conteo_lanzamientos.sum() > umbral]

# Configurar el gráfico de pastel
plt.figure(figsize=(8, 8))
plt.pie(conteo_filtado, labels=conteo_filtado.index, autopct='%1.1f%%', startangle=140)
plt.title('Porcentaje de lanzamientos por sitio (más del 1%)')
plt.axis('equal')  # Aspecto de círculo
plt.tight_layout()
plt.show()


In [None]:
# Crear un diccionario que mapea los sitios de lanzamiento con sus respectivos países
sitios_paises = nuevo_df.groupby('Launch Site')['Country of Contractor'].unique().apply(lambda x: x[0])

# Contar los lanzamientos desde cada sitio específico
conteo_lanzamientos = nuevo_df['Launch Site'].value_counts()

# Filtrar aquellos con más del 1% de participación
umbral = 0.01
conteo_filtado = conteo_lanzamientos[conteo_lanzamientos / conteo_lanzamientos.sum() > umbral]

# Obtener los países correspondientes a los sitios de lanzamiento filtrados
paises_filtados = sitios_paises[conteo_filtado.index]

# Configurar el gráfico de pastel con información adicional de países
plt.figure(figsize=(8, 8))
plt.pie(conteo_filtado, labels=[f"{site} ({country})" for site, country in zip(conteo_filtado.index, paises_filtados)],
        autopct='%1.1f%%', startangle=140)
plt.title('Porcentaje de lanzamientos por sitio (más del 1%) con país correspondiente')
plt.axis('equal')  # Aspecto de círculo
plt.tight_layout()
plt.show()


In [None]:
# Calcular la esperanza de vida promedio por país
esperanza_vida_por_pais = nuevo_df.groupby('Country of Operator/Owner')['Expected Lifetime (yrs.)'].mean().dropna()

# Ordenar los países por la esperanza de vida promedio de los satélites
esperanza_vida_por_pais = esperanza_vida_por_pais.sort_values(ascending=False)

# Graficar la esperanza de vida promedio por país
plt.figure(figsize=(10, 6))
esperanza_vida_por_pais.head(10).plot(kind='bar', color='skyblue')
plt.title('Esperanza de vida promedio de satélites por país (Top 10)')
plt.xlabel('País')
plt.ylabel('Esperanza de vida promedio (años)')
plt.xticks(rotation=45)
plt.tight_layout()
plt.show()


In [None]:
# Contar valores únicos en la columna 'Users'
conteo_usuarios = nuevo_df['Users'].value_counts()

# Filtrar para mostrar solo aquellos tipos de usuario que superen el 1%
conteo_usuarios = conteo_usuarios[conteo_usuarios / len(nuevo_df) * 100 > 1]

# Configurar los datos para el gráfico de pastel
labels = conteo_usuarios.index
sizes = conteo_usuarios.values

# Crear el gráfico de pastel con mejor presentación
plt.figure(figsize=(8, 8))
plt.pie(sizes, labels=labels, autopct='%1.1f%%', startangle=140)
plt.title('Tipos de Usuarios de Satélites')

# Mostrar porcentajes fuera del gráfico con una buena ubicación
plt.legend(labels, loc="best", bbox_to_anchor=(1, 0.5))

plt.axis('equal')  # Hace que el gráfico sea un círculo en lugar de una elipse
plt.show()

In [None]:
# Contar valores únicos en la columna 'Operator/Owner'
conteo_propietarios = nuevo_df['Operator/Owner'].value_counts()

# Filtrar para mostrar solo aquellos propietarios que superen el 1%
conteo_propietarios = conteo_propietarios[conteo_propietarios / len(nuevo_df) * 100 > 1]

# Configurar los datos para el gráfico de pastel
labels = conteo_propietarios.index
sizes = conteo_propietarios.values

# Crear el gráfico de pastel con mejor presentación
plt.figure(figsize=(8, 8))
plt.pie(sizes, labels=labels, autopct='%1.1f%%', startangle=140)
plt.title('Propietarios de Satélites')

# Mostrar porcentajes fuera del gráfico con una buena ubicación
plt.legend(labels, loc="best", bbox_to_anchor=(1, 0.5))

plt.axis('equal')  # Hace que el gráfico sea un círculo en lugar de una elipse
plt.show()

In [None]:
# Contar valores únicos en la columna 'Launch Vehicle'
conteo_vehiculos_lanzamiento = nuevo_df['Launch Vehicle'].value_counts()

# Filtrar para mostrar solo aquellos vehículos que superen el 1%
conteo_vehiculos_lanzamiento = conteo_vehiculos_lanzamiento[conteo_vehiculos_lanzamiento / len(nuevo_df) * 100 > 1]

# Configurar los datos para el gráfico de pastel
labels = conteo_vehiculos_lanzamiento.index
sizes = conteo_vehiculos_lanzamiento.values

# Crear el gráfico de pastel con mejor presentación
plt.figure(figsize=(8, 8))
plt.pie(sizes, labels=labels, autopct='%1.1f%%', startangle=140)
plt.title('Vehículos de Lanzamiento')

# Mostrar porcentajes fuera del gráfico con una buena ubicación
plt.legend(labels, loc="best", bbox_to_anchor=(1, 0.5))

plt.axis('equal')  # Hace que el gráfico sea un círculo en lugar de una elipse
plt.show()