In [None]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt

In [None]:
%matplotlib inline

In [None]:
df = pd.read_csv('data.csv')
pd.set_option("display.max.columns", None)
df.head()

In [None]:
df.info()

#### Varianza:
La varianza es una medida de cuánto se dispersan los valores individuales en un conjunto de datos con respecto a la media. 

Una varianza alta indica que los valores tienden a estar más alejados de la media, mientras que una varianza baja significa que los valores están más cerca de la media. 

En otras palabras, nos da una idea de la variabilidad o propagación de los datos.

In [None]:
# Calcular la varianza del tiempo
varianza_tiempo = np.mean(df['Mediana'])
print(f"Media del tiempo: {varianza_tiempo:.2f}")

varianza_tiempo = np.var(df['Mediana'])
print(f"Varianza del tiempo: {varianza_tiempo:.2f}")

##### Covarianza:
La covarianza es una medida que describe cómo dos variables cambian juntas. 

Si la covarianza es positiva, significa que cuando una variable aumenta, la otra también tiende a aumentar. 

Si la covarianza es negativa, significa que cuando una variable aumenta, la otra tiende a disminuir. 

Si la covarianza es cercana a cero, indica que las dos variables no tienen una relación clara.


In [None]:
covarianza = np.cov(df['Mediana'], df['TasaDesempleo'])[0, 1]
print(f"Covarianza entre tiempo y calificación: {covarianza:.2f}")

El dataset contiene algunas columnas relacionadas con los ingresos de los graduados en cada especialidad:

* "Mediana" es la mediana de los ingresos de los trabajadores a tiempo completo durante todo el año.
* "P25" es el percentil 25 de los ingresos.
* "P75" es el percentil 75 de ingresos.
* "Rango" es el rango del mayor por ganancias medianas.


Percentiles:
Los percentiles son valores que dividen un conjunto de datos en partes iguales. El percentil P indica el valor por debajo del cual cae un porcentaje dado de los datos.

Ejemplo: Supongamos que tienes los salarios de un grupo de trabajadores. Si el salario de alguien está en el percentil 75, significa que ganan más que el 75% de los trabajadores en ese grupo.

In [None]:
#### Ejemplo

# Datos 
tiempos = np.array([20, 30, 35, 45, 60, 65, 70, 80, 85, 90])

# Calcular percentiles
percentiles = [25, 50, 75]
percentile_values = np.percentile(tiempos, percentiles)
print(percentile_values)

In [None]:
posicion = 100
percentile_values = [df['P25'][posicion], df['Mediana'][posicion], df['P75'][posicion]]
percentiles = [25, 50, 75]
dato_resaltado = 38000


print (percentile_values)
# Crear el gráfico de percentiles
plt.figure(figsize=(8, 6))
plt.plot(percentiles, percentile_values, marker='o', linestyle='-', color='b', label='Percentiles')
plt.scatter([50], [dato_resaltado], color='r', marker='o', label='Dato Resaltado')  # Marcador para el dato resaltado
plt.xlabel('Percentiles')
plt.ylabel('Valores')
plt.title('Gráfico de Percentiles con Dato Resaltado')
plt.xticks(percentiles, [f'{p}%' for p in percentiles])  # Etiquetas en el eje x
plt.legend()
plt.grid(True)
plt.show()

### Existen diferentes graficos que se pueden usar


* **area**        es para parcelas de área.
* **bar**         es para gráficos de barras verticales.
* **barh**        es para gráficos de barras horizontales.
* **box**         es para diagramas de caja.
* **hexbin**      es para diagramas de hexbin.
* **hist**        es para histogramas.
* **kde**         es para gráficos de estimación de densidad del kernel.
* **density**     es un alias para "kde".
* **line**        es para gráficos de líneas.
* **pie**         es para gráficos circulares.
* **scatter**     es para diagramas de dispersión.


In [None]:
df.plot(x="Rango", y=["P25", "Mediana", "P75"])
plt.show()

In [None]:
plt.plot(df["Rango"], df["P75"])

In [None]:
df.plot(x="Rango", y="P75")

## Distribuciones y Histograms

In [None]:
mediana = df["Mediana"]
type(mediana)

In [None]:
mediana.plot(kind="hist")

## Valores Atípicos

In [None]:
top_5 = df.sort_values(by="Mediana", ascending=False).head()

In [None]:
top_5.plot(x="Especialidad", y="Mediana", kind="bar", rot=5, fontsize=5)

#Esta gráfica muestra que el salario medio de los estudiantes de ingeniería petrolera es más de $20,000 más alto que el resto. Las ganancias de las carreras del segundo al cuarto lugar son relativamente similares entre sí.

In [None]:
top_medianas = df[df["Mediana"] > 60000].sort_values("Mediana")
top_medianas.plot(x="Especialidad", y=["P25", "Mediana", "P75"], kind="bar")

# Los percentiles 25 y 75 confirman que las carreras de ingeniería petrolera fueron, con mucho, los recién graduados mejor pagados.

## Comprobar correlación

La correlación trata de establecer la relación o dependencia que existe entre las dos variables 

un cambio en uno resulte en un cambio en el otro

In [None]:
df.plot(x="Mediana", y="TasaDesempleo", kind="scatter")

* correlación despreciable: r < |0.1|
* correlación baja: |0.1| < r <= |0.3|
* correlación mediana : |0.3| < r <= |0.5|
* correlación fuerte o alta: r > |0.5|

In [None]:
df_corr = df[["Mediana", "TasaDesempleo"]]
df_corr.corr()


# Analizar datos categóricos

In [None]:
cat_totales = df.groupby("CategoriaEspecialidad")["Total"].sum().sort_values()
cat_totales

In [None]:
cat_totales.plot(kind="barh", fontsize=6)

## Determinar Ratios

In [None]:
total_cat_pequenas = cat_totales[cat_totales < 100_000]
total_cat_grandes = cat_totales[cat_totales > 100_000]

suma_pequenas = pd.Series([total_cat_pequenas.sum()], index=["OTROS"])
total_cat_grandes = total_cat_grandes.add(suma_pequenas, fill_value=0)

total_cat_grandes.plot(kind="pie", label="", fontsize=6)