| ![Isaac Zainea](https://raw.githubusercontent.com/Izainea/Izainea.github.io/master/logo.png) | Curso de Introducción a la Analítica de Datos | Isaac Zainea |
|:---:|:---:|:---:|

# Introducción a la Estadística y Exploración de Datos con Pandas

## Tabla de Contenidos

1. [Introducción y Motivación](#introducción-y-motivación)
2. [Objetivos](#objetivos)
3. [Sección 1: Conceptos fundamentales de estadística](#sección-1-conceptos-fundamentales-de-estadística)
4. [Sección 2: Tipos de datos](#sección-2-tipos-de-datos)
5. [Sección 3: Medidas de tendencia central](#sección-3-medidas-de-tendencia-central)
6. [Sección 4: Medidas de dispersión](#sección-4-medidas-de-dispersión)
8. [Sección 5: Exploración de datos con Pandas](#sección-5-exploración-de-datos-con-pandas)


## Introducción y Motivación

La estadística y la exploración de datos desempeñan un papel fundamental en el análisis de datos y en la toma de decisiones basadas en evidencias. En la era de la información en la que vivimos, la cantidad de datos generados cada día es abrumadora. Estos datos contienen valiosa información que puede ayudarnos a comprender fenómenos, identificar patrones y tomar decisiones informadas.

La capacidad de manipular y analizar datos de manera efectiva se ha vuelto esencial en diversos campos, desde la investigación científica hasta el mundo empresarial y gubernamental. Aquí es donde entra en juego la librería Pandas. Pandas es una poderosa herramienta de análisis y manipulación de datos en Python que nos permite realizar tareas como limpieza, transformación y exploración de datos de manera eficiente.

En este cuaderno, exploraremos los conceptos fundamentales de la estadística y cómo aplicarlos utilizando la librería Pandas. Aprenderemos sobre las medidas de tendencia central, las medidas de dispersión y las distribuciones de probabilidad. Además, descubriremos cómo Pandas nos permite realizar tareas como la carga y selección de datos, el filtrado y la agregación, y la visualización de datos. Al final de este cuaderno, estarás equipado con los conocimientos necesarios para comenzar a explorar y analizar datos utilizando Pandas.

## Objetivos

En este cuaderno, se persiguen los siguientes objetivos:

- Comprender los conceptos fundamentales de la estadística y su importancia en el análisis de datos.
- Familiarizarse con los diferentes tipos de datos y cómo se manejan en el análisis estadístico.
- Conocer las medidas de tendencia central y dispersión utilizadas para describir y resumir los datos.
- Aprender a utilizar la librería Pandas para realizar la exploración de datos y manipulación de datos en Python.


## Sección 1: Conceptos fundamentales de estadística

En esta sección, exploraremos los conceptos fundamentales de la estadística y su importancia en el análisis de datos. Comenzaremos por comprender qué es la estadística y cómo se aplica en diferentes campos.

### 1.1 ¿Qué es la estadística?

La estadística es una disciplina que se encarga de recolectar, organizar, analizar e interpretar datos. Su objetivo es obtener conclusiones y tomar decisiones basadas en evidencias proporcionadas por los datos. La estadística nos permite resumir y describir características de un conjunto de datos, identificar patrones y tendencias, realizar inferencias y estimaciones, y evaluar la incertidumbre asociada a los resultados.

### 1.2 Aplicaciones de la estadística

La estadística tiene numerosas aplicaciones en diferentes campos, como la investigación científica, la planificación y gestión empresarial, la salud, la economía, la ingeniería, entre otros. En cada uno de estos campos, la estadística ayuda a tomar decisiones informadas y a comprender fenómenos complejos a través del análisis y la interpretación de datos.

### 1.3 Métodos estadísticos

En el análisis estadístico, se utilizan diversos métodos para recopilar, organizar y analizar los datos. Estos métodos incluyen la recopilación de datos a través de muestreo o experimentación, la aplicación de técnicas de análisis descriptivo y exploratorio, la realización de pruebas de hipótesis y la construcción de modelos estadísticos.

### 1.4 Pandas

Pandas es una librería popular en Python para el análisis y manipulación de datos. Sus estructuras de datos flexibles, especialmente los DataFrames, son ideales para trabajar con conjuntos de datos tabulares.

Razones por las que Pandas es útil en estadística y análisis de datos:

1. **Manipulación y limpieza de datos**: Ofrece funciones para limpiar y manipular datos, como eliminar duplicados, manejar valores faltantes y filtrar subconjuntos de datos.

2. **Exploración y visualización de datos**: Permite realizar análisis exploratorio y visualizar datos con estadísticas descriptivas, gráficos y análisis de correlación.

3. **Análisis estadístico**: Incluye funciones para calcular medidas de tendencia central, dispersión, realizar pruebas de hipótesis y análisis de regresión.

4. **Integración con otras librerías**: Se integra fácilmente con NumPy, Matplotlib y librerías especializadas en estadística, como SciPy y StatsModels.

A continuación, se muestra una celda de código para importar Pandas y cargar un archivo de datos en un DataFrame:

```python
import pandas as pd

# Cargar archivo de datos en un DataFrame
df = pd.read_csv('archivo.csv')

# Realizar operaciones y análisis con el DataFrame
# ...

In [None]:
import pandas as pd

# Cargamos el dataset de empleados guardado en "https://raw.githubusercontent.com/Izainea/introduccion-analitica-datos/master/02-estadisticas-basicas-exploracion-datos/datos/datos_empleados.csv"

DF_salarios=pd.read_csv("https://raw.githubusercontent.com/Izainea/introduccion-analitica-datos/master/02-estadisticas-basicas-exploracion-datos/datos/datos_empleados.csv")

DF_salarios

## Sección 2: Tipos de datos

En esta sección, exploraremos los diferentes tipos de datos y cómo se manejan en el análisis estadístico. Comenzaremos por comprender qué es un dato y cómo se clasifican.

### 2.1 ¿Qué es un dato?

Un dato es una representación simbólica de una cantidad, hecho o concepto. Los datos pueden ser numéricos o categóricos. Los datos numéricos representan cantidades y se pueden expresar en forma de números. Los datos categóricos representan características y se pueden expresar en forma de etiquetas o categorías.

### 2.2 Tipos de datos

Los datos numéricos se pueden clasificar en dos tipos: datos discretos y datos continuos. Los datos discretos son valores numéricos que se pueden contar, como el número de estudiantes en una clase o el número de autos en un estacionamiento. Los datos continuos son valores numéricos que se pueden medir, como la altura de una persona o la temperatura de un día.

Los datos categóricos se pueden clasificar en dos tipos: datos ordinales y datos nominales. Los datos ordinales son valores categóricos que se pueden ordenar o clasificar, como el nivel de educación de una persona o el estado civil. Los datos nominales son valores categóricos que no se pueden ordenar o clasificar, como el género de una persona o el color de un automóvil.


### 2.3 Tipos de Variable
<img src="https://antoninoapp.shinyapps.io/semana2/_w_4c286c0d/www/variable.png"  width="200" height="150">

Existen dos tipos básicos de variables:


Cuando la característica que se estudia es de naturaleza no numérica, recibe el nombre de variable **cualitativa** o **atributo**. Algunos ejemplos de variables cualitativas son:

1.  Sexo (Masculino, Femenino)<img src="https://antoninoapp.shinyapps.io/semana2/_w_4c286c0d/www/hombre.png"  width="40" height="30"> <img src="https://antoninoapp.shinyapps.io/semana2/_w_4c286c0d/www/mujer.png"  width="40" height="30">
2.  Deporte favorito (fútbol, Baloncesto, ...) <img src="https://antoninoapp.shinyapps.io/semana2/_w_4c286c0d/www/futbol.png"  width="40" height="30"><img src="https://antoninoapp.shinyapps.io/semana2/_w_4c286c0d/www/baloncesto.png"  width="40" height="30">

Cuando los datos son de naturaleza cualitativa, importa la cantidad o proporción que caen dentro de cada categoría. Por ejemplo, ¿qué porcentaje de mujeres hay?

¿Cuántos hinduismos o cuántos islamistas hay en Colombia? ¿Cuántos automóviles deporivos hay en una ciudad?

Cuando la variable que se estudia aparece en forma numérica, se le denomina variable **cuantitativa**. Ejemplos de variables cuantitativas son:

1.  El saldo en su cuenta de cheques.<img src="https://antoninoapp.shinyapps.io/semana2/_w_4c286c0d/www/cheques.png"  width="40" height="30">
2.  Las edades de los presidentes de la compañía.<img src="https://antoninoapp.shinyapps.io/semana2/_w_4c286c0d/www/edades.png"  width="40" height="30">

Las variables cuantitativas pueden ser discretas cuanto adoptan sólo ciertos valores y existen vacíos entre ellos. Ejemplos de variables discretas son:

1.  El número de camas en una casa (1, 2, 3, 4, $\dots$).
2.  El número de automóviles que en una hora usan la avenida principal.

o continuas toman cualquier valor dentro de un intervalo específico. Ejemplos de variables continuas son:

1.  La presión del aire en una llanta y el peso de un cargamento de tomates
2.  La cantidad de cereal con pasas que contiene una caja y la duración de los vuelos de Orlando a San Diego.

Por lo general las variables continuas son el resultado de mediciones.

## Escalas de medida

<img src="https://antoninoapp.shinyapps.io/semana2/_w_4c286c0d/www/escala.png"  width="70" height="40">

Los datos se clasifican por niveles de medición. El nivel de medición de los datos rige los cálculos que se llevan a cabo con el fin de resumir y presentar los datos.

Por ejemplo, en una bolsa de M&M hay lunetas de seis diferentes colores. Suponga que asigna el 1 al café, el 2 al amarillo, el 3 al azul, el 4 al naranja, el 5 al verde y el 6 al rojo. Sume la cantidad de lunetas que hay en una bolsa, la divide entre el número de lunetas e informa que el color promedio es 3.56.

¿Significa que el color promedio es azul o anaranjado? Desde luego que no. En este caso no se usó de manera adecuada la escala de medida.

De hecho, existen cuatro niveles de medición: nominal, ordinal, de intervalo y de razón. La medición más baja, o más primaria, corresponde al nivel nominal. La más alta, o el nivel que proporciona la mayor información relacionada con la observación, es la medición de razón.

**Escala Nominal**<img src="https://antoninoapp.shinyapps.io/semana2/_w_4c286c0d/www/nombre.png"  width="40" height="30">

En el caso del nivel nominal de medición, las observaciones acerca de una variable cualitativa sólo se clasifican y se cuentan. No existe una forma particular para ordenar las etiquetas.

**Escala ordinal** <img src="https://antoninoapp.shinyapps.io/semana2/_w_4c286c0d/www/orden.png"  width="40" height="30">

Hay un orden de las posibles categorías de respuesta, aunque no es posiblecuantificar la diferencia exacta entre las opciones de respuesta. Por ejemplo, la diferencia entre respuestas como Muy satisfecho y Satisfecho es relativa, no exacta.

**Escala de intervalo** <img src="https://antoninoapp.shinyapps.io/semana2/_w_4c286c0d/www/intervalo-de-fechas.png"  width="40" height="30">

Incluye todas las características del nivel ordinal, pero, además, la diferencia entre valores constituye una magnitud constante. Un ejemplo de nivel de intervalo de medición es la temperatura.Es importante destacar que 0 es un punto de referencia. Por ejemplo

**Escala de razón** <img src="https://antoninoapp.shinyapps.io/semana2/_w_4c286c0d/www/0.png"  width="40" height="30">

Todos los datos cuantitativos son registrados en el nivel de razón de la medición. El nivel de razón es el más alto. Posee todas las características del nivel de intervalo, aunque, además, el punto 0 tiene sentido y la razón entre dos números es significativa. Ejemplos de la escala de razón de medición incluyen salarios, unidades de producción, peso, cambios en los precios de las acciones, la distancia entre sucursales y la altura. El dinero ilustra bien el caso.

::: 
<img src="https://raw.githubusercontent.com/jazaineam1/Script-B-sicos/master/Cuadernos%20r/escalas.JPG" width="500"/>
:::





**¿Cuál de las siguientes variables es cuantitativa y continua?**

In [None]:
tipo = "Número de hijos" #@param ["Número de hijos", "Personas que habitan un hogar", "Tiempo de espera en una casa", "Estrato socioeconómico"] {allow-input: true}


**¿Cuál de las siguientes variableses cualitativa?**

In [1]:
tipo = "Porcentaje de personas con cabello negro" #@param ["Porcentaje de personas con cabello negro", "Cantidad de habitaciones en una casa", "Número de hermanos de una persona", "Nivel de estudios (Primaria, Secundaria, entre otras)"]


**¿Qué escala de medida tiene el estrato?**

In [None]:
escala = "Nomimal" #@param ["Nomimal", "Ordinal", "De intervalo", "De razón"]


**¿Qué escala de medida tiene el tiempo de espera en un fila?**

In [None]:
escala = "Nomimal" #@param ["Nomimal", "Ordinal", "De intervalo", "De razón"]



### 2.4 Pandas

Pandas ofrece diferentes tipos de datos para representar datos numéricos y categóricos. Los tipos de datos numéricos incluyen int64, float64 y bool. Los tipos de datos categóricos incluyen category y object.

A continuación, se muestra una celda de código para identificar los tipos de datos de un DataFrame:

```python
# Identificar tipos de datos
df.dtypes
```

Con el DataFrame del ejemplo anterior tenemos: 

In [None]:
### Tipos de datos DF_salarios
DF_salarios.dtypes

No obstante, tambien podemos usar el siguiente comando para obtener un resumen de los datos:

```python
# Resumen de los datos
df.info()
```

In [None]:
DF_salarios.info()

En la base de datos vamos a introucir la siguiente información:

| Variable | Descripción | Tipo de dato |
|:---:|:---:|:---:|
| `Fecha de entrada` | Fecha de entrada del empleado | `datetime64` |


In [None]:
## Escribimos las 25 fechas de entrada:

fechas = [
    '2022-09-15', '2021-06-25', '2023-03-10', '2022-11-07', '2023-01-18',
    '2021-08-29', '2022-07-02', '2023-04-05', '2021-12-12', '2022-10-23',
    '2023-02-04', '2021-07-07', '2022-06-16', '2023-03-21', '2022-11-30',
    '2023-01-09', '2021-09-20', '2022-07-22', '2023-04-27', '2021-12-03',
    '2022-10-14', '2023-02-24', '2021-07-28', '2022-06-05', '2023-03-16' ]
### Creamos la nueva variable "fecha_entrada" con las fechas de entrada
DF_salarios['fecha_entrada'] = fechas

Veamos los tipos de datos de este DataFrame, sera claro que el tipo de dato de la columna `Fecha de entrada` es `object`. Usaremos el siguiente comando para cambiar el tipo de dato de esta columna:

```python
# Cambiar tipo de dato de la columna 'Fecha de entrada'
df['Fecha de entrada'] = pd.to_datetime(df['Fecha de entrada'])
```

In [None]:
DF_salarios.info()

In [None]:
DF_salarios['fecha_entrada'] = pd.to_datetime(DF_salarios['fecha_entrada'])
DF_salarios.info()

Finalmente, si quisieramos identificar las columnas que contienen datos categóricos, podemos usar el siguiente comando:

```python
# Identificar columnas con datos categóricos
df.select_dtypes(include=['category', 'object']).columns
```

In [None]:
DF_salarios.select_dtypes(include=['category','object']).columns

Otra función, diferente de pd.to_datetime, que nos permite cambiar el tipo de dato de una columna es as_type. Esta función nos permite cambiar el tipo de dato de una columna a un tipo de dato específico. Por ejemplo, si quisieramos cambiar el tipo de dato de la columna `id` a `str`, podemos usar el siguiente comando:

```python
# Cambiar tipo de dato de la columna 'id' a 'str'
df['id'] = df['id'].astype('str')
```

In [None]:
DF_salarios['id']=DF_salarios['id'].astype('str')
DF_salarios.dtypes

## Sección 3: Medidas de tendencia central

En esta sección, exploraremos las medidas de tendencia central y cómo se utilizan para describir y resumir los datos. Comenzaremos por comprender qué es una medida de tendencia central y cómo se calcula.

### 3.1 ¿Qué es una medida de tendencia central?

Una medida de tendencia central es un valor que representa el centro de un conjunto de datos. Las medidas de tendencia central se utilizan para describir y resumir los datos. Las medidas de tendencia central más comunes son la media, la mediana y la moda.

### 3.2 Media

La media es la suma de todos los valores dividida por el número de valores. La media se utiliza para describir la tendencia central de un conjunto de datos. La media se puede calcular utilizando la siguiente fórmula:

$$\bar{x} = \frac{1}{n} \sum_{i=1}^{n} x_i$$

donde $x_i$ es el valor de la i-ésima observación y $n$ es el número de observaciones.

### 3.3 Mediana

La mediana es el valor medio de un conjunto de datos ordenados. La mediana se utiliza para describir la tendencia central de un conjunto de datos. La mediana se puede calcular utilizando la siguiente fórmula:

$$\tilde{x} = \begin{cases} x_{\frac{n+1}{2}} & \text{si } n \text{ es impar} \\ \frac{1}{2} \left( x_{\frac{n}{2}} + x_{\frac{n}{2}+1} \right) & \text{si } n \text{ es par} \end{cases}$$

donde $x_i$ es el valor de la i-ésima observación y $n$ es el número de observaciones.

### 3.4 Moda

La moda es el valor que ocurre con mayor frecuencia en un conjunto de datos. La moda se utiliza para describir la tendencia central de un conjunto de datos. La moda se puede calcular utilizando la siguiente fórmula:

$$\hat{x} = \underset{x_i}{\operatorname{argmax}} \sum_{i=1}^{n} \mathbb{1}_{\{x_i = x\}}$$

donde $x_i$ es el valor de la i-ésima observación y $n$ es el número de observaciones.

### 3.5 Pandas

Pandas ofrece funciones para calcular la media, la mediana y la moda de un conjunto de datos. Estas funciones se pueden aplicar a un DataFrame o a una columna específica de un DataFrame.

A continuación, se muestra una celda de código para calcular la media, la mediana y la moda de un DataFrame:

```python
# Calcular media, mediana y moda
df.mean()
df.median()
df.mode()
```

In [None]:
## Media de salario

DF_salarios['salario'].mean()

In [None]:
DF_salarios['salario'].median()

In [None]:
DF_salarios['ciudad'].mode()

## Sección 4: Medidas de dispersión

En esta sección, exploraremos las medidas de dispersión y cómo se utilizan para describir y resumir los datos. Comenzaremos por comprender qué es una medida de dispersión y cómo se calcula.

### 4.1 ¿Qué es una medida de dispersión?

Una medida de dispersión es un valor que representa la variabilidad de un conjunto de datos. Las medidas de dispersión se utilizan para describir y resumir los datos. Las medidas de dispersión más comunes son el rango, la varianza y la desviación estándar.

### 4.2 Rango

El rango es la diferencia entre el valor máximo y el valor mínimo de un conjunto de datos. El rango se utiliza para describir la variabilidad de un conjunto de datos. El rango se puede calcular utilizando la siguiente fórmula:

$$\text{rango} = \max(x_i) - \min(x_i)$$

donde $x_i$ es el valor de la i-ésima observación.

### 4.3 Varianza

La varianza es la media de las diferencias al cuadrado entre cada valor y la media. La varianza se utiliza para describir la variabilidad de un conjunto de datos. La varianza se puede calcular utilizando la siguiente fórmula:

$$\text{varianza} = \frac{1}{n} \sum_{i=1}^{n} (x_i - \bar{x})^2$$

donde $x_i$ es el valor de la i-ésima observación, $\bar{x}$ es la media y $n$ es el número de observaciones.

### 4.4 Desviación estándar

La desviación estándar es la raíz cuadrada de la varianza. La desviación estándar se utiliza para describir la variabilidad de un conjunto de datos. La desviación estándar se puede calcular utilizando la siguiente fórmula:

$$\text{desviación estándar} = \sqrt{\frac{1}{n} \sum_{i=1}^{n} (x_i - \bar{x})^2}$$

donde $x_i$ es el valor de la i-ésima observación, $\bar{x}$ es la media y $n$ es el número de observaciones.

### 4.5 Pandas

Pandas ofrece funciones para calcular el rango, la varianza y la desviación estándar de un conjunto de datos. Estas funciones se pueden aplicar a un DataFrame o a una columna específica de un DataFrame.

A continuación, se muestra una celda de código para calcular el rango, la varianza y la desviación estándar de un DataFrame:

```python
# Calcular rango, varianza y desviación estándar
df.max() - df.min()
df.var()
df.std()
```

In [None]:
DF_salarios['salario'].std()

También esta disponible la función describe, que nos permite obtener un resumen de todas las medidas de un DataFrame:

```python
# Resumen de medidas de tendencia central
df.describe()
```

In [None]:
### Estadísticas básicas

DF_salarios.describe()

## Seccion 5: Exploración de datos con Pandas

En esta sección, exploraremos cómo Pandas nos permite realizar tareas como la carga y selección de datos, el filtrado y la agregación, y la visualización de datos. Comenzaremos por comprender qué es la exploración de datos y cómo se realiza.

### 5.1 ¿Qué es la exploración de datos?

La exploración de datos es el proceso de analizar y visualizar datos para obtener información y conocimientos. La exploración de datos nos permite comprender mejor los datos, identificar patrones y tendencias, y tomar decisiones informadas.

El proceso de exploración de datos es una etapa fundamental en el análisis de datos, que nos permite comprender mejor los datos y obtener información relevante para nuestros objetivos. Consiste en examinar los datos de manera sistemática y visual, utilizando diversas técnicas y herramientas estadísticas.

El proceso de exploración de datos generalmente incluye los siguientes pasos:

1. **Obtención de datos:** En esta etapa, recopilamos los datos necesarios para nuestro análisis, ya sea de bases de datos, archivos, fuentes externas u otras fuentes relevantes.

2. **Limpieza de datos**: Antes de explorar los datos, es esencial realizar una limpieza y preprocesamiento adecuados para garantizar la calidad de los datos. Esto implica detectar y corregir errores, eliminar valores atípicos, manejar datos faltantes y garantizar la consistencia y coherencia de los datos.

3. **Descripción estadística:** Comenzamos explorando los datos calculando estadísticas descriptivas básicas, como la media, mediana, moda, desviación estándar, percentiles, entre otros. Estas medidas nos brindan información sobre la tendencia central, la dispersión y la forma de la distribución de los datos.

4. **Visualización de datos:** Utilizamos técnicas de visualización, como gráficos, diagramas y tablas, para representar los datos de manera visual y comprensible. Esto nos ayuda a identificar patrones, tendencias, relaciones y valores atípicos en los datos. Algunas herramientas comunes de visualización son gráficos de barras, histogramas, diagramas de dispersión y diagramas de caja y bigotes.

5. **Análisis exploratorio adicional:** Además de la descripción estadística y la visualización, podemos realizar análisis más avanzados para profundizar en los datos. Esto puede incluir análisis de correlación, análisis de frecuencia, análisis de clusters o segmentación, y cualquier otro enfoque que nos permita descubrir relaciones y patrones más complejos en los datos.

El proceso de exploración de datos es iterativo, lo que significa que podemos repetir los pasos anteriores varias veces a medida que adquirimos más información y conocimientos sobre los datos. Es una fase fundamental para comprender los datos en su totalidad antes de avanzar en etapas posteriores, como modelado o toma de decisiones basadas en los datos.


Para la basede datos que previamente hemos cargado, vamos a realizar un proceso de exploración de datos.

In [None]:
import pandas as pd

# Cargar el conjunto de datos
df = pd.read_csv('https://raw.githubusercontent.com/Izainea/introduccion-analitica-datos/master/02-estadisticas-basicas-exploracion-datos/datos/datos_empleados.csv')

# Obtener una descripción general de los datos
print('Muestra las columnas',df.columns)  # Muestra los nombres de las columnas

print('*************************************')
print('Muestra la dimensión',df.shape)  # Muestra el número de filas y columnas
print('*************************************')

print('Muestra las primeras filas')  # Muestra las primeras filas del DataFrame
display(df.head())
print('*************************************')

print('Proporciona información sobre las columnas y los tipos de datos',)  # Proporciona información sobre las columnas y los tipos de datos
display(df.info())
print('*************************************')

# Calcular medidas estadísticas descriptivas
print('Muestra estadísticas como media, desviación estándar, etc.')  # Muestra estadísticas como media, desviación estándar, etc.
display(df.describe())
print('*************************************')

# Visualizar los datos
import matplotlib.pyplot as plt


print('Muestra un histograma')  # Histograma
# Histograma
df['salario'].plot(kind='hist', bins=30, figsize=(12, 6), facecolor='grey',edgecolor='black')
plt.xlabel('Salario')
plt.ylabel('Frecuencia')
plt.title('Histograma de salarios')
plt.show()

print('Muestra un diagrama de caja')  # Diagrama de caja
# Diagrama de caja
df['salario'].plot(kind='box', figsize=(12, 6))
plt.ylabel('Salario')
plt.title('Diagrama de caja de salarios')
plt.show()

print('Muestra un diagrama de barras')  # Diagrama de barras
# Distribución de frecuencias ciudades
df['ciudad'].value_counts().plot(kind='bar', figsize=(12, 6), facecolor='grey',edgecolor='black')
plt.xlabel('Ciudad')
plt.ylabel('Frecuencia')
plt.title('Distribución de frecuencias ciudades')
plt.show()


# Analizar correlaciones
print('Muestra la matriz de correlación')  # Matriz de correlación
corr_matrix = df.corr()  # Calcula la matriz de correlación
print(corr_matrix)

# Identificar valores atípicos
print('Muestra los valores atípicos')  # Valores atípicos
Q1 = df.quantile(0.25)
Q3 = df.quantile(0.75)
IQR = Q3 - Q1
outliers = ((df < (Q1 - 1.5 * IQR)) | (df > (Q3 + 1.5 * IQR))).any(axis=1)
print(df[outliers])

# Manejar datos faltantes
print('Evidencia de arreglar a los datos faltantes')  # Datos faltantes
df.dropna()  # Elimina filas con valores faltantes
df.fillna(0)  # Rellena los valores faltantes con un valor específico

# Interpretar resultados y tomar decisiones
# Analiza los hallazgos obtenidos, identifica patrones o tendencias, y toma decisiones basadas en ellos.


## Cierre

En este cuaderno, hemos explorado los conceptos fundamentales de la estadística y cómo aplicarlos utilizando la librería Pandas. Se han explicado como calcular las medidas de tendencia central, las medidas de dispersión y las distribuciones de probabilidad. Además, hemos descubierto cómo Pandas nos permite realizar tareas como la carga y selección de datos, el filtrado y la agregación, y la visualización de datos.