| ![Isaac Zainea](https://raw.githubusercontent.com/Izainea/Izainea.github.io/master/logo.png) | Curso de Introducción a la Analítica de Datos | Isaac Zainea |
|:---:|:---:|:---:|

# Introducción a la Estadística y Exploración de Datos con Pandas

## Tabla de Contenidos

1. [Introducción y Motivación](#introducción-y-motivación)
2. [Objetivos](#objetivos)
3. [Sección 1: Conceptos fundamentales de estadística](#sección-1-conceptos-fundamentales-de-estadística)
4. [Sección 2: Tipos de datos](#sección-2-tipos-de-datos)
5. [Sección 3: Medidas de tendencia central](#sección-3-medidas-de-tendencia-central)
6. [Sección 4: Medidas de dispersión](#sección-4-medidas-de-dispersión)
7. [Sección 5: Distribuciones de probabilidad](#sección-5-distribuciones-de-probabilidad)
8. [Sección 6: Exploración de datos con Pandas](#sección-6-exploración-de-datos-con-pandas)
9. [Conclusiones](#conclusiones)


## Introducción y Motivación

La estadística y la exploración de datos desempeñan un papel fundamental en el análisis de datos y en la toma de decisiones basadas en evidencias. En la era de la información en la que vivimos, la cantidad de datos generados cada día es abrumadora. Estos datos contienen valiosa información que puede ayudarnos a comprender fenómenos, identificar patrones y tomar decisiones informadas.

La capacidad de manipular y analizar datos de manera efectiva se ha vuelto esencial en diversos campos, desde la investigación científica hasta el mundo empresarial y gubernamental. Aquí es donde entra en juego la librería Pandas. Pandas es una poderosa herramienta de análisis y manipulación de datos en Python que nos permite realizar tareas como limpieza, transformación y exploración de datos de manera eficiente.

En este cuaderno, exploraremos los conceptos fundamentales de la estadística y cómo aplicarlos utilizando la librería Pandas. Aprenderemos sobre las medidas de tendencia central, las medidas de dispersión y las distribuciones de probabilidad. Además, descubriremos cómo Pandas nos permite realizar tareas como la carga y selección de datos, el filtrado y la agregación, y la visualización de datos. Al final de este cuaderno, estarás equipado con los conocimientos necesarios para comenzar a explorar y analizar datos utilizando Pandas.

## Objetivos

En este cuaderno, se persiguen los siguientes objetivos:

- Comprender los conceptos fundamentales de la estadística y su importancia en el análisis de datos.
- Familiarizarse con los diferentes tipos de datos y cómo se manejan en el análisis estadístico.
- Conocer las medidas de tendencia central y dispersión utilizadas para describir y resumir los datos.
- Explorar las distribuciones de probabilidad y su aplicación en el análisis estadístico.
- Aprender a utilizar la librería Pandas para realizar la exploración de datos y manipulación de datos en Python.


## Sección 1: Conceptos fundamentales de estadística

En esta sección, exploraremos los conceptos fundamentales de la estadística y su importancia en el análisis de datos. Comenzaremos por comprender qué es la estadística y cómo se aplica en diferentes campos.

### 1.1 ¿Qué es la estadística?

La estadística es una disciplina que se encarga de recolectar, organizar, analizar e interpretar datos. Su objetivo es obtener conclusiones y tomar decisiones basadas en evidencias proporcionadas por los datos. La estadística nos permite resumir y describir características de un conjunto de datos, identificar patrones y tendencias, realizar inferencias y estimaciones, y evaluar la incertidumbre asociada a los resultados.

### 1.2 Aplicaciones de la estadística

La estadística tiene numerosas aplicaciones en diferentes campos, como la investigación científica, la planificación y gestión empresarial, la salud, la economía, la ingeniería, entre otros. En cada uno de estos campos, la estadística ayuda a tomar decisiones informadas y a comprender fenómenos complejos a través del análisis y la interpretación de datos.

### 1.3 Métodos estadísticos

En el análisis estadístico, se utilizan diversos métodos para recopilar, organizar y analizar los datos. Estos métodos incluyen la recopilación de datos a través de muestreo o experimentación, la aplicación de técnicas de análisis descriptivo y exploratorio, la realización de pruebas de hipótesis y la construcción de modelos estadísticos.

### 1.4 Pandas

Pandas es una librería popular en Python para el análisis y manipulación de datos. Sus estructuras de datos flexibles, especialmente los DataFrames, son ideales para trabajar con conjuntos de datos tabulares.

Razones por las que Pandas es útil en estadística y análisis de datos:

1. **Manipulación y limpieza de datos**: Ofrece funciones para limpiar y manipular datos, como eliminar duplicados, manejar valores faltantes y filtrar subconjuntos de datos.

2. **Exploración y visualización de datos**: Permite realizar análisis exploratorio y visualizar datos con estadísticas descriptivas, gráficos y análisis de correlación.

3. **Análisis estadístico**: Incluye funciones para calcular medidas de tendencia central, dispersión, realizar pruebas de hipótesis y análisis de regresión.

4. **Integración con otras librerías**: Se integra fácilmente con NumPy, Matplotlib y librerías especializadas en estadística, como SciPy y StatsModels.

A continuación, se muestra una celda de código para importar Pandas y cargar un archivo de datos en un DataFrame:

```python
import pandas as pd

# Cargar archivo de datos en un DataFrame
df = pd.read_csv('archivo.csv')

# Realizar operaciones y análisis con el DataFrame
# ...

In [2]:
import pandas as pd

# Cargamos el dataset de empleados guardado en "https://raw.githubusercontent.com/Izainea/introduccion-analitica-datos/master/02-estadisticas-basicas-exploracion-datos/datos/datos_empleados.csv"

DF_salarios=pd.read_csv("https://raw.githubusercontent.com/Izainea/introduccion-analitica-datos/master/02-estadisticas-basicas-exploracion-datos/datos/datos_empleados.csv")

DF_salarios

Unnamed: 0,id,nombre,edad,ciudad,salario
0,1,Ana,28,Bogotá,3000000
1,2,Luis,32,Medellín,4000000
2,3,María,35,Cali,5000000
3,4,Pablo,29,Barranquilla,4500000
4,5,Sofía,31,Cartagena,3500000
5,6,Carlos,27,Bogotá,3200000
6,7,Andrea,30,Medellín,4100000
7,8,Manuel,34,Cali,4800000
8,9,Julia,28,Barranquilla,3800000
9,10,Daniel,32,Cartagena,3900000


## Sección 2: Tipos de datos

En esta sección, exploraremos los diferentes tipos de datos y cómo se manejan en el análisis estadístico. Comenzaremos por comprender qué es un dato y cómo se clasifican.

### 2.1 ¿Qué es un dato?

Un dato es una representación simbólica de una cantidad, hecho o concepto. Los datos pueden ser numéricos o categóricos. Los datos numéricos representan cantidades y se pueden expresar en forma de números. Los datos categóricos representan características y se pueden expresar en forma de etiquetas o categorías.

### 2.2 Tipos de datos

Los datos numéricos se pueden clasificar en dos tipos: datos discretos y datos continuos. Los datos discretos son valores numéricos que se pueden contar, como el número de estudiantes en una clase o el número de autos en un estacionamiento. Los datos continuos son valores numéricos que se pueden medir, como la altura de una persona o la temperatura de un día.

Los datos categóricos se pueden clasificar en dos tipos: datos ordinales y datos nominales. Los datos ordinales son valores categóricos que se pueden ordenar o clasificar, como el nivel de educación de una persona o el estado civil. Los datos nominales son valores categóricos que no se pueden ordenar o clasificar, como el género de una persona o el color de un automóvil.

### 2.3 Pandas

Pandas ofrece diferentes tipos de datos para representar datos numéricos y categóricos. Los tipos de datos numéricos incluyen int64, float64 y bool. Los tipos de datos categóricos incluyen category y object.

A continuación, se muestra una celda de código para identificar los tipos de datos de un DataFrame:

```python
# Identificar tipos de datos
df.dtypes
```

Con el DataFrame del ejemplo anterior tenemos:


In [3]:
### Tipos de datos DF_salarios
DF_salarios.dtypes

id          int64
nombre     object
edad        int64
ciudad     object
salario     int64
dtype: object

No obstante, tambien podemos usar el siguiente comando para obtener un resumen de los datos:

```python
# Resumen de los datos
df.info()
```

In [4]:
DF_salarios.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 25 entries, 0 to 24
Data columns (total 5 columns):
 #   Column   Non-Null Count  Dtype 
---  ------   --------------  ----- 
 0   id       25 non-null     int64 
 1   nombre   25 non-null     object
 2   edad     25 non-null     int64 
 3   ciudad   25 non-null     object
 4   salario  25 non-null     int64 
dtypes: int64(3), object(2)
memory usage: 1.1+ KB


En la base de datos vamos a introucir la siguiente información:

| Variable | Descripción | Tipo de dato |
|:---:|:---:|:---:|
| `Fecha de entrada` | Fecha de entrada del empleado | `datetime64` |


In [6]:
## Escribimos las 25 fechas de entrada:

fechas = [
    '2022-09-15', '2021-06-25', '2023-03-10', '2022-11-07', '2023-01-18',
    '2021-08-29', '2022-07-02', '2023-04-05', '2021-12-12', '2022-10-23',
    '2023-02-04', '2021-07-07', '2022-06-16', '2023-03-21', '2022-11-30',
    '2023-01-09', '2021-09-20', '2022-07-22', '2023-04-27', '2021-12-03',
    '2022-10-14', '2023-02-24', '2021-07-28', '2022-06-05', '2023-03-16' ]
### Creamos la nueva variable "fecha_entrada" con las fechas de entrada
DF_salarios['fecha_entrada'] = fechas

Veamos los tipos de datos de este DataFrame, sera claro que el tipo de dato de la columna `Fecha de entrada` es `object`. Usaremos el siguiente comando para cambiar el tipo de dato de esta columna:

```python
# Cambiar tipo de dato de la columna 'Fecha de entrada'
df['Fecha de entrada'] = pd.to_datetime(df['Fecha de entrada'])
```

In [7]:
DF_salarios.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 25 entries, 0 to 24
Data columns (total 6 columns):
 #   Column         Non-Null Count  Dtype 
---  ------         --------------  ----- 
 0   id             25 non-null     int64 
 1   nombre         25 non-null     object
 2   edad           25 non-null     int64 
 3   ciudad         25 non-null     object
 4   salario        25 non-null     int64 
 5   fecha_entrada  25 non-null     object
dtypes: int64(3), object(3)
memory usage: 1.3+ KB


In [8]:
DF_salarios['fecha_entrada'] = pd.to_datetime(DF_salarios['fecha_entrada'])
DF_salarios.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 25 entries, 0 to 24
Data columns (total 6 columns):
 #   Column         Non-Null Count  Dtype         
---  ------         --------------  -----         
 0   id             25 non-null     int64         
 1   nombre         25 non-null     object        
 2   edad           25 non-null     int64         
 3   ciudad         25 non-null     object        
 4   salario        25 non-null     int64         
 5   fecha_entrada  25 non-null     datetime64[ns]
dtypes: datetime64[ns](1), int64(3), object(2)
memory usage: 1.3+ KB


Finalmente, si quisieramos identificar las columnas que contienen datos categóricos, podemos usar el siguiente comando:

```python
# Identificar columnas con datos categóricos
df.select_dtypes(include=['category', 'object']).columns
```

In [10]:
DF_salarios.select_dtypes(include=['category','object']).columns

Index(['nombre', 'ciudad'], dtype='object')

Otra función, diferente de pd.to_datetime, que nos permite cambiar el tipo de dato de una columna es as_type. Esta función nos permite cambiar el tipo de dato de una columna a un tipo de dato específico. Por ejemplo, si quisieramos cambiar el tipo de dato de la columna `id` a `str`, podemos usar el siguiente comando:

```python
# Cambiar tipo de dato de la columna 'id' a 'str'
df['id'] = df['id'].astype('str')
```

In [13]:
DF_salarios['id']=DF_salarios['id'].astype('str')
DF_salarios.dtypes

id                       object
nombre                   object
edad                      int64
ciudad                   object
salario                   int64
fecha_entrada    datetime64[ns]
dtype: object