In [3]:
import numpy as np
import pandas as pd

# Supongamos que tienes un conjunto de datos en una lista
datos = [10, 20, 20, 40, 50, 60, 70, 80, 90, 100]

# Convirtiendo la lista en un DataFrame de Pandas
df = pd.DataFrame(datos, columns=['Datos'])

# Medidas de posición
media = df['Datos'].mean()
mediana = df['Datos'].median()
cuartil_1 = df['Datos'].quantile(0.25)
cuartil_3 = df['Datos'].quantile(0.75)

# Medidas de dispersión
varianza = df['Datos'].var()
desviacion_estandar = df['Datos'].std()
rango_intercuartilico = cuartil_3 - cuartil_1
rango = df['Datos'].max() - df['Datos'].min()

# Imprimir los resultados
print(f"Media: {media}")
print(f"Mediana: {mediana}")
print(f"Primer cuartil (Q1): {cuartil_1}")
print(f"Tercer cuartil (Q3): {cuartil_3}")
print(f"Varianza: {varianza}")
print(f"Desviación estándar: {desviacion_estandar}")
print(f"Rango intercuartílico (IQR): {rango_intercuartilico}")
print(f"Rango: {rango}")


Media: 54.0
Mediana: 55.0
Primer cuartil (Q1): 25.0
Tercer cuartil (Q3): 77.5
Varianza: 982.2222222222222
Desviación estándar: 31.340424729448422
Rango intercuartílico (IQR): 52.5
Rango: 90


##### Tabla de frecuencias simples

In [4]:
import pandas as pd

# Suponiendo que tienes un conjunto más extenso de datos
datos = [20, 22, 25, 22, 21, 23, 27, 25, 22, 24, 26, 28, 20, 21, 23, 24, 25, 26, 27, 28, 22]

# Convertir la lista en un DataFrame
df = pd.DataFrame(datos, columns=['Datos'])

# Tabla de frecuencias simples
tabla_frecuencia_simple = df['Datos'].value_counts().sort_index()

# Mostrar la tabla de frecuencias
print("Tabla de Frecuencias Simples:\n", tabla_frecuencia_simple)


Tabla de Frecuencias Simples:
 Datos
20    2
21    2
22    4
23    2
24    2
25    3
26    2
27    2
28    2
Name: count, dtype: int64


In [5]:
# Definir los bins o intervalos
bins = [19, 21, 23, 25, 27, 29]

# Crear la tabla de frecuencias para datos agrupados
tabla_frecuencias_agrupadas = pd.cut(df['Datos'], bins=bins, right=False).value_counts().sort_index()

# Mostrar la tabla de frecuencias agrupadas
print("Tabla de Frecuencias para Datos Agrupados:\n", tabla_frecuencias_agrupadas)


Tabla de Frecuencias para Datos Agrupados:
 Datos
[19, 21)    2
[21, 23)    6
[23, 25)    4
[25, 27)    5
[27, 29)    4
Name: count, dtype: int64


Decidir el número correcto de bins (intervalos) para datos agrupados en un histograma o una tabla de frecuencias es una parte crucial del análisis de datos, ya que puede influir significativamente en la interpretación de los datos. No existe un método único y definitivo para elegir el número óptimo de bins, pero hay varias reglas prácticas y métodos automáticos que se pueden utilizar. Aquí describo algunos de los más comunes:

### 1. Regla de Sturges
La Regla de Sturges es útil para datos que se aproximan a una distribución normal y se basa en el logaritmo del tamaño de la muestra:
$ k = 1 + \log_2(n) $
donde $ k $ es el número de bins y $ n $ es el tamaño de la muestra. En Python, puedes calcularlo así:

```python
import numpy as np

n = len(datos)  # 'datos' es tu lista o array de datos
k = int(1 + np.log2(n))

print("Número recomendado de bins según la Regla de Sturges:", k)
```

### 2. Regla de Scott
La Regla de Scott elige el ancho del bin basándose en la desviación estándar de los datos y el tamaño de la muestra, asumiendo que los datos se distribuyen aproximadamente de forma normal:
$ \text{Ancho del bin} = \frac{3.5 \cdot \sigma}{n^{1/3}} $
donde $ \sigma $ es la desviación estándar de los datos y $ n $ es el tamaño de la muestra. El número de bins se determina dividiendo el rango de los datos por el ancho del bin.

### 3. Regla de la raíz cuadrada
Esta regla sugiere que el número de bins debe ser el cuadrado de la raíz del número total de datos en el conjunto:
$ k = \sqrt{n} $
Esta es una regla muy simple y un buen punto de partida si no se conocen otras propiedades de los datos.

### 4. Método de Freedman-Diaconis
Este método es particularmente útil para datos con distribuciones sesgadas o con outliers. El ancho del bin se calcula como:
$ \text{Ancho del bin} = \frac{2 \cdot IQR}{n^{1/3}} $
donde $ IQR $ es el rango intercuartilico de los datos. Similar a la Regla de Scott, el número de bins se determina dividiendo el rango de los datos por el ancho del bin.



#### Base de datos

La base de datos `tips` es un conjunto de datos bastante popular utilizado para análisis exploratorio de datos y ejemplos de visualización. Proviene de la biblioteca `seaborn`, una librería de visualización en Python. Este conjunto de datos contiene información sobre las propinas que los clientes dejaron a los meseros en un restaurante, junto con varios atributos relacionados con esas propinas. Aquí está una descripción más detallada de las variables incluidas en el conjunto de datos `tips`:

1. **total_bill**: El costo total de la factura en dólares, incluyendo impuestos pero no la propina.

2. **tip**: La propina en dólares dejada por el cliente. Es la variable de interés principal en muchos análisis que involucran este conjunto de datos.

3. **sex**: El género del mesero, con categorías como `Male` o `Female`

4. **smoker**: Indica si el grupo de clientes incluía fumadores. Puede tener valores `Yes` o `No`.

5. **day**: El día de la semana en que se realizó la comida. Los valores incluyen `Thur` (jueves), `Fri` (viernes), `Sat` (sábado) o `Sun` (domingo).

6. **time**: Momento del día en que se sirvió la comida, ya sea `Lunch` (almuerzo) o `Dinner` (cena).

7. **size**: El tamaño del grupo de clientes en la mesa, representado por un número entero.



In [7]:
import seaborn as sns
import pandas as pd
import numpy as np

# Cargar el conjunto de datos 'tips'
tips = sns.load_dataset('tips')

# Seleccionar la columna de interés (en este caso, 'tip')
datos = tips['tip']

# Determinar los bins de manera automática
bins = np.histogram_bin_edges(datos, bins='auto')

# Crear la tabla de frecuencias para datos agrupados utilizando los bins calculados automáticamente
tabla_frecuencias_agrupadas = pd.cut(datos, bins=bins, right=False).value_counts().sort_index()

# Mostrar la tabla de frecuencias agrupadas
print("Tabla de Frecuencias para la columna 'tip':\n", tabla_frecuencias_agrupadas)


Tabla de Frecuencias para la columna 'tip':
 tip
[1.0, 1.5)     17
[1.5, 2.0)     28
[2.0, 2.5)     53
[2.5, 3.0)     25
[3.0, 3.5)     49
[3.5, 4.0)     19
[4.0, 4.5)     21
[4.5, 5.0)      4
[5.0, 5.5)     16
[5.5, 6.0)      4
[6.0, 6.5)      1
[6.5, 7.0)      4
[7.0, 7.5)      0
[7.5, 8.0)      1
[8.0, 8.5)      0
[8.5, 9.0)      0
[9.0, 9.5)      1
[9.5, 10.0)     0
Name: count, dtype: int64


In [11]:
import seaborn as sns
import pandas as pd

# Cargar el conjunto de datos 'tips'
tips = sns.load_dataset('tips')

# Seleccionar la columna de interés (en este caso, 'tip')
datos = tips['tip']

# Definir un número fijo de bins
numero_bins = 4  # Puedes ajustar este número según tus necesidades

# Determinar los intervalos de los bins basándose en el número fijo de bins
minimo, maximo = datos.min(), datos.max()
ancho_bin = (maximo - minimo) / numero_bins
bins = [minimo + i * ancho_bin for i in range(numero_bins + 1)]

# Crear la tabla de frecuencias para datos agrupados utilizando los bins definidos
tabla_frecuencias_agrupadas = pd.cut(datos, bins=bins, right=False, include_lowest=True).value_counts().sort_index()

# Mostrar la tabla de frecuencias agrupadas
print("Tabla de Frecuencias para la columna 'tip' con menos bins:\n", tabla_frecuencias_agrupadas)


Tabla de Frecuencias para la columna 'tip' con menos bins:
 tip
[1.0, 3.25)     161
[3.25, 5.5)      71
[5.5, 7.75)      10
[7.75, 10.0)      1
Name: count, dtype: int64


In [12]:
import seaborn as sns
import pandas as pd

# Cargar el conjunto de datos 'tips'
tips = sns.load_dataset('tips')

# Estadísticas descriptivas básicas para variables numéricas
estadisticas_descriptivas = tips.describe()

# Proporción de las variables categóricas
proporcion_fumadores = tips['smoker'].value_counts(normalize=True)
proporcion_genero = tips['sex'].value_counts(normalize=True)
proporcion_dia = tips['day'].value_counts(normalize=True)
proporcion_comida = tips['time'].value_counts(normalize=True)

# Imprimir las estadísticas descriptivas
print("Estadísticas Descriptivas:\n", estadisticas_descriptivas)

# Imprimir las proporciones de las variables categóricas
print("\nProporción de Fumadores vs No Fumadores:\n", proporcion_fumadores)
print("\nProporción de Género:\n", proporcion_genero)
print("\nProporción de Día:\n", proporcion_dia)
print("\nProporción de Momento del Día:\n", proporcion_comida)


# Calcular la media de 'total_bill' y 'tip'
media_total_bill = tips['total_bill'].mean()
media_tip = tips['tip'].mean()

# Calcular la mediana de 'total_bill' y 'tip'
mediana_total_bill = tips['total_bill'].median()
mediana_tip = tips['tip'].median()

# Calcular la moda de 'total_bill' y 'tip'
# La función mode() devuelve una Serie, por lo que usamos [0] para obtener el valor si existe una moda
moda_total_bill = tips['total_bill'].mode()[0] if not tips['total_bill'].mode().empty else 'Sin moda'
moda_tip = tips['tip'].mode()[0] if not tips['tip'].mode().empty else 'Sin moda'

# Imprimir los resultados
print(f"Media de total_bill: {media_total_bill}")
print(f"Media de tip: {media_tip}\n")

print(f"Mediana de total_bill: {mediana_total_bill}")
print(f"Mediana de tip: {mediana_tip}\n")

print(f"Moda de total_bill: {moda_total_bill}")
print(f"Moda de tip: {moda_tip}")

Estadísticas Descriptivas:
        total_bill         tip        size
count  244.000000  244.000000  244.000000
mean    19.785943    2.998279    2.569672
std      8.902412    1.383638    0.951100
min      3.070000    1.000000    1.000000
25%     13.347500    2.000000    2.000000
50%     17.795000    2.900000    2.000000
75%     24.127500    3.562500    3.000000
max     50.810000   10.000000    6.000000

Proporción de Fumadores vs No Fumadores:
 smoker
No     0.618852
Yes    0.381148
Name: proportion, dtype: float64

Proporción de Género:
 sex
Male      0.643443
Female    0.356557
Name: proportion, dtype: float64

Proporción de Día:
 day
Sat     0.356557
Sun     0.311475
Thur    0.254098
Fri     0.077869
Name: proportion, dtype: float64

Proporción de Momento del Día:
 time
Dinner    0.721311
Lunch     0.278689
Name: proportion, dtype: float64
Media de total_bill: 19.78594262295082
Media de tip: 2.99827868852459

Mediana de total_bill: 17.795
Mediana de tip: 2.9

Moda de total_bill: 13.