# Estadistica descriptiva
En Python, las funciones de estadística descriptiva nos permiten realizar un análisis exploratorio de los datos, obteniendo un resumen básico sobre su distribución y características. 

La biblioteca pandas es una herramienta clave para este tipo de análisis, ya que facilita la manipulación de datos y la ejecución de funciones estadísticas.

## 1. Cargar el dataset
Primero, necesitamos cargar los datos, desde el archivo "pima-indians-diabetes.csv",

In [1]:
# importar el paquete de pandas
import pandas as pd

# Cargar el archivo CSV en un DataFrame
df = pd.read_csv("data/pima-indians-diabetes.csv")

## 2. Revisar los primeros registros: head()
Para revisar los primeros registros del dataset y obtener una vista previa:

In [2]:
# Muestra las primeras 5 filas del DataFrame
print(df.head())

   6  148  72  35    0  33.6     627  50  1
0  1   85  66  29    0  26.6   351.0  31  0
1  8  183  64   0    0  23.3   672.0  32  1
2  1   89  66  23   94  28.1   167.0  21  0
3  0  137  40  35  168  43.1  2288.0  33  1
4  5  116  74   0    0  25.6   201.0  30  0


# 3. Dimensiones del conjunto de datos: shape
Para ver el número de filas y columnas en el DataFrame:

In [3]:
# Muestra el número de filas y columnas
print(df.shape)

(767, 9)


# 4. Tipos de datos de cada columna: dtypes
Esto muestra el tipo de dato (numérico, objeto, etc.) de cada columna:

In [4]:
# Muestra los tipos de datos de cada columna
print(df.dtypes)

6         int64
148       int64
72        int64
35        int64
0         int64
33.6    float64
627     float64
50        int64
1         int64
dtype: object


# 5. Resumen estadístico: describe()
El método describe() genera estadísticas descriptivas como la media, desviación estándar, mínimo, máximo, y cuartiles:

In [5]:
# Muestra un resumen estadístico de las columnas numéricas
print(df.describe())

                6         148          72          35           0        33.6  \
count  767.000000  767.000000  767.000000  767.000000  767.000000  767.000000   
mean     3.842243  120.859192   69.101695   20.517601   79.903520   31.990482   
std      3.370877   31.978468   19.368155   15.954059  115.283105    7.889091   
min      0.000000    0.000000    0.000000    0.000000    0.000000    0.000000   
25%      1.000000   99.000000   62.000000    0.000000    0.000000   27.300000   
50%      3.000000  117.000000   72.000000   23.000000   32.000000   32.000000   
75%      6.000000  140.000000   80.000000   32.000000  127.500000   36.600000   
max     17.000000  199.000000  122.000000   99.000000  846.000000   67.100000   

               627          50           1  
count   767.000000  767.000000  767.000000  
mean    427.975945   33.219035    0.348110  
std     340.632035   11.752296    0.476682  
min       0.100000   21.000000    0.000000  
25%     205.000000   24.000000    0.000000  


In [6]:
#Si se requiere un resumen de todas las columnas, incluidas las categóricas, se puede pasar el parámetro include='all':
print(df.describe(include='all'))

                6         148          72          35           0        33.6  \
count  767.000000  767.000000  767.000000  767.000000  767.000000  767.000000   
mean     3.842243  120.859192   69.101695   20.517601   79.903520   31.990482   
std      3.370877   31.978468   19.368155   15.954059  115.283105    7.889091   
min      0.000000    0.000000    0.000000    0.000000    0.000000    0.000000   
25%      1.000000   99.000000   62.000000    0.000000    0.000000   27.300000   
50%      3.000000  117.000000   72.000000   23.000000   32.000000   32.000000   
75%      6.000000  140.000000   80.000000   32.000000  127.500000   36.600000   
max     17.000000  199.000000  122.000000   99.000000  846.000000   67.100000   

               627          50           1  
count   767.000000  767.000000  767.000000  
mean    427.975945   33.219035    0.348110  
std     340.632035   11.752296    0.476682  
min       0.100000   21.000000    0.000000  
25%     205.000000   24.000000    0.000000  


In [7]:
# 6. Distribución entre clases: groupby()
Si quieres ver la distribución de las observaciones por clase (por ejemplo, cuántas personas tienen o no tienen diabetes), puedes agrupar por la columna que indica la clase:

SyntaxError: invalid syntax (1660703368.py, line 2)

In [10]:
# Agrupa por la columna "6"
print(df.groupby('6').size())


6
0     111
1     135
2     103
3      75
4      68
5      57
6      49
7      45
8      38
9      28
10     24
11     11
12      9
13     10
14      2
15      1
17      1
dtype: int64


# 7. Matriz de correlación: corr()
La matriz de correlación muestra la relación entre las variables numéricas en el conjunto de datos:

In [11]:
# Muestra la matriz de correlación
print(df.corr())

             6       148        72        35         0      33.6       627  \
6     1.000000  0.128846  0.141197 -0.082495 -0.072999  0.017518 -0.026706   
148   0.128846  1.000000  0.152498  0.056381  0.332383  0.220955  0.132609   
72    0.141197  0.152498  1.000000  0.207308  0.089098  0.281777  0.051334   
35   -0.082495  0.056381  0.207308  1.000000  0.437974  0.392553  0.153700   
0    -0.072999  0.332383  0.089098  0.437974  1.000000  0.198111  0.185834   
33.6  0.017518  0.220955  0.281777  0.392553  0.198111  1.000000  0.103446   
627  -0.026706  0.132609  0.051334  0.153700  0.185834  0.103446  1.000000   
50    0.544018  0.262408  0.239571 -0.115873 -0.040942  0.035911  0.016910   
1     0.221087  0.465856  0.064882  0.073265  0.131984  0.292695  0.175821   

            50         1  
6     0.544018  0.221087  
148   0.262408  0.465856  
72    0.239571  0.064882  
35   -0.115873  0.073265  
0    -0.040942  0.131984  
33.6  0.035911  0.292695  
627   0.016910  0.175821  
50 

In [None]:
# 8. Asimetría (sesgo): skew()
La función skew() calcula el coeficiente de asimetría para cada columna numérica, lo que nos dice si las distribuciones son simétricas o están sesgadas:

In [12]:
# Calcula el coeficiente de asimetría para cada columna numérica
print(df.skew())

6       0.903976
148     0.176412
72     -1.841911
35      0.112058
0       2.270630
33.6   -0.427950
627     1.564035
50      1.135165
1       0.638949
dtype: float64


In [None]:
## Interpretación de los resultados:
### head(): Te muestra cómo están organizados los datos y si hay alguna anomalía o valores faltantes.
### shape: Te indica si tienes suficientes datos para tu análisis y el número de características disponibles.
### dtypes: Verifica que los tipos de datos sean correctos (por ejemplo, que los números estén correctamente almacenados como enteros o decimales).
### describe(): Te permite analizar estadísticas como la media, desviación estándar, y la dispersión de los datos. También puedes detectar valores atípicos.
### groupby(): Te permite ver cómo están distribuidas las clases. En el caso de los indios Pima, te ayudará a identificar si hay un desbalance en las personas con y sin diabetes.
### corr(): Sirve para identificar qué variables están más relacionadas entre sí, lo que puede ser útil para detectar redundancias.
### skew(): Indica el grado de asimetría. Valores altos de asimetría pueden sugerir la necesidad de transformaciones para mejorar el rendimiento de algunos modelos.

Estas funciones son fundamentales para realizar un análisis exploratorio de datos antes de implementar modelos de machine learning.