# Estadistica descriptiva
En Python, las funciones de estadística descriptiva nos permiten realizar un análisis exploratorio de los datos, obteniendo un resumen básico sobre su distribución y características. 

La biblioteca pandas es una herramienta clave para este tipo de análisis, ya que facilita la manipulación de datos y la ejecución de funciones estadísticas.

## 1. Cargar el dataset
Primero, necesitamos cargar los datos, desde el archivo "pima-indians-diabetes.csv",

In [86]:
# importar el paquete de pandas
import pandas as pd

# Cargar el archivo CSV en un DataFrame
df = pd.read_csv("data/pima-indians-diabetes.csv")

## 2. Revisar los primeros registros: head()
Para revisar los primeros registros del dataset y obtener una vista previa:

In [87]:
# Muestra las primeras 5 filas del DataFrame
print(df.head())

   6  148  72  35    0  33.6     627  50  1
0  1   85  66  29    0  26.6   351.0  31  0
1  8  183  64   0    0  23.3   672.0  32  1
2  1   89  66  23   94  28.1   167.0  21  0
3  0  137  40  35  168  43.1  2288.0  33  1
4  5  116  74   0    0  25.6   201.0  30  0


# 3. Dimensiones del conjunto de datos: shape
Para ver el número de filas y columnas en el DataFrame:

In [88]:
# Muestra el número de filas y columnas
print(df.shape)

(767, 9)


# 4. Tipos de datos de cada columna: dtypes
Esto muestra el tipo de dato (numérico, objeto, etc.) de cada columna:

In [89]:
# Muestra los tipos de datos de cada columna
print(df.dtypes)

6         int64
148       int64
72        int64
35        int64
0         int64
33.6    float64
627     float64
50        int64
1         int64
dtype: object


# 5. Resumen estadístico: describe()
El método describe() genera estadísticas descriptivas como la media, desviación estándar, mínimo, máximo, y cuartiles:

In [90]:
# Muestra un resumen estadístico de las columnas numéricas
print(df.describe())

                6         148          72          35           0        33.6  \
count  767.000000  767.000000  767.000000  767.000000  767.000000  767.000000   
mean     3.842243  120.859192   69.101695   20.517601   79.903520   31.990482   
std      3.370877   31.978468   19.368155   15.954059  115.283105    7.889091   
min      0.000000    0.000000    0.000000    0.000000    0.000000    0.000000   
25%      1.000000   99.000000   62.000000    0.000000    0.000000   27.300000   
50%      3.000000  117.000000   72.000000   23.000000   32.000000   32.000000   
75%      6.000000  140.000000   80.000000   32.000000  127.500000   36.600000   
max     17.000000  199.000000  122.000000   99.000000  846.000000   67.100000   

               627          50           1  
count   767.000000  767.000000  767.000000  
mean    427.975945   33.219035    0.348110  
std     340.632035   11.752296    0.476682  
min       0.100000   21.000000    0.000000  
25%     205.000000   24.000000    0.000000  


In [91]:
#Si se requiere un resumen de todas las columnas, incluidas las categóricas, se puede pasar el parámetro include='all':
print(df.describe(include='all'))

                6         148          72          35           0        33.6  \
count  767.000000  767.000000  767.000000  767.000000  767.000000  767.000000   
mean     3.842243  120.859192   69.101695   20.517601   79.903520   31.990482   
std      3.370877   31.978468   19.368155   15.954059  115.283105    7.889091   
min      0.000000    0.000000    0.000000    0.000000    0.000000    0.000000   
25%      1.000000   99.000000   62.000000    0.000000    0.000000   27.300000   
50%      3.000000  117.000000   72.000000   23.000000   32.000000   32.000000   
75%      6.000000  140.000000   80.000000   32.000000  127.500000   36.600000   
max     17.000000  199.000000  122.000000   99.000000  846.000000   67.100000   

               627          50           1  
count   767.000000  767.000000  767.000000  
mean    427.975945   33.219035    0.348110  
std     340.632035   11.752296    0.476682  
min       0.100000   21.000000    0.000000  
25%     205.000000   24.000000    0.000000  


# 6. Distribución entre clases: groupby()

In [92]:
# Si quieres ver la distribución de las observaciones por clase(por ejemplo, cuántas personas tienen o no tienen diabetes), puedes agrupar por la columna queindica la clase:

In [93]:
# Agrupa por la columna "6"
print(df.groupby('Pregnancies').size())


KeyError: 'Pregnancies'

# 7. Matriz de correlación: corr()
La matriz de correlación muestra la relación entre las variables numéricas en el conjunto de datos:

In [83]:
# Muestra la matriz de correlación
print(df.corr())

                          Pregnancies   Glucose  BloodPressure  SkinThickness  \
Pregnancies                  1.000000  0.129459       0.141282      -0.081672   
Glucose                      0.129459  1.000000       0.152590       0.057328   
BloodPressure                0.141282  0.152590       1.000000       0.207371   
SkinThickness               -0.081672  0.057328       0.207371       1.000000   
Insulin                     -0.073535  0.331357       0.088933       0.436783   
BMI                          0.017683  0.221071       0.281805       0.392573   
DiabetesPedigreeFunction    -0.033523  0.137337       0.041265       0.183928   
Age                          0.544341  0.263514       0.239528      -0.113970   
Outcome                      0.221898  0.466581       0.065068       0.074752   

                           Insulin       BMI  DiabetesPedigreeFunction  \
Pregnancies              -0.073535  0.017683                 -0.033523   
Glucose                   0.331357  0.221

# 8. Asimetría (sesgo): skew()

In [84]:
# La función skew() calcula el coeficiente de asimetría para cada columna numérica, lo que nos dice si las distribuciones son simétricas o están sesgadas:

In [85]:
# Calcula el coeficiente de asimetría para cada columna numérica
print(df.skew())

Pregnancies                 0.901674
Glucose                     0.173754
BloodPressure              -1.843608
SkinThickness               0.109372
Insulin                     2.272251
BMI                        -0.428982
DiabetesPedigreeFunction    1.919911
Age                         1.129597
Outcome                     0.635017
dtype: float64


## Interpretación de los resultados:
### head(): Muestra cómo están organizados los datos y si hay alguna anomalía o valores faltantes.
- Para el caso de estudio se identifica que no hay cabeceras, lo que nos indica datos sin relevancia
### shape: Indica si tienes suficientes datos para tu análisis y el número de características disponibles.
- Se valida que existe información qu puede ser utilizada.
### dtypes: Verifica que los tipos de datos sean correctos (por ejemplo, que los números estén correctamente almacenados como enteros o decimales).
 - Se verfifica cada columna tiene asociada un tipo de dato 
### describe(): Permite analizar estadísticas como la media, desviación estándar, y la dispersión de los datos. También puedes detectar valores atípicos.
- Desde este punto ya se puede evidenciar mas concretamente, el problema de tener una data no completa, debido a que los datos estadisticon no se pueden relacionar a una caracteristica del estudio.
### groupby(): Permite ver cómo están distribuidas las clases. En el caso de los indios Pima, te ayudará a identificar si hay un desbalance en las personas con y sin diabetes.
- No se pueden identificar grupos debido a la falta de cabeceras
### corr(): Sirve para identificar qué variables están más relacionadas entre sí, lo que puede ser útil para detectar redundancias.
- No es viable debinir una correlacion de datos 
### skew(): Indica el grado de asimetría. Valores altos de asimetría pueden sugerir la necesidad de transformaciones para mejorar el rendimiento de algunos modelos.

# Conclusion
Estas funciones son fundamentales para realizar un análisis exploratorio de datos antes de implementar modelos de machine learning.

Se concluye que la falta de cabeceras es un determinante para no poder interpretar la información y dar una análisis claro del estudio.