## Carga de módulos (Librerías)

### Inspeccionar un DataFrame

Cuando tiene un DataFrame para trabajar, lo primero que debemos hacer es explorarlo y ver que contiene. Hay varios métodos y atributos para esto:

* **.head()** devuelve las primeras filas del DataFrame
* **.info()** muestra información sobre cada una de las columnas, como el tipo de datos y el número de valores missing (nulos).
* **.shape** devuelve una tupla con el número de filas y columnas del DataFrame
* **.describe()** calcula algunas estadísticas de resumen para cada columna.

El conjunto de datos tiene 11 variables y 15000 registros, donde estas variables son:

* *PatientID*: El ID del paciente.
* *Pregnancies*: El número de embarazos.
* *PlasmaGlucose*: Concentración de glucosa a 2 horas, en una prueba de tolerancia oral a la glucosa.
* *DiastolicBloodPressure*: Presión arterial diastólica.
* *TricepsThickness*: Espesor del pliegue cutaneo del triceps.
* *SerumInsulin*: Insulina Sérica de dos horas.
* *BMI*: Indice de masa corporal.
* *DiabetesPedigree*: Función pedigree de la diabetes.
* *Age*: Edad expresada en años.
* *Diabetic*: Si la persona tiene diabetes o no (Si=1, No=0).

### Partes de un DataFrame

Es útil saber que los DataFrames constan de tres componentes, almacenados como atributos:

* **.values**: Una matriz de valores *Numpy* bidimensional.
* **.columns**: Un índice de columnas: los nombres de las columnas.
* **.index**: Un índice para las filas: números de fila o nombres de fila.

### Ordenar filas

Para entender un poco más los datos, podemos ordenar las filas usando el método **.sort_values()**.

### Seleccionar columnas

En muchas ocasiones no necesitará todas las variables en su set de datos, o incluso experimentará con unas pocas. Los corchetes (**[]**) se pueden utilizar para seleccionar solo las columnas de interés. Por ejemplo, para seleccionar la columna `salary` del DataFrame `data`, puede hacer lo siguiente: `data["salary"]`

### Seleccionar filas

Para encontrar un subconjunto de filas que coincida con algún criterio, quizás la forma más común es usar operadores lógicosque devuelvan **True** o **False** para cada fila, y luego pasarlo entre corchetes.

### Agregar nuevas columnas

Una de las prácticas más comunes es agregar nuevas columnas a un DataFrame. Esta etapa en el proceso de construir un modelo usando algoritmos de Machine Learning o estadísticos se llama ingeniería de características.

Podemos crear columnas desde cero, o derivarla de otra columna, por ejemplo, agregando columnas o cambiando sus unidades.

### Estadísticas descriptivas

Puede utilizar diferentes métodos como:

* **.mean()**
* **.median()**
* **.min()**
* **.max()**
* **.quantile()**

Y muchos otros más para calcular estadísticas sobre los datos, sin embargo, en algunos casos necesitará crear sus propias funciones personalizadas. Para esto el método **.agg()** le permite aplicar sus propias funciones personalizadas a un DataFrame, así como también aplicar funciones a más de una columna, lo que hace que sus agregaciones sean más eficientes.

### Eliminar datos duplicados

Cuando queremos ver si hay datos duplicados, dos métodos interesantes son:

* **.duplicated()**
* **.drop_duplicates()**

Ambos métodos comparten dos argumentos muy importantes, el primero es *subset* que considera solo las columnas que se le pasen para buscar datos duplicados; el segundo es *keep* que determina que duplicado dejar o eliminar.

### Agrupaciones

Podemos hacer agrupaciones usando el método **.groupby()**, donde el primer argumento es *by* que recibe un str o una lista de las columnas por las cuales se desea agrupar.

### Tablas dínamicas

Otra forma de calcular estadísticas agrupadas son las tablas dínamicas. Algunos argumentos interesantes son:

* **values** es la columna que desea resumir.
* **index** es la columna por la que desea agrupar.
* **aggfunc** como se quiere agregar (por ejemplo, mediana)


**Nota**:

* De forma predeterminada el método **.pivot_table()** toma el valor medio para cada grupo.
* Para agrupar por dos variables, podemos pasar un segundo nombre de variable al argumento **columns**.
* En caso de tener valores missing, podemos completarlos (imputarlos) usando el argumento **fill_value**.

### Trabajar con index

Como se ha mencionado, una parte importante de los DataFrames son los index, que por lo general es un valor númerico de 0 a *n-1*, donde *n* es el número de observaciones totales en el DataFrame.

Sin embargo, podemos mover una columna del cuerpo del DataFrame al índice, de la siguiente forma:

* **set_index(column_name)**

También puede tener varios índices, solo debemos pasar una lista sobre el método **set_index()**. Y para restablecer al DataFrame original,

* **reset_index()**

Adicional, el método **reset_index()** tiene un argumento drop que le permite eliminar el índice.

### Unir datos (merge)

En muchas ocasiones tendremos diferentes archivos planos, y para analizar lo que me interesa debo unir los diferentes archivos.

