# Basics

In [None]:
# pandas is a fast, powerful, flexible and easy to use open source data analysis and manipulation tool,
# built on top of the Python programming language.
# https://pandas.pydata.org/docs/user_guide/index.html

import pandas as pd

### Series y datasets

In [None]:
# definir una serie
serie=pd.Series([1,2,3,4])

In [None]:
serie

In [None]:
# nombre de la serie
serie.name='Serie 1'

In [None]:
serie

In [None]:
# definir un dataframe
df=pd.DataFrame({'col1':[1,2,3,4],'col2':['a','b','c','d']})

In [None]:
df

### Dimensionalidad

In [None]:
# dimensiones
df.shape

### Leer un fichero csv

In [None]:
# leer csv
df = pd.read_csv('data/iris.data', header=None)

In [None]:
df

### Revisar los datos

In [None]:
# head
df.head(2)

In [None]:
# tail
df.tail(10)

### Nombre de columnas

In [None]:
nombres = ['long_sepalo','ancho_sepalo','long_petalo','ancho_petalo','clase']

In [None]:
nombres

In [None]:
# asignamos
df.columns=nombres

In [None]:
# columnas
df

In [None]:
# índices
df.index

In [None]:
df.shape

### Estadísticas básicas

In [None]:
df.describe()

### Conteo de valores

In [None]:
df['clase'].value_counts()

In [None]:
# uso de memoria
df.memory_usage()

#### Transposición

In [None]:
df.T

### Ordenamiento

In [None]:
# por ancho de sepalo
df.sort_values(['ancho_petalo','clase'],ascending=True)

### Filtrado

In [None]:
df[['clase','long_sepalo']]

In [None]:
df[30:]

In [None]:
df.iloc[[1,3,5] , 2:]

In [None]:
df.loc[[1,5],['clase']]

In [None]:
df[df['clase']=='Iris-virginica'].describe()

In [None]:
df[(df['long_sepalo']>5) & (df['long_petalo']<3)]

### Operaciones con columnas

In [None]:
df['long_sepalo']-df['long_petalo']

### Valores faltantes

In [None]:
df.isna()

In [None]:
df.isna().sum().sum()

In [None]:
# NumPy offers comprehensive mathematical functions, random number generators, 
# linear algebra routines, Fourier transforms, and more. 
# https://numpy.org/doc/stable/

import numpy as np

In [None]:
df['long_sepalo'][:2] = np.nan

In [None]:
df.head()

In [None]:
df.isna().sum()

### Completar los valores faltantes

In [None]:
# de long_petalo
df['long_sepalo'].fillna( df['long_sepalo'].mean() )

# Estadísticas básicas

In [None]:
df.median()

### Lambdas

In [None]:
df['long_sepalo'].apply(lambda x: x**2)

### Grouping

In [None]:
# grouping la media
df_group = df.groupby('clase')['ancho_sepalo'].mean()
df_group.name='media_ancho_sepalo'
df_group

In [None]:
# Unir columnas de otro DataFrame (inner).
df_join = df.join(df_group, on=['clase'],how='inner')
df_join

In [None]:
# pivot_table() pivota un DataFrame especificando valores, índice and columnas
pv_tb=pd.pivot_table(df,values='long_petalo', index=['ancho_sepalo'],columns=['ancho_petalo'])
pv_tb

# ML - Entendiendo los datos con estadísticas

- Observar los datos en bruto `data.head ()`
- Comprobación de las dimensiones de los datos con `data.shape`
- Obtener el tipo de datos de cada atributo con `data.dtypes`
- Resumen estadístico de datos con `data.describe()`
- Revisar la distribución de clases con `data.groupby()`
- Revisión de la correlación entre atributos con `data.corr(method='pearson')`
- Revisar el sesgo de la distribución de atributos con `data.skew()`

# Visualizar los datos para comprenderlos

In [None]:
# Matplotlib is a comprehensive library for creating static, animated, and interactive visualizations in Python.

import matplotlib as plt

In [None]:
# datos individuales
df_join['long_sepalo'].plot()

In [None]:
# datos conjuntos

In [None]:
# tamaño de la imagen
df_join['long_sepalo'].plot(figsize=[12,7])

In [None]:
# gráfico de barras
df_join['long_sepalo'].plot(kind='bar')