# Importacion de datos desde CSV

read_csv(fichero, sep=separador, header=n, index_col=m, na_values=no-validos, decimal=separador-decimal)

- sep: carácter separador del csv. (Por defecto ',')
- header: Fila del fichero que contiene nombre de las columnas para el DataFrame (Por defecto es 0)
- index_col: Columna del fichero que servirá para los nombres de las filas para DataFrame. Si no se indica será
de 0 a N-1
- na_values: Lista con valores que serán convertidos a NaN en el DataFrame
- decimal: separador de parte decimal en números reales. (Por defecto es '.')

In [2]:
# Importa el fichero house.csv
import pandas
import numpy

house = pandas.read_csv("house.csv", sep=",", header=0, na_values="", decimal=".")

# Atributos del DataFrame

- df.shape : Devuelve una tupla con el número de filas y columnas del DataFrame df.
- df.size : Devuelve el número de elementos del DataFrame.
- df.columns : Devuelve una objeto índice con los nombres de las columnas del DataFrame df.
- df.index : Devuelve un objeto índice con los nombres de las filas del DataFrame df.
- df.dtypes : Devuelve una con los tipos de datos de las columnas del DataFrame df.
- df.values : Devuelve un ndarray con los datos del DataFrame 

Funciones:
- df.info() : Devuelve información (número de filas, número de columnas, índices, tipo de las columnas y memoria usado) del df.
- df.head(n) : Devuelve las n primeras filas del DataFrame df.
- df.tail(n) : Devuelve las n últimas filas del DataFrame df
- df.to_nympy: Crea una matriz con los valores del dataFrame. Se infiere el tipo automáicamente. 

In [None]:
# Muestra, solamente, el número de filas del dataFrame (una tupla se puede indexar como una lista)
num_filas = house.shape[0]
print(f"Numero de filas: {num_filas}")

# Muestra el número de columnas del dataFrame
num_columnas = house.shape[1]
print(f"Numero de columnas: {num_columnas}")
# Multiplica (filas x columnas) y comprueba si es igual al atributo size, imprimiento true/false

print(True) if house.size == (num_filas*num_columnas) else print(False)

In [None]:
# Muestra la información completa con info() 
house.info()

In [None]:
# Muestra las primeras 8 líneas
house.head(8)

# Objeto index

Cada dataFrame tiene 2 objetos índices que almacenan el índice de columnas (nombres de las columnas) y los índices de las filas.

Los índices son inmutables (no se puede modificar el valor de una posición en concreto, como en las tuplas). Y también funcionan como conjuntos, soportando las típicas operaciones de intersección, unión y diferencia, aunque en los índices se permiten valores duplicados.   

Métodos:
- index.append(ad_index) 	Concatena 'ad_index' a 'index' y retorna un nuevo índice 
- index.difference(index, sort=None) 	Diferencia de conjuntos
- index.intersection(index, sort=False) 	Intersección de conjuntos
- index.union(index, sort=None) 	Unión de conjuntos
- index.isin(colección) Retorna un array booleano indicando si cada valor está contenido en la colección pasada como parámetro. 
- delete() 	Compute new Index with element at Index i deleted
- drop() 	Compute new Index by deleting passed values
- insert() 	Compute new Index by inserting element at Index i
- is_monotonic 	Returns True if each element is greater than or equal to the previous element
- is_unique: Propiedad. Almacena True si el índice no tiene valores duplicados.
- unique() 	Compute the array of unique values in the Index

Además soporta el operador 'is' para comprobar la pertenencia al conjunto de 1 elemento en concreto.

In [None]:
# Muestra el índice de filas
house.index

In [4]:
# Muestra el índice de columnas, guardándolo en la variable 'columnas'
columnas=house.columns
print(columnas)

Index(['date', 'price', 'bedrooms', 'bathrooms', 'sqft_living', 'sqft_lot',
       'floors', 'waterfront', 'view', 'condition', 'sqft_above',
       'sqft_basement', 'yr_built', 'yr_renovated', 'street', 'city',
       'statezip', 'country'],
      dtype='object')


In [None]:
# Comprueba si 'city' esta en columnas
print("city" in columnas)

In [None]:
# Comprueba que la variable columnas es realmente el mismo objeto que está dentro del DataFrame (operador is)
print(columnas is house.columns)


In [5]:
# Podemos crear un objeto índice y utilizarlo para crear un DataFrame o serie
alternative_cols = pandas.Index(['price', 'bathrooms', 'city', 'windows'])

# Calcula y muestra la diferencia, intersección, unión de columnas con alternative_cols manteniento orden original
diferencia = [col for col in columnas if col not in alternative_cols]
interseccion = [col for col in columnas if col in alternative_cols]
union = columnas + [col for col in alternative_cols if col not in columnas]

print("Diferencia:", diferencia)
print("Intersección:", interseccion)
print("Unión:", union)

Diferencia: ['date', 'bedrooms', 'sqft_living', 'sqft_lot', 'floors', 'waterfront', 'view', 'condition', 'sqft_above', 'sqft_basement', 'yr_built', 'yr_renovated', 'street', 'statezip', 'country']
Intersección: ['price', 'bathrooms', 'city']
Unión: Index(['datewindows', 'pricewindows', 'bedroomswindows', 'bathroomswindows',
       'sqft_livingwindows', 'sqft_lotwindows', 'floorswindows',
       'waterfrontwindows', 'viewwindows', 'conditionwindows',
       'sqft_abovewindows', 'sqft_basementwindows', 'yr_builtwindows',
       'yr_renovatedwindows', 'streetwindows', 'citywindows',
       'statezipwindows', 'countrywindows'],
      dtype='object')


In [27]:
# Comprueba si alternative_cols está dentro de columnas
all(columnas.isin(alternative_cols))

False

In [None]:
# Concatena alternative_cols a columnas, guarndando el nuevo índice en 'nuevo'


In [None]:
# Comprueba si hay valores duplicados en el índice "nuevo" 
# y si es así, genera un índice sin valores duplicados guardando el resultado en 'nuevo'



# Reindex

El dataFrame tiene un método "reindex", que crea un nuevo objeto con los valores organizados según el nuevo índice. Así podemos reordenar columnas, añadir o quitar. 

Si añadimos una columna que no existe en el DataFrame original por defecto la rellenará con valores nan.

df.reindex(index=filas, columns=columnas, fill_value=relleno, copy=None) : Devuelve el DataFrame que resulta de tomar del
DataFrame las filas con nombres en la lista filas y las columnas con nombres en la lista columnas. Si alguno de los nombres
indicados en filas o columnas no existía en el DataFrame df, se crean filas o columnas nuevas rellenas con el valor relleno.

Si indicamos copy=True devolverá una copia de los datos en vez e reindexar el mismo DataFrame. 

In [None]:
# Reindexa el dataFrame generando una copia diferente con las columnas ['price', 'bedrooms', 'bathrooms', 'cargas']
# El valor cargas que se rellene a 0

# Muestra las 5 primeras filas


# Borrar un elemento del índice según el eje

Con reindex o con método loc ya podemos borrar una columna o varias filas reindexando las que queremos. Pero quizás para un borrado puntual es más sencillo usar drop.

DataFrame.drop(index=None, columns=None, inplace=False, errors='raise')

Si metemos una etiqueta a borrar que no existe, lanzará una excepción, a menos que pasemos por parámetro errors='ignore', lo cual ignorará el error y no lanzará una excepción. 

In [None]:
# Elimina de copia_df la columna cargas y bathrooms guardando el resultado en un nuevo dataframe


# Objeto series

Los objetos series pueden ser interesantes por si mismos, como en una serie temporal, donde los datos están indexados (o etiquetados) por una marca de tiempo.

Un dataFrame puede verse como un conjunto de objetos Series. Cada columna es una Serie y entre todas comparten el mismo índice de fila. 

In [None]:
# Una dataFrame se puede indexar por columna como un array o lista pero indicando el nombre de la columna
# Columna precio es una Serie de pandas
precio = nuevo_copia['price']
isinstance(precio, pd.Series)

# Indexación, selección y filtro

Tanto en series como en dataFrames se pueden indexar por posición o por etiquetas.

Si no se han especificado etiquetas a las filas, las etiquetas de las filas corresponden al número de fila empezando en 0. 

La forma más correcta es usar los operadores loc[] e iloc[]. 

La indexación directa [] en una serie tratará los enteros como etiquetas si el índice contiene enteros, así que el comportamiento va a depender del tipo de datos de index.

Por ejemplo, mostramos en la siguiente celdas de código: 

In [None]:
# 2 series con los mismos datos y tamaño, una con etiquetas del índice tipo entero, otra tipo caracter. 
serie1 = pd.Series([1, 2, 3], index=[2, 0, 1])
serie2 = pd.Series([1, 2, 3], index=["a", "b", "c"])

In [None]:
# Serie1 con etiquetas del index siendo enteros
serie1

In [None]:
# Serie2 con etiquetas del index siendo caracteres
serie2

In [None]:
# Indexación de serie2 por posición, puesto que las etiquetas son letras, no hay confusión. 
serie2[[0, 1, 2]]

In [None]:
# ¿Indexación por posición? NO, indexa por etiqueta, puesto que son enteros. 
serie1[[0, 1, 2]]

# Indexación directa del dataframe -> df[ ]
### Indexación de 1 o varias columnas, todas las filas

Para filtrar o indexar una o varias columnas, lo hacemos pasando las etiquetas de las columnas

In [None]:
# Generar una vista del dataframe con columnas precio y bathrooms

# Muestra las 5 primeras líneas de lo generado


### Slicing por filas, con todas las columnas

Si en vez de pasar etiquetas al dataframe con indexación directa, pasamos un slice, genera el slice por filas.

In [None]:
# Filas de la 0 a la 3
df[0:4]

## Operadores loc e iloc
### Indexación por posición  iloc[ ]

dataframe.iloc[filas]

dataframe.iloc[filas, columnas]

En filas y columnas se puede poner una lista de índices. También se pueden usar rangos usando ':'

In [None]:
# Del dataframe original, indexa Filas de 2 a 4, todas las columnas


In [None]:
# Del dataframe original, indexa por posición las filas de la 0 a la 10 (incluyendo la 10), columnas 1, 2, 3, 5


### Indexación por etiquetas  loc[ ]

dataframe.loc[filas]

dataframe.loc[filas, columnas]

En las etiquetas también podemos indexar utilizando una slice o porción. 

series.loc['a':'g'] Va a indexar las filas comenzando en la etiqueta 'a' hasta la 'g' incluyendo esta última.

In [None]:
# Del dataframe original, muestra el precio y número de baños de las filas 10, 524, 324 


In [None]:
# Del dataframe original, muestra el precio y número de baños de las filas de la 5 a la 10 (incluyendo la 10) 


# Indexación booleana

Funciona similar a NumPy. 

Si realizamos una comparación de una Series, nos devuelve otra Series con valores True o False. Esta nueva Series sirve para indexar una Series o un DataFrame.  

In [None]:
# Genera una Serie booleana realizando la comparación de la columna bathrooms > 6


In [None]:
# Utilizando lo anterior, cuenta cuántos son mayores a 6


In [None]:
# Muestra todas  las columnas de las casas que tienen en bathrooms mayores a 6


In [None]:
# Muestra solamente los valores de bathrooms que son mayores a 6


### Indexación booleana puede combinarse con iloc y loc

Podemos indexar por filas y columnas df.loc[]. Al dataframe que genera, hacemos indexación booleana

df.loc[filas, columas][serie booleana]

In [None]:
# Muestra precio, bathrooms, bedrooms de las casas que tienen bathrooms mayores a 6


In [None]:
# También podemos generar la misma consulta "todas las columnas de las casas que tienen en bathrooms mayores a 6"
df.loc[df['bathrooms'] > 6]

## Resumen de indexación

- df[column] 	Selecciona una columna o lista de columnas por etiquetas. 
- df[boolean series] Filtra filas a través de una serie/array booleano
- df[:]   Slice filtra filas por posición mediante un slice con el operador ':'

LOC
- df.loc[filas] 	Selecciona una fila o conjunto de filas por etiquetas
- df.loc[:, cols] 	Selecciona una o varias columnas por etiquetas, todas las filas. 
- df.loc[rows, cols] 	Selecciona filas y columnas por etiquetas

ILOC
- df.iloc[rows] 	Selecciona una fila o conjunto de fila por posición
- df.iloc[:, cols] 	Selecciona una columna o conjunto de columnas por posición. 
- df.iloc[rows, cols] 	Selecciona filas y columnas por posición

at/iat
- df.at[row, col] 	Selecciona 1 solo valor indicando fila y columna por etiqueta
- df.iat[row, col] 	Selecciona 1 solo valor indicando fila y columna por posición.