# LIBRERÍA PANDAS

----

Por más información pincha aquí: https://pandas.pydata.org/docs/user_guide/index.html

En primer lugar se realizará la instalación de la nueva librería Pandas con el pip install pandas.

In [None]:
# pip install pandas

In [1]:
import pandas as pd
import numpy as np

In [2]:
pd.DataFrame?

## Pandas Dataframes
son matrices de dos dimensiones que cuentan con índices tanto en las columnas como en las filas, ambas modificables por el programador. Además, en este caso, no todos los datos del dataframe tienen porqué ser del mismo tipo sino que pueden variar en función de cada columna.

In [9]:
pd.DataFrame(data=np.array([[1,2,3,4],[10.34,20,30,40]]).T, columns=("nombre_x","y"), index=("instancia_1","instancia_2","instancia_3","instancia_4"))

Unnamed: 0,nombre_x,y
instancia_1,1.0,10.34
instancia_2,2.0,20.0
instancia_3,3.0,30.0
instancia_4,4.0,40.0


----
# Series de Pandas
son matrices de una dimensión basadas en NumPy que, además de contener los datos de la estructura, tiene un índice para las columnas directamente asignado por Pantas. Estos índices son modificables. Por último, las Series de Pandas tienen el mismo tipo de datos en todas sus posiciones.

In [10]:
pd.Series?

In [11]:
pd.Series(data=np.random.rand(10))

0    0.548775
1    0.948656
2    0.025489
3    0.104818
4    0.607686
5    0.343464
6    0.888000
7    0.371975
8    0.649642
9    0.813266
dtype: float64

# Continuamos con el Dataframe (2D)

In [12]:
df = pd.DataFrame({

        "uno": pd.Series(np.random.randn(3), index=("a", "b", "c")),

        "dos": pd.Series(np.random.randn(4), index=("a", "b", "c", "d")),

        "tres": pd.Series(np.random.randn(3), index=("b", "c", "d")),

    })
df

Unnamed: 0,uno,dos,tres
a,0.461509,0.381017,
b,-0.644265,0.309023,1.494454
c,0.472163,0.163013,0.4161
d,,-1.150478,-1.97144


----
## Selección de Dataframe

In [13]:
print("DataFrame entero: ")
print(df)
print("-----------------------------------")

# Podemos seleccionar únicamente una columna
print("La primera columna del DataFrame:")
print(df["uno"])
print("-----------------------------------")


# También podemos seleccionar subconjuntos de columnas
print("Columnas uno y tres:")
print(df[["uno", "tres"]])
print("-----------------------------------")


# Para seleccionar el valor de una posición concreta utilizaremos lo siguiente
print("Valor de una posición concreta:")
print(df.iloc[0][2]) # Por números de índices
print("-----------------------------------")


# Si queremos obtener el valor de una fila completa
print("Valores de una fila completa:")
print(df.iloc[0:1,:]) # Igual que df.iloc[0,:]
print("-----------------------------------")


DataFrame entero: 
        uno       dos      tres
a  0.461509  0.381017       NaN
b -0.644265  0.309023  1.494454
c  0.472163  0.163013  0.416100
d       NaN -1.150478 -1.971440
-----------------------------------
La primera columna del DataFrame:
a    0.461509
b   -0.644265
c    0.472163
d         NaN
Name: uno, dtype: float64
-----------------------------------
Columnas uno y tres:
        uno      tres
a  0.461509       NaN
b -0.644265  1.494454
c  0.472163  0.416100
d       NaN -1.971440
-----------------------------------
Valor de una posición concreta:
nan
-----------------------------------
Valores de una fila completa:
        uno       dos  tres
a  0.461509  0.381017   NaN
-----------------------------------


In [16]:
print("Valor de una posición concreta:")
print(df.iloc[0][2]) # Por números de índices
print("-----------------------------------")

Valor de una posición concreta:
nan
-----------------------------------


### Funciones importantes

In [18]:
print("Correlación entre columnas:")
print(df.corr())
print("------------------------------")

print("Valores no nulos por columnas:")
print(df.count())
print("------------------------------")

print("Valores máximos por columnas:")
print(df.max())
print("------------------------------")

print("Valores mínimos por columnas:")
print(df.min())
print("------------------------------")

print("Mediana por columnas:")
print(df.median())
print("------------------------------")

print("Desviación típica por columnas:")
print(df.std())

Correlación entre columnas:
           uno       dos      tres
uno   1.000000 -0.200501 -1.000000
dos  -0.200501  1.000000  0.976348
tres -1.000000  0.976348  1.000000
------------------------------
Valores no nulos por columnas:
uno     3
dos     4
tres    3
dtype: int64
------------------------------
Valores máximos por columnas:
uno     0.472163
dos     0.381017
tres    1.494454
dtype: float64
------------------------------
Valores mínimos por columnas:
uno    -0.644265
dos    -1.150478
tres   -1.971440
dtype: float64
------------------------------
Mediana por columnas:
uno     0.461509
dos     0.236018
tres    0.416100
dtype: float64
------------------------------
Desviación típica por columnas:
uno     0.641517
dos     0.723124
tres    1.773679
dtype: float64


In [None]:
# df.dtypes
# df.head(2)
# df.describe()
# df.mean()
# df.median() #no es la media.
# df.fillna(df.mean()) #muy importante esta función!
# df.isnull().sum()
# df.iloc[1:2,1:2] #igual como vimos en las matrices 2D de Numpy

-----
# Importar un conjunto de Datos

*   Desde un archivo local
*   Desde un archivo accesible por una URL
*   Desde una base de datos

In [None]:
# La ruta es relativa.
dataCSV=pd.read_csv("./museums.csv")
dataCSV



---
## Exportar datos

In [None]:
# Igual que antes, tendremos que tener cuidado con la ruta (relativa desde el Notebook)
df.to_csv("sample_data.csv")

### Inspeccionar el CSV con lo aprendido.
Antes de poder investigarlo tenemos que convertirlo en un Dataframe de Pandas.

In [None]:
dfmuseo=pd.DataFrame(data=dataCSV)
dfmuseo.head() # con head podemos ver una parte del conjunto de datos, incluyendo parentesis (inserta número de filas)
# df.head() #prueba
# dfnew.tail()
# df.dtypes
# df.describe()
# df.isnull().sum()
# dfnew=df.fillna(df.mean())
# dfnew.dropna()
# dfnew.isna().sum()

# Limpieza de datos

In [None]:
# Verificación de datos nulos uno a uno (False si no es nulo y True si lo es)
print("Datos nulos en el DataFrame:")
print(df.isnull())
print("Para saber cuántos valores nulos tenemos por columnas:")
print(df.isnull().sum())

# Eliminar filas con valores nulos
print("Para eliminar las filas con valores nulos:")
print(df.dropna())

# Eliminar columnas con datos nulos
print("Para eliminar las columnas con valores nulos:")
print(df.dropna(axis = 1))

# En caso de no querer eliminar podremos sustituir los valores nulos
print("Sustituir valores nulos por un valor concreto:")
print(df.fillna(df.mean()))