## Pandas

Paquete provee estructuras de datos flexibles, expresivas y de fácil acceso para su manipulación y procesamiento
que facilita la manipulación de diferentes estructuras. 

La documentación y tutoriales pueden ser encontrados en __[Pandas](https://pandas.pydata.org/pandas-docs/stable/tutorials.html)__

En este notebook se abordarán temas como:
   
### [1. Series](#Cap1)

### [2. Cómo crear un DataFrame con pandas](#Cap2)

### [3. Guardar y leer archivos csv](#Cap3)

### [4. Fraccionar conjuntos de datos](#Cap4)

### [5. Funciones para resumir información](#Cap5)

### [6. Manipulación de datos perdidos](#Cap6)

In [1]:
import pandas as pd
import numpy as np
pd.set_option("display.max_rows", 5) # Especificar el número de filas a mostrar

In [3]:
pd?

###  1. Series<a id='Cap1'></a>

Las series son un arreglo unidimensional al igual que un array, sin embargo, se diferencia por la etiquetas, mientras que en un array la etiqueta es implícita, en una serie es explicita, dando la facilidad de asignar valores no numéricos como etiqueta.

In [2]:
# Crear una serie de datos

data=pd.Series([0.25,0.5,0.75,1],index=["a","b","c","d"])
print(data)
print("Valores:",data.values)
print("Índices:",data.index)

a    0.25
b    0.50
c    0.75
d    1.00
dtype: float64
Valores: [0.25 0.5  0.75 1.  ]
Índices: Index(['a', 'b', 'c', 'd'], dtype='object')


In [3]:
# Crear series desde diccionarios

x={"a":25,"b":60,"c":13,"d":7}
x=pd.Series(x)
print(x)
print("Valores:",x.values)
print("Índices:",x.index)

a    25
b    60
c    13
d     7
dtype: int64
Valores: [25 60 13  7]
Índices: Index(['a', 'b', 'c', 'd'], dtype='object')


In [4]:
# Para extrae datos se puede usar tanto la etiqueta asignada o el índice numérico como en los array

print(data["b"]) # Similar a los diccionarios 
print(data[1]) # Similar a los array o listas

0.5
0.5


### 2. Cómo crear un DataFrame con Pandas<a id='Cap2'></a>

Los DataFrame son una estructura fundamental en Pandas y al igual que las series son análogos a los arrays, teniendo la ventaja de tener etiquetas para filas y columnas. 

In [5]:
# Usando diccionario

df=pd.DataFrame({"Banano":[4,6],"Manzana":[7,10],"Uva":[12,13]},index=[2016,2017])
df

Unnamed: 0,Banano,Manzana,Uva
2016,4,7,12
2017,6,10,13


In [8]:
# Usando listas

Nombres = ["Juan","Laura","Alejandra","Alberto","Samuel"]
Edad = np.random.randint(low=17, high=24, size=50)
Altura = np.random.randint(low=145, high=170, size=50)
Nombres = [Nombres[np.random.randint(len(Nombres))] for i in range(50)]
 
Data = list(zip(Nombres, Edad,Altura))
Data = pd.DataFrame(Data, columns=["Nombre","Edad","Altura [cm]"])
Data

Unnamed: 0,Nombre,Edad,Altura [cm]
0,Laura,23,154
1,Alejandra,19,145
...,...,...,...
48,Alejandra,20,152
49,Alejandra,18,155


In [6]:
# Usando diccionarios y series

my_series = pd.Series({"Belgium":"Brussels", "India":"New Delhi", "United Kingdom":"London", "United States":"Washington"})
pd.DataFrame(my_series,columns=["Capital"])

Unnamed: 0,Capital
Belgium,Brussels
India,New Delhi
United Kingdom,London
United States,Washington


### 3. Guardar y leer csv<a id='Cap3'></a>

In [7]:
# Para guardar el Dataframe se utiliza la función to_csv y se especifíca el nombre del archivo

df.to_csv("Frutas.csv", sep="\t")

In [11]:
# Para usar un archivo en formato csv se acude a la función read_csv

data = pd.read_csv(r"C:\Users\USUARIO\Desktop\GitHub\Introducción a python\Datos\Pokemon.csv",index_col=0)
data

Unnamed: 0_level_0,Name,Type 1,Type 2,Total,HP,Attack,Defense,Sp. Atk,Sp. Def,Speed,Generation,Legendary
#,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1
1,Bulbasaur,Grass,Poison,318,45,49,49,65,65,45,1,False
2,Ivysaur,Grass,Poison,405,60,62,63,80,80,60,1,False
...,...,...,...,...,...,...,...,...,...,...,...,...
720,HoopaHoopa Unbound,Psychic,Dark,680,80,160,60,170,130,80,6,True
721,Volcanion,Fire,Water,600,80,110,120,130,90,70,6,True


In [12]:
print(data.info()) # Obtener información del DataFrame

<class 'pandas.core.frame.DataFrame'>
Int64Index: 800 entries, 1 to 721
Data columns (total 12 columns):
 #   Column      Non-Null Count  Dtype 
---  ------      --------------  ----- 
 0   Name        800 non-null    object
 1   Type 1      800 non-null    object
 2   Type 2      414 non-null    object
 3   Total       800 non-null    int64 
 4   HP          800 non-null    int64 
 5   Attack      800 non-null    int64 
 6   Defense     800 non-null    int64 
 7   Sp. Atk     800 non-null    int64 
 8   Sp. Def     800 non-null    int64 
 9   Speed       800 non-null    int64 
 10  Generation  800 non-null    int64 
 11  Legendary   800 non-null    bool  
dtypes: bool(1), int64(8), object(3)
memory usage: 75.8+ KB
None


In [13]:
print(data.shape) # Conocer las dimensiones del DataFrame

(800, 12)


### 4. Fraccionar los conjuntos de datos<a id='Cap4'></a>

In [14]:
# Conocer las etiquetas de las columnas

print(data.columns)

Index(['Name', 'Type 1', 'Type 2', 'Total', 'HP', 'Attack', 'Defense',
       'Sp. Atk', 'Sp. Def', 'Speed', 'Generation', 'Legendary'],
      dtype='object')


In [15]:
# Conocer los índices en las filas

print(data.index)

Int64Index([  1,   2,   3,   3,   4,   5,   6,   6,   6,   7,
            ...
            714, 715, 716, 717, 718, 719, 719, 720, 720, 721],
           dtype='int64', name='#', length=800)


In [20]:
# Para conocer los valore únicos que toma una columna se debe especificar esta y la función unique()

print(data["Type 1"].unique())

['Grass' 'Fire' 'Water' 'Bug' 'Normal' 'Poison' 'Electric' 'Ground'
 'Fairy' 'Fighting' 'Psychic' 'Rock' 'Ghost' 'Ice' 'Dragon' 'Dark' 'Steel'
 'Flying']


In [21]:
# para mostrar los valores de una columna se debe especificar su nombre

data["Name"][:5]

#
1                Bulbasaur
2                  Ivysaur
3                 Venusaur
3    VenusaurMega Venusaur
4               Charmander
Name: Name, dtype: object

In [25]:
# Las funciones loc y iloc permiten acceder a los valores de una fila. 

print(data.loc[1]) # Loc utiliza los índices explícitos y iloc los implícitos


# Para múltiples filas se usa :

print("\n Las tres primeras filas: \n",data.loc[:3])

Name          Bulbasaur
Type 1            Grass
                ...    
Generation            1
Legendary         False
Name: 1, Length: 12, dtype: object

 Las tres primeras filas: 
                     Name Type 1  Type 2  Total  HP  Attack  Defense  Sp. Atk  \
#                                                                              
1              Bulbasaur  Grass  Poison    318  45      49       49       65   
2                Ivysaur  Grass  Poison    405  60      62       63       80   
3               Venusaur  Grass  Poison    525  80      82       83      100   
3  VenusaurMega Venusaur  Grass  Poison    625  80     100      123      122   

   Sp. Def  Speed  Generation  Legendary  
#                                         
1       65     45           1      False  
2       80     60           1      False  
3      100     80           1      False  
3      120     80           1      False  


In [26]:
# Para llamar múltiples filas no consecutivas se debe asignar una lista con los valores de los índices

data.loc[[1,2,7,15]]

Unnamed: 0_level_0,Name,Type 1,Type 2,Total,HP,Attack,Defense,Sp. Atk,Sp. Def,Speed,Generation,Legendary
#,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1
1,Bulbasaur,Grass,Poison,318,45,49,49,65,65,45,1,False
2,Ivysaur,Grass,Poison,405,60,62,63,80,80,60,1,False
7,Squirtle,Water,,314,44,48,65,50,64,43,1,False
15,Beedrill,Bug,Poison,395,65,90,40,45,80,75,1,False
15,BeedrillMega Beedrill,Bug,Poison,495,65,150,40,15,80,145,1,False


In [32]:
# Seleccionar múltiples columnas y filas

data.loc[[1,4,7],["Name","Type 1","Legendary"]]

Unnamed: 0_level_0,Name,Type 1,Legendary
#,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
1,Bulbasaur,Grass,False
4,Charmander,Fire,False
7,Squirtle,Water,False


In [34]:
# Seleccionar las filas donde el pokemon es legendario

data[(data.Legendary == True)&(data.Generation==1)]

Unnamed: 0_level_0,Name,Type 1,Type 2,Total,HP,Attack,Defense,Sp. Atk,Sp. Def,Speed,Generation,Legendary
#,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1
144,Articuno,Ice,Flying,580,90,85,100,95,125,85,1,True
145,Zapdos,Electric,Flying,580,90,90,85,125,90,100,1,True
...,...,...,...,...,...,...,...,...,...,...,...,...
150,MewtwoMega Mewtwo X,Psychic,Fighting,780,106,190,100,154,100,130,1,True
150,MewtwoMega Mewtwo Y,Psychic,,780,106,150,70,194,120,140,1,True


### 5. Funciones para resumir información<a id='Cap5'></a>

Para resumir las columnas dentro de un dataframe existen diferentes funciones, que bien varian de acuerdo al tipo de dato de la columna

In [53]:
# Para contar el número de veces que se presenta un valor en una columna se usa value_counts

data.Legendary.value_counts()

False    735
True      65
Name: Legendary, dtype: int64

In [46]:
# Para conocer cuál es la posición del valor más alto dentro de una columna se usa la función idx.max()

print("El pokemon más fuertes es : %s" % (data.loc[data.Total.idxmax()].Name)) # El pokemon mas fuerte

El pokemon más fuertes es : #
150                 Mewtwo
150    MewtwoMega Mewtwo X
150    MewtwoMega Mewtwo Y
Name: Name, dtype: object


### 6. Manipulación de datos perdidos<a id='Cap6'></a>

Los datos perdidos son representados de forma general como: null, NaN o NA value.

La identificación de datos atípicos puede hacerse de dos maneras:
1. Mediante la creación de una máscara de valores logícos para indicar la posición del valor perdido

2. Especificando un valor centinela (None o NaN en python) para identificar los valores perdidos

In [54]:
vals1 = np.array([1,None,3,4])
vals1

array([1, None, 3, 4], dtype=object)

In [56]:
vals2 = np.array([1,np.nan,3,4])
vals2.dtype

# A diferencia del dtype object, con los NaN si se pueden realizar operaciones
# pero se debe tener cuidado al realizarlas

print(np.nan + 4)
print(vals2.sum()) # Al sumar un NaN se ontendrá otro NaN

nan
nan


In [28]:
# Para poder realizar entonces operaciones con arreglos con NaN NumPy cuenta con funciones especiales como:
print(np.nansum(vals2))
print(np.nanmin(vals2))

8.0
1.0


Los términos de NaN y None son utilizandos indiscriminadamente en Pandas, permitiendo realizar operaciones con los respectivos arreglos

In [29]:
print(pd.Series(["a",np.nan,None,"m"]))

0       a
1     NaN
2    None
3       m
dtype: object


    1. Detectar valores perdidos

Para identificar las observaciones perdidas se acude a isnull() y notnull(), donde juntos regresan una máscara de valores booleanos

In [57]:
df = pd.Series([1,np.nan,7,None])
print(df.notnull())
print("\n",df[df.notnull()]) # Utilizando la máscara

0     True
1    False
2     True
3    False
dtype: bool

 0    1.0
2    7.0
dtype: float64


     2. Eliminar observaciones perdidas

Para eliminar las observaciones perdidas se acude a drona() para eliminar la observación o a fillna() para asignarle un valor

In [31]:
print(df.dropna())

0    1.0
2    7.0
dtype: float64


In [32]:
# En el caso de un DataFrame la eliminación no se puede realizar por valores
# Se debe eliminar la columna o fila completa

df=pd.DataFrame([[1,      np.nan, 2],
                   [2,      3,      5],
                   [np.nan, 4,      6]])
print(df)
print("\n",df.dropna(axis=0)) # Eliminar por filas
print("\n",df.dropna(axis=1)) # Eliminar por columna


     0    1  2
0  1.0  NaN  2
1  2.0  3.0  5
2  NaN  4.0  6

      0    1  2
1  2.0  3.0  5

    2
0  2
1  5
2  6


In [33]:
# Se puede especificar un número mínimo de valores perdidos antes de elimar una fila o columna
df[3]=np.nan
print(df)
print("\n",df.dropna(axis=0,thresh=1)) # Mínimo de valores no NaN por fila
print("\n",df.dropna(axis=1,how="all")) # Elimina las columnas donde todos los valores sean NaN


     0    1  2   3
0  1.0  NaN  2 NaN
1  2.0  3.0  5 NaN
2  NaN  4.0  6 NaN

      0    1  2   3
0  1.0  NaN  2 NaN
1  2.0  3.0  5 NaN
2  NaN  4.0  6 NaN

      0    1  2
0  1.0  NaN  2
1  2.0  3.0  5
2  NaN  4.0  6


    3. Completar los valores perdidos

En el caso de no eliminar el valor no observado se puede ralizar una imputación o asignación de valor, ya se la media del total o la media entre dos valores, para esto se usa fillna()

In [34]:
print(df.fillna(0)) # Completa los valores perdidos con 0

     0    1  2    3
0  1.0  0.0  2  0.0
1  2.0  3.0  5  0.0
2  0.0  4.0  6  0.0


In [35]:
print(df.fillna(method="bfill",axis="columns")) # Completar con el valor anterior

     0    1    2   3
0  1.0  2.0  2.0 NaN
1  2.0  3.0  5.0 NaN
2  4.0  4.0  6.0 NaN


In [36]:
df

Unnamed: 0,0,1,2,3
0,1.0,,2,
1,2.0,3.0,5,
2,,4.0,6,


In [37]:
df.transform(lambda rs: rs-rs.mean())

Unnamed: 0,0,1,2,3
0,-0.5,,-2.333333,
1,0.5,-0.5,0.666667,
2,,0.5,1.666667,
