# Proyectos II - Práctica 4
## Nombe: Manuel Martínez Ramón - INSO 2A
#### 2024.02.07

# 0 Introduction a Pandas

Pandas is an open source library that provides easy-to-use data structures and data analysis tools for the Python programming language.

Further reading:
- [Pandas homepage](https://pandas.pydata.org)

<https://www.w3schools.com/python/pandas/default.asp>

<https://aprendeconalf.es/docencia/python/manual/pandas/>

The main features of this library are:

* It defines new data structures based on the arrays of the NumPy library but with new features.
* It allows to easily read and write files in CSV format, Excel and SQL databases.
* Allows data to be accessed using indexes or names for rows and columns.
* It offers methods to reorder, split, and combine data sets.
* Allows you to work with time series.
* It performs all these operations very efficiently.



In [1]:
# Pandas is usually imported under the pd alias.
import pandas as pd
print(pd.__version__)

1.5.3


# 1 Tipos de datos en Panda

Pandas dispone de tres estructuras de datos diferentes:

   * Series: Estructura de una dimensión.
   * DataFrame: Estructura de dos dimensiones (tablas).
   * Panel: Estructura de tres dimensiones (cubos).

Estas estructuras se construyen a partir de arrays de la librería NumPy, añadiendo nuevas funcionalidades.

# 2 Why use Pandas and what can Pandas do?

Pandas allows us to analyze big data and make conclusions based on statistical theories.

Pandas can clean messy data sets, and make them readable and relevant.

Relevant data is very important in data science.
:}

Data Science: is a branch of computer science where we study how to store, use and analyze data for deriving information from it.
What Can Pandas Do?

Pandas gives you answers about the data. Like:

    Is there a correlation between two or more columns?
    What is average value?
    Max value?
    Min value?

Pandas are also able to delete rows that are not relevant, or contains wrong values, like empty or NULL values. This is called cleaning the data.

# 3 Series
A Pandas Series is like a column in a table.
It is a one-dimensional array holding data of any type.

## 3.1 Basic creation of Series

In [2]:
import pandas as pd

a = [1, 7, 2]

myvar = pd.Series(a)

print(myvar)

0    1
1    7
2    2
dtype: int64


In [3]:
#If nothing else is specified, the values are labeled with their index number. First value has index 0, second value has index 1 etc.

#This label can be used to access a specified value.

myvar[1]

7

## 3.2 Using label / Index

In [4]:
#With the index argument, you can name your own labels.

In [5]:
a = [1, 7, 2]

myvar = pd.Series(a, index = ["x", "y", "z"])

print(myvar)

x    1
y    7
z    2
dtype: int64


In [6]:
#When you have created labels, you can access an item by referring to the label or to the index number
print(myvar["y"])
print(myvar[1])

7
7


## 3.3 Create Serie using lists


In [7]:

import pandas as pd
datos=['Álgebra', 'Cáculo', 'Python', 'Visualización', 'Inglés']
indices=["Asig 1", "Asig 2", "Asig 3", "Asig 4", "Asig 5"]
s=pd.Series(data=datos, index=indices, dtype='string')
#Alternative
#s=pd.Series(datos, indices, dtype='string')
print(s)


Asig 1          Álgebra
Asig 2           Cáculo
Asig 3           Python
Asig 4    Visualización
Asig 5           Inglés
dtype: string


In [None]:
#Compare diferences
s2=pd.Series(datos)
print(s2)

0          Álgebra
1           Cáculo
2           Python
3    Visualización
4           Inglés
dtype: object


In [None]:
print(s.values)

<StringArray>
['Álgebra', 'Cáculo', 'Python', 'Visualización', 'Inglés']
Length: 5, dtype: string


In [None]:
print(s.index)

Index(['Asig 1', 'Asig 2', 'Asig 3', 'Asig 4', 'Asig 5'], dtype='object')


In [None]:
print(s2.values)

['Álgebra' 'Cáculo' 'Python' 'Visualización' 'Inglés']


In [None]:
print(s2.index)

RangeIndex(start=0, stop=5, step=1)


## 3.4 Create Serie using dictionaries

In [None]:
import pandas as pd

calories = {"day1": 420, "day2": 380, "day3": 390}

myvar = pd.Series(calories)

print(myvar)

day1    420
day2    380
day3    390
dtype: int64


In [None]:
datos={'Matemáticas':6.0, 'Economía':4.5,'Programación': 8.5}
s=pd.Series(data=datos)
print(s)


Matemáticas     6.0
Economía        4.5
Programación    8.5
dtype: float64


In [None]:
#To select only some of the items in the dictionary, use the index argument and specify only
#the items you want to include in the Series.
import pandas as pd

calories = {"day1": 420, "day2": 380, "day3": 390}

myvar = pd.Series(calories, index = ["day1", "day2"])

print(myvar)

day1    420
day2    380
dtype: int64


## 3.5 Create Serie Numpy array

In [None]:
import numpy as np
serie = pd.Series(np.random.randn(10))
print(type(serie))
print(serie)


<class 'pandas.core.series.Series'>
0    0.040184
1    1.501515
2   -0.445623
3   -1.099455
4    2.197384
5    0.613272
6   -0.067419
7   -0.622953
8   -0.030139
9   -0.425241
dtype: float64


## 3.6 Create serie with dates as index

In [None]:
serie = pd.Series(np.random.randn(28), index = pd.date_range('2018/02/01', periods = 28))
print('Serie temporal con índices de fechas \n{} \n'.format(serie))
print(type(serie))


Serie temporal con índices de fechas 
2018-02-01    0.594457
2018-02-02    1.208121
2018-02-03    0.252030
2018-02-04    0.530326
2018-02-05   -1.822646
2018-02-06   -0.292523
2018-02-07   -0.755999
2018-02-08   -0.030789
2018-02-09   -0.504368
2018-02-10    1.270275
2018-02-11   -0.113896
2018-02-12    0.423829
2018-02-13   -1.338042
2018-02-14    0.077932
2018-02-15   -2.936430
2018-02-16   -0.389429
2018-02-17    0.740628
2018-02-18   -1.935966
2018-02-19   -0.305704
2018-02-20   -0.223676
2018-02-21    0.038592
2018-02-22   -1.783391
2018-02-23   -0.914040
2018-02-24   -0.042557
2018-02-25    0.134420
2018-02-26    1.134219
2018-02-27    0.753848
2018-02-28    0.285926
Freq: D, dtype: float64 

<class 'pandas.core.series.Series'>


## 3.7 Properties of Series


In [None]:
datos={'Matemáticas':6.0, 'Economía':4.5,'Programación': 8.5}
s=pd.Series(datos)
print(s.size)
print(s.values)
print(s.index)
s.dtype

type(s)

#1.- s.size: Devuelve el número de elementos de la serie s.
#2.- s.index: Devuelve una lista con los nombres de las filas de la serie s.
#3.- s.values: Devuelve una lista con los valores de la serie DataFrame s.
#4.- s.dtype: Devuelve el tipo de datos de los elementos de la serie s

3
[6.  4.5 8.5]
Index(['Matemáticas', 'Economía', 'Programación'], dtype='object')


pandas.core.series.Series

## 3.8 Summary of functions with series

In [None]:
#Resumen descriptivo de una serie
#Las siguientes funciones permiten resumir varios aspectos de una serie:
#s.count() : Devuelve el número de elementos que no son nulos ni NaN en la serie s.
#s.sum() : Devuelve la suma de los datos de la serie s cuando los datos son de un tipo numérico, o la concatenación de ellos cuando son del tipo cadena str.
#s.cumsum() : Devuelve una serie con la suma acumulada de los datos de la serie s cuando los datos son de un tipo numérico.
#s.value_counts() : Devuelve una serie con la frecuencia (número de repeticiones) de cada valor de la serie s.
#s.min() : Devuelve el menor de los datos de la serie s.
#s.max() : Devuelve el mayor de los datos de la serie s.
#s.mean() : Devuelve la media de los datos de la serie s cuando los datos son de un tipo numérico.
#s.std() : Devuelve la desviación típica de los datos de la serie s cuando los datos son de un tipo numérico.
#s.describe(): Devuelve una serie con un resumen descriptivo que incluye el número de datos, su suma, el mínimo, el máximo, la media, la desviación típica y los cuartiles.
#


print(s.count())
print(s.sum())
print(s.cumsum())
print(s.value_counts())
print(s.min())
print(s.max() )
print(s.mean())
print(s.std())
print(s.describe())

3
19.0
Matemáticas      6.0
Economía        10.5
Programación    19.0
dtype: float64
4.5    1
8.5    1
6.0    1
dtype: int64
4.5
8.5
6.333333333333333
2.0207259421636903
count    3.000000
mean     6.333333
std      2.020726
min      4.500000
25%      5.250000
50%      6.000000
75%      7.250000
max      8.500000
dtype: float64


## 3.9 Apply operators to series

In [None]:
import pandas as pd
s=pd.Series([1, 2, 3, 4])
print("Serie original")
print(s)
print("\nSerie s=s*2")
s=s*2
print(s)
print("\nSerie s=s%2")
s=s%2
print(s)

s=pd.Series(['a', 'b', 'c'])
print("\nSerie original")
print(s)
print("\nSerie s=s*5")
s=s*5
print(s)
#Los (+, *, /, etc.) pueden utilizarse con una serie, y devuelven otra serie con el resultado de aplicar la operación a cada elemento de la serie.


Serie original
0    1
1    2
2    3
3    4
dtype: int64

Serie s=s*2
0    2
1    4
2    6
3    8
dtype: int64

Serie s=s%2
0    0
1    0
2    0
3    0
dtype: int64

Serie original
0    a
1    b
2    c
dtype: object

Serie s=s*5
0    aaaaa
1    bbbbb
2    ccccc
dtype: object


## 3.10 Apply functions to Series

In [None]:
#La función .apply() para pandas facilita el uso de funciones personalizadas
#a DataFrames pero no es particularmente eficiente y muchas veces es mejor utilizar
#funciones nativas de pandas o numpy - ¡solo es cuestión de encontrarlas!

import pandas as pd
s=pd.Series(['a', 'b', 'c'])
print(s.str.upper())

import pandas as pd
import math
datos={'Matemáticas':6.0, 'Economía':4,'Programación': 8.5}
s=pd.Series(datos)
s.apply(math.sqrt)


0    A
1    B
2    C
dtype: object


Matemáticas     2.449490
Economía        2.000000
Programación    2.915476
dtype: float64

In [None]:
def AddHola(cadena):
    cadena=cadena + " Hola"
    return cadena

s2=pd.Series(['ana', 'borja', 'cecilia'])
print(s2)
s2.apply(AddHola)
print(s2.apply(AddHola))
s3= s2.apply(AddHola)
print(s3)


0        ana
1      borja
2    cecilia
dtype: object
0        ana Hola
1      borja Hola
2    cecilia Hola
dtype: object
0        ana Hola
1      borja Hola
2    cecilia Hola
dtype: object


## 3.11 Filtering Series

In [None]:
#Filtrado de una serie
#Para filtrar una serie y quedarse con los valores que cumplen una determinada condición se utiliza el siguiente
#método:

#s[condicion] : Devuelve una serie con los elementos de la serie s que se corresponden con el valor True de la
#lista booleana condicion. condicion debe ser una lista de valores booleanos de la misma longitud que la serie.

s=pd.Series({'Matemáticas': 6.0,  'Economía': 4.5, 'Programación': 8.5})
lista=s>5
print(lista)
print(s[lista])

Matemáticas      True
Economía        False
Programación     True
dtype: bool
Matemáticas     6.0
Programación    8.5
dtype: float64


## 3.12 Sorting

In [None]:
#Ordenar una serie.
#Para ordenar una serie se utilizan los siguientes métodos:
#1.- s.sort_values(ascending=booleano) : Devuelve la serie que resulta de ordenar los valores la serie s.
# Si argumento del parámetro ascending es True el orden es creciente y si es False decreciente.
#2.-df.sort_index(ascending=booleano) : Devuelve la serie que resulta de ordenar el índice de la serie s.
 #Si el argumento del parámetro ascending es True el orden es creciente y si es False decreciente.

import pandas as pd
s=pd.Series({'Matemáticas': 6.0,  'Economía': 4.5, 'Programación': 8.5})
print(s.sort_values())
print(s.sort_index(ascending = False))


Economía        4.5
Matemáticas     6.0
Programación    8.5
dtype: float64
Programación    8.5
Matemáticas     6.0
Economía        4.5
dtype: float64


# 4 Dataframes
A Pandas DataFrame is a 2 dimensional data structure, like a 2 dimensional array, or a table with rows and columns.

Un objeto del tipo DataFrame define un conjunto de datos estructurado en forma de tabla donde cada columna es un objeto de tipo Series, es decir, todos los datos de una misma columna son del mismo tipo, y las filas son registros que pueden contender datos de distintos tipos.
Un DataFrame contiene dos índices, uno para las filas y otro para las columnas, y se puede acceder a sus elementos mediante los nombres de las filas y las columnas.
Ejemplo. El siguiente DataFrame contiene información sobre los alumnos de un curso. Cada fila corresponde a un alumno y cada columna a una variable.


# 4.1 Simple Dataframe creation

In [None]:
import pandas as pd

data = {
  "calories": [420, 380, 390],
  "duration": [50, 40, 45]
}

#load data into a DataFrame object:
df = pd.DataFrame(data)

print(df)

   calories  duration
0       420        50
1       380        40
2       390        45


In [None]:
portfolios = pd.DataFrame(
    [[ 75,  75, 100,   0,   0],
     [  0, 100,   0,   0, 150],
     [  0,  50,   0, 100, 100]],
    index=['portfolio A', 'portfolio B', 'portfolio C'],
    columns=['apple', 'amazon', 'boeing', 'citigroup', 'walmart'])

portfolios

Unnamed: 0,apple,amazon,boeing,citigroup,walmart
portfolio A,75,75,100,0,0
portfolio B,0,100,0,0,150
portfolio C,0,50,0,100,100


## 4.2 From a dictionary

In [None]:
import pandas as pd
datos = {'nombre':['María', 'Luis', 'Carmen', 'Antonio'], 'edad':[18, 22, 20, 21],
         'grado':['Economía', 'Medicina','Arquitectura', 'Economía'],
         'correo':['maria@gmail.com', 'luis@yahoo.es', 'carmen@gmail.com', 'antonio@gmail.com']}
df = pd.DataFrame(datos)
print(df)


    nombre  edad         grado             correo
0    María    18      Economía    maria@gmail.com
1     Luis    22      Medicina      luis@yahoo.es
2   Carmen    20  Arquitectura   carmen@gmail.com
3  Antonio    21      Economía  antonio@gmail.com


In [None]:
import pandas as pd
datos = {'nombre':['María', 'Luis', 'Carmen', 'Antonio'], 'edad':[18, 22, 20, 21],
         'grado':['Economía', 'Medicina','Arquitectura', 'Economía'],
         'correo':['maria@gmail.com', 'luis@yahoo.es', 'carmen@gmail.com', 'antonio@gmail.com']}
indice=["fila1", "fila2", "fila3", "fila4"]
df = pd.DataFrame(datos, index=indice)
print(df)


        nombre  edad         grado             correo
fila1    María    18      Economía    maria@gmail.com
fila2     Luis    22      Medicina      luis@yahoo.es
fila3   Carmen    20  Arquitectura   carmen@gmail.com
fila4  Antonio    21      Economía  antonio@gmail.com


In [None]:
#Falla porque ya utilizaría la clave del diccionario como nombre de columna

import pandas as pd
datos = {'nombre':['María', 'Luis', 'Carmen', 'Antonio'], 'edad':[18, 22, 20, 21],
         'grado':['Economía', 'Medicina','Arquitectura', 'Economía'],
         'correo':['maria@gmail.com', 'luis@yahoo.es', 'carmen@gmail.com', 'antonio@gmail.com']}
indice=["fila1", "fila2", "fila3", "fila4"]
columnas=["NOMBRE", "EDAD", "ASIGNATURA", "EMAIL"]
df = pd.DataFrame(datos, index=indice, columns=columnas)
print(df)


      NOMBRE EDAD ASIGNATURA EMAIL
fila1    NaN  NaN        NaN   NaN
fila2    NaN  NaN        NaN   NaN
fila3    NaN  NaN        NaN   NaN
fila4    NaN  NaN        NaN   NaN


## 4.3 List of dictionaries and List os lists

In [None]:
import pandas as pd
alumnos = {
    "Nombre": ["Pepe Luis", "Alejandro García","Cristina Puente", "Carlos Vallez" ],
    "Edad" : [32, 55, 20, 43]
}
alumnos

{'Nombre': ['Pepe Luis',
  'Alejandro García',
  'Cristina Puente',
  'Carlos Vallez'],
 'Edad': [32, 55, 20, 43]}

In [None]:
df2=pd.DataFrame(alumnos)
df2

Unnamed: 0,Nombre,Edad
0,Pepe Luis,32
1,Alejandro García,55
2,Cristina Puente,20
3,Carlos Vallez,43


In [None]:
import pandas as pd
datos=[{"Banco":"CAJASUR", "Cuenta":"1234567", "Saldo": 1569.23},
       {"Banco":"BBVA", "Cuenta":"545367", "Saldo": 4169.54},
       {"Banco":"BS", "Cuenta":"3437", "Saldo": 8176.54}]
data_frame = pd.DataFrame(data=datos)
data_frame


Unnamed: 0,Banco,Cuenta,Saldo
0,CAJASUR,1234567,1569.23
1,BBVA,545367,4169.54
2,BS,3437,8176.54


In [None]:
#A las columnas se le han dado nombres  numéricos basados en la posición de los datos en las listas
import pandas as pd
datos=[["Pepe", 1258.45, 629711699],
      ["Juan", 565.36, 914748638],
      ["Alfredo", 58859.88, 629065896]]
data_frame=pd.DataFrame(data=datos)
print(data_frame)

         0         1          2
0     Pepe   1258.45  629711699
1     Juan    565.36  914748638
2  Alfredo  58859.88  629065896


In [None]:
datos=[["Pepe", 1258.45, 629711699],
      ["Juan", 565.36, 914748638],
      ["Alfredo", 58859.88, 629065896]]
nombres_col=["Nombres", "Salario", "Teléfono"]
data_frame=pd.DataFrame(data=datos, columns=nombres_col)
print(data_frame)


   Nombres   Salario   Teléfono
0     Pepe   1258.45  629711699
1     Juan    565.36  914748638
2  Alfredo  58859.88  629065896


In [None]:
datos=[["Pepe", 1258.45, 629711699],
      ["Juan", 565.36, 914748638],
      ["Alfredo", 58859.88, 629065896]]
nombres_col=["Nombres", "Salario", "Teléfono"]
nombres_fil=["fila1", "fila2", "fila3"]
data_frame=pd.DataFrame(data=datos, index=nombres_fil,columns=nombres_col)
print(data_frame)
data_frame

       Nombres   Salario   Teléfono
fila1     Pepe   1258.45  629711699
fila2     Juan    565.36  914748638
fila3  Alfredo  58859.88  629065896


Unnamed: 0,Nombres,Salario,Teléfono
fila1,Pepe,1258.45,629711699
fila2,Juan,565.36,914748638
fila3,Alfredo,58859.88,629065896


## 4.4 From CSV files

In [None]:
import pandas as pd

df = pd.read_csv('data.csv')

df

Unnamed: 0,Duration,Pulse,Maxpulse,Calories
0,60,110,130,409.1
1,60,117,145,479.0
2,60,103,135,340.0
3,45,109,175,282.4
4,45,117,148,406.0
...,...,...,...,...
164,60,105,140,290.8
165,60,110,145,300.0
166,60,115,145,310.2
167,75,120,150,320.4


In [None]:
#use to_string() to print the entire DataFrame.
print(df.to_string())

     Duration  Pulse  Maxpulse  Calories
0          60    110       130     409.1
1          60    117       145     479.0
2          60    103       135     340.0
3          45    109       175     282.4
4          45    117       148     406.0
5          60    102       127     300.0
6          60    110       136     374.0
7          45    104       134     253.3
8          30    109       133     195.1
9          60     98       124     269.0
10         60    103       147     329.3
11         60    100       120     250.7
12         60    106       128     345.3
13         60    104       132     379.3
14         60     98       123     275.0
15         60     98       120     215.2
16         60    100       120     300.0
17         45     90       112       NaN
18         60    103       123     323.0
19         45     97       125     243.0
20         60    108       131     364.2
21         45    100       119     282.0
22         60    130       101     300.0
23         45   

1.- read_csv(fichero.csv, sep=separador, header=n, index_col=m, na_values=no-validos, decimal=separador-decimal) : Devuelve un objeto del tipo DataFrame con los datos del fichero CSV fichero.csv usando como separador de los datos la cadena separador.
Como nombres de columnas se utiliza los valores de la fila n y como nombres de filas los valores de la columna m. Si no se indica m se utilizan como nombres de filas los enteros empezando en 0. Los valores incluídos en la lista no-validos se convierten en NaN. Para los datos numéricos se utiliza como separador de decimales el carácter indicado en separador-decimal.

No poner nada es lo mismo que poder header=0
Si no ponemos el atributo index_col  numera las filas empezando en 0

<https://www.w3schools.com/python/pandas/pandas_csv.asp>

## 4.5 From Other files

- CSV format: [read_csv()](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.read_csv.html)
- Excel spreasheet: [read_excel()](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.read_excel.html)
- JSON format: [read_json()](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.read_json.html)

In [None]:
import pandas as pd

df4 = pd.read_json('data.json')
df4

Unnamed: 0,Duration,Pulse,Maxpulse,Calories
0,60,110,130,409.1
1,60,117,145,479.0
2,60,103,135,340.0
3,45,109,175,282.4
4,45,117,148,406.0
...,...,...,...,...
164,60,105,140,290.8
165,60,110,145,300.4
166,60,115,145,310.2
167,75,120,150,320.4


Investigate:

2 json

<https://www.w3schools.com/python/pandas/pandas_json.asp>

3.- read_excel(fichero.xlsx, sheet_name=hoja, header=n, index_col=m, na_values=no-validos, decimal=separador-decimal) : Devuelve un objeto del tipo DataFrame con los datos de la hoja de cálculo hoja del fichero Excel fichero.xlsx. Como nombres de columnas se utiliza los valores de la fila n y como nombres de filas los valores de la columna m. Si no se indica m se utilizan como nombres de filas los enteros empezando en 0. Los valores incluídos en la lista no-validos se convierten en NaN. Para los datos numéricos se utiliza como separador de decimales el carácter indicado en separador-decimal.

## 4.6 Export a Dataframe to a file

df.to_csv(fichero.csv, sep=separador, columns=booleano, index=booleano)

df.to_excel(fichero.xlsx, sheet_name = hoja, columns=booleano, index=booleano)

Investigate them.

Exportación de ficheros

También existen funciones para exportar un DataFrame a un fichero con diferentes formatos.
df.to_csv(fichero.csv, sep=separador, columns=booleano, index=booleano) : Exporta el DataFrame df al fichero fichero.csv en formato CSV usando como separador de los datos la cadena separador. Si se pasa True al parámetro columns se exporta también la fila con los nombres de columnas y si se pasa True al parámetro index se exporta también la columna con los nombres de las filas.

df.to_excel(fichero.xlsx, sheet_name = hoja, columns=booleano, index=booleano) : Exporta el DataFrame df a la hoja de cálculo hoja del fichero fichero.xlsx en formato Excel. Si se pasa True al parámetro columns se exporta también la fila con los nombres de columnas y si se pasa True al parámetro index se exporta también la columna con los nombres de las filas.


## 4.7 Dataframes Attributes

Atributos de un DataFrame   
Existen varias propiedades o métodos para ver las características de un DataFrame.    
df.info() : Devuelve información (número de filas, número de columnas, índices, tipo de las columnas y memoria usado) sobre el DataFrame df.    
df.shape : Devuelve una tupla con el número de filas y columnas del DataFrame df.   
df.size : Devuelve el número de elementos del DataFrame.  
df.columns : Devuelve una lista con los nombres de las columnas del DataFrame df.   
df.index : Devuelve una lista con los nombres de las filas del DataFrame df.    
df.dtypes : Devuelve una serie con los tipos de datos de las columnas del DataFrame df.   
df.head(n) : Devuelve las n primeras filas del DataFrame df.    
df.tail(n) : Devuelve las n últimas filas del DataFrame df.   




In [8]:
import pandas as pd
df = pd.read_csv( 'https://raw.githubusercontent.com/asalber/manual-python/master/datos/colesterol.csv')
df.info()



<class 'pandas.core.frame.DataFrame'>
RangeIndex: 14 entries, 0 to 13
Data columns (total 6 columns):
 #   Column      Non-Null Count  Dtype  
---  ------      --------------  -----  
 0   nombre      14 non-null     object 
 1   edad        14 non-null     int64  
 2   sexo        14 non-null     object 
 3   peso        13 non-null     float64
 4   altura      14 non-null     float64
 5   colesterol  13 non-null     float64
dtypes: float64(3), int64(1), object(2)
memory usage: 800.0+ bytes


In [9]:
df.shape

(14, 6)

In [10]:
df.size

84

In [11]:
df.columns

Index(['nombre', 'edad', 'sexo', 'peso', 'altura', 'colesterol'], dtype='object')

In [12]:
df.index


RangeIndex(start=0, stop=14, step=1)

In [13]:
df.dtypes

nombre         object
edad            int64
sexo           object
peso          float64
altura        float64
colesterol    float64
dtype: object

## 4.8 Rename rows and columns

NO ES INPLACE
Renombrar los nombres de las filas y columnas
Para cambiar el nombre de las filas y las columnas de un DataFrame se utiliza el siguiente método:

df.rename(columns=columnas, index=filas): Devuelve el DataFrame que resulta de renombrar las columnas indicadas en las claves del diccionario columnas con sus valores y las filas indicadas en las claves del diccionario filas con sus valores en el DataFrame df.



In [14]:

import pandas as pd
df = pd.read_csv('https://raw.githubusercontent.com/asalber/manual-python/master/datos/colesterol.csv')

print(df)

df2=df.rename(columns={'nombre':'nombre y apellidos', 'altura':'estatura'}, index={0:1000, 1:1001, 2:1002})


                             nombre  edad sexo   peso  altura  colesterol
0      José Luis Martínez Izquierdo    18    H   85.0    1.79       182.0
1                    Rosa Díaz Díaz    32    M   65.0    1.73       232.0
2             Javier García Sánchez    24    H    NaN    1.81       191.0
3               Carmen López Pinzón    35    M   65.0    1.70       200.0
4              Marisa López Collado    46    M   51.0    1.58       148.0
5                 Antonio Ruiz Cruz    68    H   66.0    1.74       249.0
6           Antonio Fernández Ocaña    51    H   62.0    1.72       276.0
7             Pilar Martín González    22    M   60.0    1.66         NaN
8              Pedro Gálvez Tenorio    35    H   90.0    1.94       241.0
9           Santiago Reillo Manzano    46    H   75.0    1.85       280.0
10            Macarena Álvarez Luna    53    M   55.0    1.62       262.0
11       José María de la Guía Sanz    58    H   78.0    1.87       198.0
12  Miguel Angel Cuadrado Gutiérrez   

In [15]:
df2

Unnamed: 0,nombre y apellidos,edad,sexo,peso,estatura,colesterol
1000,José Luis Martínez Izquierdo,18,H,85.0,1.79,182.0
1001,Rosa Díaz Díaz,32,M,65.0,1.73,232.0
1002,Javier García Sánchez,24,H,,1.81,191.0
3,Carmen López Pinzón,35,M,65.0,1.7,200.0
4,Marisa López Collado,46,M,51.0,1.58,148.0
5,Antonio Ruiz Cruz,68,H,66.0,1.74,249.0
6,Antonio Fernández Ocaña,51,H,62.0,1.72,276.0
7,Pilar Martín González,22,M,60.0,1.66,
8,Pedro Gálvez Tenorio,35,H,90.0,1.94,241.0
9,Santiago Reillo Manzano,46,H,75.0,1.85,280.0


## 4.9 Reindex a Dataframe

NO ES INPLACE

Reindexar un DataFrame
Para reordenar los índices de las filas y las columnas de un DataFrame, así como añadir o eliminar índices, se utiliza el siguiente método:
df.reindex(index=filas, columns=columnas, fill_value=relleno) :

Devuelve el DataFrame que resulta de tomar del DataFrame df las filas con nombres en la lista filas y las columnas con nombres en la lista columnas. Si alguno de los nombres indicados en filas o columnas no existía en el DataFrame df, se crean filan o columnas nuevas rellenas con el valor relleno.



In [16]:

import pandas as pd
df = pd.read_csv( 'https://raw.githubusercontent.com/asalber/manual-python/master/datos/colesterol.csv')
df3= df.reindex(index=[4, 3, 1], columns=['nombre', 'tensión', 'colesterol'])

In [17]:
df

Unnamed: 0,nombre,edad,sexo,peso,altura,colesterol
0,José Luis Martínez Izquierdo,18,H,85.0,1.79,182.0
1,Rosa Díaz Díaz,32,M,65.0,1.73,232.0
2,Javier García Sánchez,24,H,,1.81,191.0
3,Carmen López Pinzón,35,M,65.0,1.7,200.0
4,Marisa López Collado,46,M,51.0,1.58,148.0
5,Antonio Ruiz Cruz,68,H,66.0,1.74,249.0
6,Antonio Fernández Ocaña,51,H,62.0,1.72,276.0
7,Pilar Martín González,22,M,60.0,1.66,
8,Pedro Gálvez Tenorio,35,H,90.0,1.94,241.0
9,Santiago Reillo Manzano,46,H,75.0,1.85,280.0


In [18]:
df3

Unnamed: 0,nombre,tensión,colesterol
4,Marisa López Collado,,148.0
3,Carmen López Pinzón,,200.0
1,Rosa Díaz Díaz,,232.0


## 4.10 Accesing to the Dataframe elements

1.- Mediante posiciones
1.- df.iloc[i, j] : Devuelve el elemento que se encuentra en la fila i y la columna j del DataFrame df. Pueden indicarse secuencias de índices para obtener partes del DataFrame.

2.-df.iloc[filas, columnas] : Devuelve un DataFrame con los elementos de las filas de la lista filas y de las columnas de la lista columnas.

3.- df.iloc[i] : Devuelve una serie con los elementos de la fila i del DataFrame df.
 los datos de un DataFrame se puede hacer a través de posiciones o través de los nombres de las filas y columnas.

2.- Mediante nombres
df.loc[fila, columna] : Devuelve el elemento que se encuentra en la fila con nombre fila y la columna de con nombre columna del DataFrame df.
df.loc[filas, columnas] : Devuelve un DataFrame con los elemento que se encuentra en las filas con los nombres de la lista filas y las columnas con los nombres de la lista columnas del DataFrame df.

df[columna] : Devuelve una serie con los elementos de la columna de nombre columna del DataFrame df.

df.columna : Devuelve una serie con los elementos de la columna de nombre columna del DataFrame df. Es similar al método anterior pero solo funciona cuando el nombre de la columna no tiene espacios en blanco.


### 4.10.1 Examples iloc

In [None]:
import pandas as pd
df = pd.read_csv("https://raw.githubusercontent.com/asalber/manual-python/master/datos/colesterol.csv")
print(df)




                             nombre  edad sexo   peso  altura  colesterol
0      José Luis Martínez Izquierdo    18    H   85.0    1.79       182.0
1                    Rosa Díaz Díaz    32    M   65.0    1.73       232.0
2             Javier García Sánchez    24    H    NaN    1.81       191.0
3               Carmen López Pinzón    35    M   65.0    1.70       200.0
4              Marisa López Collado    46    M   51.0    1.58       148.0
5                 Antonio Ruiz Cruz    68    H   66.0    1.74       249.0
6           Antonio Fernández Ocaña    51    H   62.0    1.72       276.0
7             Pilar Martín González    22    M   60.0    1.66         NaN
8              Pedro Gálvez Tenorio    35    H   90.0    1.94       241.0
9           Santiago Reillo Manzano    46    H   75.0    1.85       280.0
10            Macarena Álvarez Luna    53    M   55.0    1.62       262.0
11       José María de la Guía Sanz    58    H   78.0    1.87       198.0
12  Miguel Angel Cuadrado Gutiérrez   

In [None]:
import pandas as pd
df = pd.read_csv(
"https://raw.githubusercontent.com/asalber/manual-python/master/datos/colesterol.csv")
print(df.iloc[1, 3])



65.0


In [None]:
print(df.iloc[1, :2])


nombre    Rosa Díaz Díaz
edad                  32
Name: 1, dtype: object


In [None]:
print(df.iloc[0])

nombre        José Luis Martínez Izquierdo
edad                                    18
sexo                                     H
peso                                  85.0
altura                                1.79
colesterol                           182.0
Name: 0, dtype: object


In [None]:
lista_filas=[0, 2]
print(df.iloc[lista_filas])


                         nombre  edad sexo  peso  altura  colesterol
0  José Luis Martínez Izquierdo    18    H  85.0    1.79       182.0
2         Javier García Sánchez    24    H   NaN    1.81       191.0


In [None]:
lista_filas=[0, 2]
lista_columnas=[0,3]
print(df.iloc[lista_filas, lista_columnas])

                         nombre  peso
0  José Luis Martínez Izquierdo  85.0
2         Javier García Sánchez   NaN


### 4.10.2 Examples loc

In [None]:
import pandas as pd
df = pd.read_csv("https://raw.githubusercontent.com/asalber/manual-python/master/datos/colesterol.csv")
print(df)


                             nombre  edad sexo   peso  altura  colesterol
0      José Luis Martínez Izquierdo    18    H   85.0    1.79       182.0
1                    Rosa Díaz Díaz    32    M   65.0    1.73       232.0
2             Javier García Sánchez    24    H    NaN    1.81       191.0
3               Carmen López Pinzón    35    M   65.0    1.70       200.0
4              Marisa López Collado    46    M   51.0    1.58       148.0
5                 Antonio Ruiz Cruz    68    H   66.0    1.74       249.0
6           Antonio Fernández Ocaña    51    H   62.0    1.72       276.0
7             Pilar Martín González    22    M   60.0    1.66         NaN
8              Pedro Gálvez Tenorio    35    H   90.0    1.94       241.0
9           Santiago Reillo Manzano    46    H   75.0    1.85       280.0
10            Macarena Álvarez Luna    53    M   55.0    1.62       262.0
11       José María de la Guía Sanz    58    H   78.0    1.87       198.0
12  Miguel Angel Cuadrado Gutiérrez   

In [None]:
df.loc[2,"colesterol"]

191.0

In [None]:
df5= df.loc[:3,["colesterol", "peso"]]

In [None]:
df5

Unnamed: 0,colesterol,peso
0,182.0,85.0
1,232.0,65.0
2,191.0,
3,200.0,65.0


## 4.11 Indexing with logical expressions

In [None]:
df.edad>50

0     False
1     False
2     False
3     False
4     False
5      True
6      True
7     False
8     False
9     False
10     True
11     True
12    False
13    False
Name: edad, dtype: bool

In [19]:
indice=df.edad>50
df6=df[indice]
df6

Unnamed: 0,nombre,edad,sexo,peso,altura,colesterol
5,Antonio Ruiz Cruz,68,H,66.0,1.74,249.0
6,Antonio Fernández Ocaña,51,H,62.0,1.72,276.0
10,Macarena Álvarez Luna,53,M,55.0,1.62,262.0
11,José María de la Guía Sanz,58,H,78.0,1.87,198.0


In [20]:
indice2=(df.edad>50) &(df.altura<1.75)
df7=df[indice2]
df7

Unnamed: 0,nombre,edad,sexo,peso,altura,colesterol
5,Antonio Ruiz Cruz,68,H,66.0,1.74,249.0
6,Antonio Fernández Ocaña,51,H,62.0,1.72,276.0
10,Macarena Álvarez Luna,53,M,55.0,1.62,262.0


### 4.11.1 Accesing using [ ] or .

Si accedo a través de la sintaxis “.” el nombre no puede contener espacios en blanco o guiones


In [21]:

clientes = {
    "Banco": ["IBERCAJA", "Banco Santander","BBVA" ],
    "NºCuenta" : ["32zer4", "34uhg4","23V5DFD"],
    "Saldo":[3568.23, 5685.25, 869.235]
}
DFClientes=pd.DataFrame(data=clientes, index=['a','b','c'])
print(DFClientes)



             Banco NºCuenta     Saldo
a         IBERCAJA   32zer4  3568.230
b  Banco Santander   34uhg4  5685.250
c             BBVA  23V5DFD   869.235


In [22]:
DFClientes["Banco"]

a           IBERCAJA
b    Banco Santander
c               BBVA
Name: Banco, dtype: object

In [23]:
DFClientes.Banco

a           IBERCAJA
b    Banco Santander
c               BBVA
Name: Banco, dtype: object

In [None]:
DFClientes[["Saldo","Banco"]]

Unnamed: 0,Saldo,Banco
a,3568.23,IBERCAJA
b,5685.25,Banco Santander
c,869.235,BBVA


In [None]:
DFClientes[0:2]

Unnamed: 0,Banco,NºCuenta,Saldo
a,IBERCAJA,32zer4,3568.23
b,Banco Santander,34uhg4,5685.25


In [None]:
DFClientes[[True, False, True]]

Unnamed: 0,Banco,NºCuenta,Saldo
a,IBERCAJA,32zer4,3568.23
c,BBVA,23V5DFD,869.235


In [None]:
indice2=(df.edad>50) &(df.altura<1.75)
df8=df[(df["edad"]>50) & (df["altura"]<1.75)]
df8

Unnamed: 0,nombre,edad,sexo,peso,altura,colesterol
5,Antonio Ruiz Cruz,68,H,66.0,1.74,249.0
6,Antonio Fernández Ocaña,51,H,62.0,1.72,276.0
10,Macarena Álvarez Luna,53,M,55.0,1.62,262.0


In [None]:
df

Unnamed: 0,nombre,edad,sexo,peso,altura,colesterol
0,José Luis Martínez Izquierdo,18,H,85.0,1.79,182.0
1,Rosa Díaz Díaz,32,M,65.0,1.73,232.0
2,Javier García Sánchez,24,H,,1.81,191.0
3,Carmen López Pinzón,35,M,65.0,1.7,200.0
4,Marisa López Collado,46,M,51.0,1.58,148.0
5,Antonio Ruiz Cruz,68,H,66.0,1.74,249.0
6,Antonio Fernández Ocaña,51,H,62.0,1.72,276.0
7,Pilar Martín González,22,M,60.0,1.66,
8,Pedro Gálvez Tenorio,35,H,90.0,1.94,241.0
9,Santiago Reillo Manzano,46,H,75.0,1.85,280.0


In [None]:
milista=[20,22,24]
df9= df[(df["sexo"]=='M') & df["edad"].isin(milista)]
df9

Unnamed: 0,nombre,edad,sexo,peso,altura,colesterol
7,Pilar Martín González,22,M,60.0,1.66,
13,Carolina Rubio Moreno,20,M,61.0,1.77,194.0


### 4.11.2 remember the usue of iloc and loc

iloc to access by index   
loc to access by name

In [None]:
df

Unnamed: 0,nombre,edad,sexo,peso,altura,colesterol
0,José Luis Martínez Izquierdo,18,H,85.0,1.79,182.0
1,Rosa Díaz Díaz,32,M,65.0,1.73,232.0
2,Javier García Sánchez,24,H,,1.81,191.0
3,Carmen López Pinzón,35,M,65.0,1.7,200.0
4,Marisa López Collado,46,M,51.0,1.58,148.0
5,Antonio Ruiz Cruz,68,H,66.0,1.74,249.0
6,Antonio Fernández Ocaña,51,H,62.0,1.72,276.0
7,Pilar Martín González,22,M,60.0,1.66,
8,Pedro Gálvez Tenorio,35,H,90.0,1.94,241.0
9,Santiago Reillo Manzano,46,H,75.0,1.85,280.0


In [None]:
df.iloc[0,4]

1.79

In [None]:
df.iloc[0:4,[0,2]]

Unnamed: 0,nombre,sexo
0,José Luis Martínez Izquierdo,H
1,Rosa Díaz Díaz,M
2,Javier García Sánchez,H
3,Carmen López Pinzón,M


In [None]:
DFClientes

Unnamed: 0,Banco,NºCuenta,Saldo
a,IBERCAJA,32zer4,3568.23
b,Banco Santander,34uhg4,5685.25
c,BBVA,23V5DFD,869.235


In [None]:
DFClientes.loc["b"]

Banco       Banco Santander
NºCuenta             34uhg4
Saldo               5685.25
Name: b, dtype: object

In [None]:
DFClientes.loc[["a","c"]]

Unnamed: 0,Banco,NºCuenta,Saldo
a,IBERCAJA,32zer4,3568.23
c,BBVA,23V5DFD,869.235


# 4.12 Apply functions to columns in pandas
Para aplicar funciones a todos los elementos de una columna se utiliza el siguiente método:

df[columna].apply(f) : Devuelve una serie con los valores que resulta de aplicar la función f a los elementos de la columna con nombre columna del DataFrame df.



In [26]:
import pandas as pd
df = pd.read_csv("https://raw.githubusercontent.com/asalber/manual-python/master/datos/colesterol.csv")
df

Unnamed: 0,nombre,edad,sexo,peso,altura,colesterol
0,José Luis Martínez Izquierdo,18,H,85.0,1.79,182.0
1,Rosa Díaz Díaz,32,M,65.0,1.73,232.0
2,Javier García Sánchez,24,H,,1.81,191.0
3,Carmen López Pinzón,35,M,65.0,1.7,200.0
4,Marisa López Collado,46,M,51.0,1.58,148.0
5,Antonio Ruiz Cruz,68,H,66.0,1.74,249.0
6,Antonio Fernández Ocaña,51,H,62.0,1.72,276.0
7,Pilar Martín González,22,M,60.0,1.66,
8,Pedro Gálvez Tenorio,35,H,90.0,1.94,241.0
9,Santiago Reillo Manzano,46,H,75.0,1.85,280.0


In [28]:
def doble(valor):
    return 2*valor

In [29]:
df["dobledeedad"]= df["edad"].apply(doble)

In [30]:
df

Unnamed: 0,nombre,edad,sexo,peso,altura,colesterol,dobledeedad
0,José Luis Martínez Izquierdo,18,H,85.0,1.79,182.0,36
1,Rosa Díaz Díaz,32,M,65.0,1.73,232.0,64
2,Javier García Sánchez,24,H,,1.81,191.0,48
3,Carmen López Pinzón,35,M,65.0,1.7,200.0,70
4,Marisa López Collado,46,M,51.0,1.58,148.0,92
5,Antonio Ruiz Cruz,68,H,66.0,1.74,249.0,136
6,Antonio Fernández Ocaña,51,H,62.0,1.72,276.0,102
7,Pilar Martín González,22,M,60.0,1.66,,44
8,Pedro Gálvez Tenorio,35,H,90.0,1.94,241.0,70
9,Santiago Reillo Manzano,46,H,75.0,1.85,280.0,92


### 4.12.1 Passing arguments

In [None]:
def multiplicador(valor, multiplicando):
    return valor*multiplicando

In [None]:
df['otracolumna'] = df.apply(lambda x: multiplicador(x['edad'], 5), axis=1)

In [None]:
df['edadxpeso'] = df.apply(lambda x: multiplicador(x['edad'], x['peso']), axis=1)

In [None]:
df

Unnamed: 0,nombre,edad,sexo,peso,altura,colesterol,dobledeedad,otracolumna,edadxpeso
0,José Luis Martínez Izquierdo,18,H,85.0,1.79,182.0,36,90,1530.0
1,Rosa Díaz Díaz,32,M,65.0,1.73,232.0,64,160,2080.0
2,Javier García Sánchez,24,H,,1.81,191.0,48,120,
3,Carmen López Pinzón,35,M,65.0,1.7,200.0,70,175,2275.0
4,Marisa López Collado,46,M,51.0,1.58,148.0,92,230,2346.0
5,Antonio Ruiz Cruz,68,H,66.0,1.74,249.0,136,340,4488.0
6,Antonio Fernández Ocaña,51,H,62.0,1.72,276.0,102,255,3162.0
7,Pilar Martín González,22,M,60.0,1.66,,44,110,1320.0
8,Pedro Gálvez Tenorio,35,H,90.0,1.94,241.0,70,175,3150.0
9,Santiago Reillo Manzano,46,H,75.0,1.85,280.0,92,230,3450.0


## 4.13 Transform column to datetime
Convertir una columna al tipo datetime
A menudo una columna contiene cadenas que representan fechas. Para convertir estas cadenas al tipo datetime se utiliza el siguiente método:

to_datetime(columna, formato): Devuelve la serie que resulta de convertir las cadenas de la columna con el nombre columna en fechas del tipo datetime con el formado especificado en formato. ( Ver librería datetime)


In [None]:
import pandas as pd
df = pd.DataFrame({'Name': ['María', 'Carlos', 'Carmen'], 'Nacimiento':['05-03-2000', '20-05-2001', '10-12-1999']})
print(pd.to_datetime(df.Nacimiento, format = '%d-%m-%Y'))


0   2000-03-05
1   2001-05-20
2   1999-12-10
Name: Nacimiento, dtype: datetime64[ns]


## 4.14 Remove columns

del d[nombre] : Elimina la columna con nombre nombre del DataFrame df.

df.pop(nombre) : Elimina la columna con nombre nombre del DataFrame df y la devuelve como una serie.


In [None]:
import pandas as pd
df = pd.read_csv('https://raw.githubusercontent.com/asalber/manual-python/master/datos/colesterol.csv')
edad = df.pop('edad')
print(df)
print(edad)

                             nombre sexo   peso  altura  colesterol
0      José Luis Martínez Izquierdo    H   85.0    1.79       182.0
1                    Rosa Díaz Díaz    M   65.0    1.73       232.0
2             Javier García Sánchez    H    NaN    1.81       191.0
3               Carmen López Pinzón    M   65.0    1.70       200.0
4              Marisa López Collado    M   51.0    1.58       148.0
5                 Antonio Ruiz Cruz    H   66.0    1.74       249.0
6           Antonio Fernández Ocaña    H   62.0    1.72       276.0
7             Pilar Martín González    M   60.0    1.66         NaN
8              Pedro Gálvez Tenorio    H   90.0    1.94       241.0
9           Santiago Reillo Manzano    H   75.0    1.85       280.0
10            Macarena Álvarez Luna    M   55.0    1.62       262.0
11       José María de la Guía Sanz    H   78.0    1.87       198.0
12  Miguel Angel Cuadrado Gutiérrez    H  109.0    1.98       210.0
13            Carolina Rubio Moreno    M   61.0 

In [None]:
del df["sexo"]

In [None]:
df

Unnamed: 0,nombre,peso,altura,colesterol
0,José Luis Martínez Izquierdo,85.0,1.79,182.0
1,Rosa Díaz Díaz,65.0,1.73,232.0
2,Javier García Sánchez,,1.81,191.0
3,Carmen López Pinzón,65.0,1.7,200.0
4,Marisa López Collado,51.0,1.58,148.0
5,Antonio Ruiz Cruz,66.0,1.74,249.0
6,Antonio Fernández Ocaña,62.0,1.72,276.0
7,Pilar Martín González,60.0,1.66,
8,Pedro Gálvez Tenorio,90.0,1.94,241.0
9,Santiago Reillo Manzano,75.0,1.85,280.0


In [None]:
df.drop(columns = ["peso", "altura"])

Unnamed: 0,nombre,colesterol
0,José Luis Martínez Izquierdo,182.0
1,Rosa Díaz Díaz,232.0
2,Javier García Sánchez,191.0
3,Carmen López Pinzón,200.0
4,Marisa López Collado,148.0
5,Antonio Ruiz Cruz,249.0
6,Antonio Fernández Ocaña,276.0
7,Pilar Martín González,
8,Pedro Gálvez Tenorio,241.0
9,Santiago Reillo Manzano,280.0


## 4.15 Order Dataframe

In [None]:
df.sort_values("colesterol", ascending=False)


Unnamed: 0,nombre,peso,altura,colesterol
9,Santiago Reillo Manzano,75.0,1.85,280.0
6,Antonio Fernández Ocaña,62.0,1.72,276.0
10,Macarena Álvarez Luna,55.0,1.62,262.0
5,Antonio Ruiz Cruz,66.0,1.74,249.0
8,Pedro Gálvez Tenorio,90.0,1.94,241.0
1,Rosa Díaz Díaz,65.0,1.73,232.0
12,Miguel Angel Cuadrado Gutiérrez,109.0,1.98,210.0
3,Carmen López Pinzón,65.0,1.7,200.0
11,José María de la Guía Sanz,78.0,1.87,198.0
13,Carolina Rubio Moreno,61.0,1.77,194.0


In [None]:
#delete rows with NaN

df.dropna()


Unnamed: 0,nombre,peso,altura,colesterol
0,José Luis Martínez Izquierdo,85.0,1.79,182.0
1,Rosa Díaz Díaz,65.0,1.73,232.0
3,Carmen López Pinzón,65.0,1.7,200.0
4,Marisa López Collado,51.0,1.58,148.0
5,Antonio Ruiz Cruz,66.0,1.74,249.0
6,Antonio Fernández Ocaña,62.0,1.72,276.0
8,Pedro Gálvez Tenorio,90.0,1.94,241.0
9,Santiago Reillo Manzano,75.0,1.85,280.0
10,Macarena Álvarez Luna,55.0,1.62,262.0
11,José María de la Guía Sanz,78.0,1.87,198.0


## 4.16 Dataframes methods

Resumen descriptivo de un DataFrame   
Al igual que para las series, los siguientes métodos permiten resumir la información de un DataFrame por columnas:  
df.count() : Devuelve una serie número de elementos que no son nulos ni NaN en cada columna del DataFrame df.   
df.sum() : Devuelve una serie con la suma de los datos de las columnas del DataFrame df cuando los datos son de un tipo numérico, o la concatenación de ellos cuando son del tipo cadena str.   
df.cumsum() : Devuelve un DataFrame con la suma acumulada de los datos de las columnas del DataFrame df cuando los datos son de un tipo numérico.    
df.min() : Devuelve una serie con los menores de los datos de las columnas del DataFrame df.   
df.max() : Devuelve una serie con los mayores de los datos de las columnas del DataFrame df.   
df.mean() : Devuelve una serie con las media de los datos de las columnas del DataFrame df cuando los datos son de un tipo numérico.    
df.std() : Devuelve una serie con las desviaciones típicas de los datos de las columnas del DataFrame df cuando los datos son dfiltroe un tipo numérico.    
df.describe(include = tipo) : Devuelve un DataFrame con un resumen estadístico de las columnas del DataFrame df del tipo tipo. Para los datos numéricos (number) se calcula la media, la desviación típica, el mínimo, el máximo y los cuartiles de las columnas numéricas. Para los datos no numéricos (object) se calcula el número de valores, el número de valores distintos, la moda y su frecuencia. Si no se indica el tipo solo se consideran las columnas numéricas.    


1. Aggregating and summarizing
Once you have your data in a DataFrame, you will want to understand it's characteristics. Lets look at some of the methods that Pandas DataFrames provide for aggregating and summarizing data.
2. DataFrame methods
DataFrames have methods for getting the count of items, for getting the item that is the minimum, maximum, first or last, as well as methods to calculate the sum, product, mean, median, standard deviation, and variance.
3. Axis
All of these methods can be run across columns or rows. To specify which you would like, use the 'axis' parameter. Methods will run on rows if the parameter is set to zero, the string 'rows', or if it is omitted. To use columns, set axis to one or the string 'columns'. Lets look at examples of some of these methods.
4. Count
The count method returns the number of items. On the left you can see the original DataFrame. In this example we use the default axis setting, which counts the rows. The result is the number of rows for each column.
5. Sum
The sum method returns the result of summing items. Here, we've specified an axis value of one, to sum across the columns. So the values of all of the columns of the first row are added together with a result of four hundred fifteen and forty four cents. The other rows are calculated in the same fashion.
6. Product
The 'prod' method returns the product of items. Here we set the axis with the string 'columns', which returns the product across columns.
7. Mean
You may be familiar with the concept of a mean from statistics. It is one way to get a sense of where the center of your data lays. Pandas DataFrames offer a mean method to calculate means. Here we can see that the data in the first column averages at a higher point than the others.
8. Median
The median is calculated by ordering items by magnitude and taking the middle one. If the number of items is even, then the average of the two middle items is used. It is a useful way to see the middle of your data without distortion caused by outliers. In this example, the two middle items of the row ADD are three hundred point twenty two and three hundred one point forty nine. If we add these together and divide by two, we get three hundred point eight five five, which is the median of the column.
9. Standard deviation
The std method of a DataFrame calculates the standard deviation. This represents the amount of variation in your data. If it is small then the data is grouped together, and if large there is a greater spreed of values. We can see in this example that the first columns values are more tightly grouped than the other two.
10. Variance
Another way to understand the distribution of your data is to calculate the variance. This is done with the var method. Once again in this example, the distribution for the first column is tighter, so the variance is lower. The variance give us similar information as the standard deviation, but the standard deviation is easier to interpret on it's own, while the variance is more useful for use in other formulas.
11. Columns and rows
All of these methods can be run across a single row or column using the same row and column selection methods we've used before. For example, we can select the maximum value from the column AAD using the loc() operation. Or select the minimum from the first row using the iloc operation.
12. Let's practice!
You've been introduced to lots of ways to summarize and aggregate your data, lets practice using them!


## ... AND MANY OTHER FUNCTIONLITIES

# 5 General documentation
<https://pandas.pydata.org/docs/user_guide/index.html>
<https://pandas.pydata.org/Pandas_Cheat_Sheet.pdf>

# PANDAS in 5 minutes

### Reading files

In [None]:
import pandas as pd
df=pd.read_csv('country.csv',encoding='ISO-8859-1')
print(type(df))
df.head(2)

<class 'pandas.core.frame.DataFrame'>


Unnamed: 0,Country,Capital,Area(km.sq),Population(mio),Pop. Growth,Currency,Inflation,Official name of Country
0,Afghanistan,Kabul,652 090,29.12,2.58%,Afghani,Not known,Islamic State of Afghanistan
1,Algeria,Alger,2 381 741,34.3,1.20%,Dinar,Not known,People's Democratic Republic of Algeria


#### Accessing by row number

In [None]:
df.iloc[0:2]

Unnamed: 0,Country,Capital,Area(km.sq),Population(mio),Pop. Growth,Currency,Inflation,Official name of Country
0,Afghanistan,Kabul,652 090,29.12,2.58%,Afghani,Not known,Islamic State of Afghanistan
1,Algeria,Alger,2 381 741,34.3,1.20%,Dinar,Not known,People's Democratic Republic of Algeria


#### Selecting some columns

In [None]:
columns=["Country","Capital","Population(mio)","Pop. Growth","Official name of Country"]
df.iloc[0:2][columns]

Unnamed: 0,Country,Capital,Population(mio),Pop. Growth,Official name of Country
0,Afghanistan,Kabul,29.12,2.58%,Islamic State of Afghanistan
1,Algeria,Alger,34.3,1.20%,People's Democratic Republic of Algeria


#### Filtering by condition

In [None]:
df["Currency"]=="Dollar"

0      False
1      False
2      False
3      False
4      False
       ...  
130    False
131    False
132    False
133    False
134     True
Name: Currency, Length: 135, dtype: bool

In [None]:
df[df["Currency"]=="Dollar"]

Unnamed: 0,Country,Capital,Area(km.sq),Population(mio),Pop. Growth,Currency,Inflation,Official name of Country
5,Bahamas,Nassau,13 940,0.35,0.93%,Dollar,Not known,Commonwealth of the Bahamas
8,Belize,Belmopan,22 960,0.33,2.15%,Dollar,Not known,
13,Brunei,Bandar Seri Begawan,5 765,0.41,1.76%,Dollar,Not known,Brunei Darussalam
37,Fiji,Suva,18 376,0.85,1.38%,Dollar,Not known,Republic of Fiji
47,Guyana,George Town,214 970,Not known,-0.63%,Dollar,Not known,Cooperative Republic of Guyana
56,Jamaica,Kingston,10 490,2.73,0.76%,Dollar,Not known,
65,Liberia,Monrovia,111 370,4.1,2.67%,Dollar,Not known,Republic of Liberia
83,New Zealand,Wellington,269 000,4.4,0.94%,Dollar,Not known,
103,Solomon Islands,Honiara,27 556,0.53,2.39%,Dollar,Not known,
112,Taiwan,Taipei,39 179,23.16,0.23%,Dollar,Not known,


#### Add new column

In [None]:
df["newCol"]="This is New"
df.head()

Unnamed: 0,Country,Capital,Area(km.sq),Population(mio),Pop. Growth,Currency,Inflation,Official name of Country,newCol
0,Afghanistan,Kabul,652 090,29.12,2.58%,Afghani,Not known,Islamic State of Afghanistan,This is New
1,Algeria,Alger,2 381 741,34.3,1.20%,Dinar,Not known,People's Democratic Republic of Algeria,This is New
2,Angola,Luanda,1 246 700,18.99,2.10%,Kwanza,Not known,Republic of Angola,This is New
3,Antigua and Barbuda,Saint Johns,440,0.09,1.30%,E.C. Dollar,Not known,,This is New
4,Argentina,Buenos Aires,2 766 890,40.09,1.05%,Peso,Not known,Argentine Republic,This is New


#### Remove column

In [None]:
df.drop(columns=["Inflation"],inplace=True)
df.head()

Unnamed: 0,Country,Capital,Area(km.sq),Population(mio),Pop. Growth,Currency,Official name of Country,newCol
0,Afghanistan,Kabul,652 090,29.12,2.58%,Afghani,Islamic State of Afghanistan,This is New
1,Algeria,Alger,2 381 741,34.3,1.20%,Dinar,People's Democratic Republic of Algeria,This is New
2,Angola,Luanda,1 246 700,18.99,2.10%,Kwanza,Republic of Angola,This is New
3,Antigua and Barbuda,Saint Johns,440,0.09,1.30%,E.C. Dollar,,This is New
4,Argentina,Buenos Aires,2 766 890,40.09,1.05%,Peso,Argentine Republic,This is New


### Writing files with PANDAS

In [None]:
values=[['Seat Ibiza','8349PFG','Rojo', '2016'],
            ['BMW X3','9449OTF','Azul', '2018'],
            ['Ford Focus','9339FJJ','Negro', '2017']]
header=["modelo","matricula","color","año"]
df=pd.DataFrame(values,columns=header)
df.head()

Unnamed: 0,modelo,matricula,color,año
0,Seat Ibiza,8349PFG,Rojo,2016
1,BMW X3,9449OTF,Azul,2018
2,Ford Focus,9339FJJ,Negro,2017


In [None]:
df.to_csv("coches5.csv",sep="^",index=False)