#**Introducción a la Ciencia de Datos con Python**
##**Clase N°1: Módulo 3: Manipulación de Bases de Datos**

**Gonzalo Anriquez Gundian**

**E-mail: gonzalo.anriquez1@mail.udp.cl**

**Lo primero que haremos será llamar las librerias con las que trabajaremos**

In [1]:
import pandas as pd

**Revisaremos como importar archivos de las siguientes formas:**
* Archivos con formato csv
* Archivos con formato xlsx
* Archivos que se encuentran en repositorios externos (Drive / Github)

#**read_csv**

**Comenzaremos importando un archivo en formato csv. Para ello utilizaremos la función `read_csv`.**

* Los archivos CSV son un tipo de sencillo para representar datos en forma de tabla, en las que las columnas se separan por comas y las filas por saltos de línea
* Las columnas también pueden ser separadas por otros delimitadores.
* El archivo csv puede o no traer el encabezado de las columnas

**Algunos de los parámetros que utilizamos en esta función son los siguientes:**
* **path + nombre del archivo:** Nombre del archivo y la dirección en donde lo encontramos
* **sep:** Caracter que se utiliza para separar las columnas. Por defecto se utiliza coma ( , )
* **header:** Si tiene o no encabezado
* **skiprows:** Indica que nos saltamos una cantidad definida de filas
* **encoding:** Indica el encoding con el que leer el archivo. Valor por defecto UTF-8
* **on_bad_lines:** Indicamos que hacer cuando encontramos filas con errores.
  * 'error': Generamos una excepción cuando encontramos un error
  * 'warn': Nos entrega una alerta cuando encontramos un error.
  * 'skip': Saltamos la linea

**Pueden revisar la documentación de esta función en el siguiente link:**

https://pandas.pydata.org/docs/reference/api/pandas.read_csv.html

**Cargaremos un set de datos con los precios de las acciones de Apple de 1980-2021**

In [5]:
# apple = pd.read_csv("AAPL_SE.csv", header=None)
apple = pd.read_csv("AAPL_SE.csv")

In [6]:
apple.head()

Unnamed: 0,1980-12-12,0.128348,0.128906,0.128348.1,0.128348.2,0.100178,469033600
0,1980-12-15,0.12221,0.12221,0.121652,0.121652,0.094952,175884800
1,1980-12-16,0.113281,0.113281,0.112723,0.112723,0.087983,105728000
2,1980-12-17,0.115513,0.116071,0.115513,0.115513,0.09016,86441600
3,1980-12-18,0.118862,0.11942,0.118862,0.118862,0.092774,73449600
4,1980-12-19,0.126116,0.126674,0.126116,0.126116,0.098436,48630400


In [7]:
apple.columns = ['Date', 'Open', 'High', 'Low', 'Close', 'Adj Close', 'Volume']
apple.head()

Unnamed: 0,Date,Open,High,Low,Close,Adj Close,Volume
0,1980-12-15,0.12221,0.12221,0.121652,0.121652,0.094952,175884800
1,1980-12-16,0.113281,0.113281,0.112723,0.112723,0.087983,105728000
2,1980-12-17,0.115513,0.116071,0.115513,0.115513,0.09016,86441600
3,1980-12-18,0.118862,0.11942,0.118862,0.118862,0.092774,73449600
4,1980-12-19,0.126116,0.126674,0.126116,0.126116,0.098436,48630400


**Ahora cargaremos el mismo set de datos, pero con el encabezado**

In [10]:
# apple_2=pd.read_csv('AAPL.csv', header=0)
apple_2=pd.read_csv('AAPL.csv')

In [63]:
apple_2.head()

Unnamed: 0,Date,Open,High,Low,Close,Adj Close,Volume
0,1980-12-12,0.128348,0.128906,0.128348,0.128348,0.100178,469033600
1,1980-12-15,0.12221,0.12221,0.121652,0.121652,0.094952,175884800
2,1980-12-16,0.113281,0.113281,0.112723,0.112723,0.087983,105728000
3,1980-12-17,0.115513,0.116071,0.115513,0.115513,0.09016,86441600
4,1980-12-18,0.118862,0.11942,0.118862,0.118862,0.092774,73449600


In [64]:
apple_2.shape

(10468, 7)

**¿Que pasa si indicamos que el caracter separador es otro?**

In [65]:
apple_3=pd.read_csv('AAPL.csv', sep=';')

In [68]:
print(apple_3.shape)
apple_3.head()

(10468, 1)


Unnamed: 0,"Date,Open,High,Low,Close,Adj Close,Volume"
0,"1980-12-12,0.128348,0.128906,0.128348,0.128348..."
1,"1980-12-15,0.122210,0.122210,0.121652,0.121652..."
2,"1980-12-16,0.113281,0.113281,0.112723,0.112723..."
3,"1980-12-17,0.115513,0.116071,0.115513,0.115513..."
4,"1980-12-18,0.118862,0.119420,0.118862,0.118862..."


**¿Que pasa cuando debemos saltar algunas lineas del principio del archivo?**

In [71]:
diabetes=pd.read_csv('diabetes.csv')

In [72]:
diabetes.head()

Unnamed: 0,sffasfsdf,fefewwef,dedede,ddede,dedde,ddedde,dedede.1,deedde,ddeeddde
0,Pregnancies,Glucose,BloodPressure,SkinThickness,Insulin,BMI,DiabetesPedigreeFunction,Age,Outcome
1,6,148,72,35,0,33.6,0.627,50,1
2,1,85,66,29,0,26.6,0.351,31,0
3,8,183,64,0,0,23.3,0.672,32,1
4,1,89,66,23,94,28.1,0.167,21,0


In [73]:
diabetes=pd.read_csv('diabetes.csv', header=1)

In [74]:
diabetes.head()

Unnamed: 0,Pregnancies,Glucose,BloodPressure,SkinThickness,Insulin,BMI,DiabetesPedigreeFunction,Age,Outcome
0,6,148,72,35,0,33.6,0.627,50,1
1,1,85,66,29,0,26.6,0.351,31,0
2,8,183,64,0,0,23.3,0.672,32,1
3,1,89,66,23,94,28.1,0.167,21,0
4,0,137,40,35,168,43.1,2.288,33,1


In [143]:
diabetes.columns

Index(['index', 'Pregnancies', 'Glucose', 'BloodPressure', 'SkinThickness',
       'Insulin', 'BMI', 'DiabetesPedigreeFunction', 'Age', 'Outcome'],
      dtype='object')

#**read_excel**

**Para importar un archivo excel, utilizamos el comando 'read_excel'**

Los parámetros que recibe este comando son:

* **io:** Nombre del archivo y la dirección en donde lo encontramos

* **sheet_name:** Nombre de la hoja que queremos importar. Por defecto se considera 0, que corresponde a la primera hoja.

* **header:** Si tiene o no encabezado

* **names:** Lista de nombres de columnas

* **Skiprows:** Indica que nos saltamos una cantidad definida de filas




In [75]:
diabetes_excel=pd.read_excel('diabetes_excel.xlsx')

In [76]:
diabetes_excel.head()

Unnamed: 0,Column1,Column2,Column3,Column4,Column5,Column6,Column7,Column8,Column9
0,sffasfsdf,fefewwef,dedede,ddede,dedde,ddedde,dedede,deedde,ddeeddde
1,Pregnancies,Glucose,BloodPressure,SkinThickness,Insulin,BMI,DiabetesPedigreeFunction,Age,Outcome
2,6,148,72,35,0,33.6,0.627,50,1
3,1,85,66,29,0,26.6,0.351,31,0
4,8,183,64,0,0,23.3,0.672,32,1


In [77]:
diabetes_excel=pd.read_excel('diabetes_excel.xlsx', header=2)

In [78]:
diabetes_excel.head()

Unnamed: 0,Pregnancies,Glucose,BloodPressure,SkinThickness,Insulin,BMI,DiabetesPedigreeFunction,Age,Outcome
0,6,148,72,35,0,33.6,0.627,50,1
1,1,85,66,29,0,26.6,0.351,31,0
2,8,183,64,0,0,23.3,0.672,32,1
3,1,89,66,23,94,28.1,0.167,21,0
4,0,137,40,35,168,43.1,2.288,33,1


In [88]:
diabetes_excel=pd.read_excel('diabetes_excel.xlsx', header=2, names=['Pregnancies','Glucose','BloodPressure','SkinThickness','Insulin',
                             'BMI','DiabetesPedigreeFunction','Age','Outcome'])

In [89]:
diabetes_excel.head()

Unnamed: 0,Unnamed: 1,Pregnancies,BloodPressure,SkinThickness,Insulin,BMI,DiabetesPedigreeFunction,Age
6,148,72,35,0,33.6,0.627,50,1
1,85,66,29,0,26.6,0.351,31,0
8,183,64,0,0,23.3,0.672,32,1
1,89,66,23,94,28.1,0.167,21,0
0,137,40,35,168,43.1,2.288,33,1


**¿Que pasa si tenemos nuestros datos en otra hoja del libro de excel?**

In [79]:
diabetes_excel=pd.read_excel('diabetes_excel.xlsx', sheet_name="diabetes_2")

In [80]:
diabetes_excel.head()

Unnamed: 0,Pregnancies,Glucose,BloodPressure,SkinThickness,Insulin,BMI,DiabetesPedigreeFunction,Age,Outcome
0,6,148,72,35,0,33.6,0.627,50,1
1,1,85,66,29,0,26.6,0.351,31,0
2,8,183,64,0,0,23.3,0.672,32,1
3,1,89,66,23,94,28.1,0.167,21,0
4,0,137,40,35,168,43.1,2.288,33,1


#**¿Como lo hacemos si nuestro archivo se encuentra alojado en un repositorio de Github?**

**https://github.com/gonzaloanriquez/python**

In [48]:
url_diabetes='https://raw.githubusercontent.com/gonzaloanriquez/python/main/diabetes.csv'
url_matricula='https://raw.githubusercontent.com/gonzaloanriquez/python/main/matricula_escolar.csv'
diabetes=pd.read_csv(url_diabetes)
matricula=pd.read_csv(url_matricula)

In [92]:
# diabetes.head()
# matricula.head()

(3644548, 36)

In [97]:
print("Dimensiones del set de datos de diabetes: ",diabetes.shape)
print(f'Dimensiones del set de datos de matricula: {matricula.shape}')

Dimensiones del set de datos de diabetes:  (768, 9)
Dimensiones del set de datos de matricula: (3644548, 36)


In [98]:
url='https://raw.githubusercontent.com/gonzaloanriquez/python/main/diabetes.csv'
diabetes=pd.read_csv(url, header=1)

In [52]:
diabetes.head()

Unnamed: 0,Pregnancies,Glucose,BloodPressure,SkinThickness,Insulin,BMI,DiabetesPedigreeFunction,Age,Outcome
0,6,148,72,35,0,33.6,0.627,50,1
1,1,85,66,29,0,26.6,0.351,31,0
2,8,183,64,0,0,23.3,0.672,32,1
3,1,89,66,23,94,28.1,0.167,21,0
4,0,137,40,35,168,43.1,2.288,33,1


#**Leer desde una cuenta de Drive**

**Cuando queremos leer un archivo que se encuentra en una carpeta de Drive, debemos realizarlo de la siguiente forma:**

In [56]:
matricula=pd.read_csv('/content/drive/MyDrive/UDP/CURSO PYTHON/Modulo 3 Manipulacion de Bases de Datos/Datos/20220908_Matrícula_unica_2022_20220430_WEB.CSV', on_bad_lines='skip', sep=";")

  matricula=pd.read_csv('/content/drive/MyDrive/UDP/CURSO PYTHON/Modulo 3 Manipulacion de Bases de Datos/Datos/20220908_Matrícula_unica_2022_20220430_WEB.CSV', on_bad_lines='skip', sep=";")


In [57]:
matricula.head(2)

Unnamed: 0,AGNO,RBD,DGV_RBD,NOM_RBD,COD_REG_RBD,NOM_REG_RBD_A,COD_PRO_RBD,COD_COM_RBD,NOM_COM_RBD,COD_DEPROV_RBD,...,FEC_NAC_ALU,EDAD_ALU,COD_REG_ALU,COD_COM_ALU,NOM_COM_ALU,COD_SEC,COD_ESPE,COD_RAMA,COD_MEN,ENS
0,2022,1,9,LICEO POLITECNICO ARICA,15,AYP,151,15101,ARICA,151,...,198107,40,15,15101,ARICA,410,41001,400,0,13
1,2022,1,9,LICEO POLITECNICO ARICA,15,AYP,151,15101,ARICA,151,...,197706,45,15,15101,ARICA,410,41001,400,0,13


In [58]:
matricula.shape

(3644548, 36)

#**¿Como pasamos un Dataframe a un archivo csv?**

Cuando queremos grabar un Dataframe en un archivo csv utilizamos el comando dataframe.to_csv(). Algunos de los parámetros posibles son:
* **path_or_buf:** Nombre del archivo y la dirección en donde lo encontramos
* **sep:** Caracter que utilizaremos como separador
* **na_rep:** Como representaremos los na´s
* **columns:** Columnas a escribir
* **header:** Lista de strings que se asumen como los nombres de las columnas
* **index:** Valor boleano que indica si escribiremos o no el indice
* **mode:** {'w','x','a'}. Por defecto se utiliza 'w'
  * ‘w’: Si el archivo existe, se borra y sobre escribe.
  * ‘x’: Creación exclusiva. Falla si el archivo ya existe.
  * ‘a’: Agrega al final del archivo si este ya existe.

La documentación de esta función pueden encontrarla en: https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.to_csv.html

In [62]:
diabetes.to_csv('diabetes_prueba.csv')

In [None]:
diabetes.to_csv('diabetes_prueba.csv', mode='', header=None)

#**¿Como pasamos un Dataframe a un archivo excel?**

Cuando queremos grabar un Dataframe en un archivo excel utilizamos el comando dataframe.to_excel(). Algunos de los parámetros posibles son:

* **excel_writer:** Nombre del archivo y la dirección en donde lo encontramos
* **sheet_name:** nombre de la hoja
* **na_rep:** Representación de valores na´s
* **columns:** columnas a escribir
* **header:** nombres de  las columnas
* **index:** Valor boleano que indica si escribiremos o no el indice

La documentación de esta función la pueden encontrar en:

https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.to_excel.html

In [99]:
diabetes.to_excel('diabetes_a_excel.xlsx')

¿Que paso con nuestro archivo excel?

In [100]:
diabetes.to_excel('diabetes_a_excel2.xlsx', index=False)

##**Una vez que ya hemos cargado nuestros datos en un Dataframe. ¿Como los revisamos?**

In [102]:
diabetes.head()

Unnamed: 0,Pregnancies,Glucose,BloodPressure,SkinThickness,Insulin,BMI,DiabetesPedigreeFunction,Age,Outcome
0,6,148,72,35,0,33.6,0.627,50,1
1,1,85,66,29,0,26.6,0.351,31,0
2,8,183,64,0,0,23.3,0.672,32,1
3,1,89,66,23,94,28.1,0.167,21,0
4,0,137,40,35,168,43.1,2.288,33,1


In [103]:
diabetes.tail()

Unnamed: 0,Pregnancies,Glucose,BloodPressure,SkinThickness,Insulin,BMI,DiabetesPedigreeFunction,Age,Outcome
763,10,101,76,48,180,32.9,0.171,63,0
764,2,122,70,27,0,36.8,0.34,27,0
765,5,121,72,23,112,26.2,0.245,30,0
766,1,126,60,0,0,30.1,0.349,47,1
767,1,93,70,31,0,30.4,0.315,23,0


In [104]:
diabetes.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 768 entries, 0 to 767
Data columns (total 9 columns):
 #   Column                    Non-Null Count  Dtype  
---  ------                    --------------  -----  
 0   Pregnancies               768 non-null    int64  
 1   Glucose                   768 non-null    int64  
 2   BloodPressure             768 non-null    int64  
 3   SkinThickness             768 non-null    int64  
 4   Insulin                   768 non-null    int64  
 5   BMI                       768 non-null    float64
 6   DiabetesPedigreeFunction  768 non-null    float64
 7   Age                       768 non-null    int64  
 8   Outcome                   768 non-null    int64  
dtypes: float64(2), int64(7)
memory usage: 54.1 KB


In [107]:
diabetes.shape

(768, 9)

In [105]:
diabetes.describe()

Unnamed: 0,Pregnancies,Glucose,BloodPressure,SkinThickness,Insulin,BMI,DiabetesPedigreeFunction,Age,Outcome
count,768.0,768.0,768.0,768.0,768.0,768.0,768.0,768.0,768.0
mean,3.845052,120.894531,69.105469,20.536458,79.799479,31.992578,0.471876,33.240885,0.348958
std,3.369578,31.972618,19.355807,15.952218,115.244002,7.88416,0.331329,11.760232,0.476951
min,0.0,0.0,0.0,0.0,0.0,0.0,0.078,21.0,0.0
25%,1.0,99.0,62.0,0.0,0.0,27.3,0.24375,24.0,0.0
50%,3.0,117.0,72.0,23.0,30.5,32.0,0.3725,29.0,0.0
75%,6.0,140.25,80.0,32.0,127.25,36.6,0.62625,41.0,1.0
max,17.0,199.0,122.0,99.0,846.0,67.1,2.42,81.0,1.0


In [108]:
diabetes.count()

Pregnancies                 768
Glucose                     768
BloodPressure               768
SkinThickness               768
Insulin                     768
BMI                         768
DiabetesPedigreeFunction    768
Age                         768
Outcome                     768
dtype: int64

In [109]:
diabetes.columns

Index(['Pregnancies', 'Glucose', 'BloodPressure', 'SkinThickness', 'Insulin',
       'BMI', 'DiabetesPedigreeFunction', 'Age', 'Outcome'],
      dtype='object')

In [110]:
diabetes.index

RangeIndex(start=0, stop=768, step=1)

In [None]:
list(diabetes.index)

In [112]:
diabetes.head()

Unnamed: 0,Pregnancies,Glucose,BloodPressure,SkinThickness,Insulin,BMI,DiabetesPedigreeFunction,Age,Outcome
0,6,148,72,35,0,33.6,0.627,50,1
1,1,85,66,29,0,26.6,0.351,31,0
2,8,183,64,0,0,23.3,0.672,32,1
3,1,89,66,23,94,28.1,0.167,21,0
4,0,137,40,35,168,43.1,2.288,33,1


In [153]:
print('Minimo de la variable Pregnancies:',diabetes['Pregnancies'].min())
print('Máximo de la variable Pregnancies:',diabetes['Pregnancies'].max())
print('Promedio de la variable Pregnancies:',diabetes['Pregnancies'].mean())
print('Suma de la variable Pregnancies:',diabetes['Pregnancies'].sum())
print('Desviación Std de la variable Pregnancies:',diabetes['Pregnancies'].std())


Minimo de la variable Pregnancies: 0
Máximo de la variable Pregnancies: 17
Promedio de la variable Pregnancies: 3.8450520833333335
Suma de la variable Pregnancies: 2953
Desviación Std de la variable Pregnancies: 3.36957806269887


In [114]:
diabetes['Pregnancies'].unique()

array([ 6,  1,  8,  0,  5,  3, 10,  2,  4,  7,  9, 11, 13, 15, 17, 12, 14])

In [115]:
diabetes['Pregnancies'].nunique()

17

In [116]:
diabetes['Pregnancies'].value_counts()

1     135
0     111
2     103
3      75
4      68
5      57
6      50
7      45
8      38
9      28
10     24
11     11
13     10
12      9
14      2
15      1
17      1
Name: Pregnancies, dtype: int64

In [117]:
diabetes.isnull().sum()

Pregnancies                 0
Glucose                     0
BloodPressure               0
SkinThickness               0
Insulin                     0
BMI                         0
DiabetesPedigreeFunction    0
Age                         0
Outcome                     0
dtype: int64

In [118]:
diabetes['Pregnancies'].cumsum()

0         6
1         7
2        15
3        16
4        16
       ... 
763    2944
764    2946
765    2951
766    2952
767    2953
Name: Pregnancies, Length: 768, dtype: int64

In [119]:
diabetes.sort_values('Pregnancies')

Unnamed: 0,Pregnancies,Glucose,BloodPressure,SkinThickness,Insulin,BMI,DiabetesPedigreeFunction,Age,Outcome
467,0,97,64,36,100,36.8,0.600,25,0
109,0,95,85,25,36,37.4,0.247,24,1
452,0,91,68,32,210,39.9,0.381,25,0
449,0,120,74,18,63,30.5,0.285,26,0
448,0,104,64,37,64,33.6,0.510,22,1
...,...,...,...,...,...,...,...,...,...
357,13,129,0,30,0,39.9,0.569,44,1
298,14,100,78,25,184,36.6,0.412,46,1
455,14,175,62,30,0,33.6,0.212,38,1
88,15,136,70,32,110,37.1,0.153,43,1


In [120]:
diabetes.sort_values('Pregnancies', ascending=False)

Unnamed: 0,Pregnancies,Glucose,BloodPressure,SkinThickness,Insulin,BMI,DiabetesPedigreeFunction,Age,Outcome
159,17,163,72,41,114,40.9,0.817,47,1
88,15,136,70,32,110,37.1,0.153,43,1
298,14,100,78,25,184,36.6,0.412,46,1
455,14,175,62,30,0,33.6,0.212,38,1
274,13,106,70,0,0,34.2,0.251,52,0
...,...,...,...,...,...,...,...,...,...
291,0,107,62,30,74,36.6,0.757,25,1
608,0,152,82,39,272,41.5,0.270,27,0
294,0,161,50,0,0,21.9,0.254,65,0
297,0,126,84,29,215,30.7,0.520,24,0


In [121]:
diabetes.sort_values('Pregnancies', ascending=False, inplace=True)

In [122]:
diabetes.reset_index(inplace=True)

In [123]:
diabetes.head()

Unnamed: 0,index,Pregnancies,Glucose,BloodPressure,SkinThickness,Insulin,BMI,DiabetesPedigreeFunction,Age,Outcome
0,159,17,163,72,41,114,40.9,0.817,47,1
1,88,15,136,70,32,110,37.1,0.153,43,1
2,298,14,100,78,25,184,36.6,0.412,46,1
3,455,14,175,62,30,0,33.6,0.212,38,1
4,274,13,106,70,0,0,34.2,0.251,52,0


#**¿Como filtramos nuestro Dataframe?**

In [139]:
diabetes[diabetes['Pregnancies']>6]

(57, 10)

In [None]:
diabetes[(diabetes['Pregnancies']>6)&(diabetes['Age']>45)]

In [142]:
diabetes[(diabetes['Pregnancies']>6)|(diabetes['Age']>45)]

(230, 10)

##**Actividad N°1**

* Cargue el archivo roaster.csv utilizando el comando read_csv()



* Utilice los siguientes comandos e interprete el output:
  * head(), info(), shape, describe(), count(), columns, index, unique(), nunique(), mean(), min(), max(), sum(), cumsum()


* ¿Existen missing values (valores faltantes o NANs) en la tabla?

* Ordene la tabla en base a la edad (age) del jugador.

* Ordene la tabla en base a la posición (position) y la edad (age) del jugador.

* Seleccione a los jugadores que miden (height) más de un metro y 80 centímetros.

* Seleccione a los jugadores que NO miden (height) más de un metro y 80 centímetros.

* Seleccione a los jugadores cuyo país (country) es Chile y posición (position) es Forward.

* Seleccione a los jugadores cuyo país (country) es Chile o Spain.

* Crear una columna nueva que sea igual a 1 cuando el jugador es de Sudamérica y 0 cuando no es de Sudamérica.

* Calcule la altura de los jugadores en centímetros.