![imagen](./img/python.jpg)

# Lectura Escritura

En este módulo vas a ver diferentes maneras de leer y escribir datos desde archivos locales. Rara vez trabajarás únicamente con los datos que genere tu programa de Python, sino que lo normal será acudir a una fuente de datos, o leer de algún archivo.

1. [Archivos](#1.-Archivos)
2. [Abrir ficheros](#2.-Abrir-ficheros)
3. [CSV](#3.-CSV)
4. [Excel](#4.-Excel)
5. [JSON](#5.-JSON)
6. [TXT](#6.-TXT)
7. [ZIP](#7.-ZIP)
8. [pickle](#8.-pickle)
9. [Encoding](#9.-Encoding)
10. [Archivos y carpetas](#10.-Archivos-y-carpetas)

## 1. Archivos
Antes de ir a leer o escribir archivos, es importante saber exáctamente qué es un archivo. **Un archivo es un conjunto de datos almacenados en el ordenador en forma de bits.** Los datos se organizan en un formato específico, pudiendo ser un archivo de texto, un ejecutable... pero en el fondo todos esos archivos se traducen a nivel binario para el procesado del ordenador. Los archivos se componen de:

1. **Header**: metadatos del archivo (nombre, tamaño, tipo...)
2. **Data**: contenido del archivo
3. **End of file (EOF)**: caracter especial que indica el final del archivo.

![imagen](./img/file.png)

#### File path
Hay tres elementos que tenemos que conocer cuando leamos un archivo:
1. **Folder path**: en que lugar del ordenador está el archivo. Y no solo eso, si no en qué directorio está apuntando el programa de Python.
2. **File name**
3. **Extension**: lo que va después del punto

Fíjate en la siguiente imagen:

![imagen](./img/path.png)

* Si estamos trabajando en el directorio *to*, accederemos a *cats.gif* como `cats.gif`
* Si queremos leer *dog_breeds.txt*, hay que ir un directorio hacia atrás, `../dog_breeds.txt`
* Y si queremos acceder a `animals.csv`, son dos directorios hacia atrás: `../../animals.csv`

Siempre podemos poner la ruta absoluta (`C/Users/usuario/Archivos/Bootcamp/Python/animals.csv`) para el acceso a cada archivo, **aunque no es lo recomendable**.

[Buena guía para iniciarse en la lectura/escritura de archivos con Python.](https://realpython.com/read-write-files-python/)

## 2. Abrir ficheros
A lo largo de este notebook verás diferentes funciones para leer archivos, en función de la extensión cada uno. Estas funciones provienen de otras librerías y nos facilitan mucho la vida a la hora de leer o escribir archivos. No obstante, Python tiene sus propias funciones *built-in*, con las que no es necesario utilizar otros paquetes. 

4 funcionalidades basicas de la programación:
 - crear
 - eliminar
 - modificar
 - visualizar

Para ello **usaremos la función `open`**, que devuelve un objeto de tipo `File`, con unos métodos y atributos propios empleados para obtener información de los archivos abiertos. `open` sigue la siguiente sitaxis:

```Python
file_object  = open("filename", "mode")
```

El primer argumento es el nombre del archivo, mientras que en el modo tendremos que especificar si queremos leer, o escribir. Por defecto leerá, es decir, el parámetro valdrá *r*, de read. [Te dejo el enlace a la documentación para consultar el resto de modos](https://docs.python.org/3/library/functions.html#open).

Vamos a probar a leer un archivo. La siguiente sintaxis de línea se utiliza porque en algún momento se tiene que cerrar el archivo. Se abre, leemos, realizamos operaciones, y cuando acaba el `with open()`, se cierra el archivo. **Leer y escribir mientras los archivos están abiertos nos dará errores**.

In [None]:
# El argumento "r" se refiere a lectura (read)
# Aquí se esta leyendo el contenido del archivo como un único dato
with open('data/dog_breeds.txt', 'r') as open_file:
    all_text = open_file.read()
    print(type(all_text))
    print(all_text)

<class 'str'>
Pug
Jack Russell Terrier
English Springer Spaniel
German Shepherd
Staffordshire Bull Terrier
Cavalier King Charles Spaniel
Golden Retriever
West Highland White Terrier
Boxer
Border Terrier
HOLA QUÃ‰ TAL


El método `.read()` nos devuelve un string con todo el texto, que no es lo ideal para tratar luego los datos.

En el siguiente ejemplo vemos como también lo leemos, pero en este caso cada línea la guarda en una lista.

In [5]:
# El output devuelve una lista de strings
# Viene con saltos de linea
with open('data/dog_breeds.txt', 'r') as open_file:
    all_text = open_file.readlines()
print(type(all_text))
print(all_text)

<class 'list'>
['Pug\n', 'Jack Russell Terrier\n', 'English Springer Spaniel\n', 'German Shepherd\n', 'Staffordshire Bull Terrier\n', 'Cavalier King Charles Spaniel\n', 'Golden Retriever\n', 'West Highland White Terrier\n', 'Boxer\n', 'Border Terrier\n', 'HOLA QUÃ‰ TAL']


In [None]:
with open('data/dog_breeds.txt', 'r') as open_file:
    for line in open_file.readlines():
        print(line, end = '')
        
print('Fin')

Pug
Jack Russell Terrier
English Springer Spaniel
German Shepherd
Staffordshire Bull Terrier
Cavalier King Charles Spaniel
Golden Retriever
West Highland White Terrier
Boxer
Border Terrier
HOLA QUÃ‰ TALFin


In [9]:
with open('data/dog_breeds.txt', 'r') as open_file:
    for line in open_file.readlines():
        print(line)
        print(type(line))
        
print('Fin')

Pug

<class 'str'>
Jack Russell Terrier

<class 'str'>
English Springer Spaniel

<class 'str'>
German Shepherd

<class 'str'>
Staffordshire Bull Terrier

<class 'str'>
Cavalier King Charles Spaniel

<class 'str'>
Golden Retriever

<class 'str'>
West Highland White Terrier

<class 'str'>
Boxer

<class 'str'>
Border Terrier

<class 'str'>
HOLA QUÃ‰ TAL
<class 'str'>
Fin


In [4]:
with open('data/dog_breeds.txt', 'r') as reader:
    # Read and print the entire file line by line
    for line in reader:
        print(line, end='')

Pug
Jack Russell Terrier
English Springer Spaniel
German Shepherd
Staffordshire Bull Terrier
Cavalier King Charles Spaniel
Golden Retriever
West Highland White Terrier
Boxer
Border Terrier

Si queremos escribir

In [11]:
# with open('data/preguntas.py', 'w') as new_file:
#     new_file.write("print(\"Hola mundo\")\n")
#     new_file.write("#Esto se crea?\n")
#     new_file.write("#Segunda linea\n")
#     new_file.write("#Tercera linea\n")
#     print("Ya se ha escrito")


with open("data/preguntas.py", "r") as new_file:
    linea = new_file.readline()
    print(linea)
    print(new_file.readline())
    print(new_file.readline())

print("Hola mundo")

#Esto se crea?

#Segunda linea



In [None]:
# escribe
with open('data/class_hlf.py', 'w') as new_file:
    new_file.write("class Barco():\n")
    new_file.write("\teslora = 4")
    new_file.write("holaaaaaaaa")
    # new_file.write("Pregunta")
    print("Ya se ha escrito")

Ya se ha escrito


In [18]:
# lee y escribe
with open('data/class_hlf.py', 'a') as new_file:
    new_file.write("\n\nclass Tablero():\n")
    new_file.write("\tjugadores = 4")
    # new_file.write("Pregunta")
    print("Ya se ha escrito")

Ya se ha escrito


## 3. CSV
***Comma Separated Values*. Es el estándar de la industria que se utiliza para leer/escribir datos en formato tabla**, en dos dimensiones. Se llaman *Comma Separeted Values* ya que todos los valores de las columnas van separados por comas, y las filas por saltos de línea. **Su extension de archivo es `.csv`**. Además, el 99% de las veces llevan la cabecera de columnas en la primera línea. Aunque no siempre se dará el caso, depende de la manera en la que se haya generado el CSV.

**Es el archivo más común utilizado para guardar datos tabulares, puesto que ocupa muy poco espacio** ya que es simplemente un archivo de texto plano, con todos los datos separados por el caracter coma. Y además, sencillo de entender, los datos no van en un árbol json o xml... Si lo abrimos como texto plano, son los datos separados por coma, tal cual. 

Por supuesto, tenemos el otro gran protagonista en cuanto a almacenamiento de datos en formato tabla, **el Excel**. A ver, son cosas diferentes. El Excel tiene sus formatos (.xlsx, .xls), que encima son muy eficientes ya que el dato va comprimido, pero no deja de ser un software de pago para tratar los datos, mientras que **el CSV es un formato estándar que se utiliza en todos los sistemas operativos para el exportado/importado de datos**.

Como decíamos al principio, los CSVs se llaman *Comma Separated Values* porque todos los valores van separados por comas... bueno, esto no es del todo cierto ya que **puede haber otro caracter que no sea la coma**, como por ejemplo el punto y coma. ¿Por qué? Simplemente porque si tenemos datos decimales, separados por comas, no vamos a saber distinguir cuando una coma es de un decimal, o es el separador de columnas.

**¿Cómo podemos leer un CSV en Python?** Con Pandas! [Aquí tienes la documentación](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.read_csv.html)

In [19]:
import pandas as pd
import numpy as np

df = pd.read_csv('data/laliga.csv')
df.head()

Unnamed: 0.1,Unnamed: 0,season,division,round,localTeam,visitorTeam,localGoals,visitorGoals,date,timestamp
0,26201,2005-06,1,1,Atletico de Bilbao,Real Sociedad,3,0,27/08/2005,1125093600
1,26202,2005-06,1,1,Alaves,Barcelona,0,0,27/08/2005,1125093600
2,26203,2005-06,1,1,Valencia,Betis,1,0,27/08/2005,1125093600
3,26204,2005-06,1,1,Atletico de Madrid,Zaragoza,0,0,28/08/2005,1125180000
4,26205,2005-06,1,1,Cadiz,Real Madrid,1,2,28/08/2005,1125180000


**Parámetros interesantes del `read_csv()`**
1. `filepath_or_buffer`: ruta donde está el CSV
2. `sep`: el separador de los datos, por defecto es coma, pero podría ser otro como veremos en ejemplos posteriores.
3. `header`: dónde se encuentran los nombre de columnas. Por defecto es en la primera línea.

Probemos a leer el CSV desde otra ruta del ordenador

In [22]:
tu_ruta = 'data/laliga.csv'
df = pd.read_csv(tu_ruta)

df.head()

Unnamed: 0.1,Unnamed: 0,season,division,round,localTeam,visitorTeam,localGoals,visitorGoals,date,timestamp
0,26201,2005-06,1,1,Atletico de Bilbao,Real Sociedad,3,0,27/08/2005,1125093600
1,26202,2005-06,1,1,Alaves,Barcelona,0,0,27/08/2005,1125093600
2,26203,2005-06,1,1,Valencia,Betis,1,0,27/08/2005,1125093600
3,26204,2005-06,1,1,Atletico de Madrid,Zaragoza,0,0,28/08/2005,1125180000
4,26205,2005-06,1,1,Cadiz,Real Madrid,1,2,28/08/2005,1125180000


Una de las columnas, la podremos usar como index

In [24]:
# Unnamed: 0 es el indice que tiene el archivo csv, por defecto se lee como una columna
# Aquí lo volvemos a concertir en indice
df = pd.read_csv('data/laliga.csv', index_col = "Unnamed: 0")
df.head()

Unnamed: 0,season,division,round,localTeam,visitorTeam,localGoals,visitorGoals,date,timestamp
26201,2005-06,1,1,Atletico de Bilbao,Real Sociedad,3,0,27/08/2005,1125093600
26202,2005-06,1,1,Alaves,Barcelona,0,0,27/08/2005,1125093600
26203,2005-06,1,1,Valencia,Betis,1,0,27/08/2005,1125093600
26204,2005-06,1,1,Atletico de Madrid,Zaragoza,0,0,28/08/2005,1125180000
26205,2005-06,1,1,Cadiz,Real Madrid,1,2,28/08/2005,1125180000


Si queremos pasar el índice a una nueva columna, simplemente creamos una columna nueva

In [10]:
df['nueva columna'] = df.index
df.reset_index(inplace=True, drop=True)

In [11]:
df.head()

Unnamed: 0,season,division,round,localTeam,visitorTeam,localGoals,visitorGoals,date,timestamp,nueva columna
0,2005-06,1,1,Atletico de Bilbao,Real Sociedad,3,0,27/08/2005,1125093600,26201
1,2005-06,1,1,Alaves,Barcelona,0,0,27/08/2005,1125093600,26202
2,2005-06,1,1,Valencia,Betis,1,0,27/08/2005,1125093600,26203
3,2005-06,1,1,Atletico de Madrid,Zaragoza,0,0,28/08/2005,1125180000,26204
4,2005-06,1,1,Cadiz,Real Madrid,1,2,28/08/2005,1125180000,26205


Podemos resetear también el índice, y poner ahi un numérico que vaya desde el 0 al número de filas.

In [12]:
# Resetear el index. Drop= True para que no lo conserve
df.reset_index(drop=True)

Unnamed: 0,season,division,round,localTeam,visitorTeam,localGoals,visitorGoals,date,timestamp,nueva columna
0,2005-06,1,1,Atletico de Bilbao,Real Sociedad,3,0,27/08/2005,1125093600,26201
1,2005-06,1,1,Alaves,Barcelona,0,0,27/08/2005,1125093600,26202
2,2005-06,1,1,Valencia,Betis,1,0,27/08/2005,1125093600,26203
3,2005-06,1,1,Atletico de Madrid,Zaragoza,0,0,28/08/2005,1125180000,26204
4,2005-06,1,1,Cadiz,Real Madrid,1,2,28/08/2005,1125180000,26205
...,...,...,...,...,...,...,...,...,...,...
4935,2017-18,1,38,Villarreal,Real Madrid,2,2,19/05/2018,1526680800,36680
4936,2017-18,1,38,Atletico de Bilbao,Espanol,0,1,20/05/2018,1526767200,36681
4937,2017-18,1,38,Barcelona,Real Sociedad,1,0,20/05/2018,1526767200,36682
4938,2017-18,1,38,Valencia,Deportivo,2,1,20/05/2018,1526767200,36683


In [13]:
# Para cambiar el indice
df.index = range(1, df.shape[0] + 1)
df.head()

Unnamed: 0,season,division,round,localTeam,visitorTeam,localGoals,visitorGoals,date,timestamp,nueva columna
1,2005-06,1,1,Atletico de Bilbao,Real Sociedad,3,0,27/08/2005,1125093600,26201
2,2005-06,1,1,Alaves,Barcelona,0,0,27/08/2005,1125093600,26202
3,2005-06,1,1,Valencia,Betis,1,0,27/08/2005,1125093600,26203
4,2005-06,1,1,Atletico de Madrid,Zaragoza,0,0,28/08/2005,1125180000,26204
5,2005-06,1,1,Cadiz,Real Madrid,1,2,28/08/2005,1125180000,26205


In [14]:
# Dimensiones
print(df.shape) # Ambas
print(df.shape[0]) # Filas
print(df.shape[1]) # columnas
print(len(df)) # Filas tambien

(4940, 10)
4940
10
4940


In [None]:
df.head(2)

También es posible aplicarle nombres de columnas en la lectura de los datos

In [25]:
df.columns

Index(['season', 'division', 'round', 'localTeam', 'visitorTeam', 'localGoals',
       'visitorGoals', 'date', 'timestamp'],
      dtype='object')

In [None]:
# Aquí ponemos los nombres de las columnas en castellano
df = pd.read_csv('data/laliga.csv',
                 names = ['Indice', 'Temporada', 'Division', 'Jornada',
                          'Equipo local', 'Equipo visitante', 'Goles local',
                          'Goles visitante', 'fecha', 'timestamp'],
                header = 0)
df.head()

Unnamed: 0,Indice,Temporada,Division,Jornada,Equipo local,Equipo visitante,Goles local,Goles visitante,fecha,timestamp
0,26201,2005-06,1,1,Atletico de Bilbao,Real Sociedad,3,0,27/08/2005,1125093600
1,26202,2005-06,1,1,Alaves,Barcelona,0,0,27/08/2005,1125093600
2,26203,2005-06,1,1,Valencia,Betis,1,0,27/08/2005,1125093600
3,26204,2005-06,1,1,Atletico de Madrid,Zaragoza,0,0,28/08/2005,1125180000
4,26205,2005-06,1,1,Cadiz,Real Madrid,1,2,28/08/2005,1125180000


Si queremos cambiar los tipos de los datos, en la propia lectura

In [27]:
df.dtypes

Indice               int64
Temporada           object
Division             int64
Jornada              int64
Equipo local        object
Equipo visitante    object
Goles local          int64
Goles visitante      int64
fecha               object
timestamp            int64
dtype: object

In [28]:
df = pd.read_csv("data/laliga.csv",
                usecols = ['Unnamed: 0', 'division', 'localTeam'],
                dtype = {'Unnamed: 0': object,
                         'division': np.int16, # np.int64
                         'localTeam': object})

df.head()

Unnamed: 0.1,Unnamed: 0,division,localTeam
0,26201,1,Atletico de Bilbao
1,26202,1,Alaves
2,26203,1,Valencia
3,26204,1,Atletico de Madrid
4,26205,1,Cadiz


In [29]:
df.dtypes

Unnamed: 0    object
division       int16
localTeam     object
dtype: object

**¿Cómo leer un archivo CSV que no esté separado por comas?**
Probemos a leer un archivo CSV, que no tiene comas como delimitador

In [22]:
df = pd.read_csv("data/laligaPC.csv")
df.head()

Unnamed: 0,Unnamed: 0;season;division;round;localTeam;visitorTeam;localGoals;visitorGoals;date;timestamp
0,26201;2005-06;1;1;Atletico de Bilbao;Real Soci...
1,26202;2005-06;1;1;Alaves;Barcelona;0;0;27/08/2...
2,26203;2005-06;1;1;Valencia;Betis;1;0;27/08/200...
3,26204;2005-06;1;1;Atletico de Madrid;Zaragoza;...
4,26205;2005-06;1;1;Cadiz;Real Madrid;1;2;28/08/...


Lo lee todo como una única línea ya que no encuentra comas. **Se recomienda trabajar con CSVs cuyo separador sea el ; así evitamos problemas por los decimales**.

In [30]:
df = pd.read_csv("data/laligaPC.csv", sep=';')
df.head()

Unnamed: 0.1,Unnamed: 0,season,division,round,localTeam,visitorTeam,localGoals,visitorGoals,date,timestamp
0,26201,2005-06,1,1,Atletico de Bilbao,Real Sociedad,3,0,27/08/2005,1125093600
1,26202,2005-06,1,1,Alaves,Barcelona,0,0,27/08/2005,1125093600
2,26203,2005-06,1,1,Valencia,Betis,1,0,27/08/2005,1125093600
3,26204,2005-06,1,1,Atletico de Madrid,Zaragoza,0,0,28/08/2005,1125180000
4,26205,2005-06,1,1,Cadiz,Real Madrid,1,2,28/08/2005,1125180000


¿Podemos tener otros caracteres que separen los datos?

In [31]:
df = pd.read_csv("data/laliga4.csv")
df.head()

Unnamed: 0,Unnamed: 0~season~division~round~localTeam~visitorTeam~localGoals~visitorGoals~date~timestamp
0,26201~2005-06~1~1~Atletico de Bilbao~Real Soci...
1,26202~2005-06~1~1~Alaves~Barcelona~0~0~27/08/2...
2,26203~2005-06~1~1~Valencia~Betis~1~0~27/08/200...
3,26204~2005-06~1~1~Atletico de Madrid~Zaragoza~...
4,26205~2005-06~1~1~Cadiz~Real Madrid~1~2~28/08/...


In [32]:
df = pd.read_csv("data/laliga4.csv", sep='~')
df.head()

Unnamed: 0.1,Unnamed: 0,season,division,round,localTeam,visitorTeam,localGoals,visitorGoals,date,timestamp
0,26201,2005-06,1,1,Atletico de Bilbao,Real Sociedad,3,0,27/08/2005,1125093600
1,26202,2005-06,1,1,Alaves,Barcelona,0,0,27/08/2005,1125093600
2,26203,2005-06,1,1,Valencia,Betis,1,0,27/08/2005,1125093600
3,26204,2005-06,1,1,Atletico de Madrid,Zaragoza,0,0,28/08/2005,1125180000
4,26205,2005-06,1,1,Cadiz,Real Madrid,1,2,28/08/2005,1125180000


In [33]:
pd.read_csv("data/laligaPC.csv", sep=";")

Unnamed: 0.1,Unnamed: 0,season,division,round,localTeam,visitorTeam,localGoals,visitorGoals,date,timestamp
0,26201,2005-06,1,1,Atletico de Bilbao,Real Sociedad,3,0,27/08/2005,1125093600
1,26202,2005-06,1,1,Alaves,Barcelona,0,0,27/08/2005,1125093600
2,26203,2005-06,1,1,Valencia,Betis,1,0,27/08/2005,1125093600
3,26204,2005-06,1,1,Atletico de Madrid,Zaragoza,0,0,28/08/2005,1125180000
4,26205,2005-06,1,1,Cadiz,Real Madrid,1,2,28/08/2005,1125180000
...,...,...,...,...,...,...,...,...,...,...
4935,36680,2017-18,1,38,Villarreal,Real Madrid,2,2,19/05/2018,1526680800
4936,36681,2017-18,1,38,Atletico de Bilbao,Espanol,0,1,20/05/2018,1526767200
4937,36682,2017-18,1,38,Barcelona,Real Sociedad,1,0,20/05/2018,1526767200
4938,36683,2017-18,1,38,Valencia,Deportivo,2,1,20/05/2018,1526767200


**Escritura de CSV**

Para escribir un CSV usamos el método `to_csv()`. Tienes [el enlace a la documentación para ver más detalle](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.to_csv.html).

In [35]:
df.to_csv("data/laligaWrite.csv", sep = ';', index = False)

<table align="left">
 <tr><td width="80"><img src="./img/ejercicio.png" style="width:auto;height:auto"></td>
     <td style="text-align:left">
         <h3>Ejercicio CSV</h3>

Crea un fichero de CSV llamado ejercicio_clase.csv en la carpeta de data a partir de estas Series con separador de ; y leelo a continuación.
         
 </td></tr>
</table>

In [36]:
poblacion = pd.Series({"Madrid": 6685471, "Galicia": 2698764,
                       "Murcia": 1494442, "Andalucia": 8446561})


superficie = pd.Series([8028, 29575, 11314, 87599],
                       index = ["Madrid", "Galicia", "Murcia", "Andalucia"])

In [37]:
df = pd.DataFrame({"poblacion": poblacion,
                   "superficie": superficie})
df

Unnamed: 0,poblacion,superficie
Madrid,6685471,8028
Galicia,2698764,29575
Murcia,1494442,11314
Andalucia,8446561,87599


In [38]:
df.to_csv("data/ejercicio.csv", sep=";")

df_lectura = pd.read_csv("data/ejercicio.csv", sep=";", index_col=0)
df_lectura

Unnamed: 0,poblacion,superficie
Madrid,6685471,8028
Galicia,2698764,29575
Murcia,1494442,11314
Andalucia,8446561,87599


## 4. Excel

Pandas transforma los datos eque hay en un excel en un dataframe.

¿Qué empresa no trabaja con Excel? **Nos vamos a encontrar los formatos de datos de Excel en cualquier sitio**. Las extensiones de archivo más habituales son `.xlsx` y `.xls`. Por suerte, **`pandas` tiene métodos para leer los formatos de archivo de Excel**.

El problema que presenta este tipo de lectura de datos es que **no es un formato tan cerrado como el CSV**. En el CSV tenemos una estructura compacta, con todos los datos separados por comas y con una línea de cabecera en la primera fila. El Excel permite tener datos en un formato mucho más flexible, con tablas en cualquier sitio de las hojas, información en varias hojas y demás.

Teniendo esto en cuenta, y sabiendo bien el formato del Excel en cuestión, podremos leerlo sin problemas con `pandas`, debido a la cantidad de argumentos que tiene la función `read_excel`. [En la documentación tienes todo el detalle](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.read_excel.html).

Leemos nuestro archivo de laliga, pero en este caso en Excel

In [None]:
# Librearia de Python para trabajar con excel
# pip install openpyxl

In [39]:
df = pd.read_excel('data/laliga.xlsx')
df.head()

Unnamed: 0,Column1,season,division,round,localTeam,visitorTeam,localGoals,visitorGoals,date,timestamp
0,26201,2005-06-01,1,1,Atletico de Bilbao,Real Sociedad,3,0,2005-08-27,1125093600
1,26202,2005-06-01,1,1,Alaves,Barcelona,0,0,2005-08-27,1125093600
2,26203,2005-06-01,1,1,Valencia,Betis,1,0,2005-08-27,1125093600
3,26204,2005-06-01,1,1,Atletico de Madrid,Zaragoza,0,0,2005-08-28,1125180000
4,26205,2005-06-01,1,1,Cadiz,Real Madrid,1,2,2005-08-28,1125180000


No tenemos problemas cuando los datos están perfectos, con una única hoja, y empezando en la celda A1. ¿Qué argumentos nos pueden resultar útiles?

1. `io`: dónde está el archivo
2. `sheet_name`: el nombre de la hoja
3. `header`: dónde está la cabecera
4. `usecols`: indica el rango de columnas Excel en el que se encuentran. Por ejemplo: 'A:F'
5. `skiprows`: filas que deberia ignorar

Veamos más ejemplos. El Excel de `laliga.xlsx` tiene varias pestañas. Por defecto, lee la primera, `Hoja1`, pero podemos especificar otras.

In [None]:
# La data de un excel no tiene que empezar en la primera fila
df = pd.read_excel('data/laliga.xlsx', sheet_name = 'Hoja2')
df.head()

Unnamed: 0.1,Unnamed: 0,Unnamed: 1,Unnamed: 2,Unnamed: 3,Unnamed: 4,Unnamed: 5,Unnamed: 6,Unnamed: 7,Unnamed: 8,Unnamed: 9
0,,,,,,,,,,
1,Column1,season,division,round,localTeam,visitorTeam,localGoals,visitorGoals,date,timestamp
2,26201,2005-06-01 00:00:00,1,1,Atletico de Bilbao,Real Sociedad,3,0,2005-08-27 00:00:00,1125093600
3,26202,2005-06-01 00:00:00,1,1,Alaves,Barcelona,0,0,2005-08-27 00:00:00,1125093600
4,26203,2005-06-01 00:00:00,1,1,Valencia,Betis,1,0,2005-08-27 00:00:00,1125093600


Vemos que hay algún problema con los datos. Las primeras líneas están en blanco en el Excel. Podemos, o bien ignorarlas, o indicarle donde está la cabecera

In [40]:
df = pd.read_excel('data/laliga.xlsx', sheet_name = 'Hoja2', header = 2)
df.head()

Unnamed: 0,Column1,season,division,round,localTeam,visitorTeam,localGoals,visitorGoals,date,timestamp
0,26201,2005-06-01,1,1,Atletico de Bilbao,Real Sociedad,3,0,2005-08-27,1125093600
1,26202,2005-06-01,1,1,Alaves,Barcelona,0,0,2005-08-27,1125093600
2,26203,2005-06-01,1,1,Valencia,Betis,1,0,2005-08-27,1125093600
3,26204,2005-06-01,1,1,Atletico de Madrid,Zaragoza,0,0,2005-08-28,1125180000
4,26205,2005-06-01,1,1,Cadiz,Real Madrid,1,2,2005-08-28,1125180000


Otro problema que nos puede surgir es que la tabla no esté ni en las primeas filas, ni en las primeras columnas

In [None]:
df = pd.read_excel('data/laliga.xlsx',
                   sheet_name = 'Hoja3',
                  header = 2,
                  # en excel las columnas se clasifican con valores alfabéticos
                  usecols = 'B:K')
df.head()

Unnamed: 0,Column1,season,division,round,localTeam,visitorTeam,localGoals,visitorGoals,date,timestamp
0,26201,2005-06-01,1,1,Atletico de Bilbao,Real Sociedad,3,0,2005-08-27,1125093600
1,26202,2005-06-01,1,1,Alaves,Barcelona,0,0,2005-08-27,1125093600
2,26203,2005-06-01,1,1,Valencia,Betis,1,0,2005-08-27,1125093600
3,26204,2005-06-01,1,1,Atletico de Madrid,Zaragoza,0,0,2005-08-28,1125180000
4,26205,2005-06-01,1,1,Cadiz,Real Madrid,1,2,2005-08-28,1125180000


In [57]:
df = pd.read_excel('data/laliga.xlsx',
                   sheet_name = 'Hoja4',
                  header = 3,
                  usecols = 'C:L',
                  nrows = 10)
df.head()

Unnamed: 0,Column1,season,division,round,localTeam,visitorTeam,localGoals,visitorGoals,date,timestamp
0,26201,2005-06-01,1,1,Atletico de Bilbao,Real Sociedad,3,0,2005-08-27,1125093600
1,26202,2005-06-01,1,1,Alaves,Barcelona,0,0,2005-08-27,1125093600
2,26203,2005-06-01,1,1,Valencia,Betis,1,0,2005-08-27,1125093600
3,26204,2005-06-01,1,1,Atletico de Madrid,Zaragoza,0,0,2005-08-28,1125180000
4,26205,2005-06-01,1,1,Cadiz,Real Madrid,1,2,2005-08-28,1125180000


In [58]:
df = pd.read_excel('data/laliga.xlsx',
                   sheet_name = 'Hoja5',
                   skiprows=list(range(4942,4952)))
len(df)

4964

**Escritura de Excel**

Al igual que con el CSV, tenemos el método `to_excel()`, para escribir el `DataFame` en un archivo Excel. **Recuerda poner la extensión del Excel (.xlsx) en el nombre del archivo**. Tienes [el enlace a la documentación para ver más detalle](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.to_excel.html).

In [59]:
df.to_excel('data/laligaExcelWrite.xlsx')

## 5. JSON
***JavaScript Objet Notation* es otro formato de texto plano que se utiliza para el itercambio de datos**. Originalmente se utilizaba como notación literal de objetos en JavaScript, pero actualmente es un formato de datos independiente del lenguaje. JavaScript es un lenguaje de programción web, por lo que JSON se utiliza mucho en el intercambio de objetos entre cliente y servidor.

Es el principal formato para intercambio de datos entre estructuras. Las programación se basa en la estructua cliente (fronthend - interacción con usuario) y servidor (backend - funcionalidad del fronthend).

**¿Qué diferencia hay con un CSV o un Excel?** Ya no tenemos esa estructura de fila/columna, sino que ahora es un formato tipo clave/valor, como si fuese un diccionario. En una tabla en la fila 1, columna 1, tienes un valor. En un JSON no, en la clave "mi_clave" puedes tener almacenado un valor, una lista, un diccionarios o incluso un objeto. Salimos del formato tabla al que estamos acostubrados para ganar en flexibilidad.

Una tabla tiene una estructura bidimensional. Un JSON puede tener más dimensiones.

Un JSON tiene la siguiente pinta:

Este JSON esta formado por diccionarios. Tiene 5 etiquetas, cada una con un contenido diferente.

![imagen](./img/json_image.png)


In [43]:
data =  {
        "firstName": "Jane",
        "lastName": "Doe",
        # Lista de elementos
        "hobbies": ["running", "sky diving", "singing"],
        "age": 35,
        # una lista de diccionarios, un diccionario para cada hijo
        "children": [
            {
                "firstName": "Alice",
                "age": 6
            },
            {
                "firstName": "Bob",
                "age": 8
            }
        ]
    }


In [None]:
# Acceso como en los csv
data['hobbies'][0]

'running'

In [None]:
# Vamos al segundo de elemento de la lista de diccionarios, a la etiqueta "firstName"
data['children'][1]['firstName']

'Bob'

In [None]:
# Se puede iterar sobre un JAON
for kid in data['children']:
    print(kid['firstName'])

Alice
Bob


**Puedo guardar el JSON en un archivo. Para ello, usamos la librería `json`**, que viene incluida en la instalación de Anaconda.

In [58]:
import json

with open("data/data_file.json", "w") as write_file:
    json.dump(data, write_file)

O también objetos de una clase

In [59]:
# Se esta guardadon el JSON como una clase
class Persona:
    
    def __init__(self, firstName, lastName, hobbies):
        self.firstName = firstName
        self.lastName = lastName
        self.hobbies = hobbies
        
pers1 = Persona("Pepe", "Carrasco", ["Bricolaje", "Tenis"])
pers2 = Persona("Jose", "Carrasco", ["Bricolaje", "Tenis"])

In [49]:
pers1

<__main__.Persona at 0x1475491ce00>

In [50]:
pers1.__dict__

{'firstName': 'Pepe',
 'lastName': 'Carrasco',
 'hobbies': ['Bricolaje', 'Tenis']}

Lo puedo guardar en un archivo *pepe.json*

In [51]:
with open("data/pepe.json", "w") as write_file:
    json.dump(pers2.__dict__, write_file)

Luego lo puedo volver a cargar

In [52]:
with open("data/pepe.json", "r") as json_file:
    data = json.load(json_file)
    
print(data)
print(data['firstName'])

{'firstName': 'Jose', 'lastName': 'Carrasco', 'hobbies': ['Bricolaje', 'Tenis']}
Jose


Para el siguiente ejemplo, utilizamos `pandas` y leeremos el archivo JSON, de tal manera que nos transforme los datos en formato tabla, en un `DataFrame`.

In [77]:
df = pd.read_json('data/Musical_Instruments_5.json', lines = True)
df

Unnamed: 0,reviewerID,asin,reviewerName,helpful,reviewText,overall,summary,unixReviewTime,reviewTime
0,A2IBPI20UZIR0U,1384719342,"cassandra tu ""Yeah, well, that's just like, u...","[0, 0]","Not much to write about here, but it does exac...",5,good,1393545600,"02 28, 2014"
1,A14VAT5EAX3D9S,1384719342,Jake,"[13, 14]",The product does exactly as it should and is q...,5,Jake,1363392000,"03 16, 2013"
2,A195EZSQDW3E21,1384719342,"Rick Bennette ""Rick Bennette""","[1, 1]",The primary job of this device is to block the...,5,It Does The Job Well,1377648000,"08 28, 2013"
3,A2C00NNG1ZQQG2,1384719342,"RustyBill ""Sunday Rocker""","[0, 0]",Nice windscreen protects my MXL mic and preven...,5,GOOD WINDSCREEN FOR THE MONEY,1392336000,"02 14, 2014"
4,A94QU4C90B1AX,1384719342,SEAN MASLANKA,"[0, 0]",This pop filter is great. It looks and perform...,5,No more pops when I record my vocals.,1392940800,"02 21, 2014"
...,...,...,...,...,...,...,...,...,...
10256,A14B2YH83ZXMPP,B00JBIVXGC,Lonnie M. Adams,"[0, 0]","Great, just as expected. Thank to all.",5,Five Stars,1405814400,"07 20, 2014"
10257,A1RPTVW5VEOSI,B00JBIVXGC,Michael J. Edelman,"[0, 0]",I've been thinking about trying the Nanoweb st...,5,"Long life, and for some players, a good econom...",1404259200,"07 2, 2014"
10258,AWCJ12KBO5VII,B00JBIVXGC,Michael L. Knapp,"[0, 0]",I have tried coated strings in the past ( incl...,4,Good for coated.,1405987200,"07 22, 2014"
10259,A2Z7S8B5U4PAKJ,B00JBIVXGC,"Rick Langdon ""Scriptor""","[0, 0]","Well, MADE by Elixir and DEVELOPED with Taylor...",4,Taylor Made,1404172800,"07 1, 2014"


## 6. TXT
**Son simplemente archivos donde hay texto**. Hemos visto que los CSVs y los JSON tienen su propio formato y extension. En el caso del .txt no tienen ninguno específico aunque no quita para que sus elementos estén separados por comas, y se pueda leer igualmente como si fuese un CSV.

Cuando almancenamos datos siempre tienen una estructura, por lo que aunque sea un `.txt`, llevará los datos en formato json, separados por comas, tabulaciones, puntos y comas...

Por ejemplo, si tenemos los datos de la liga guardados en un `.txt`, separados por tabulaciones, lo podremos leer con el `pd.read_csv()`.

In [53]:
import pandas as pd

In [3]:
df = pd.read_csv('data/laligaTXT.txt', sep='\t')
df.head()

Unnamed: 0.1,Unnamed: 0,season,division,round,localTeam,visitorTeam,localGoals,visitorGoals,date,timestamp
0,26201,2005-06,1,1,Atletico de Bilbao,Real Sociedad,3,0,27/08/2005,1125093600
1,26202,2005-06,1,1,Alaves,Barcelona,0,0,27/08/2005,1125093600
2,26203,2005-06,1,1,Valencia,Betis,1,0,27/08/2005,1125093600
3,26204,2005-06,1,1,Atletico de Madrid,Zaragoza,0,0,28/08/2005,1125180000
4,26205,2005-06,1,1,Cadiz,Real Madrid,1,2,28/08/2005,1125180000


Recuerda que la separación por tabulaciones, también tiene su propia extensión: el `.tsv`, que igualmente lo podremos leer con `read_csv()`.

In [6]:
df = pd.read_csv('data/laligaTSV.tsv', sep='\t')
df.head()

Unnamed: 0.1,Unnamed: 0,season,division,round,localTeam,visitorTeam,localGoals,visitorGoals,date,timestamp
0,26201,2005-06,1,1,Atletico de Bilbao,Real Sociedad,3,0,27/08/2005,1125093600
1,26202,2005-06,1,1,Alaves,Barcelona,0,0,27/08/2005,1125093600
2,26203,2005-06,1,1,Valencia,Betis,1,0,27/08/2005,1125093600
3,26204,2005-06,1,1,Atletico de Madrid,Zaragoza,0,0,28/08/2005,1125180000
4,26205,2005-06,1,1,Cadiz,Real Madrid,1,2,28/08/2005,1125180000


El método `read_csv()` no se ciñe únicamente a leer CSVs, sino a prácticamente cualquier archivo que lleve un acarácter concreto en la separación de sus campos. Si conocemos ese caracter, sabremos leer el archivo con `pandas`.

## 7. ZIP
En ocasiones los datos que recibimos en nuestros programas están comprimidos, ya sea en un formato `.zip`, `.rar`, `.7z`, u otro tipo de archivo.

En este apartado verás un ejemplo de cómo descomprimir archivos `.zip`. Para ello empleamos la librería `zipfile` que viene incluida en la instalación de Anaconda. [Tienes el enlace a la documentación para más detalle](https://docs.python.org/3/library/zipfile.html#zipfile-objects).

Para extraer todos los archivos:

In [None]:
import zipfile

with zipfile.ZipFile('data/laligaZIP.zip') as zip_ref:
    zip_ref.extractall('data')

{'firstName': 'Jose', 'lastName': 'Carrasco', 'hobbies': ['Bricolaje', 'Tenis']}


In [56]:
import zipfile

with zipfile.ZipFile('data/laligaZIP.zip') as zip_ref:
    data = zip_ref.extractall('data')
    print(data)

None


Si quieres descomprimir un archivo `.rar` [tendrás que descargarte un paquete como por ejemplo `unrar`.](https://pypi.org/project/unrar/)

<table align="left">
 <tr><td width="80"><img src="./img/ejercicio.png" style="width:auto;height:auto"></td>
     <td style="text-align:left">
         <h3>Ejercicio zip</h3>

Consulta la documentación para extrar un único archivo por nombre de data/laligaZIP.zip en la carpeta extracted_files.
         
 </td></tr>
</table>

## 8. pickle

Es un tip ode archivo muy utilizado en la ciencia de datos. Ahi es donde se guardan los modelos de Machine learning.

**`pickle` es el módulo que nos permite serializar y deserializar un objeto de Python**. Esta operación lo que hace es traducirlo a un stream de bytes.

A efectos prácticos, lo que nos permite es guardar objetos de Python, y recuperarlos más adelante.

Normalmente se ha de documentar lo que se guarda en un pickle.

In [None]:
import pickle

df = pd.read_csv("data/laliga.csv")

with open('data/pepe.json') as json_file:
    data = json.load(json_file)
    
# Metemos varios dataframes en un pickle.
with open('data/importante', 'wb') as f:
    pickle.dump(pers1, f)
    pickle.dump(df, f)
    pickle.dump(data, f)

In [61]:
with open('data/importante', 'rb') as f:
    a = pickle.load(f)
    b = pickle.load(f)
    c = pickle.load(f)
    
print(a)
print(b)
print(c)

<__main__.Persona object at 0x0000014754D97800>
      Unnamed: 0   season  division  round           localTeam    visitorTeam  \
0          26201  2005-06         1      1  Atletico de Bilbao  Real Sociedad   
1          26202  2005-06         1      1              Alaves      Barcelona   
2          26203  2005-06         1      1            Valencia          Betis   
3          26204  2005-06         1      1  Atletico de Madrid       Zaragoza   
4          26205  2005-06         1      1               Cadiz    Real Madrid   
...          ...      ...       ...    ...                 ...            ...   
4935       36680  2017-18         1     38          Villarreal    Real Madrid   
4936       36681  2017-18         1     38  Atletico de Bilbao        Espanol   
4937       36682  2017-18         1     38           Barcelona  Real Sociedad   
4938       36683  2017-18         1     38            Valencia      Deportivo   
4939       36684  2017-18         1     38  Atletico de Madri

In [62]:
a

<__main__.Persona at 0x14754d97800>

## 9. Encoding
**Los strings se almacenan internamente en un conjunto de bytes**, caracter a caracter. Esta operación es lo que se conoce como ***encoding***, mientras que pasar de bytes a string sería *decoding*. Bien, ¿y eso en qué nos afecta? Dependiendo del encoding, se suelen almacenar en un espacio de bits de 0 a 255, es decir, en esa combinación de bits tienen que entrar todos los caracteres del lenguaje.

El problema es que en toda esa combinación de bits no entran todos los caracteres del planeta, por lo que **dependiendo del encoding que usemos, una combinación de bits significará una cosa u otra**. Por ejemplo, una A mayuscula será lo mismo en el encodig europeo que en el americano, pero los bits reservados para representar una Ñ, en el encodig americano se traduce en otro caracter.

Por tanto, **hay que tener claro en qué encoding está el archivo y con qué encoding lo vamos a leer**. [En la documentación](https://docs.python.org/3/library/codecs.html#encodings-and-unicode) puedes realizar esta comprobación. Hay algunos que te tienen que ir sonando:

1. 'utf-8': normalmente se trabaja con este encoding que engloba la mayor parte de caracteres.
2. 'unicode': estándar universal con el que no deberiamos tener problemas.
3. 'ascii': encoding americano. Solo tiene 128 caracteres.
4. 'latin': para oeste de Europa, Oceanía y Latinoamérica

![imagen](./img/encoding.jpg)

In [None]:
# Normalmente sabemos antes como está codificado el texto
# Si al abrir el csv nos encontramos con caracteres raros, hemos de mirar la codificacion
pd.read_csv('data/encoding.csv', encoding = 'utf-8')

Unnamed: 0,País,Comida
0,España,paella
1,Japón,sushi
2,Francia,La Lamproie à la Bordelaise


In [27]:
pd.read_csv('data/encoding.csv', encoding = 'ascii')

UnicodeDecodeError: 'ascii' codec can't decode byte 0xc3 in position 2: ordinal not in range(128)

In [23]:
pd.read_csv('data/encoding.csv', encoding='iso8859_10')

Unnamed: 0,PaÃ­s,Comida
0,EspaÃąa,paella
1,JapÃģn,sushi
2,Francia,La Lamproie Ã la Bordelaise


## 10. Archivos y carpetas
Resulta de gran utilidad automatizar lecturas/escrituras/borrado/movimientos de archivos entre carpetas. Si tenemos un proceso definido en Python, podremos ejecutarlo tantas veces queramos y de este modo evitar dedicarle tiempo tareas tediosas y rutinarias. Para ello tendremos que apoyarnos en el módulo de Python `os`.

Lo primero de todo es saber en qué directorio estamos trabajando. Esto es fundamental para elegir bien la ruta relativa.

Hay que acostumbrarse a usar rutas relativas

In [67]:
# Libreria que nos permite navegar por nuestro sistema, nos permite sacar información sobre nuestro sistema
import os
# get current working directory. Saca la ruta absoluta de l directorio actual de trabajo
# Devuelve la ruta absoluta donde estoy con este 
# esto no es como una terminal

print(os.getcwd())
print(os.listdir())

c:\Users\Administrador\Desktop\repositorios_agc\repo_agc\ONLINE_DS_THEBRDIGE_TRABAJOSAGC\2-DATA_ANALYSIS\3-Sources\Archivos\Teoria
['apuntes_extraccion_datos.ipynb', 'data', 'img', 'Lectura_Escritura.ipynb']


El directorio de trabajo lo podríamos cambiar si quisiéramos, por ejemplo, al escritorio.

In [None]:
# Cambiamos el directorio de trabajo
os.chdir('c:\\Users\\Administrador\\Desktop')
print(os.getcwd())
print(os.listdir())

c:\Users\Administrador\Desktop
['apuntes_IA.txt', 'desktop.ini', 'material_IA', 'repositorios_agc', 'sysprepPostCheck.lnk']


In [None]:
# OJO: SEGUIMOS EN EL ESCRITORIO, TENEMOS QUE COMPROBAR SIEMPRE EN QUÉ DIRECTORIO ESTAMOS EN LOS SCRIPTS DE PYTHON!!!!
print(os.getcwd())

c:\Users\Administrador\Desktop


Podemos juntar rutas en un único path. Realiza un concatenado con barras entendibles por Windows.

In [70]:
os.path.join("C:\\path\\directory", "some_file.txt")

'C:\\path\\directory\\some_file.txt'

Si quieres buscar algún tipo de archivo concreto, tienes varias opciones:
- Buscar por nombre
- Buscar por extensión

En función de lo que encuentres, realizarás una operación u otra. Ahora bien, igualmente para buscar, tendrás que recorrer todos los archivos que estén en un directorio o en varios directorios. Para listar todos los ARCHIVOS y CARPETAS que hay en el directorio actual de trabajo, utilizamos `os.listdir()`.

In [74]:
os.getcwd()

'c:\\Users\\Administrador\\Desktop'

In [75]:
os.listdir()

['apuntes_IA.txt',
 'desktop.ini',
 'Euro12_diego_corregido.ipynb',
 'material_IA',
 'repositorios_agc',
 'sysprepPostCheck.lnk']

Voy a quedarme con todos los notebooks del actual directorio de trabajo.

In [76]:
for i in os.listdir():
    if i.endswith('.ipynb'):
        print("Notebook", i)

Notebook Euro12_diego_corregido.ipynb


In [None]:
# OJO, SI EL ARCHIVO EXISTE, LO PODEMOS LEER, SI NO EXISTE, LO PODEMOS CREAR
for i in os.listdir():
    if i.endswith('.txt'):
        print("arvhivo text:", i)

arvhivo text: apuntes_IA.txt


Si quiero acceder sólo a los directorios

In [79]:
for i in os.listdir():
    if '.' not in i:
        print("directorio", i)

directorio material_IA
directorio repositorios_agc


Otro método interesante para bucear en los archivos y carpetas de un directorio concreto es el `os.walk()`. Va a devoler un iterable que podremos recorrer en un for y obtener en formato tupla todos los archivos, subcarpetas y ficheros de subcarpetas. Para cada elemento de la tupla tenemos:
- El directorio donde está apuntando.
- Los directorios que hay ahí.
- Los archivos que hay ahí.

In [None]:
# PODEMOS VER TODO LO QUE HAY EN EL SISTEMA DE ARCHIVOS. ESTO NO SE PUEDE HACER CON .listdir()
result_generator = os.walk(os.getcwd())

files_result = [x for x in result_generator]
files_result

[('c:\\Users\\Administrador\\Desktop',
  ['material_IA', 'repositorios_agc'],
  ['apuntes_IA.txt',
   'desktop.ini',
   'Euro12_diego_corregido.ipynb',
   'sysprepPostCheck.lnk']),
 ('c:\\Users\\Administrador\\Desktop\\material_IA', [], ['1761998051468.pdf']),
 ('c:\\Users\\Administrador\\Desktop\\repositorios_agc',
  ['repo_agc', 'repo_diego'],
  []),
 ('c:\\Users\\Administrador\\Desktop\\repositorios_agc\\repo_agc',
  ['ONLINE_DS_THEBRDIGE_TRABAJOSAGC'],
  []),
 ('c:\\Users\\Administrador\\Desktop\\repositorios_agc\\repo_agc\\ONLINE_DS_THEBRDIGE_TRABAJOSAGC',
  ['.git',
   '1-FUNDAMENTALS_PYTHON',
   '2-DATA_ANALYSIS',
   'ejercicio_0',
   'FUNDAMENTALS_GIT',
   'modulo_0_ejercicios_python_parte_5',
   'modulo_0_ejercicios_python_parte_6',
   'PROYECTOS',
   '__pycache__'],
  ['apuntes_IA_generativa.ipynb',
   'ejercicios_markdown_alvaro_guerra_cabello.ipynb',
   'funcion_mafalda.py',
   'main.py',
   'prueba.py',
   'README.md',
   'test_pull.txt']),
 ('c:\\Users\\Administrador\\Des

¿Qué podemos hacer dentro de un directorio, aparte de listar ficheros y subdirectorios? Las principales operaciones serían:
- Crear o eliminar directorios
- Crear o eliminar ficheros
- Mover ficheros

In [20]:
os.mkdir('direct_prueba')

In [21]:
os.getcwd()

'C:\\Users\\Diego Nuñez\\Desktop\\0425_REPO_VITORIA\\0425_DS_VITORIA\\2-Data_analysis\\3-Sources\\Archivos\\Teoría'

In [22]:
os.rmdir('direct_prueba')

In [89]:
f = open("fichero.txt", "w")

for i in range(10):
    f.write("Line:" + str(i))
    
f.close()

In [90]:
import shutil
shutil.move("fichero.txt", "data")

'data\\fichero.txt'

In [91]:
os.remove('data/fichero.txt')

In [144]:
os.path.dirname(os.path.abspath('__file__'))

'd:\\Carpeta_profesor\\2309_dsft_thebridge\\2-Data_Analysis\\3-Sources\\Archivos\\Teoría'

In [79]:
import os
# os.path.dirname(os.path.abspath(__file__))

In [145]:
os.path.abspath('__file__')

'd:\\Carpeta_profesor\\2309_dsft_thebridge\\2-Data_Analysis\\3-Sources\\Archivos\\Teoría\\__file__'

Para la practica mejor crear una carpeta que no sea descargas

Hay que hacer un script, ojo cuando se vuelva ejecutar un script no salga error si la carpeta ya existe o se machaque 

# ANOTACIONES PROYECTO

HIPOTESIS: es algo que crees que pasa y con los datos demostrar eso.

Tambien es posible hacer una hipótesis general y desgranarla en subhipóetesis

Lo normal serían entre 4-5 hipótesis, dependiendo de la profundidad de la hipótesis.
De media 1 - 3 graficos por hipotesis.

Dataset mínimo:

1000 registros, columnas entre 7 y 10

Ejemplo: Fernando Alonso es el mejor piloto de F1 de la historia. Se demuestra con datos que eso es o no así.
Las preguntas en forma de hipótesis tienen que responderse con un SI o NO por medio de los datos
¿Fernando Alonso es el mejor piloto de F1 de la historia? Debemos demostrar si o no.

Esto se demuestra analizando datos y mostrando visualizaciones, es decir, gráficos.

La memoria del proyecto se ha de hacer con markdown, no con comentarios de código.

La presentación no tiene que ser algo demasiado técnico. Ejemplo: si hago una visualización, no hace falta explicar el código con el que se ha hecho la visualización.

Herramientas para el análisis y la visualizaciónde de datos:

- Tableu
- Power BI


Pensar primero un tema y luego buscar los datos. Puede costar, igual es mejor conseguir el dataset y luego plantear el tema, habrá que verlo.

Presentación previa:

- Presentar los datos, el dataset antes de limpiarlo y procesarlo
- Presentación de hipótesis.

Obviamente, para las visualizaciones tendremos que sacar primero las estadísticas con funciones de agregacion.