# Carga de datos con distintos formatos

* Comma-Separated Values (CSV)
* JavaScript Object Notation (JSON)
* Microsoft Excel Spreadsheet (XLS)
Para mayor referencia, ver:
https://pandas.pydata.org/docs/user_guide/io.html

# Carga de datos con formato csv

Para ejemplificar este tema utilizaremos datos de la secretaría de salud:
https://coronavirus.gob.mx/
En el apartado de Datos y luego Descargas

O en la DGE que está la base de datos completa:
https://www.gob.mx/salud/documentos/datos-abiertos-152127

Usaremos el ejemplo de casos confirmados, de descargas de tipo csv y se descargó el archivo denominado
Casos_Diarios_Estado_Nacional_Confirmados_20210718.csv

In [2]:
#Hay varias formas de cargar este tipo de datos, como se puede ver, por ejemplo, en:
#https://empresas.blogthinkbig.com/python-5-formas-de-cargar-datos-csv-proyectos-machine-learning/
#Usaremos pandas
import pandas as pd

filename = 'https://raw.githubusercontent.com/claudianila/MiRepoCS/main/Data/Casos_Diarios_Estado_Nacional_Confirmados_20211001.csv'
data = pd.read_csv(filename, header=0) #header =0 indica que la primera línea es la que usaremos para los nombres de columnas

print(data.shape)
print (data.head(10))

(33, 595)
   cve_ent  poblacion               nombre  ...  29-09-2021  30-09-2021  01-10-2021
0        1    1434635       AGUASCALIENTES  ...          63          25           0
1        2    3634868      BAJA CALIFORNIA  ...         191         125           0
2        3     804708  BAJA CALIFORNIA SUR  ...          42          22           0
3        4    1000617             CAMPECHE  ...          48          20           0
4        7    5730367              CHIAPAS  ...          34          20           0
5        8    3801487            CHIHUAHUA  ...          67          23           0
6        9    9018645     DISTRITO FEDERAL  ...         784         443           3
7        5    3218720             COAHUILA  ...         174          86           0
8        6     785153               COLIMA  ...          75          50           0
9       10    1868996              DURANGO  ...          45          32           0

[10 rows x 595 columns]


# Carga de datos en formato json
Para esta sección usaremos los datos del ejemplo del libro Data Wrangling de la editorial O'Reilly

In [4]:
json_data = pd.read_json('https://raw.githubusercontent.com/claudianila/MiRepoCS/main/Data/data-text.json')
json_data.head()


Unnamed: 0,Indicator,PUBLISH STATES,Year,WHO region,World Bank income group,Country,Sex,Display Value,Numeric,Low,High,Comments
0,Life expectancy at birth (years),Published,1990,Europe,High-income,Andorra,Both sexes,77,77,,,
1,Life expectancy at birth (years),Published,2000,Europe,High-income,Andorra,Both sexes,80,80,,,
2,Life expectancy at age 60 (years),Published,2012,Europe,High-income,Andorra,Female,28,28,,,
3,Life expectancy at age 60 (years),Published,2000,Europe,High-income,Andorra,Both sexes,23,23,,,
4,Life expectancy at birth (years),Published,2012,Eastern Mediterranean,High-income,United Arab Emirates,Female,78,78,,,


# Carga de datos con formato xlsx
En la siguiente liga se pueden descargar datos del inegi en formato xlsx

https://www.inegi.org.mx/app/tabulados/interactivos/?pxq=61a38ddd-3328-42e5-bd57-a3e18ab3cc62

Se descarga el archivo llamado:
Educacion_08.xlsx


In [6]:

filename = 'https://github.com/claudianila/MiRepoCS/raw/main/Data/Educacion_08.xlsx'
data = pd.read_excel(filename,header=0)

print(data.shape)
print (data.head(10))
    

(216, 8)
  Instituto Nacional de Estadística y Geografía (INEGI)  ...        Unnamed: 7
0  Relación alumnos/maestro(escuela) por entidad ...     ...               NaN
1                                                NaN     ...               NaN
2                                 Entidad federativa     ...         2019/2020
3                                 Entidad federativa     ...  Alumnos/Escuelas
4                           Estados Unidos Mexicanos     ...               145
5                           Estados Unidos Mexicanos     ...                53
6                           Estados Unidos Mexicanos     ...               144
7                           Estados Unidos Mexicanos     ...               158
8                           Estados Unidos Mexicanos     ...               244
9                           Estados Unidos Mexicanos     ...               711

[10 rows x 8 columns]


# Uso del archivo saltando renglones 

In [None]:
help(pd.read_excel)

Help on function read_excel in module pandas.io.excel._base:

read_excel(io, sheet_name=0, header=0, names=None, index_col=None, usecols=None, squeeze=False, dtype=None, engine=None, converters=None, true_values=None, false_values=None, skiprows=None, nrows=None, na_values=None, keep_default_na=True, na_filter=True, verbose=False, parse_dates=False, date_parser=None, thousands=None, comment=None, skipfooter=0, convert_float=True, mangle_dupe_cols=True, storage_options: Union[Dict[str, Any], NoneType] = None)
    Read an Excel file into a pandas DataFrame.
    
    Supports `xls`, `xlsx`, `xlsm`, `xlsb`, `odf`, `ods` and `odt` file extensions
    read from a local filesystem or URL. Supports an option to read
    a single sheet or a list of sheets.
    
    Parameters
    ----------
    io : str, bytes, ExcelFile, xlrd.Book, path object, or file-like object
        Any valid string path is acceptable. The string could be a URL. Valid
        URL schemes include http, ftp, s3, and file. 

In [7]:
#Este es un archivo que contiene la proporción de Alumnos-Maestros y Alumnos-Escuelas para diversos niveles educativos y Enticades
#Federativas
filename = 'https://github.com/claudianila/MiRepoCS/raw/main/Data/Educacion_08.xlsx'
data = pd.read_excel(filename,header=0,skiprows=4)
#Renombramos las columnas
data.columns = ['Entidad Federativa','Nivel educativo','Alumnos/Maestros_2010/2011','Alumnos/Escuelas_2010/2011','Alumnos/Maestros_2015/2016','Alumnos/Escuelas_2015/2016','Alumnos/Maestros_2019/2020','Alumnos/Escuelas_2019/2020']

print(data.shape)
print (data.head(10))

(212, 8)
         Entidad Federativa  ... Alumnos/Escuelas_2019/2020
0  Estados Unidos Mexicanos  ...                      145.0
1  Estados Unidos Mexicanos  ...                       53.0
2  Estados Unidos Mexicanos  ...                      144.0
3  Estados Unidos Mexicanos  ...                      158.0
4  Estados Unidos Mexicanos  ...                      244.0
5  Estados Unidos Mexicanos  ...                      711.0
6            Aguascalientes  ...                      191.0
7            Aguascalientes  ...                       83.0
8            Aguascalientes  ...                      226.0
9            Aguascalientes  ...                      200.0

[10 rows x 8 columns]
