# Carga de datos con distintos formatos

* Comma-Separated Values (CSV)
* JavaScript Object Notation (JSON)
* Microsoft Excel Spreadsheet (XLS)
Para mayor referencia, ver:
https://pandas.pydata.org/docs/user_guide/io.html

# Carga de datos con formato csv

Para ejemplificar este tema utilizaremos datos de la secretaría de salud:
https://coronavirus.gob.mx/
En el apartado de Datos y luego Descargas

O en la DGE que está la base de datos completa:
https://www.gob.mx/salud/documentos/datos-abiertos-152127

Usaremos el ejemplo de casos confirmados, de descargas de tipo csv y se descargó el archivo denominado
Casos_Diarios_Estado_Nacional_Confirmados_20211001.csv

In [2]:
#Hay varias formas de cargar este tipo de datos, como se puede ver, por ejemplo, en:
#https://empresas.blogthinkbig.com/python-5-formas-de-cargar-datos-csv-proyectos-machine-learning/
#Usaremos pandas
import pandas as pd

filename = 'https://raw.githubusercontent.com/claudianila/MiRepoCS/main/Data/Casos_Diarios_Estado_Nacional_Confirmados_20211001.csv'
data = pd.read_csv(filename, header=0) #header =0 indica que la primera línea es la que usaremos para los nombres de columnas

print(data.shape)
print (data.head(10))

(33, 565)
   cve_ent  poblacion               nombre  18-02-2020  19-02-2020  \
0        1    1434635       AGUASCALIENTES           0           0   
1        2    3634868      BAJA CALIFORNIA           0           0   
2        3     804708  BAJA CALIFORNIA SUR           0           0   
3        4    1000617             CAMPECHE           0           0   
4        7    5730367              CHIAPAS           0           0   
5        8    3801487            CHIHUAHUA           0           0   
6        9    9018645     DISTRITO FEDERAL           0           0   
7        5    3218720             COAHUILA           0           0   
8        6     785153               COLIMA           0           0   
9       10    1868996              DURANGO           0           0   

   20-02-2020  21-02-2020  22-02-2020  23-02-2020  24-02-2020  ...  \
0           0           0           0           0           0  ...   
1           0           0           0           0           0  ...   
2        

# Carga de datos en formato json
Para esta sección usaremos los datos del ejemplo del libro Data Wrangling de la editorial O'Reilly

In [5]:
json_data = pd.read_json('https://raw.githubusercontent.com/claudianila/MiRepoCS/main/Data/data-text.json')
json_data.head()


Unnamed: 0,Indicator,PUBLISH STATES,Year,WHO region,World Bank income group,Country,Sex,Display Value,Numeric,Low,High,Comments
0,Life expectancy at birth (years),Published,1990,Europe,High-income,Andorra,Both sexes,77,77,,,
1,Life expectancy at birth (years),Published,2000,Europe,High-income,Andorra,Both sexes,80,80,,,
2,Life expectancy at age 60 (years),Published,2012,Europe,High-income,Andorra,Female,28,28,,,
3,Life expectancy at age 60 (years),Published,2000,Europe,High-income,Andorra,Both sexes,23,23,,,
4,Life expectancy at birth (years),Published,2012,Eastern Mediterranean,High-income,United Arab Emirates,Female,78,78,,,


# Carga de datos con formato xlsx
En la siguiente liga se pueden descargar datos del inegi en formato xlsx

https://www.inegi.org.mx/app/tabulados/interactivos/?pxq=61a38ddd-3328-42e5-bd57-a3e18ab3cc62

Se descarga el archivo llamado:
Educacion_08.xlsx


In [1]:
#url='https://www.inegi.org.mx/app/tabulados/interactivos/?pxq=Educacion_Educacion_08_cc1ea8de-d7e1-445e-a33b-a88849155c78'
#data = pd.read_excel(url,header=0)
#data.head(10)

In [7]:

filename = 'https://raw.githubusercontent.com/claudianila/MiRepoCS/main/Data/Educacion_08.xlsx'
data = pd.read_excel(filename,header=0)

print(data.shape)
print (data.head(10))
    

(215, 8)
  Instituto Nacional de Estadística y Geografía (INEGI)       Unnamed: 1  \
0  Relación alumnos/maestro(escuela) por entidad ...                 NaN   
1                                                NaN                 NaN   
2                                 Entidad federativa     Nivel educativo   
3                                 Entidad federativa     Nivel educativo   
4                           Estados Unidos Mexicanos               Total   
5                           Estados Unidos Mexicanos          Preescolar   
6                           Estados Unidos Mexicanos            Primaria   
7                           Estados Unidos Mexicanos          Secundaria   
8                           Estados Unidos Mexicanos      Media superior   
9                           Estados Unidos Mexicanos            Superior   

         Unnamed: 2        Unnamed: 3        Unnamed: 4        Unnamed: 5  \
0               NaN               NaN               NaN               NaN   


# Uso del archivo saltando renglones 

In [1]:
#help(pd.read_excel)

In [9]:
#Este es un archivo que contiene la proporción de Alumnos-Maestros y Alumnos-Escuelas para diversos niveles educativos y Enticades
#Federativas
filename = 'https://raw.githubusercontent.com/claudianila/MiRepoCS/main/Data/Educacion_08.xlsx'
data = pd.read_excel(filename,header=0,skiprows=4)
#Renombramos las columnas
data.columns = ['Entidad Federativa','Nivel educativo','Alumnos/Maestros_2010/2011','Alumnos/Escuelas_2010/2011','Alumnos/Maestros_2015/2016','Alumnos/Escuelas_2015/2016','Alumnos/Maestros_2019/2020','Alumnos/Escuelas_2019/2020']

print(data.shape)
print (data.head(10))

(211, 8)
         Entidad Federativa Nivel educativo  Alumnos/Maestros_2010/2011  \
0  Estados Unidos Mexicanos           Total                        19.0   
1  Estados Unidos Mexicanos      Preescolar                        21.0   
2  Estados Unidos Mexicanos        Primaria                        26.0   
3  Estados Unidos Mexicanos      Secundaria                        16.0   
4  Estados Unidos Mexicanos  Media superior                        15.0   
5  Estados Unidos Mexicanos        Superior                         9.0   
6            Aguascalientes           Total                        17.0   
7            Aguascalientes      Preescolar                        23.0   
8            Aguascalientes        Primaria                        30.0   
9            Aguascalientes      Secundaria                        13.0   

   Alumnos/Escuelas_2010/2011  Alumnos/Maestros_2015/2016  \
0                       133.0                        17.0   
1                        51.0              

Archivo tomado sin leer los últimos renglones, que son los que traen 
elementos que no necesitamos

In [3]:
import pandas as pd

In [7]:
filename = 'https://raw.githubusercontent.com/claudianila/MiRepoCS/main/Data/Educacion_08.xlsx'
data = pd.read_excel(filename,header=0,skiprows=4,nrows=198)
#Renombramos las columnas
data.columns = ['Entidad Federativa','Nivel educativo','Alumnos/Maestros_2010/2011','Alumnos/Escuelas_2010/2011','Alumnos/Maestros_2015/2016','Alumnos/Escuelas_2015/2016','Alumnos/Maestros_2019/2020','Alumnos/Escuelas_2019/2020']

print(data.shape)
print (data.tail(10))

(198, 8)
    Entidad Federativa Nivel educativo  Alumnos/Maestros_2010/2011  \
188            Yucatán        Primaria                          27   
189            Yucatán      Secundaria                          11   
190            Yucatán  Media superior                          15   
191            Yucatán        Superior                           9   
192          Zacatecas           Total                          18   
193          Zacatecas      Preescolar                          20   
194          Zacatecas        Primaria                          23   
195          Zacatecas      Secundaria                          14   
196          Zacatecas  Media superior                          17   
197          Zacatecas        Superior                           8   

     Alumnos/Escuelas_2010/2011  Alumnos/Maestros_2015/2016  \
188                         179                          25   
189                         165                          13   
190                         298

In [4]:
help(pd.read_excel)

Help on function read_excel in module pandas.io.excel._base:

read_excel(io, sheet_name=0, header=0, names=None, index_col=None, usecols=None, squeeze=False, dtype=None, engine=None, converters=None, true_values=None, false_values=None, skiprows=None, nrows=None, na_values=None, keep_default_na=True, na_filter=True, verbose=False, parse_dates=False, date_parser=None, thousands=None, comment=None, skipfooter=0, convert_float=True, mangle_dupe_cols=True, storage_options: Union[Dict[str, Any], NoneType] = None)
    Read an Excel file into a pandas DataFrame.
    
    Supports `xls`, `xlsx`, `xlsm`, `xlsb`, `odf`, `ods` and `odt` file extensions
    read from a local filesystem or URL. Supports an option to read
    a single sheet or a list of sheets.
    
    Parameters
    ----------
    io : str, bytes, ExcelFile, xlrd.Book, path object, or file-like object
        Any valid string path is acceptable. The string could be a URL. Valid
        URL schemes include http, ftp, s3, and file. 