# Proceso para convertir datos de CSV a formato Parquet usando Pandas

## Instalamos la librería pandas

In [2]:
!pip install pandas

Looking in indexes: https://pypi.org/simple, https://us-python.pkg.dev/colab-wheels/public/simple/


## Carga de los archivos

Subir los archivos a la ruta "/content/kaggle":


*   /content/kaggle/country_wise_latest.csv
*   /content/kaggle/covid_19_clean_complete.csv
*   /content/kaggle/day_wise.csv
*   /content/kaggle/full_grouped.csv
*   /content/kaggle/usa_county_wise.csv
*   /content/kaggle/worldometer_data.csv

Además, crear la ruta "/content/parquet_pandas" para almacenar los archivos parquet


## Importamos la librería pandas

In [52]:
import pandas as pd

## Definimos la Clase CountryToParquet

La clase "CountryToParquet" realizará la lectura del archivo "country_wise_latest.csv" y lo escribira en formato parquet, considerando el tipo de cada campo

In [57]:
# Se define la clase CountryToParquet con un constructor que recibe los nombres de archivo de entrada y salida.
class CountryToParquet:
    def __init__(self, input_file, output_file):
        self.input_file = input_file
        self.output_file = output_file

    def read_csv(self):
        # Se define un diccionario dtype que especifica los tipos de campo para leer el archivo CSV. 
        dtype = {
            'country_region': str,
            'confirmed': int,
            'deaths': int,
            'recovered': int,
            'active': int,
            'new_cases': int,
            'new_deaths': int,
            'new_recovered': int,
            'deaths_100_cases': float,
            'recovered_100_cases': float,
            'deaths_100_recovered': float,
            'confirmed_last_week': int,
            'week_change': int,
            'week_perc_increase': float,
            'who_region': str,
        }
        # Se crea una lista columns que contiene los nombres de las columnas del DataFrame. 
        columns = ['country_region','confirmed','deaths','recovered','active','new_cases','new_deaths','new_recovered','deaths_100_cases','recovered_100_cases','deaths_100_recovered','confirmed_last_week','week_change','week_perc_increase','who_region']

        #lee el archivo CSV, se proporciona los nombres de columna personalizados (names=columns), omitiendo la primera fila (encabezado) del archivo y aplicando los tipos de campo especificados. 
        df = pd.read_csv(self.input_file,header=None, names=columns, skiprows=1, dtype=dtype)
        return df
    # Se define un método convert_to_parquet() que toma un DataFrame df como entrada y escribe el DataFrame en formato Parquet.
    def convert_to_parquet(self, df):
        # Escribir el DataFrame en formato Parquet
        df.to_parquet(self.output_file)
        print("\nSe generó el archivo ", self.output_file)

    #realiza el proceso completo de conversión. obtiene el dataframe del método read_csv, muestra los tipos de datos de las columnas y las primeras 5 filas del DataFrame, y luego llama al método convert_to_parquet() para convertir el DataFrame a formato Parquet.
    def convert(self):
        df = self.read_csv()
        print(df.dtypes, '\n')
        print(df.head(5))
        self.convert_to_parquet(df)


Crea la instancia del convertidor y realizar la conversión

In [58]:
country = CountryToParquet("/content/kaggle/country_wise_latest.csv", "/content/parquet_pandas/country_wise_latest.parquet")
country.convert()

country_region           object
confirmed                 int64
deaths                    int64
recovered                 int64
active                    int64
new_cases                 int64
new_deaths                int64
new_recovered             int64
deaths_100_cases        float64
recovered_100_cases     float64
deaths_100_recovered    float64
confirmed_last_week       int64
week_change               int64
week_perc_increase      float64
who_region               object
dtype: object 

  country_region  confirmed  deaths  recovered  active  new_cases  new_deaths  \
0    Afghanistan      36263    1269      25198    9796        106          10   
1        Albania       4880     144       2745    1991        117           6   
2        Algeria      27973    1163      18837    7973        616           8   
3        Andorra        907      52        803      52         10           0   
4         Angola        950      41        242     667         18           1   

   new_recovered 

## Definimos la Clase CovidToParquet

La clase "CovidToParquet" realizará la lectura del archivo "covid_19_clean_complete.csv" y lo escribira en formato parquet, considerando el tipo de cada campo

In [59]:
class CovidToParquet:
    def __init__(self, input_file, output_file):
        self.input_file = input_file
        self.output_file = output_file

    def read_csv(self):
        # Leer el archivo CSV con tipos de campo especificados
        dtype = {
            'province_state': str,
            'country_region': str,
            'lat': float,
            'long': float,
            'date': str,
            'confirmed': int,
            'deaths': int,
            'recovered': int,
            'active': int,
            'who_region': str,
        }

        columns = ['province_state','country_region','lat','long','date','confirmed','deaths','recovered','active','who_region']
        df = pd.read_csv(self.input_file,header=None, names=columns, skiprows=1, dtype=dtype)
        return df
    # Se define un método convert_to_parquet() que toma un DataFrame df como entrada y escribe el DataFrame en formato Parquet.
    def convert_to_parquet(self, df):
        # Escribir el DataFrame en formato Parquet
        df.to_parquet(self.output_file)
        print("\nSe generó el archivo ", self.output_file)

    #realiza el proceso completo de conversión. obtiene el dataframe del método read_csv, muestra los tipos de datos de las columnas y las primeras 5 filas del DataFrame, y luego llama al método convert_to_parquet() para convertir el DataFrame a formato Parquet.
    def convert(self):
        df = self.read_csv()
        print(df.dtypes, '\n')
        print(df.head(5))
        self.convert_to_parquet(df)

Crea la instancia del convertidor y realizar la conversión

In [60]:
covid = CovidToParquet("/content/kaggle/covid_19_clean_complete.csv", "/content/parquet_pandas/covid_19_clean_complete.parquet")
covid.convert()

province_state     object
country_region     object
lat               float64
long              float64
date               object
confirmed           int64
deaths              int64
recovered           int64
active              int64
who_region         object
dtype: object 

  province_state country_region       lat       long        date  confirmed  \
0            NaN    Afghanistan  33.93911  67.709953  2020-01-22          0   
1            NaN        Albania  41.15330  20.168300  2020-01-22          0   
2            NaN        Algeria  28.03390   1.659600  2020-01-22          0   
3            NaN        Andorra  42.50630   1.521800  2020-01-22          0   
4            NaN         Angola -11.20270  17.873900  2020-01-22          0   

   deaths  recovered  active             who_region  
0       0          0       0  Eastern Mediterranean  
1       0          0       0                 Europe  
2       0          0       0                 Africa  
3       0          0       0     

## Definimos la Clase DayWiseToParquet

La clase "DayWiseToParquet" realizará la lectura del archivo "day_wise.csv" y lo escribira en formato parquet, considerando el tipo de cada campo

In [61]:
class DayWiseToParquet:
    def __init__(self, input_file, output_file):
        self.input_file = input_file
        self.output_file = output_file

    def read_csv(self):
        # Leer el archivo CSV con tipos de campo especificados
        dtype = {
            'date': str,
            'confirmed': int,
            'deaths': int,
            'recovered': int,
            'active': int,
            'new_cases': int,
            'new_deaths': int,
            'new_recovered': int,
            'deaths_100_cases': float,
            'recovered_100_cases': float,
            'deaths_100_recovered': float,
            'nro_countries': int,
        }

        columns = ['date','confirmed','deaths','recovered','active','new_cases','new_deaths','new_recovered','deaths_100_cases','recovered_100_cases','deaths_100_recovered','nro_countries']
        df = pd.read_csv(self.input_file,header=None, names=columns, skiprows=1, dtype=dtype)
        return df

    # Se define un método convert_to_parquet() que toma un DataFrame df como entrada y escribe el DataFrame en formato Parquet.
    def convert_to_parquet(self, df):
        # Escribir el DataFrame en formato Parquet
        df.to_parquet(self.output_file)
        print("\nSe generó el archivo ", self.output_file)

    #realiza el proceso completo de conversión. obtiene el dataframe del método read_csv, muestra los tipos de datos de las columnas y las primeras 5 filas del DataFrame, y luego llama al método convert_to_parquet() para convertir el DataFrame a formato Parquet.
    def convert(self):
        df = self.read_csv()
        print(df.dtypes, '\n')
        print(df.head(5))
        self.convert_to_parquet(df)

Crea la instancia del convertidor y realizar la conversión

In [62]:
day_wise = DayWiseToParquet("/content/kaggle/day_wise.csv", "/content/parquet_pandas/day_wise.parquet")
day_wise.convert()

date                     object
confirmed                 int64
deaths                    int64
recovered                 int64
active                    int64
new_cases                 int64
new_deaths                int64
new_recovered             int64
deaths_100_cases        float64
recovered_100_cases     float64
deaths_100_recovered    float64
nro_countries             int64
dtype: object 

         date  confirmed  deaths  recovered  active  new_cases  new_deaths  \
0  2020-01-22        555      17         28     510          0           0   
1  2020-01-23        654      18         30     606         99           1   
2  2020-01-24        941      26         36     879        287           8   
3  2020-01-25       1434      42         39    1353        493          16   
4  2020-01-26       2118      56         52    2010        684          14   

   new_recovered  deaths_100_cases  recovered_100_cases  deaths_100_recovered  \
0              0              3.06                

## Definimos la Clase FullGroupedToParquet

La clase "FullGroupedToParquet" realizará la lectura del archivo "full_grouped.csv" y lo escribira en formato parquet, considerando el tipo de cada campo

In [63]:
class FullGroupedToParquet:
    def __init__(self, input_file, output_file):
        self.input_file = input_file
        self.output_file = output_file

    def read_csv(self):
        # Leer el archivo CSV con tipos de campo especificados
        dtype = {
            'date': str,
            'country_region': str,
            'confirmed': int,
            'deaths': int,
            'recovered': int,
            'active': int,
            'new_cases': int,
            'new_deaths': int,
            'new_recovered': int,
            'who_region': str,
        }

        columns = ['date','country_region','confirmed','deaths','recovered','active','new_cases','new_deaths','new_recovered','who_region']
        df = pd.read_csv(self.input_file,header=None, names=columns, skiprows=1, dtype=dtype)
        return df

    # Se define un método convert_to_parquet() que toma un DataFrame df como entrada y escribe el DataFrame en formato Parquet.
    def convert_to_parquet(self, df):
        # Escribir el DataFrame en formato Parquet
        df.to_parquet(self.output_file)
        print("\nSe generó el archivo ", self.output_file)

    #realiza el proceso completo de conversión. obtiene el dataframe del método read_csv, muestra los tipos de datos de las columnas y las primeras 5 filas del DataFrame, y luego llama al método convert_to_parquet() para convertir el DataFrame a formato Parquet.
    def convert(self):
        df = self.read_csv()
        print(df.dtypes, '\n')
        print(df.head(5))
        self.convert_to_parquet(df)

Crea la instancia del convertidor y realizar la conversión

In [64]:
full_grouped = FullGroupedToParquet("/content/kaggle/full_grouped.csv", "/content/parquet_pandas/full_grouped.parquet")
full_grouped.convert()

date              object
country_region    object
confirmed          int64
deaths             int64
recovered          int64
active             int64
new_cases          int64
new_deaths         int64
new_recovered      int64
who_region        object
dtype: object 

         date country_region  confirmed  deaths  recovered  active  new_cases  \
0  2020-01-22    Afghanistan          0       0          0       0          0   
1  2020-01-22        Albania          0       0          0       0          0   
2  2020-01-22        Algeria          0       0          0       0          0   
3  2020-01-22        Andorra          0       0          0       0          0   
4  2020-01-22         Angola          0       0          0       0          0   

   new_deaths  new_recovered             who_region  
0           0              0  Eastern Mediterranean  
1           0              0                 Europe  
2           0              0                 Africa  
3           0              0   

## Definimos la Clase USACountyToParquet

La clase "USACountyToParquet" realizará la lectura del archivo "usa_county_wise.csv" y lo escribira en formato parquet, considerando el tipo de cada campo

In [65]:
class USACountyToParquet:
    def __init__(self, input_file, output_file):
        self.input_file = input_file
        self.output_file = output_file

    def read_csv(self):
        # Leer el archivo CSV con tipos de campo especificados
        dtype = {
            'uid': int,
            'iso2': str,
            'iso3': str,
            'code3': int,
            'fips': float,
            'admin2': str,
            'province_state': str,
            'country_region': str,
            'lat': float,
            'long': float,
            'combined_key': str,
            'date': str,
            'confirmed': int,
            'deaths': int,
        }

        columns = ['uid','iso2','iso3','code3','fips','admin2','province_state','country_region','lat','long','combined_key','date','confirmed','deaths']
        df = pd.read_csv(self.input_file,header=None, names=columns, skiprows=1, dtype=dtype)
        return df

    # Se define un método convert_to_parquet() que toma un DataFrame df como entrada y escribe el DataFrame en formato Parquet.
    def convert_to_parquet(self, df):
        # Escribir el DataFrame en formato Parquet
        df.to_parquet(self.output_file)
        print("\nSe generó el archivo ", self.output_file)

    #realiza el proceso completo de conversión. obtiene el dataframe del método read_csv, muestra los tipos de datos de las columnas y las primeras 5 filas del DataFrame, y luego llama al método convert_to_parquet() para convertir el DataFrame a formato Parquet.
    def convert(self):
        df = self.read_csv()
        print(df.dtypes, '\n')
        print(df.head(5))
        self.convert_to_parquet(df)

Crea la instancia del convertidor y realizar la conversión

In [66]:
usa_county = USACountyToParquet("/content/kaggle/usa_county_wise.csv", "/content/parquet_pandas/usa_county_wise.parquet")
usa_county.convert()

uid                 int64
iso2               object
iso3               object
code3               int64
fips              float64
admin2             object
province_state     object
country_region     object
lat               float64
long              float64
combined_key       object
date               object
confirmed           int64
deaths              int64
dtype: object 

        uid iso2 iso3  code3     fips    admin2            province_state  \
0        16   AS  ASM     16     60.0       NaN            American Samoa   
1       316   GU  GUM    316     66.0       NaN                      Guam   
2       580   MP  MNP    580     69.0       NaN  Northern Mariana Islands   
3  63072001   PR  PRI    630  72001.0  Adjuntas               Puerto Rico   
4  63072003   PR  PRI    630  72003.0    Aguada               Puerto Rico   

  country_region        lat        long                  combined_key  \
0             US -14.271000 -170.132000            American Samoa, US   
1          

## Definimos la Clase WorldometerToParquet

La clase "WorldometerToParquet" realizará la lectura del archivo "worldometer_data.csv" y lo escribira en formato parquet, considerando el tipo de cada campo

In [67]:
class WorldometerToParquet:
    def __init__(self, input_file, output_file):
        self.input_file = input_file
        self.output_file = output_file

    def read_csv(self):
        # Leer el archivo CSV con tipos de campo especificados
        dtype = {
            'country_region': str,
            'continent': str,
            'population': 'Int64',  # Utilizamos 'Int64' para permitir valores nulos en campos enteros
            'totalcases': 'Int64',  # Utilizamos 'Int64' para permitir valores nulos en campos enteros
            'newcases': 'Int64',  # Utilizamos 'Int64' para permitir valores nulos en campos enteros
            'totaldeaths': 'Int64',  # Utilizamos 'Int64' para permitir valores nulos en campos enteros
            'newdeaths': 'Int64',  # Utilizamos 'Int64' para permitir valores nulos en campos enteros
            'totalrecovered': 'Int64',  # Utilizamos 'Int64' para permitir valores nulos en campos enteros
            'newrecovered': 'Int64',  # Utilizamos 'Int64' para permitir valores nulos en campos enteros
            'activecases': 'Int64',  # Utilizamos 'Int64' para permitir valores nulos en campos enteros
            'serious_critical': 'Int64',  # Utilizamos 'Int64' para permitir valores nulos en campos enteros
            'tot_cases_1m_pop': 'Int64',  # Utilizamos 'Int64' para permitir valores nulos en campos enteros
            'deaths_1m_pop': float,
            'totaltests': 'Int64',  # Utilizamos 'Int64' para permitir valores nulos en campos enteros
            'tests_1m_pop': 'Int64',  # Utilizamos 'Int64' para permitir valores nulos en campos enteros
            'who_region': str,
        }

        na_values = ['', 'NA', 'N/A', 'null'] 
        columns = ['country_region','continent','population','totalcases','newcases','totaldeaths','newdeaths','totalrecovered','newrecovered','activecases','serious_critical','tot_cases_1m_pop','deaths_1m_pop','totaltests','tests_1m_pop','who_region']
        
        df = pd.read_csv(self.input_file,header=None, names=columns, skiprows=1, dtype=dtype, na_values=na_values)
        return df

    # Se define un método convert_to_parquet() que toma un DataFrame df como entrada y escribe el DataFrame en formato Parquet.
    def convert_to_parquet(self, df):
        # Escribir el DataFrame en formato Parquet
        df.to_parquet(self.output_file)
        print("\nSe generó el archivo ", self.output_file)

    #realiza el proceso completo de conversión. obtiene el dataframe del método read_csv, muestra los tipos de datos de las columnas y las primeras 5 filas del DataFrame, y luego llama al método convert_to_parquet() para convertir el DataFrame a formato Parquet.
    def convert(self):
        df = self.read_csv()
        print(df.dtypes, '\n')
        print(df.head(5))
        self.convert_to_parquet(df)

Crea la instancia del convertidor y realizar la conversión

In [68]:
worldometer = WorldometerToParquet("/content/kaggle/worldometer_data.csv", "/content/parquet_pandas/worldometer_data.parquet")
worldometer.convert()

country_region       object
continent            object
population            Int64
totalcases            Int64
newcases              Int64
totaldeaths           Int64
newdeaths             Int64
totalrecovered        Int64
newrecovered          Int64
activecases           Int64
serious_critical      Int64
tot_cases_1m_pop      Int64
deaths_1m_pop       float64
totaltests            Int64
tests_1m_pop          Int64
who_region           object
dtype: object 

  country_region      continent  population  totalcases  newcases  \
0            USA  North America   331198130     5032179      <NA>   
1         Brazil  South America   212710692     2917562      <NA>   
2          India           Asia  1381344997     2025409      <NA>   
3         Russia         Europe   145940924      871894      <NA>   
4   South Africa         Africa    59381566      538184      <NA>   

   totaldeaths  newdeaths  totalrecovered  newrecovered  activecases  \
0       162804       <NA>         2576668        