#!/usr/bin/python
# -*- coding: utf8 -*-

# image_from_re_and_site.py
#       --copyright--                   Copyright 2007 (C) Tranzoa, Co. All rights reserved.    Warranty: You're free and on your own here. This code is not necessarily up-to-date or of public quality.
#       --url--                         http://www.tranzoa.net/tzpython/
#       --email--                       pycode is the name to send to. tranzoa.com is the place to send to.
#       --bodstamps--
#       November 28, 2007       bar
#       November 29, 2007       bar     kingfeatures (they are delayed)
#       December 18, 2007       bar     wulffmorgenthaler
#       March 11, 2008          bar     get uclick and arcamax and seattle_times_re working again
#       April 21, 2008          bar     fix seattle times again
#       May 17, 2008            bar     email adr
#       July 5, 2008            bar     comicspage changed to gocomics beta
#       July 18, 2008           bar     gocomics change
#       November 3, 2008        bar     new comics dot com
#       November 8, 2008        bar     again
#       January 26, 2009        bar     arcmax change (they have a bug in their link around the picture)
#       May 23, 2009            bar     uclick and gocomics changes
#       May 30, 2009            bar     daybyday
#       August 18, 2009         bar     new king regx
#       January 1, 2010         bar     seattle pi uses external site with direct gif files
#       January 4, 2010         bar     better error msg
#       April 18, 2010          bar     reason.com
#       April 19, 2010          bar     sfgate
#       July 23, 2010           bar     comicskingdom.net needs referer (list at http://content.comicskingdom.net/old.htaccess - e.g. host.madison.com/comics  theham.net/comics kitsapsun.com/comics dallasnews.com)
#       January 23, 2011        bar     gocomics
#       May 7, 2011             bar     arcamax change
#       May 12, 2011            bar     gocomics change
#       June 2, 2011            bar     loosen up uclick
#       May 27, 2012            bar     doxygen namespace
#       January 1, 2016         bar     another arcamax
#       January 20, 2017        bar     update gocomics
#       April 5, 2018           bar     ditto
#       April 27, 2020          bar     alexcartoon
#       April 28, 2020          bar     ditto, better
#       May 11, 2020            bar     comment about new yorker
#       July 7, 2020            bar     far side
#       February 27, 2023       bar     python3
#       March 18, 2024          bar     arcamax
#       --eodstamps--
##      \file
#       \namespace              tzpython.image_from_re_and_site
#
#
#       Get urls from a web page.
#
#       Create a web page that combines them - assuming they are images - like comics, for instance.
#
#

from    __future__  import  print_function

import  re
import  sys
import  time

try :
    import  urllib.request  as  urllib2
except ImportError              :
    import                      urllib2

try :
    from    urllib  import  parse   as  urlparse
except ImportError                      :
    import                              urlparse

import  tzlib
import  url_getter


opener              = urllib2.build_opener()
opener.addheaders   = []                        # get rid of 'User-agent' the only way that seems to work (yes, I tried lower-casing 'Agent')
urllib2.install_opener(opener)


comics_dot_com_todays_image_re  =   re.compile(r'SRC\s*=\s*"([^"]+)"\sALT\s*=\s*"Today\'s Comic"',                                                                                                                                  re.IGNORECASE)
comics_dot_com_todays_image_re  =   re.compile(r'title="Click\s+to\s+View\s+this\s+Strip\'s\s+Page"><img\s+src="([^"]+)"\s+border="0"',                                                                                             re.IGNORECASE)
comics_dot_com_todays_image_re  =   re.compile(r'<img\s+src="(http:.*?\.gif)"\s+border="0"',                                                                                                                                        re.IGNORECASE)
arcamax_dot_com_image_re        =   re.compile(r'<a\s+href\s*=\s*"(http://www.arcamax.com/.*?/\d+)"\s+target\s*=\s*"_blank">',                                                                                                      re.IGNORECASE)
arcamax_dot_com_image_re        =   re.compile(r'<img\s+src\s*=\s*"(http://www.arcamax.com/[^"]+)"',                                                                                                                                re.IGNORECASE)
arcamax_dot_com_image_re        =   re.compile(r'<img\s+src\s*=\s*"(/newspics/[^"]+)"',                                                                                                                                             re.IGNORECASE)
arcamax_dot_com_image_re        =   re.compile(r'<img\s+id"comic-zoom"\s+data-zoom-image="([^"]+)"',                                                                                                                                re.IGNORECASE)
arcamax_dot_com_image_re        =   re.compile(r'media=(https://www.arcamax.com/newspics/[^\&]+)\&amp;',                                                                                                                            re.IGNORECASE)
arcamax_dot_com_image_re        =   re.compile(r'data-zoom-image="([^"]+)"',                                                                                                                                                        re.IGNORECASE)
jewish_review_re                =   re.compile(r'<BR>\s*<TABLE\s+BORDER=0\s+CELLPADDING=3\s+cellspacing=0>\s*<TR><TD\s*BGCOLOR=BLUE><IMG\s+SRC\s*=\s*"([^"]+)"\s+border="1"></TD></TR>\s*</TABLE>\s*<P>',                           re.IGNORECASE)
nwsource_re                     =   re.compile(r'(?:<A\s+HREF="[^"]+">\s*<IMG\s+BORDER=0\s+SRC="([^"]+)"><BR>About|<IMG\s+BORDER=0\s+SRC="([^"]+)"><BR>[^<]+</A>\s+<p><form\s+action=hi.asp\s+method=get>\s+<select\s+name=date>)', re.IGNORECASE)
seattle_times_re                =   re.compile(r'"><img\s+src="([^"]+)"/?></div',                                                                                                                                                   re.IGNORECASE)
uclick_re                       =   re.compile(r'<IMG\s+BORDER="0"\s+HEIGHT="\d+"\s+WIDTH="\d+"\s+SRC="([^"]+)"(?:\s+A(?:LT|TL)="[^"]+")?>',                                                                                        re.IGNORECASE)
comics_page_re                  =   re.compile(r'<span\s+class="description"><img\s+src="([^"]+)"></img></span>',                                                                                                                   re.IGNORECASE)
gocomics_re                     =   re.compile(r'<img\s+alt="[^"]+"\s+id="[^"]+"\s+src="([^"]+)"\s*/>\s*<div\s+id="tags">',                                                                                                         re.IGNORECASE)
gocomics_re                     =   re.compile(r'<img\s+alt="[^"]+"\s+id="[^"]+"\s+src="([^"]+)"\s*/>\s*(?:</a>)?\s*<div\s+id="tags">',                                                                                             re.IGNORECASE)
gocomics_re                     =   re.compile(r'<img\s+alt="[^"]+"\s+height="\d+"\s+src="([^"]+)"\s+width="\d+"\s*/>',                                                                                                             re.IGNORECASE)
gocomics_re                     =   re.compile(r"<img\s+src='([^']+)'\s+height='\d+'\s+width='\d+'\s+alt='[^']+'\s+",                                                                                                               re.IGNORECASE)
gocomics_re                     =   re.compile(r'<img.*?\sclass="strip"\s+src="([^\?]+)\?',                                                                                                                                         re.IGNORECASE)
gocomics_re                     =   re.compile(r'<img.*?\sclass="strip".*?src="([^\?"]+)[\?"]',                                                                                                                                     re.IGNORECASE)
gocomics_re                     =   re.compile(r'data-image="([^"]+)"',                                                                                                                                                             re.IGNORECASE)
gocomics_re                     =   re.compile(r'gc-card__image--cropped-strip.*?src="([^"]+)"',                                                                                                                                    re.IGNORECASE)
dilbert_dot_com_re              =   re.compile(r'data-image="([^"]+)"',                                                                                                                                                             re.IGNORECASE)
creators_dot_com_re             =   re.compile(r'<div\s+class="img"\s+style="padding:10px\s+10px\s+0px\s+10px;\s*">\s*<img\s+src="([^"]+)"\s+alt=""\s+border="0">\s*</div>',                                                        re.IGNORECASE)
creators_dot_com_re             =   re.compile(r'<td\s+align="center">\s*<img\s+src="(/comics/[^"]+)"\s+alt=""(?:\s+border="0"|\s*)?>\s*</td>',                                                                                     re.IGNORECASE)
king_features_re                =   re.compile(r'<td\s+align="left"\s+valign="top"\s+width="\d+"><!--CMS\s+NAME="image"-->\s*<img\s+src=[\'"]([^\'"]+)\'>\s*<!--/CMS-->',                                                           re.IGNORECASE)
king_features_re                =   re.compile(r'<!--CMS\s+NAME="image"-->\s*<img\s+src=[\'"]([^\'"]+)\'>\s*<!--/CMS-->',                                                                                                           re.IGNORECASE)
wulffmorgenthaler_re            =   re.compile(r'<img\s+id="ctl00_content_Strip1_imgStrip"\s+class="strip"\s+src="([^"]+)"\s+alt="Strip"',                                                                                          re.IGNORECASE)
daybydaycartoon_re              =   re.compile(r'<div\s+class="cartoon">\s*<p><img\s+alt="[^"]+"\s+src="([^"]+)"',                                                                                                                  re.IGNORECASE)
content_comicskingdom_net_re    =   ""
reason_re                       =   re.compile(r'<div\s+class="entry"><p><img\s+class="pic"\s+alt=""\s+height="\d+"\s+src="([^"]+)"\s+width="\d+"\s+/>',                                                                            re.IGNORECASE)
sfgate_re                       =   re.compile(r'<div\s+class="comic_main\s+clearfix"><img\s+src="([^"]+)"\s+border="0"',                                                                                                           re.IGNORECASE)
alex_cartoon_re                 =   re.compile(r'<div\s+class="strip"><img\s+src="(https://alexcartoon\.s3\.amazonaws.com/[0-9_]+\.\d\d\.\d\d_web_..\.jpg)"',                                                                       re.IGNORECASE)
darrin_bell_re                  =   re.compile(r'<div\s+id="comic">\s+<img\s+src="([^\?]+)\?fit=1000[^"]+"\s+alt="',                                                                                                                re.IGNORECASE)
far_side_classic_re             =   re.compile(r'<div\s+class="tfs-comic__image">\s+<img\s+data-src="([^"]+)"',                                                                                                                     re.IGNORECASE)
far_side_cap_re                 =   re.compile(r'<figcaption\s+class="figure-caption">(.*?)</figcaption>',                                                                                                                          re.IGNORECASE | re.DOTALL)
far_side_new_stuff_ref_re       =   re.compile(r'data-link-event="click\s+lab\s+door".*?href="([^"]+)"',                                                                                                                            re.IGNORECASE | re.DOTALL)
far_side_new_stuff_re           =   re.compile(r'<div\s+class="tfs-comic-new__image.*?<img\s+data-src="([^"]+)"',                                                                                                                   re.IGNORECASE | re.DOTALL)

if  False :
    t   = """
    <div class="card tfs-comic js-comic">

      <div class="card-body">
          <div class="tfs-comic__image">
      <img data-src="https://thefarsideassets.thefarside.com/assets/uds077k7qenci9pc9wv9tvyvd697?83Mh6zFidOXhwrfcz6kkhDcfINqzSoiBES5rAHvP8fSJbwUjsViT_fFnCsxPR-eUyNg39lK25oKbB-JSe65l_kYjMQRyZ37kCXMMuKazRazqEPrRNEoURKuEzzUFfwKpSIE8MrwjStXfVqk--xr8EjB0Tw6X1LD2T6PApAY" data-width="950" data-height="1045" data-timing="300" class="img-fluid js-lazy-load" alt="" src="data:image/svg+xml,%3Csvg xmlns=&#39;http://www.w3.org/2000/svg&#39; viewBox=&#39;0 0 950 1045&#39;%3E%3C/svg%3E" />
    </div>


<figure class="figure tfs-comic__caption">
  <figcaption class="figure-caption">
    “Oh, man! You must be looking for <i>Apartment 3-G</i>, <i>Mary Worth</i>, or one of those serious-type cartoons.”
  </figcaption>
</figure>


       <div class="tfs-page">
          <div class="tfs-page__full tfs-page__full--md">
            <article class="tfs-new-stuff-letter">
  <a class="tfs-new-stuff-letter__door float-md-right border-0" data-link-event="click lab door" aria-title="View Gary&#39;s New Stuff" href="https://www.thefarside.com/new-stuff/115/taxidermist">
    <span class="tfs-button tfs-button--door btn btn-primary btn-lg">
      Enter
    </span>


  </div>

    """

    t   = """
            <div class="tfs-comic-new__image-wrapper js-slider-wrapper">


<div class="tfs-comic-new__image tfs-comic-new__image--portrait">
  <img data-src="https://thefarsideassets.thefarside.com/assets/g25w8dy2eq9bh8exsm8u67bazzud?83Mh6zFidOXhwrfcz6kkhDcfINqzSoiBES5rAHvP8fSJbwUjsViT_fFnCsxPR-eUyNg39lK25oKbB-JSe65l_kYjMQRyZ37kCXMMuKazRazqEPrRNEoURKuEzzUFfwKpSIE8MrwjStXfVqk--xr8EjB0Tw6X1LD2T6PApAY" data-width="1535" data-height="2000" data-timing="300" class="js-lazy-load js-slider-image" alt="" src="data:image/svg+xml,%3Csvg xmlns=&#39;http://www.w3.org/2000/svg&#39; viewBox=&#39;0 0 1535 2000&#39;%3E%3C/svg%3E" />
</div>

              <div class="tfs-comic-new__caption js-slider-caption">
  <figure class="figure tfs-comic-new__figure">
    <figcaption class="figure-caption">
      “Okay, Zorky, this one is all yours. … Take a deep breath, relax, and give him one, short blast—remember, this is probe and release.”
    </figcaption>
  </figure>

    """

    print(far_side_cap_re.search(t).group(1))
    sys.exit(1)

#   New Yorker
#   URL of page with most recent cartoons, sorted newest first:
#       https://www.newyorker.com/cartoons/daily-cartoon
#                                         URL_FOR_CARTOON_PAGE         SMALL_CARTOON_JPG                                               CAPTION
#           <a class="Link[^"]*"\s+href="([^"]+)"\s*>.*?<img\s.*?src="([^"]+)"\s+title="">\s+</picture>\s+</div>\s+</a>\s+<h5[^>]*>\s+([^<]+)</h5>
#
#       And the regex to get the image and caption from the cartoon's web page:
#                                                        CAPTION        CARTOON_JPG
#           <img\s+class="responsive-image[^"]*"\s+alt="([^"]+)"\s+src="([^"]+)"\s*>\s*</picture>
#


if  False :
    fd  = tzlib.read_whole_binary_file(sys.argv[1])
    g   = far_side_cap_re.search(fd)
    if  g :
        print(g.group(1))
    else  :
        print("Not found")
    sys.exit(1)


referer_re                      =   re.compile(r'^(.*?)\{REFERER:([^\}]+)\}$')


def find_image_url(htm, regx) :
    """
        Given an HTML string with the image path or URL somewhere on it, return the url or path to the gif or jpg or png of the image.
    """

    if  not htm :   return("")

    g   = regx.search(htm)
    if  g :
        return(g.group(1))

    return("")


def get_object(url, referer = None, timeout = None) :
    """
        Get the image or web page for the given URL.
    """

    if  not url :   return(url)

    if  url.find('%') >= 0 :
        url = time.strftime(url)

    req     = urllib2.Request(url)
    if  referer :
        req.add_header('Referer', referer)
    r       = url_getter.url_open_read_with_timeout(req, timeout) or None

    return(r)


def image_url(site, ref_rgx, regx, cap_rgx, timeout = None) :
    """
        Get the url to the gif or jpg or png for the desired image from the given site.

        Return the url, or "" if the regx didn't find it, or None if the site did not load.

        Also return None or a caption.
    """

    cap = None

    if  not regx :
        url     = site
        if  url.find('%') >= 0 :
            url = time.strftime(url)
        g       = referer_re.search(url)
        if  g   :
            url     = g.group(1)
            site    = g.group(2)
        else        :
            site    = url
        pass
    else        :
        if  site.find('%') >= 0 :
            site = time.strftime(site)

        # print("site", site)

        htm     = get_object(site, timeout = timeout) or ""
        htm     = tzlib.convert_to_unicode(htm)


        if  ref_rgx :
            g   = ref_rgx.search(htm or "")
            if  g :
                return(image_url(g.group(1), None, regx, cap_rgx, timeout = timeout))
            pass

        # print("htm", len(htm), htm[:200])

        url     = find_image_url(htm, regx)
        if  url :
            url = urlparse.urljoin(site, url)
        elif htm :
            # tzlib.write_whole_text_file("x.z", htm)
            url = ""
        else :
            url = None

        if  htm and cap_rgx :
            # tzlib.write_whole_text_file("x.y", htm)
            g   = cap_rgx.search(htm)
            if  g :
                cap = g.group(1)
            pass
        pass

    return(site, url, cap)


#
#
#
if __name__ == '__main__' :
    """
        Create an HTML page with the images from the given urls.
    """


    import  TZCommandLineAtFile
    import  replace_file


    del(sys.argv[0])
    TZCommandLineAtFile.expand_at_sign_command_line_files(sys.argv)

    local   = None

    while True :
        oi  = tzlib.array_find(sys.argv, [ "--local", '-l', '/l' ] )
        if  oi < 0 :    break
        del sys.argv[oi]
        local       = sys.argv.pop(oi)


    when            = int(time.time())

    print("""
<HTML>
<HEAD><TITLE>Today's Comics</TITLE></HEAD>
<BODY>
    <H2>Today's Comics</H2>
    <P><HR><HR><P>

""")

    regx        = None

    cnt         = 0

    while len(sys.argv) > 0 :

        site    = sys.argv.pop(0)

        if  (site == "--regx") or (site == "/r") or (site == "-r") :

            regx    = re.compile(sys.argv.pop(0), re.IGNORECASE)

        else :

            ref_rgx     = None
            rgx         = regx
            cap_rgx     = None

            if  site.startswith("http://www.dilbert.com") :
                rgx     = dilbert_dot_com_re

            if  site.startswith("http://www.comics.com") :
                rgx     = comics_dot_com_todays_image_re

            if  site.startswith("http://www.arcamax.com") :
                rgx     = arcamax_dot_com_image_re

            if  site.startswith("http://www.jewishworldreview.com") :
                rgx     = jewish_review_re

            if  site.startswith("http://seattlepi.nwsource.com") :
                rgx     = nwsource_re

            if  site.startswith("http://seattletimes.nwsource.com") :
                rgx     = seattle_times_re

            if  site.startswith("http://www.seattlepi.com") :
                rgx     = seattle_times_re                          # no - js builds it

            if  site.startswith("http://www.uclick.com") :
                rgx     = uclick_re

            if  site.startswith("http://www.comicspage.com") :
                rgx     = comics_page_re

            if  site.startswith("http://www.gocomics.com") :
                rgx     = gocomics_re

            if  site.startswith("http://www.creators.com") :
                rgx     = creators_dot_com_re

            if  site.startswith("http://www.kingfeatures.com") :
                rgx     = king_features_re

            if  site.startswith("http://www.wulffmorgenthaler.com") :
                rgx     = wulffmorgenthaler_re

            if  site.startswith("http://www.daybydaycartoon.com") :
                rgx     = daybydaycartoon_re

            if  site.startswith("http://content.comicskingdom.net") :
                rgx     = content_comicskingdom_net_re

            if  site.startswith("http://www.sfgate.com") :
                rgx     = sfgate_re

            if  site.startswith("https://www.alexcartoon.com") :
                rgx     = alex_cartoon_re

            if  site.startswith("http://darrinbell.com") :
                rgx     = darrin_bell_re

            if  site.startswith("https://www.thefarside.com") :
                rgx     = far_side_classic_re
                cap_rgx = far_side_cap_re

            if  site.startswith("https://www.thefarside.com/new-stuff") :
                ref_rgx = far_side_new_stuff_ref_re
                rgx     = far_side_new_stuff_re
                cap_rgx = far_side_cap_re

            if  site.startswith("http://reason.com") :
                rgx     = reason_re
                t       = time.time()
                tm      = time.localtime(t)
                t       = time.localtime(t - ((24 * 60 * 60) * ((tm.tm_wday + 3) % 7)))
                site    = time.strftime(site, t)


            if  rgx    == None :
                raise ValueError("Put the check for the new regx just above here [%s]." % site)

            ( site, url, cap )  = image_url(site, ref_rgx, rgx, cap_rgx)
            if  not url         :
                if  url == None :
                    url = "no site";
                print('<A HREF="%s">%s</A> missing (%s).<P>'     % ( site, site, url ))
            else :
                if  local       :
                    r           = get_object(url, referer = site)
                    if  r       :
                        ext     = ".jpg"
                        if  r.startswith(b'GIF89') :
                            ext = ".gif"
                        if  r.startswith(b'\x89PNG') :
                            ext = ".png"

                        fname   = local + str(cnt) + ext
                        tfn     = fname + ".tmp"
                        fo      = open(tfn, "wb")
                        fo.write(r)
                        fo.close()
                        replace_file.replace_file(fname, tfn, fname + ".bak")
                        url     = fname
                    pass

                print('<A HREF="%s">%s</A><P>'              % ( site, site ))
                print('<A HREF="%s"><IMG SRC="%s"></A><P>'  % ( site, url ))
                if  cap         :
                    if  sys.version_info[0] < 3 :
                        cap     = tzlib.utf8(tzlib.convert_to_unicode(cap))
                    print('<P>\n%s\n<P>' % cap)
                pass
            print('<P><HR><P>')

        cnt    += 1


    print("""
    <P><HR><HR>
    <SMALL>%s</SMALL>
    <HR><HR><P>
</BODY>
</HTML>
""" % ( time.asctime(time.localtime(when)) )
         )
    pass

#
#
#
# eof